Open Source Engines
MapR打包瞭(le)大量的Apache開源生态系統項目,可以啓用大數據應用程序。我們的目标是爲您提供一個開放的平台,讓您選擇正確的工具。 MapR測試並(bìng)集成開源生态系統項目,如Hive™,Pig™,Apache™HBase™和Mahout等等。MapR融合數據平台和開源項目通過高級管理控制台連接在一起,以監控和管理系統。
MapR生态系統包(MEP)使客戶能夠快速訪問開源社區的最新創(chuàng)新成果,同時確(què)保在給定的MEP版本中所有生态系統項目的互操作性。 MapR率先将平台版本從項目版本中分離出來,而MEP則是該過程的下一個演進。這種解耦使客戶能夠靈活地升級其環境,而MEP将確(què)保客戶具有完全兼容的部署。
MapR還(hái)提供開發(fā)人員預覽,以查看尚在開發(fā)中的新功能和新技術。
Core Hadoop

Apache Hadoop誕生於(yú)處理大量數據的需求。網絡每天都會産生越來越多的信息,索引超過10億頁的内容變得非常困難。 Hadoop已經遠遠超出瞭(le)網絡索引的起點,現在已經在許多行業中用於(yú)各種各樣的任務,這些任務都具有結構化和非結構化的多種多樣,數量和速度的共同主題。

Apache MapReduce是一個強大的框架,用於(yú)在Hadoop集群上處理大型,分布式的結構化或非結構化數據集。MapReduce的關鍵特性是它能夠在整個節點集群上執行處理,每個節點都處理本地數據。這一特性使得MapReduce比傳統的處理大數據的方法快幾個數量級,這些數據通常由訪問和處理遠程SAN或NAS設備(bèi)中的數據的單個節點組成。

Apache Drill是一個(gè)用於(yú)大規模數據集交互式分析的分布式系統。 Drill與Google的Dremel類似,具有更大的靈活性,可以支持更廣泛的查詢語言,數據源和數據格式,包括嵌套的自描述數據。

Apache HBase是一個(gè)在Hadoop集群上運行的數據庫。 客戶端可以通過本地Java API或通過Thrift或REST網關訪(fǎng)問HBase數據,使其可以通過任何語言訪(fǎng)問。
Graph
GraphX是一個在Apache Spark上運行的圖形庫。 開發(fā)人員可以使用他們熟悉的語言和工具來使用Spark來實現需要建模對(duì)象之間關系的新類型的算法。
機器學習
Apache Mahout是一個功能強大的可伸縮機器學習庫,可以在Hadoop MapReduce之上運行。機器學習是一個人工智能學科,它使系統能夠僅基於(yú)數據進行學習,随著(zhe)更多數據的處理不斷提高性能。機器學習是我們日常生活中許多技術的基礎。
流
Spark Streaming:當Hadoop第一次出現時,它提供瞭(le)一個存儲PB級數據的平台,並(bìng)對這些數據執行批量查詢來收集洞察力。這種模式适用於許多事例,例如分析大量客戶數據以獲取有趣的模式。但是,並(bìng)非所有數據都可以等待批量查詢執行。
數據工具
HttpFS是可用於(yú)與MapR分布式文件系統交互的幾個工具之一。 HttpFS的一些差異化功能包括編(biān)程訪問,版本獨立性和遠程訪問。
協調
Apache Oozie是Hadoop用戶有價值的工具,可以自動執行常用任務,以節省時間並(bìng)防止用戶錯(cuò)誤。借助Oozie,用戶可以描述在Hadoop集群上執行的工作流程,安排這些工作流程在指定條件下執行,甚至将多個工作流程和計劃組合在一起,以管理整個生命周期。
圖形用戶界面, 配置, 監視
色調(Hadoop用戶體驗)爲Hadoop用戶提供瞭(le)一個Web GUI,以簡化創建,維護和運行多種類型的Hadoop作業的過程。Hue由多個與Hadoop組件交互的應用程序組成,並(bìng)且具有開放的SDK以允許創建新的應用程序。
當應用程序從想法變(biàn)爲現實時,MapR爲Hadoop,Spark和相關技術提供瞭(le)唯一的生産就緒平台。
擁有專利的MapR融合數據平台的設計直接向最瞭(le)解架構(gòu)的企業架構(gòu)師直言。
MapR爲開發人員提供瞭(le)用於(yú)開發數據應用程序的各種流行的開源項目。