hadoop的發行版除了社群的apache hadoop外,cloudera,hortonworks,mapr,emc,ibm,intel,華為等等都提供了自己的商業版本。商業版主要是提供了專業的技術支援,這對一些大型企業尤其重要。每個發行版都有自己的一些特點,本文就各發行版做簡單介紹。
2008 年成立的 cloudera 是最早將 hadoop 商用的公司,為合作夥伴提供 hadoop 的商用解決方案,主要是包括支援,諮詢服務,培訓。2023年hadoop的創始人 doug cutting也任職於 cloudera 公司。cloudera產品主要為cdh,cloudera manager,cloudera support。cdh是cloudera的hadoop發行版,完全開源,比apache hadoop在相容性,安全性,穩定性上有增強。cloudera manager是集群的軟體分發及管理監控平台,可以在幾個小時內部署好乙個hadoop集群,並對集群的節點及服務進行實時監控。cloudera support即是對hadoop的技術支援。cloudera的標價為每年每個節點4000美元。
2023年成立的hortonworks是雅虎與矽谷風投公司benchmark capital合資組建的公司。公司成立之初吸納了大約25名至30名專門研究hadoop的雅虎工程師,上述工程師均在2023年開始協助雅虎開發hadoop,這些工程師貢獻了hadoop 80%的**。。雅虎工程副總裁、雅虎hadoop開發團隊負責人eric baldeschwieler出任hortonworks的首席執行官。hortonworks 的主打產品是hortonworks data platform (hdp),也同樣是100%開源的產品,hdp除了常見的專案外還包含了ambari,一款開源的安裝和管理系統。hcatalog,乙個元資料管理系統。
hdp的datasheet中描述的版本特點是:
整合和測試封裝——hdp包括穩定版本的apache hadoop的所有關鍵元件,整合和測試封裝。
安裝方便——hdp包括乙個現代化的,直觀的使用者介面的安裝和配置工具。
管理和監控服務——hdp包括直觀的儀表板,為監測集群和建立警示。
資料整合服務——hdp包括talend大資料平台,領先的開源整合工具,輕鬆連線hadoop集群,而無需編寫hadoop**的資料系統整合工具。
元資料服務——hdp包括的apache hcatalog,從而簡化了hadoop的應用程式之間和hadoop和其他資料系統之間的資料共享。
高可用性——hdp與成熟的高可用性解決方案的無縫整合。
定價以集群為基礎,每10個節點每年為12500美元。
cloudera和hortonworks均是在不斷的提交**完善apache hadoop,而2023年成立的mapr公司在hadoop領域顯得有點特立獨行,它提供了一款獨特的發行版 。hadoop在效能(在當前hadoop的設計中,所有的meta data操作都要通過集中式的namenode來進行,namenode有可能是效能的瓶頸;m/r 應用程式需要通過datanode來訪問hdfs, 這就涉及到格外的程序切換和網路傳輸開銷),可靠性與擴充套件性(namenode,jobtracker單點問題),企業級應用上的弱點(比如完全可讀寫的檔案系統,snapshot,mirror等等)各大廠商均知,mapr則認為,hadoop的這些缺陷來自於其架構設計本身,小修小補不能解決問題。他們選擇了一條艱難得多的路: 用新架構重寫hdfs,同時在api級別,和目前的hadoop 發行版保持相容。這家2023年成立的創業公司,在蟄伏了兩年之後,終於一鳴驚人,大放異彩。他們成功的「構建乙個hdfs的私有替代品,這個替代品比當前的開源版本快三倍,自帶快照功能,而且支援無namenode單點故障(spof),並且在api上和相容,所以可以考慮將其作為替代方案。」 mapr版本不再需要單獨的namenode機器,元資料分散在集群中,也類似資料預設儲存三份。也不再需要用nas來協助namenode做元資料備份,提供了機器使用率。還有個重要的特點的可以使用nfs直接訪問hdfs,提供了與舊有應用的相容性。映象功能也很適合做資料備份,而且支援跨資料中心的映象,快照功能對於資料的恢復作用明顯。據報道mapr標價也為每年每個節點4000美元。
mapr有免費和商業兩個版本,免費版本在功能上有所縮減。
emc的greenplum hd是基於mapr版本二次開發改造而成,特點同mapr。
ibm在去年5月推出了infosphere biginsights軟體。該軟體包括apache hadoop發行版、面向mapreduce程式設計的pig程式語言、針對ibm的db2資料庫的連線件以及ibm bigsheets,後者是一種基於瀏覽器的、使用電子**隱喻(spreadsheet-metaphor)的介面,用於**和分析hadoop裡面的資料。ibm在平台管理,安全認證,作業排程演算法,與db2及netezza的整合上做了增強。從ibm中國開發中心資訊管理總經理朱輝下面這句話就可以看出ibm對於biginsights的定位:biginsights並沒有替代olap(online analytical processing)或oltp(online transaction processing)應用程式,但它可以整合其中,用於「過濾大量原始資料並合併結果,將結果以結構化資料的形式儲存在dbms或資料倉儲中」。
傳統的硬體廠商,華為,intel也提供hadoop的版本
intel 的商業版本,主要是強調其能提供全面的軟硬體解決方案設計,針對硬體具有更好的效能優化,以及提供集群管理工具和安裝工具簡化了 hadoop 的安裝和配置,能夠提供專案規劃到實施各階段專業的諮詢服務,實際中採購intel版本貌似動力不足。
華為在硬體上具有天然的優勢,在網路,虛擬化,pc機等都有很強的硬體實力。華為的hadoop版本基於自研的hadoop ha平台,構建namenode、jobtracker、hiveserver的ha功能,程序故障後系統自動failover,無需人工干預,這個也是對hadoop的小修補,遠不如mapr解決的徹底。華為在hadoop社群中的contributor和committer也是國內最多的,算是國內技術實力較強的公司。
Hadoop各商業發行版之比較
hadoop 的發行版除了社群的apache hadoop外,cloudera,hortonworks,mapr,emc,ibm,intel,華為 等等都提供了自己的商業版本。商業版主要是提供了專業的技術支援,這對一些大型 企業尤其重要。每個發行版都有自己的一些特點,本文就各發行版做簡單介紹。200...
Hadoop入門掃盲 hadoop發行版介紹與選擇
一 hadoop發行版介紹 目前hadoop發行版非常多,有intel發行版,華為發行版 cloudera發行版 cdh hortonworks版本等,所有這些發行版均是基於apache hadoop衍生出來的,之所以有這麼多的版本,是由於apache hadoop的開源協議決定的 任何人可以對其進...
商業Linux發行版的魅力
8月4 日,聯想終於抵抗不住 sled 10 的魅力,宣布在 thinkpad t60p 個人計算機上預裝 linux 作業系統。那麼,什麼是 sled 10 呢?它的魅力在 實際上,sled 10 就是 suse linux enterprise desktop 10 的縮寫。昨天下午,我去 no...