Apache Hadoop與CDH HDP的比較

2021-09-26 08:16:58 字數 1232 閱讀 6966

不收費的hadoop版本主要有三個(均是國外廠商),分別是:apache(最原始的版本,所有發行版均基於這個版本進行改進)、cloudera版本(cloudera』s distribution including apache hadoop,簡稱cdh)、hortonworks版本(hortonworks data platform,簡稱「hdp」),對於國內而言,絕大多數選擇cdh版本,cdh和apache版本主要區別如下:  

完全開源免費

社群活躍

文件、資料詳實

1. 版本管理比較混亂,各種版本層出不窮,很難選擇,選擇其他生態元件時,比如hive,sqoop,flume,spark等,需要考慮         相容性問題、版本匹配問題、元件衝突問題、編譯問題等。

2. 集群安裝部署複雜,需要編寫大量配置檔案,分發到每台節點,容易出錯,效率低。

3. 集群運維複雜,需要安裝第三方軟體輔助。

1. 版本管理清晰。cdh只有兩個版本,cdh3和cdh4,分別對應hadoop 1.0和hadoop 2.0。

2. 版本更新快。通常情況,比如cdh每個季度會有乙個update,每一年會有乙個release。

3. 集群安裝部署簡單。提供了部署、安裝、配置工具,大大提高了集群部署的效率

4. 運維簡單。提供了管理、監控、診斷、配置修改的工具,管理配置方便,定位問題快速、準確,使運維工作簡單,有效。

涉及到廠商鎖定的問題。

cloudera:最成型的發行版本,擁有最多的部署案例。提供強大的部署、管理和監控工具。

hortonworks:不擁有任何私有(非開源)修改地使用了100%開源apache hadoop的唯一提供商。hortonworks是第一家使用了apache hcatalog的元資料服務特性的提供商。並且,它們的stinger開創性地極大地優化了hive專案。hortonworks為入門提供了乙個非常好的,易於使用的沙盒。hortonworks開發了很多增強特性並提交至核心主幹,這使得apache hadoop能夠在包括windows server和windows azure在內的microsft windows平台上本地執行。

當我們選擇是否採用某個軟體用於開源環境時,通常需要考慮:

(1)是否為開源軟體,即是否免費。

(2) 是否有穩定版,這個一般軟體官方**會給出說明。

(3) 是否經實踐驗證,這個可通過檢查是否有一些大點的公司已經在生產環境中使用知道。

(4) 是否有強大的社群支援,當出現乙個問題時,能夠通過社群、論壇等網路資源快速獲取解決方法。

MATLAB的cd函式與cd命令

最初使用matlab的時候發現cd可以像linux的shell命令一樣使用,恰好cd又是我會的不多的幾個shell命令之一。於是,用得到的時候就各種cd,如果不成功就簡單修改摸索一下。那時候我確實是沒有看過help,更沒有去查比較詳細的help文件。不過,後來,我發現很多matlab中的命令是命令的...

Linux中 cd 與 cd 的區別

剛開始學的時候對於 cd 與 cd 模稜兩可,不懂他們的區別.只是知道 是根目錄,也是根目錄,是你當前使用者的根目錄,也可以叫是家目錄.這樣方便理解.linux是儲存是以掛載的方式,相當於是樹狀的,源頭就是 也就是樹根,根目錄.而我們每個使用者都會有自己的家目錄,也就是使用者的個人目錄.比如說 ro...

使用 Apache Hadoop 處理日誌

這篇文章來自developerworks。內容提要 日誌是任何計算系統中乙個必不可少的部分,支援從審計到錯誤管理等功能。隨著日誌的發展和日誌 數量的不斷增加 比如在雲環境中 有必要提供乙個可 擴充套件的系統來高效處理日誌。這篇實踐將 如何在典型 linux 系統上使用 apache hadoop 來...