cdh 差異 CDH5和6的區別

2021-10-13 04:05:58 字數 1311 閱讀 3412

cdh6相對於cdh5是一次各個元件的大版本公升級,要理解大版本更新,這裡先解釋一下hadoop相關元件的版本說明。比如版本號是x.y.z,z代表的一般是maintenance version或patch version,這種版本公升級主要修復bug,不改動api,也不涉及新的功能,y代表的是minor version,這種版本公升級主要是增加新的功能和新的api,x代表的是major version,往往會新增全新的功能,甚至改動api。那麼cdh5到cdh6就是一次major version的公升級,新增了很多功能,api的更改有可能導致你舊有的程式的不相容而需要修改或者重新開發,但根據軟體開發迭代的原則,往往新版本會向下相容一段時間,你只需要經過嚴格的測試,在一段時間內應用開發的修改理論不會太大,但還是要結合實際情況,進行嚴格的測試後再行判斷和評估。

cdh5現在依舊是市場上用的最多,推得最廣的版本,客戶認可度也較高。同時,cdh5經過快5年的迭代也是目前最成熟和穩定的版本,各個元件跟隨著社群版的更新迭代,已經把各個元件的bug修復得很完善。另外,無論是國外還是國內支援案例也多,國內可以找到很多相關的實施案例供參考,可以節省運維人力、物力成本。最後cdh5的周邊生態圈支援也比較豐富,無論是開源還是商業產品,etl工具,排程工具,報表工具,bi工具等。你如果現在選擇cdh5或者已經在用了,cloudera也官宣了依舊會再支援三年。

cdh6的更新較大,很多元件也都是大版本更新,引入了很多激動人心的新功能,同時各個元件也修復了大量已知的問題和安全漏洞。比如hdfs的糾刪碼用於冷資料降低儲存成本又保證了資料的可用性,namenode和yarn的聯邦解決大規模集群的效能瓶頸問題,yarn引入gpu支援,未來會引入docker支援等。長遠來看,從hadoop2公升級到hadoop3或者從cdh5公升級到cdh6是必須的,因為無論是社群還是cloudera從現在開始開始都會將開發重心轉移到hadoop3或cdh6上,而cdh5則主要以維護和修復bug為主。

建議:如果你是新搭集群,並且規模不太大(50個節點以內),基於hadoop的應用也都是新開發,cdh6是乙個不錯的選擇,畢竟避免了以後還要考慮從cdh5公升級到cdh6的麻煩,同時還需要進行一次應用測試和遷移。未來遷移到cdh和hdp的合併版本cdp也會更加容易。

如果你已經有cdh5集群,作為生產系統各種應用已經穩定執行了較長的時間,如果不是因為功能或效能原因必須要用新版本,現階段可以暫時不考慮公升級,繼續觀望一段時間。而你一旦決定公升級,需要謹慎和細緻的對待,包括你要考慮os,jdk,元資料庫等的公升級,已有各種應用比如hive/impala/spark sql,mapreduce/spark**,指令碼,python/r演算法工程等在cdh6進行測試,同時周邊的一些工具對接比如etl,排程,報表,bi工具等也需要進行對接測試,一切測試通過以後規劃好合理的停機時間,然後進行公升級。

CDH5到CDH6都更新了些什麼?

cdh6相對於cdh5是一次各個元件的大版本公升級,要理解大版本更新,這裡先解釋一下hadoop相關元件的版本說明。比如版本號是x.y.z,z代表的一般是maintenance version或patch version,這種版本公升級主要修復bug,不改動api,也不涉及新的功能,y代表的是min...

CDH 5 公升級操作

現在大資料一直在使用cdh來作為基礎平台。常會面臨公升級版本,操作中也經常出現各種各樣的問題。這裡就整理乙個操作步驟指引。切記,自建yum源的目錄結構一定要和官方 中的目錄結構一致。service cloudera scm agent stop service cloudera scm server...

CDH5安裝之 打通主節點到其他節點的ssh

打通兩台機器的ssh功能 打通兩台機器的ssh功能主要方便每次登入時候不用每次都需要輸入密碼,對於多台伺服器這已經是必備了 www.2cto.com 前提 機器需要安裝ssh,詳細安裝可以網上搜一下 一 在本機生成公鑰 cd ssh keygen t dsa 注意 1.ssh keygen 是乙個整...