主要關注生產環境下的運維成本,期待更多人加入討論,更希望有對cdh有運維經驗的人來分享分享
分享
預設排序按時間排序
0贊同 反對,不會顯示你的姓名
東昇鄉無可匹敵的傑出司令官,校園西路天…
說實話,真覺得hortonworks的好,三種版本都玩過,還是更喜歡hortonworks,初學者喜歡用cdh,因為更省事一些吧。
發布於 2015-08-03
感謝分享
收藏• 沒有幫助
• 舉報
6贊同 反對,不會顯示你的姓名
6 人贊同
果斷cdh。
資料工程師應該更關注應用而不是環境本身。
據我了解幾家前20的網際網路公司也是cloudera的使用者。
話說行業分工也越來越細,hadoop肯定會往基礎元件的方向發展,如果不是希望深入做hadoop運維的話,就不用折騰原生的了。
發布於 2015-02-05
感謝分享
收藏• 沒有幫助
• 舉報
4贊同 反對,不會顯示你的姓名
單身狗. sde@bloomreach
4 人贊同
因為前乙份工作,我曾經在乙個八節點的測試集群上安裝並使用過cdh,mapr,和apache的版本。
我的答案是cdh。
必須要說cdh用起來最省時省力。自動探測host,選擇版本,配置簡單,幾乎是傻瓜式一鍵安裝。
mapr方便程度就稍微差一些,但是仍然比apache要方便很多。但是mapr版本有乙個致命的缺點,它用的不是hadoop的hdfs而是他們自己實現的maprfs。導致了hadoop生態系統中所有涉及到檔案系統操作的系統都需要使用mapr的發行版。為了相容maprfs,原始碼都被改過。可以到mapr的github賬戶上看到。
apache的話就真心需要專職運維人員去管理了。需要使用一些集群管理配置工具了。手動絕對累死。
你所說的cdh沒有對yarn的開發力度不大我覺得這個倒不用太擔心。cdh會定期根據apache開源的最新穩定版本發布相應的cdh版本,所以不存在版本落後最新版很多的情況。而且我記得cdh現在加入了parcel管理,可以非常簡單方便地切換hadoop版本而不需要重新安裝集群。這個功能**力太大了。另外cdh對於超過50個節點的集群就要開始收費了。這個是需要考慮的問題。
編輯於 2015-03-15
感謝分享
收藏• 沒有幫助
• 舉報
0贊同 反對,不會顯示你的姓名
cloudera的cdh版本在部署大量的集群節點時效率高很多,穩定**覺也比原生版本好。
發布於 2016-07-13
感謝分享
收藏• 沒有幫助
• 舉報
0贊同 反對,不會顯示你的姓名
從事大資料與資料分析行業,對一切新技術…
cdh5.x版本已經取消了50個節點的限制。
發布於 2016-03-01
感謝分享
收藏• 沒有幫助
• 舉報
0贊同 反對,不會顯示你的姓名
資料探勘
在ubuntu 的wiki裡看到因為cloudera由於方便安裝,有75%新手選擇。網上沒有找到這兩個組織發行hadoop的比較。不過cloudera貌似基於apache hadoop做bug fix 發布的。
chd是乙個公司發布的,但很多國內小公司都採用。大公司還是自己搞apache的比較好。
編輯於 2014-01-07
感謝分享
收藏• 沒有幫助
• 舉報
0贊同 反對,不會顯示你的姓名
test
cdh 免費版本的功能限制有點多
從Hadoop框架討論大資料
hadoop是什麼?1 hadoop 是乙個由 apache 會所開發的分布式系統基礎架構.2 主要解決,海量資料的儲存和海量資料的分析計算問題。3 廣義上來說,hadoop 通常是指乙個更廣泛的概念 hadoop 生態圈。hadoop三大發行版本 hadoop 三大發行版本 apache clou...
Hadoop系列之八 Hadoop集群
1 合併mapreduce集群與hdfs集群 在排程執行乙個作業時,將map任務等直接執行於要處理的資料所儲存的hdfs的資料節點上,可避免大量的資料傳輸,實現資料處理的本地性,進而大大提高整個過程的完成效率,這也正是hadoop集群的部署方式。如下圖所示。在乙個小於50個節點的小規模集群中,可以將...
Hadoop系列之八 Hadoop集群
1 合併mapreduce集群與hdfs集群 在排程執行乙個作業時,將map任務等直接執行於要處理的資料所儲存的hdfs的資料節點上,可避免大量的資料傳輸,實現資料處理的本地性,進而大大提高整個過程的完成效率,這也正是hadoop集群的部署方式。如下圖所示。在乙個小於50個節點的小規模集群中,可以將...