hadoop系列討論

2021-09-09 04:27:53 字數 2317 閱讀 7961

主要關注生產環境下的運維成本,期待更多人加入討論,更希望有對cdh有運維經驗的人來分享分享

分享

預設排序按時間排序

0贊同 反對,不會顯示你的姓名

東昇鄉無可匹敵的傑出司令官,校園西路天…

說實話,真覺得hortonworks的好,三種版本都玩過,還是更喜歡hortonworks,初學者喜歡用cdh,因為更省事一些吧。

發布於 2015-08-03

感謝分享

收藏• 沒有幫助

• 舉報

6贊同 反對,不會顯示你的姓名

6 人贊同

果斷cdh。

資料工程師應該更關注應用而不是環境本身。

據我了解幾家前20的網際網路公司也是cloudera的使用者。

話說行業分工也越來越細,hadoop肯定會往基礎元件的方向發展,如果不是希望深入做hadoop運維的話,就不用折騰原生的了。

發布於 2015-02-05

感謝分享

收藏• 沒有幫助

• 舉報

4贊同 反對,不會顯示你的姓名

單身狗. sde@bloomreach

4 人贊同

因為前乙份工作,我曾經在乙個八節點的測試集群上安裝並使用過cdh,mapr,和apache的版本。

我的答案是cdh。

必須要說cdh用起來最省時省力。自動探測host,選擇版本,配置簡單,幾乎是傻瓜式一鍵安裝。

mapr方便程度就稍微差一些,但是仍然比apache要方便很多。但是mapr版本有乙個致命的缺點,它用的不是hadoop的hdfs而是他們自己實現的maprfs。導致了hadoop生態系統中所有涉及到檔案系統操作的系統都需要使用mapr的發行版。為了相容maprfs,原始碼都被改過。可以到mapr的github賬戶上看到。

apache的話就真心需要專職運維人員去管理了。需要使用一些集群管理配置工具了。手動絕對累死。

你所說的cdh沒有對yarn的開發力度不大我覺得這個倒不用太擔心。cdh會定期根據apache開源的最新穩定版本發布相應的cdh版本,所以不存在版本落後最新版很多的情況。而且我記得cdh現在加入了parcel管理,可以非常簡單方便地切換hadoop版本而不需要重新安裝集群。這個功能**力太大了。另外cdh對於超過50個節點的集群就要開始收費了。這個是需要考慮的問題。

編輯於 2015-03-15

感謝分享

收藏• 沒有幫助

• 舉報

0贊同 反對,不會顯示你的姓名

cloudera的cdh版本在部署大量的集群節點時效率高很多,穩定**覺也比原生版本好。

發布於 2016-07-13

感謝分享

收藏• 沒有幫助

• 舉報

0贊同 反對,不會顯示你的姓名

從事大資料與資料分析行業,對一切新技術…

cdh5.x版本已經取消了50個節點的限制。

發布於 2016-03-01

感謝分享

收藏• 沒有幫助

• 舉報

0贊同 反對,不會顯示你的姓名

資料探勘

在ubuntu 的wiki裡看到因為cloudera由於方便安裝,有75%新手選擇。網上沒有找到這兩個組織發行hadoop的比較。不過cloudera貌似基於apache hadoop做bug fix 發布的。

chd是乙個公司發布的,但很多國內小公司都採用。大公司還是自己搞apache的比較好。

編輯於 2014-01-07

感謝分享

收藏• 沒有幫助

• 舉報

0贊同 反對,不會顯示你的姓名

test

cdh 免費版本的功能限制有點多

從Hadoop框架討論大資料

hadoop是什麼?1 hadoop 是乙個由 apache 會所開發的分布式系統基礎架構.2 主要解決,海量資料的儲存和海量資料的分析計算問題。3 廣義上來說,hadoop 通常是指乙個更廣泛的概念 hadoop 生態圈。hadoop三大發行版本 hadoop 三大發行版本 apache clou...

Hadoop系列之八 Hadoop集群

1 合併mapreduce集群與hdfs集群 在排程執行乙個作業時,將map任務等直接執行於要處理的資料所儲存的hdfs的資料節點上,可避免大量的資料傳輸,實現資料處理的本地性,進而大大提高整個過程的完成效率,這也正是hadoop集群的部署方式。如下圖所示。在乙個小於50個節點的小規模集群中,可以將...

Hadoop系列之八 Hadoop集群

1 合併mapreduce集群與hdfs集群 在排程執行乙個作業時,將map任務等直接執行於要處理的資料所儲存的hdfs的資料節點上,可避免大量的資料傳輸,實現資料處理的本地性,進而大大提高整個過程的完成效率,這也正是hadoop集群的部署方式。如下圖所示。在乙個小於50個節點的小規模集群中,可以將...