選型由於apache hadoop是開源的,任何人可以對其修改並作為開源或者商業的產品,所以出現很多發行版本,例如華為發行版、、cloudera發行版(cdh)等。
hadoop三大發行版本:apache、cloudera、hortonworks。
apache版本最原始(最基礎)的版本,對於入門學習最好。
cloudera在大型網際網路企業中用的較多。
hortonworks文件較好。
(1)apache:運維麻煩,元件相容性需要自己調研,適合於大公司
(2)cdh:國內使用最多的版本
(3)hdp:開源,可以二次開發,沒有cdh穩定,使用較少
Hadoop Hadoop 傳遞引數
寫mapreduce程式通常要傳遞各種各樣的引數,選擇合適的方式來傳遞引數既能提高工作效率,也可以避免bug的產生。根據引數的大小,可以粗略的分為以下幾種。最直接的方式就是使用configuration的各種set方法,對於基本資料型別都有很好的支援,比如傳遞kmeans聚類演算法的中心點個數。正確...
hadoop hadoop的一次讀取
一次hadoop的read getfilesystem public static filesystem getfilesystem throws exception configuration configuration基本就是乙個空物件。新增了2個配置檔案到資源列表。adddefaultreso...
Hadoop Hadoop的區域性效能改良
hadoop 是對hadoop map reduce的非入侵式優化,通過自定義hadoop框架中的split等函式來提公升,提公升查詢和聯接效能。專案由德國saarland大學jens dittrich教授主持。專案主頁是 hadoop 對hadoop的優化主要是trojan index troja...