看過好多本hadoop的書,對整個過程始終存在一些疑問,今天終於搞清楚了。立個low-flag。
整體架構好複雜的感覺?其實不複雜
整體架構,namenode/metanode負責維護所有的元資料,datanode負責實際的物理儲存,同乙份資料datanode上必定多個副本,從而保證高可用。
hdfs只是個檔案系統,有那麼重要嗎?
hdfs,最核心元件,高可用,不適合處理碎片檔案。所有儲存相關都是hdfs的職責範圍。
mapreduce感覺很簡單,但是具體背後的邏輯是什麼?
最後,是寫入hdfs。outputformat,描述資料的輸出形式,生成相應的類物件,呼叫write方法寫入到hdfs,預設呼叫文字寫入方法。
至此,mapred過程基本完成,總算捋清楚了。
理解了以上,寫起mapreduce的簡單函式,自然沒問題了,處理一些基本問題也順心了許多。同時,也只有在理解整個過程的前提上,才能找到適用場景。
後續其他技術,且等且實踐。(基礎很重要)
Hadoop詳解與HDFS讀寫流程
hadoop 包含分布式檔案系統和分布式計算的乙個框架。hdfs,mapreduce hadoop專案模組包括4部分 hadoop common 工具類 hadoop distributed system hdfs 分布式檔案系統 hadoop yarn 分布式資源管理 hadoop mapredu...
反饋 軟體開發流程與實踐的本質
我在大學裡面學的專業是自動控制。反饋是任何自動化控制系統中必不可少的。比如,在控制鍋爐爐溫的控制系統中,想要把爐溫控制在600 那麼感測器必須週期性採集鍋爐的溫度,控制系統再根據爐溫來調整火力。溫度不夠的話,燒火的還得再給點力 溫度差不多了就可以一邊歇著了。反饋的概念相當簡單,它在很多地方都發揮著重...
WCF學習與實踐 基礎知識
windowscommunication foundation wcf 是由微軟發展的一組資料通訊的應用程式開發介面,可以翻譯為windows通訊介面,它是.net框架的一部分。由 net framework 3.0 開始引入。wcf的最終目標是通過程序或不同的系統 通過本地網路或是通過intern...