第四次作業

1.用圖與自己的話，簡要描述hadoop起源與發展階段。

hadoop是道格·卡丁（doug cutting）建立的，hadoop起源於開源網路搜尋引擎apache nutch，後者本身也是lucene專案的一部分。nutch專案面世後，面對資料量巨大的網頁顯示出了架構的靈活性不夠。當時正好借鑑了谷歌分布式檔案系統，做出了自己的開源系統ndfs分布式檔案系統。第二年谷歌又發表了**介紹了mapreduce系統，nutch開發人員也開發出了mapreduce系統。隨後ndfs和mapreduce命名為hadoop，成為了apache頂級專案。

從hadoop的發展歷程來看，它的思想來自於google的三篇**。

gfs：google file system 分布式處理系統 ------》解決儲存問題

mapreduce：分布式計算模型 ------》對資料進行計算處理

bigtable：解決查詢分布式儲存檔案慢的問題，把所有的資料存入一張表中，通過犧牲空間換取時間

2.用圖與自己的話，簡要描述名稱節點、資料節點的主要功能及相互關係。

名稱節點：負責管理分布式檔案系統的命名空間，裡面包含了兩個核心的資料結構，即fsimage和editlog。fsimage使用者檔案樹以及所有的檔案和資料夾的元資料。efitlog記錄的是檔案的增刪改查。

首次安裝format格式化就是在本地生成fsimage。首次安裝format格式化就是在本地生成fsimage。

hdfs的更新都會被寫入到fsimage中而不是editlog，因為對於分布式而言，fsimage非常龐大，直接對fsimage速度非常慢。hdfs的更新都會被寫入到fsimage中而不是editlog，因為對於分布式而言，fsimage非常龐大，直接對fsimage速度非常慢。

資料節點（datanode）:定期向名稱節點傳送自己的儲存塊的列表。資料節點（datanode）:定期向名稱節點傳送自己的儲存塊的列表。

因為hdfs檔案會逐漸地變大，不斷變大的editlog檔案通常不會對系統檔案產生影響，但是當editlog很大時，使得在hdfs重啟時，將editlog合併到fsimage中的過程十分緩慢，系統長期處於「安全模式」，使用者的使用收到影響。

hdfs的第二名稱節點（secondary namenode）的作用：完成editlog合併到fsimage的過程，縮短合併的重啟時間，其次作為「檢查點」儲存元資料的資訊。

3.分別從以下這些方面，梳理清楚hdfs的結構與執行流程，以圖的形式描述。

hdfs結構圖：

secondary namenode工作**：

hdfs檔案讀流程：

hdfs檔案寫流程：

第四次作業

第四次作業

第四次作業

第四次作業

相關推薦