1.用圖與自己的話,簡要描述hadoop起源與發展階段。
hadoop是道格·卡丁(doug cutting)建立的,hadoop起源於開源網路搜尋引擎apache nutch,後者本身也是lucene專案的一部分。nutch專案面世後,面對資料量巨大的網頁顯示出了架構的靈活性不夠。當時正好借鑑了谷歌分布式檔案系統,做出了自己的開源系統ndfs分布式檔案系統。第二年谷歌又發表了**介紹了mapreduce系統,nutch開發人員也開發出了mapreduce系統。隨後ndfs和mapreduce命名為hadoop,成為了apache頂級專案。
從hadoop的發展歷程來看,它的思想來自於google的三篇**。
gfs:google file system 分布式處理系統 ------》解決儲存問題
mapreduce:分布式計算模型 ------》對資料進行計算處理
bigtable:解決查詢分布式儲存檔案慢的問題,把所有的資料存入一張表中,通過犧牲空間換取時間
2.用圖與自己的話,簡要描述名稱節點、資料節點的主要功能及相互關係。
名稱節點:負責管理分布式檔案系統的命名空間,裡面包含了兩個核心的資料結構,即fsimage和editlog。fsimage使用者檔案樹以及所有的檔案和資料夾的元資料。efitlog記錄的是檔案的增刪改查。
首次安裝format格式化就是在本地生成fsimage。首次安裝format格式化就是在本地生成fsimage。
hdfs的更新都會被寫入到fsimage中而不是editlog,因為對於分布式而言,fsimage非常龐大,直接對fsimage速度非常慢。hdfs的更新都會被寫入到fsimage中而不是editlog,因為對於分布式而言,fsimage非常龐大,直接對fsimage速度非常慢。
資料節點(datanode):定期向名稱節點傳送自己的儲存塊的列表。資料節點(datanode):定期向名稱節點傳送自己的儲存塊的列表。
因為hdfs檔案會逐漸地變大,不斷變大的editlog檔案通常不會對系統檔案產生影響,但是當editlog很大時,使得在hdfs重啟時,將editlog合併到fsimage中的過程十分緩慢,系統長期處於「安全模式」,使用者的使用收到影響。
hdfs的第二名稱節點(secondary namenode)的作用:完成editlog合併到fsimage的過程,縮短合併的重啟時間,其次作為「檢查點」儲存元資料的資訊。
3.分別從以下這些方面,梳理清楚hdfs的 結構與執行流程,以圖的形式描述。
hdfs結構圖:
secondary namenode工作**:
hdfs檔案讀流程:
hdfs檔案寫流程:
第四次作業
扎ogu 典型產品 最高傳輸速率 ieee 802.11a wi fi5 802.11a 43m 450 zyxel p334u 54mbps 1500 zyxel p335u 54mbps 1600 ieee 802.11b d link di 624 a 54mbps 215 linksys w...
第四次作業
作業題一 vs2012 rc在介面上,比beta版更容易使用,彩色的圖示和按照開發 執行 除錯等環境區分的顏色方案讓人愛不釋手。vs2012整合了asp.net mvc 4,全面支援移動和html5,wf 4.5相比wf 4,更加成熟,期待已久的狀態極工作流回來了,更棒的是,現在它的設計器已經支援c...
第四次作業
專案一求1000以內所有偶數的和 includevoid main cout sum includevoid main while i 1000 cout sum includeint main while i 1001 cout 專案3 乘法口訣表 程式設計序,輸出乙個乘法口訣表,形如 1x1 1...