讀書筆記 Hadoop權威指南 簡介

2021-10-05 14:08:07 字數 1518 閱讀 4973

資料來自美國國家氣候資料中心(national climatic data center,簡稱ncdc)。這些資料按行並以ascii格式儲存,其中一行是一條記錄。下面顯示了一行取樣資料,為了給讀者了解字段,拆分解釋。

從2023年到2023年,每一年都有乙個目錄,每個目錄中包含各個氣象站該年氣象資料的打包檔案及說明檔案。

mapreduce任務過程分為兩個處理階段:map階段和reduce階段。每個階段都以鍵值對作為輸入和輸出,其型別由程式設計師選擇。

為了實現橫向擴充套件,把資料儲存在分布式檔案系統中(典型的為hdfs),通過使用hadoop資源管理系統yarn,hadoop將mapreduce計算轉移到儲存有部分資料的各台機器上。

mapreduce作業(job)是客戶端需要執行的乙個工作單元:它包括輸入資料、mapreduce程式和配置資訊。hadoop將作業分成若干個任務(task)來執行,其中包含兩類任務:map任務和reduce任務。這些任務執行在集群的節點上,並通過yarn進行排程。如果乙個任務失敗,它將在另乙個不同的節點上自動重新排程執行。

hadoop將mapreduce的輸入資料劃分為等長的小資料塊,稱為輸入分片(input split)。hadoop為每個分片構建乙個map任務,並由該任務來執行使用者自定義的map函式從而處理分片中的每條記錄。對於大多數作業來說,乙個合理的分片大小趨向於hdfs的乙個塊的大小,預設是128mb。

hadoop在儲存有輸入資料(hdfs中的資料)的節點上執行map任務,可以獲得最佳效能,因為它無需使用寶貴的集群頻寬資源。有時對於乙個map任務的輸入分片來說,儲存該分片的hdfs資料塊副本的所有節點可能正在執行其他map任務,此時作業排程需要從某一資料塊所在事務機架中的乙個節點上尋找乙個空閒的map槽(slot)來執行該map任務分片。僅僅在非常偶然的情況下,會使用其他機架中的節點執行該map任務,這將導致機架與機架之間的網路傳輸。

map任務將其輸出寫入本地硬碟,而非hdfs。map輸出的是中間結果,由reduce任務處理後才產生最終輸出結果,而且一旦作業完成,map的輸出結果就可以刪除。如果把它儲存在hdfs中並實現備份,難免有些小題大做。如果執行map任務的節點在將map中間結果傳送給reduce任務之前失敗,hadoop將在另乙個節點上重新執行這個map任務以再次構建map中間結果。

讀書筆記 Hadoop權威指南 第3版

下面歸納概述了用於設定mapreduce作業輸出的壓縮格式的配置屬性。如果mapreduce驅動使用了tool介面,則可以通過命令行將這些屬性傳遞給程式,這比通過程式 來修改壓縮屬性更加簡便。mapreduce的壓縮屬性 屬性名稱 型別預設值 描述mapred.out.compress boolea...

《CSS權威指南》讀書筆記

第二章 選擇器 第三章 結構和層疊 第四章 值和單位 第五章 字型 第六章 文字屬性 第七章 基本視覺格式化 第八章 內邊距邊框和外邊距 第九章 顏色和背景 第十章 浮動和定位 第十一章 表布局 第十二章 列表與生成內容 第十三章 使用者介面樣式 第十四章 非螢幕 import url sheet....

Http權威指南讀書筆記

1.1 http使用的是可靠的資料傳輸協議。1.3 型別 mime型別 multipurpose internet mail extension多用途網際網路郵件擴充套件 是為了解決在不同的電子郵件系統之間搬移報文時存在的問題。mime在電子郵件系統中工作得非常好,因此http也採納了它,用它來描述...