Hadoop學習筆記

2021-07-13 23:09:38 字數 691 閱讀 4280

fsimage+記憶體元資料+editlog = 效率 + 安全
監測節點錯誤:datanode向namanode定時返回心跳

監測網路錯誤:資料傳送後返回ack

監測儲存錯誤:①傳輸資料損壞,通過資料的checksum監測;

②硬碟儲存資料損壞,通過每個block的checksum監測

partition:將map的結果傳送到相應的reduce,確保相同的key進入相同reduce。

sort:map後有兩次排序。

第一次:檔案內部快速排序(sort)。每次spill時,會將中間資料存入本機的乙個或幾個檔案中,並且針對這些檔案內部的記錄進行一次快速排序;

第二次:多個檔案歸併排序(merge)。map任務執行完成後會對這些內部排好序的檔案做一次歸併排序,並將排好序的結果輸出到乙個大的檔案中。

combine:合併map輸出的中間資料,減少資料傳輸,提高處理效率。

定義:設計模式(design pattern)是一套被反覆使用、經過分類編目的**設計經驗總結。

目的:使用設計模式是為了提高編碼效率、提高**重用率、讓**更容易被他人理解、保證**可靠性。

Hadoop學習筆記 Hadoop初識

序言 資訊化發展到當今,網際網路的資料量是不斷地增加,那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向,這也之所以產生了各種平台的雲計算。對於網際網路而言,大資料量可分為兩種 第 一 大訪問量請求 第 二 大資料量處理。大訪問量請求這個事應用端應該思考的問題,如何很好的處理大的訪問量,如何...

Hadoop學習筆記

hadoop介紹 hadoop是google雲計算框架的開源實現,是乙個分布式儲存和分布式計算的框架,主要包括hdfs和mapreduce的實現。hdfs hdfs由乙個namenode和多個datanode組成,其中namenode相當於系統的元資料存放地,它是hadoop系統的神經中樞,而多個d...

hadoop學習筆記

map reduce 它把 ap reduce過程拆分成若干個子過程,同時可以把多個 ap reduce任務組合成乙個較大的dag任務,減少了 ap reduce之間的檔案儲存。同時合理組合其子過程,也可以減少任務的執行時間。l 不同於mapreduce的是job中間輸出和結果可以儲存在記憶體中,從...