hadoop是apache開發的開源框架。
hadoop的核心是hdfs和mapredure。
hdfs,分布式檔案系統,為海量的資料提供儲存。
mapredure,並行處理框架,為海量的資料提供計算。
1、hdfs
hdfs的特點是:
(1)資料冗餘,硬體容錯
使用3個備份來實現硬體容錯,允許執行在廉價機器上。
(2)流式資料訪問
一旦寫入,不會被修改,也無法修改
(3)儲存大檔案
hdfs的侷限性
(1)將hdfs用於對資料訪問要求低延遲的場景
由於hdfs是為高資料吞吐量應用而設計的,必然以高延遲為代價。
(2)儲存大量小檔案
hdfs中元資料(檔案的基本資訊)儲存在namenode的記憶體中,而namenode為單點,小檔案數量大到一定程度,namenode記憶體就吃不消了。
hdfs基本架構
資料塊(block):大檔案會被分割成多個block進行儲存,block大小預設為64mb。每乙個block會在多個datanode上儲存多份副本,預設是3份。
namenode:namenode負責管理檔案目錄、檔案和block的對應關係以及block和datanode的對應關係。
datanode:datanode就負責儲存了,當然大部分容錯機制都是在datanode上實現的。
2、mapredure
分而治之,把乙個大任務分成多個小的子任務map,並行執行,合併結果redure。
mapreduce程式的工作分兩個階段進行:
(1)map 任務 (分割及對映)
(2)reduce 任務 (重排,還原)
上圖的例子是統計每個單詞出現的頻率。
Hadoop學習筆記 Hadoop初識
序言 資訊化發展到當今,網際網路的資料量是不斷地增加,那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向,這也之所以產生了各種平台的雲計算。對於網際網路而言,大資料量可分為兩種 第 一 大訪問量請求 第 二 大資料量處理。大訪問量請求這個事應用端應該思考的問題,如何很好的處理大的訪問量,如何...
Hadoop學習筆記
hadoop介紹 hadoop是google雲計算框架的開源實現,是乙個分布式儲存和分布式計算的框架,主要包括hdfs和mapreduce的實現。hdfs hdfs由乙個namenode和多個datanode組成,其中namenode相當於系統的元資料存放地,它是hadoop系統的神經中樞,而多個d...
Hadoop學習筆記
fsimage 記憶體元資料 editlog 效率 安全監測節點錯誤 datanode向namanode定時返回心跳 監測網路錯誤 資料傳送後返回ack 監測儲存錯誤 傳輸資料損壞,通過資料的checksum監測 硬碟儲存資料損壞,通過每個block的checksum監測 partition 將ma...