hadoop學習筆記

hadoop是apache開發的開源框架。

hadoop的核心是hdfs和mapredure。

hdfs，分布式檔案系統，為海量的資料提供儲存。

mapredure，並行處理框架，為海量的資料提供計算。

1、hdfs

hdfs的特點是：

（1）資料冗餘，硬體容錯

使用3個備份來實現硬體容錯，允許執行在廉價機器上。

（2）流式資料訪問

一旦寫入，不會被修改，也無法修改

（3）儲存大檔案

hdfs的侷限性

（1）將hdfs用於對資料訪問要求低延遲的場景

由於hdfs是為高資料吞吐量應用而設計的，必然以高延遲為代價。

（2）儲存大量小檔案

hdfs中元資料（檔案的基本資訊）儲存在namenode的記憶體中，而namenode為單點，小檔案數量大到一定程度，namenode記憶體就吃不消了。

hdfs基本架構

資料塊（block）：大檔案會被分割成多個block進行儲存，block大小預設為64mb。每乙個block會在多個datanode上儲存多份副本，預設是3份。

namenode：namenode負責管理檔案目錄、檔案和block的對應關係以及block和datanode的對應關係。

datanode：datanode就負責儲存了，當然大部分容錯機制都是在datanode上實現的。

2、mapredure

分而治之，把乙個大任務分成多個小的子任務map，並行執行，合併結果redure。

mapreduce程式的工作分兩個階段進行：

（1）map 任務 (分割及對映)

（2）reduce 任務 (重排，還原)

上圖的例子是統計每個單詞出現的頻率。

Hadoop學習筆記 Hadoop初識

序言資訊化發展到當今，網際網路的資料量是不斷地增加，那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向，這也之所以產生了各種平台的雲計算。對於網際網路而言，大資料量可分為兩種第一大訪問量請求第二大資料量處理。大訪問量請求這個事應用端應該思考的問題，如何很好的處理大的訪問量，如何...

Hadoop學習筆記

hadoop介紹 hadoop是google雲計算框架的開源實現，是乙個分布式儲存和分布式計算的框架，主要包括hdfs和mapreduce的實現。hdfs hdfs由乙個namenode和多個datanode組成，其中namenode相當於系統的元資料存放地，它是hadoop系統的神經中樞，而多個d...

Hadoop學習筆記

fsimage 記憶體元資料 editlog 效率安全監測節點錯誤 datanode向namanode定時返回心跳監測網路錯誤資料傳送後返回ack 監測儲存錯誤傳輸資料損壞，通過資料的checksum監測硬碟儲存資料損壞，通過每個block的checksum監測 partition 將ma...

hadoop學習筆記

Hadoop學習筆記 Hadoop初識

Hadoop學習筆記

Hadoop學習筆記

相關推薦