hadoop common
hadoop distributed file system(功能:對資料儲存功能的訪問)
分布式儲存系統
提供了 高可靠性、高擴充套件性和高吞吐率的資料儲存服務
hadoop yarn(用於框架和集群管理)
分布式計算框架(計算向資料移動)
具有 易於程式設計、高容錯性和高擴充套件性等優點。
hadoop mapreduce( 實現資料的分析和處理)
hadoop 的思想理念
(主)namenode節點儲存檔案元資料:單節點 posix(從)datanode節點儲存檔案block資料:多節點datanode與namenode保持持續聯通(每隔一段時間,ping一下),提交block列表
hdfsclient與namenode互動元資料資訊
hdfsclient與datanode互動檔案block資料
第乙個副本:放置在上傳檔案的datanode中;如果是在集群外的話,則隨機挑選一台磁碟不太滿,cpu不太忙的節點。
第二個副本:放置在於第乙個副本不同的機架的節點上。
第三個副本:與第二個副本相同機架的不同節點。
更多副本:隨機節點
hdfs優點:
namenode(nn)
基於記憶體儲存 :不會和磁碟發生交換
只存在記憶體中
持久化(namenode的metadate資訊在啟動後會載入到記憶體;
metadata儲存到磁碟檔名為」fsimage」;
block的位置資訊不會儲存到fsimage
)namenode主要功能:
接受客戶端的讀寫服務
收集datanode匯報的block列表資訊
namenode儲存metadata資訊包括
檔案owership和permissions
檔案大小,時間
(block列表:block偏移量),位置資訊
block每副本位置(由datanode上報)
datanode(dn)
本地磁碟目錄儲存資料(block),檔案形式
同時儲存block的元資料資訊檔案
啟動dn時會向nn匯報block資訊
通過向nn傳送心跳保持與其聯絡(3秒一次),如果nn 10分鐘沒有收到dn的心跳,則認為其已經lost,並copy其上的block到其它dn
Hadoop學習筆記 Hadoop初識
序言 資訊化發展到當今,網際網路的資料量是不斷地增加,那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向,這也之所以產生了各種平台的雲計算。對於網際網路而言,大資料量可分為兩種 第 一 大訪問量請求 第 二 大資料量處理。大訪問量請求這個事應用端應該思考的問題,如何很好的處理大的訪問量,如何...
Hadoop學習筆記
hadoop介紹 hadoop是google雲計算框架的開源實現,是乙個分布式儲存和分布式計算的框架,主要包括hdfs和mapreduce的實現。hdfs hdfs由乙個namenode和多個datanode組成,其中namenode相當於系統的元資料存放地,它是hadoop系統的神經中樞,而多個d...
Hadoop學習筆記
fsimage 記憶體元資料 editlog 效率 安全監測節點錯誤 datanode向namanode定時返回心跳 監測網路錯誤 資料傳送後返回ack 監測儲存錯誤 傳輸資料損壞,通過資料的checksum監測 硬碟儲存資料損壞,通過每個block的checksum監測 partition 將ma...