大名鼎鼎的lucene、nutch也是他弄出來的。
他目前在cloudera公司擔任首席架構師工作。
(主)namenode節點儲存檔案元資料
(從)datanode節點儲存檔案block資料
datanode與namenode保持心跳,提交block列表(這裡的心跳指的是datanode會週期性的給namenode提交資料報,報告datanode節點狀態以及block列表)
hdfsclient與namenode互動元資料資訊
hdfsclient與datanode互動檔案block資料
簡單介紹下這個hdfs架構圖,後面會詳細介紹讀寫流程,所以這裡只是帶大家簡單理解下。
例如乙個檔案50gb,按照64mb切塊的話,切成若干個64mb大小的塊。這些塊是有副本概念,例如block1,會在不同的server節點上都有其副本。右上角是描述清單,也就是所謂的原資料,存在namenode程序中去,其中block1:node1,node2,node3,表示block1的位置資訊。
高容錯性
適合批處理
適合大資料處理
可構建在廉價機器上
低延遲資料訪問
小檔案儲存
併發寫入、檔案隨機修改
namenode儲存metadata資訊包括
大資料hadoop系列 Hive優化
map階段的優化 作業會通過input的目錄產生乙個或多個map任務。a 假設input目錄下有1個檔案a,大小為780m,那麼hadoop會將該檔案a分隔成7個塊 6個128m的塊和1個12m的塊 從而產生7個map數 b 假設input目錄下有3個檔案a,b,c,大小分別為10m,20m,130...
Hadoop系列001 大資料概論
大資料 big data 指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資訊資產。最小的基本單位是bit,按順序給出所有單位 bit byte kb mb gb tb pb eb zb yb...
學習Hadoop不錯的系列文章
1 hadoop學習總結 1 hdfs簡介 2 hdfs讀寫過程解析 3 map reduce入門 4 map reduce的過程解析 5 hadoop的執行痕跡 6 apache hadoop 版本 2 hadoop 0.20.0源 分析 1 hadoop 0.20.0源 分析 01 2 hado...