大資料系列文章 Hadoop基礎介紹（一）

大名鼎鼎的lucene、nutch也是他弄出來的。

他目前在cloudera公司擔任首席架構師工作。

（主）namenode節點儲存檔案元資料

（從）datanode節點儲存檔案block資料

datanode與namenode保持心跳，提交block列表（這裡的心跳指的是datanode會週期性的給namenode提交資料報，報告datanode節點狀態以及block列表）

hdfsclient與namenode互動元資料資訊

hdfsclient與datanode互動檔案block資料

簡單介紹下這個hdfs架構圖，後面會詳細介紹讀寫流程，所以這裡只是帶大家簡單理解下。

例如乙個檔案50gb，按照64mb切塊的話，切成若干個64mb大小的塊。這些塊是有副本概念，例如block1，會在不同的server節點上都有其副本。右上角是描述清單，也就是所謂的原資料，存在namenode程序中去，其中block1：node1,node2,node3,表示block1的位置資訊。

高容錯性

適合批處理

適合大資料處理

可構建在廉價機器上

低延遲資料訪問

小檔案儲存

併發寫入、檔案隨機修改

namenode儲存metadata資訊包括

大資料hadoop系列 Hive優化

map階段的優化作業會通過input的目錄產生乙個或多個map任務。a 假設input目錄下有1個檔案a,大小為780m,那麼hadoop會將該檔案a分隔成7個塊 6個128m的塊和1個12m的塊從而產生7個map數 b 假設input目錄下有3個檔案a,b,c,大小分別為10m，20m，130...

Hadoop系列001 大資料概論

大資料 big data 指無法在一定時間範圍內用常規軟體工具進行捕捉管理和處理的資料集合，是需要新處理模式才能具有更強的決策力洞察發現力和流程優化能力的海量高增長率和多樣化的資訊資產。最小的基本單位是bit，按順序給出所有單位 bit byte kb mb gb tb pb eb zb yb...

學習Hadoop不錯的系列文章

1 hadoop學習總結 1 hdfs簡介 2 hdfs讀寫過程解析 3 map reduce入門 4 map reduce的過程解析 5 hadoop的執行痕跡 6 apache hadoop 版本 2 hadoop 0.20.0源分析 1 hadoop 0.20.0源分析 01 2 hado...

大資料系列文章 Hadoop基礎介紹（一）

大資料hadoop系列 Hive優化

Hadoop系列001 大資料概論

學習Hadoop不錯的系列文章

相關推薦