Hadoop 基礎知識

hadoop 資料是儲存在hdfs， mapreduce 是一種計算框架，負責計算處理。

hdfs上的資料儲存預設是本地節點資料乙份，同一機架不同節點乙份，不同機架不同節點乙份。預設是儲存3份

hdfs 儲存元資料資訊和儲存位置資訊，metadata。他們之間是通過檔名進行關聯的。

datanode 節點儲存fsimage， editlog；namenode 儲存的是block storage

使用者的請求都經過namenode，因為它知道檔案的儲存位置

hdfs 小檔案處理：

小檔案的處理是在資料寫入hdfs之前做乙個處理。

小檔案如果合併成大檔案，就看不到小檔案裡面的內容了。只能到合併後的大檔案查詢。

小檔案合併成大檔案的場景：日誌系統需要按月或者按年查詢，就可以將每天的檔案按月彙總或者按年彙總。

實現方式：可以用sequencefile 或者mapfile

sequencefile:使用filename作為key，並且file contents作為value

mapfile:mapfile是排序後的sequencefile

hadoop基礎知識

1.hadoop流 hadoop流提供了乙個api，允許使用者使用任何指令碼語言編寫map函式或reduce函式，hadoop流的關鍵是，它使用unix標準流作為程式與hadoop之間的介面。2.hadoop join 1 reduce側連線 2 map端連線基於distributedcache的...

Hadoop基礎知識

hadoop 提供分布式的儲存乙個檔案被拆分成很多個塊，並且以副本的方式儲存在各個節點中和計算是乙個分布式的系統基礎架構使用者可以在不了解分布式底層細節的情況下使用 apache社群的頂級專案 x.apache.org，如組成優勢特點擴充套件性容錯性海量資料儲存工作機制將檔案切...

Hadoop的基礎知識

src.tar.gz 是壓縮後的原始碼檔案，需要自己編譯才能安裝 src.tar.gz.mds 是 src.tar.gz 的校驗和 checksum 檔案 tar.gz 是經過壓縮的編譯好的安裝檔案 tar.gz.mds 是 tar.gz 的 checksum 檔案一般用於linux安裝hadoo...

Hadoop 基礎知識

hadoop基礎知識

Hadoop基礎知識

Hadoop的基礎知識

相關推薦