《hadoop權威指南》筆記一走進hdfs

基於《hadoop權威指南》第四版

hadoop分布式檔案系統(hdfs)被設計成適合執行在通用硬體(commodity hardware)上的分布式檔案系統。

hdfs是apache hadoop core專案的一部分。

hdfs本身為高吞吐而優化!

思考: 為何基於hdfs實現的hbase可以滿足低延遲的訪問需求？

每個檔案、目錄、資料塊的儲存資訊大約150位元組。

所以一百萬個檔案，至少需要300mb的記憶體。當小檔案過多時會直接壓垮namdnode。

hdfs最適合一次寫入多次讀取是最高效的訪問模式

當然二者的關係不僅僅如此，會有一些複雜的設計在裡面。

hdfs預設塊是128mb，但是當你資料是是10mb時，hdfs不會占用128mbmb（與普通檔案系統不一樣）。

為了最小化定址開銷。當然這個值也不能太大，map任務通常一次只能處理乙個塊中的資料。

# 檢視help hadoop fs -help # 上傳檔案 hadoop fs -copyfromlocal *** hdfs://localhost/ hadoop fs -copytolocal # 建目錄 hadoop fs -mkdir dir # ls hadoop fs -ls .

# ls結果的第二列是副本數。其中目錄的元資料儲存在namenode無副本一說，所以值是「-」

當客戶端使用core-site.xml配置後，我們的命令就不需要使用冗長的uri

最佳分片大小與塊大小相同，如果分片跨越兩個資料塊。hdfs基本不會同時儲存著兩個資料塊，因此分片中的部分資料需要通過網路傳輸到map任務執行的節點。

中間資料儲存在hdfs小題大做了（沒必要多副本）。儲存在本地磁碟還可以加速運算，減少網路傳輸。

reduce任務並不具備本地化的優勢。

都是6小步，在下一筆記詳細介紹

《Hadoop權威指南》索引筆記

2015年5月2日 hadoop檔案格式一 hdfs 1.hdfs一次寫入，多次讀取，每次分析應涉及大部分資料批處理才有優勢 2.hdfs缺點低延遲訪問大量小檔案使用者修改 3.hdfs塊大小預設64m，但實際工作中往往調大最小化定址開銷但不能太大，一般乙個map處理乙個block，...

Hadoop 權威指南

rpm包和deb包是兩種linux系統下最常見的安裝包格式，在安裝一些軟體或服務的時候免不了要和它們打交道。rpm包主要應用在redhat系列包括 fedora等發行版的linux系統上，deb包主要應用於debian系列包括現在比較流行的ubuntu等發行版上。yum可以用於運作rpm包，例如在f...

hadoop權威指南閱讀一

1.任務查詢所有年份最高氣溫 map的目的是吐出點對，年份氣溫 output.collect new text year new intwritable airtemperature key可以重複，例如可以是 1950 23 1950 22 1950 28 2 maxtemperaturere...

《hadoop權威指南》筆記一 走進hdfs

《Hadoop權威指南》索引筆記

Hadoop 權威指南

hadoop權威指南閱讀 一

相關推薦

《hadoop權威指南》筆記一走進hdfs

hadoop權威指南閱讀一