基於《hadoop權威指南》第四版hadoop分布式檔案系統(hdfs)被設計成適合執行在通用硬體(commodity hardware)上的分布式檔案系統。
hdfs是apache hadoop core專案的一部分。
hdfs本身為高吞吐而優化!
思考: 為何基於hdfs實現的hbase可以滿足低延遲的訪問需求?
每個檔案、目錄、資料塊的儲存資訊大約150位元組。
所以一百萬個檔案,至少需要300mb的記憶體。當小檔案過多時會直接壓垮namdnode。
hdfs最適合一次寫入多次讀取是最高效的訪問模式當然二者的關係不僅僅如此,會有一些複雜的設計在裡面。
hdfs預設塊是128mb,但是當你資料是是10mb時,hdfs不會占用128mbmb(與普通檔案系統不一樣)。
為了最小化定址開銷。當然這個值也不能太大,map任務通常一次只能處理乙個塊中的資料。
# 檢視help
hadoop fs -help
# 上傳檔案
hadoop fs -copyfromlocal *** hdfs://localhost/
hadoop fs -copytolocal
# 建目錄
hadoop fs -mkdir dir
# ls
hadoop fs -ls .
# ls結果的第二列是副本數。其中目錄的元資料儲存在namenode無副本一說,所以值是 「-」
當客戶端使用core-site.xml配置後,我們的命令就不需要使用冗長的uri
最佳分片大小與塊大小相同,如果分片跨越兩個資料塊。hdfs基本不會同時儲存著兩個資料塊,因此分片中的部分資料需要通過網路傳輸到map任務執行的節點。
中間資料儲存在hdfs小題大做了(沒必要多副本)。儲存在本地磁碟還可以加速運算,減少網路傳輸。
reduce任務並不具備本地化的優勢。
都是6小步,在下一筆記詳細介紹
《Hadoop權威指南》索引筆記
2015年5月2日 hadoop檔案格式 一 hdfs 1.hdfs一次寫入,多次讀取,每次分析應涉及大部分資料 批處理才有優勢 2.hdfs缺點 低延遲訪問 大量小檔案 使用者修改 3.hdfs塊大小 預設64m,但實際工作中往往調大 最小化定址開銷 但不能太大,一般乙個map處理乙個block,...
Hadoop 權威指南
rpm包和deb包是兩種linux系統下最常見的安裝包格式,在安裝一些軟體或服務的時候免不了要和它們打交道。rpm包主要應用在redhat系列包括 fedora等發行版的linux系統上,deb包主要應用於debian系列包括現在比較流行的ubuntu等發行版上。yum可以用於運作rpm包,例如在f...
hadoop權威指南閱讀 一
1.任務 查詢所有年份最高氣溫 map的目的是吐出點對,年份 氣溫 output.collect new text year new intwritable airtemperature key可以重複,例如可以是 1950 23 1950 22 1950 28 2 maxtemperaturere...