hdfs中的檔案在物理上是分塊儲存(block),塊的大小可以通過配置引數( dfs.blocksize)來規定,預設大小在hadoop2.x版本中是128m,老版本中是64m。
思考:為什麼塊的大小不能設定太小,也不能設定太大?
(1)hdfs的塊設定太小,會增加定址時間,程式一直在找塊的開始位置;
(2)如果塊設定的太大,從磁碟傳輸資料的時間會明顯大於定位這個塊開始位置所需的時間。導致程式在處理這塊資料時,會非常慢。
總結:hdfs塊的大小設定主要取決於磁碟傳輸速率。
如果你的磁碟傳輸速率很高的話,你完全可以加大塊的大小。
HDFS檔案塊大小(重點)
hdfs中的檔案在物理上是分塊儲存 block 塊的大小可以通過配置引數 dfs.blocksize 來規定,預設大小在hadoop2.x版本中是128m,老版本中是64m。那麼,問題來了,為什麼乙個block的大小就是128m呢?預設為128m的原因,基於最佳傳輸損耗理論!不論對磁碟的檔案進行讀還...
HDFS資料塊大小設計策略
hdfs中的檔案在物理上是分塊儲存 block 預設大小在hadoop2.x版本中是128m,老版本中是64m。原因 檔案塊越大,分割數越少,定址時間越短,但磁碟傳輸時間越長 檔案塊越小,分割數越多,定址時間越長,但磁碟傳輸時間越短 目的 盡可能保持使定址時間僅佔傳輸時間的1 如果定址時間約為10m...
Hadoop HDFS 檔案塊大小
hdfs檔案塊大小 hdfs中的檔案在物理上是分塊儲存 block 塊的大小可以通過配置引數 dfs.blocksize 來規定,預設大小在hadoop2.x版本中是128m,老版本中是64m hdfs的塊比磁碟的塊大,其目的是為了最小化定址開銷。如果塊設定得足夠大,從磁碟傳輸資料的時間會明顯大於定...