hdfs中的檔案在物理上是分塊儲存(block),預設大小在hadoop2.x版本中是128m,老版本中是64m。
原因:
檔案塊越大,分割數越少,定址時間越短,但磁碟傳輸時間越長;
檔案塊越小,分割數越多,定址時間越長,但磁碟傳輸時間越短;
目的:盡可能保持使定址時間僅佔傳輸時間的1%
如果定址時間約為10ms,而傳輸速率為100mb/s
我們要將塊大小設定約為100mb。預設的塊大小128mb。
塊的大小:10ms*100*100m/s = 100m
建議:
隨著磁碟的io效能越來越好,塊的大小設定可以進一步增加,塊的大小可以進一步增加256mb甚至是512
測試io
測試io的大小可以參考文章:
ps:塊的大小影響計算的並行度和namenode的壓力,塊太小,namenode記錄的資訊太多,塊太大map的任務就少,一定程度上影響計算的並行度
>
>
dfs.block.sizename
>
>
256000000value
>
property
>
HDFS 檔案塊大小
hdfs中的檔案在物理上是分塊儲存 block 塊的大小可以通過配置引數 dfs.blocksize 來規定,預設大小在hadoop2.x版本中是128m,老版本中是64m。思考 為什麼塊的大小不能設定太小,也不能設定太大?1 hdfs的塊設定太小,會增加定址時間,程式一直在找塊的開始位置 2 如果...
Java事務設計策略
最近閱讀了infoq上的電子書 之後受益匪淺,單獨花了兩周時間將其翻譯了一下.由於英語只是四級水準,所以翻譯內容中的不足之處也請見諒.附件裡第乙份是翻譯後的文件,第二份是英文原文.下面列出文中映象深刻的幾點 事務模型的分類 list 本地事務模式,管理連線 程式設計式事務模式,程式設計管理jta事務...
HDFS塊大小的計算與設計規則
1.概述 hadoop集群中檔案的儲存都是以塊的形式儲存在hdfs中。2.預設值 從2.7.3版本開始block size的預設大小為128m,之前版本的預設值是64m.3.如何修改block塊的大小?可以通過修改hdfs site.xml檔案中的dfs.block.size對應的值。dfs.blo...