hdfs的block是邏輯上的資料塊.hadoop2.0中每一塊預設大小128mb,實際儲存過程中block大小小於等128mb,它是以檔案為儲存物件.如一200mb大小檔案,分兩個資料塊128mb+72mb 這裡的兩個塊大實際小分別是128mb和72mb
演算法分析:
max(minsize, min(maxsize,blocksize))
min(maxsize,blocksize)取maxsize,blocksize
之間的最小值
max(minsize, min())取minsize, min()
之間的最大值
blocksize=128mb
所以增加切片大小有要調整min(maxsize,blocksize)中maxsize值
減小切片大小調整minsize值.
具體兩個方法如下:
fileinputformat.setmaxinputsplitsize(job, size);
fileinputformat.setmininputsplitsize(job, size);
Hadoop學習筆記之Hadoop簡介
apache hadoop 是乙個開源的 可靠的 靈活的 分布式的計算系統 來自官網 主要受google 三篇 的啟發 gfs mapreduce bigtable hadoop 海量資料的儲存 hdfs hadoop distributed file system 海量資料的分析 mapreduc...
hadoop學習筆記之zookeeper 安裝配置
zookeeper是乙個分布式的,開放原始碼的分布式應用程式協調服務,是google的chubby乙個開源的實現,是hadoop和hbase的重要元件。它是乙個為分布式應用提供一致性服務的軟體,提供的功能包括 配置維護 網域名稱服務 分布式同步 組服務等。由於工程師不能很好地使用鎖機制以及基於訊息協...
Hadoop學習筆記之YARN
yarn service框架提供了一流的支援和api,可以在yarn中本地化時間執行的服務。簡而言之 in a nutshell 它作為乙個容器編排平台,用於管理yarn上的貨櫃化服務。它支援yarn中的docker容器和傳統的基於程序的容器。該框架的職責包括執行配置解決方案和安裝,生命週期管理 如...