hadoop筆記之切片大小控制

hdfs的block是邏輯上的資料塊.hadoop2.0中每一塊預設大小128mb,實際儲存過程中block大小小於等128mb,它是以檔案為儲存物件.如一200mb大小檔案,分兩個資料塊128mb+72mb 這裡的兩個塊大實際小分別是128mb和72mb

演算法分析:

max(minsize, min(maxsize,blocksize))

min(maxsize,blocksize)取maxsize,blocksize

之間的最小值

max(minsize, min())取minsize, min()

之間的最大值

blocksize=128mb

所以增加切片大小有要調整min(maxsize,blocksize)中maxsize值

減小切片大小調整minsize值.

具體兩個方法如下:

fileinputformat.setmaxinputsplitsize(job, size);

fileinputformat.setmininputsplitsize(job, size);

Hadoop學習筆記之Hadoop簡介

apache hadoop 是乙個開源的可靠的靈活的分布式的計算系統來自官網主要受google 三篇的啟發 gfs mapreduce bigtable hadoop 海量資料的儲存 hdfs hadoop distributed file system 海量資料的分析 mapreduc...

hadoop學習筆記之zookeeper 安裝配置

zookeeper是乙個分布式的，開放原始碼的分布式應用程式協調服務，是google的chubby乙個開源的實現，是hadoop和hbase的重要元件。它是乙個為分布式應用提供一致性服務的軟體，提供的功能包括配置維護網域名稱服務分布式同步組服務等。由於工程師不能很好地使用鎖機制以及基於訊息協...

Hadoop學習筆記之YARN

yarn service框架提供了一流的支援和api，可以在yarn中本地化時間執行的服務。簡而言之 in a nutshell 它作為乙個容器編排平台，用於管理yarn上的貨櫃化服務。它支援yarn中的docker容器和傳統的基於程序的容器。該框架的職責包括執行配置解決方案和安裝，生命週期管理如...

hadoop筆記之切片大小控制

Hadoop學習筆記之Hadoop簡介

hadoop學習筆記之zookeeper 安裝配置

Hadoop學習筆記之YARN

相關推薦