hadoop筆記之切片大小控制

2021-07-05 05:36:16 字數 543 閱讀 9637

hdfs的block是邏輯上的資料塊.hadoop2.0中每一塊預設大小128mb,實際儲存過程中block大小小於等128mb,它是以檔案為儲存物件.如一200mb大小檔案,分兩個資料塊128mb+72mb  這裡的兩個塊大實際小分別是128mb和72mb

演算法分析:

max(minsize, min(maxsize,blocksize))

min(maxsize,blocksize)取maxsize,blocksize

之間的最小值

max(minsize, min())取minsize, min()

之間的最大值

blocksize=128mb

所以增加切片大小有要調整min(maxsize,blocksize)中maxsize值

減小切片大小調整minsize值.

具體兩個方法如下:

fileinputformat.setmaxinputsplitsize(job, size);

fileinputformat.setmininputsplitsize(job, size);

Hadoop學習筆記之Hadoop簡介

apache hadoop 是乙個開源的 可靠的 靈活的 分布式的計算系統 來自官網 主要受google 三篇 的啟發 gfs mapreduce bigtable hadoop 海量資料的儲存 hdfs hadoop distributed file system 海量資料的分析 mapreduc...

hadoop學習筆記之zookeeper 安裝配置

zookeeper是乙個分布式的,開放原始碼的分布式應用程式協調服務,是google的chubby乙個開源的實現,是hadoop和hbase的重要元件。它是乙個為分布式應用提供一致性服務的軟體,提供的功能包括 配置維護 網域名稱服務 分布式同步 組服務等。由於工程師不能很好地使用鎖機制以及基於訊息協...

Hadoop學習筆記之YARN

yarn service框架提供了一流的支援和api,可以在yarn中本地化時間執行的服務。簡而言之 in a nutshell 它作為乙個容器編排平台,用於管理yarn上的貨櫃化服務。它支援yarn中的docker容器和傳統的基於程序的容器。該框架的職責包括執行配置解決方案和安裝,生命週期管理 如...