想測試指定檔案個數的小檔案是比如217k,1w個檔案,進行到100多時會報,反覆嘗試都如此
fatal: too large position discovered in request!
後面想了估計跟block-size有關,估計每個檔案的大小必須是blocksize的整數倍才行。嘗試了一下,果然如此。
sysbench --test=fileio --num-threads=10 --file-num=10000 --file-block-size=8k --file-total-size=2240000k --file-test-mode=rndrd 【prepare, run, cleanup】
其它相關問題
另外,公司的機器上limits -n增加了最大限制,需要修改一下/etc/security/limits.conf才能ulimit -n配置才能生效
sudo vi /etc/security/limits.conf
* - nofile 463840
非root使用者, echo 3 > /proc/sys/vm/drop_caches和sudo echo 3 > /proc/sys/vm/drop_caches都不行,只能手工sudo vi /proc/sys/vm/drop_caches
另外,sudo ulimit找不到路徑,想要改root使用者下的ulimit需要sudo /bin/bash -c 'ulimit -n 400000' 。。。
小檔案問題
5.2 小檔案問題 小檔案是指檔案size小於hdfs上block大小的檔案。這樣的檔案會給hadoop的擴充套件性和效能帶來嚴重問題。首先,在hdfs中,任何block,檔案或者目錄在記憶體中均以物件的形式儲存,每個物件約佔150byte,如果有1000 0000個小檔案,每個檔案占用乙個bloc...
Spark Sql 小檔案問題
參考 使用spark sql apis 處理資料容易產生生成大量小檔案,小檔案問題也是在分布式計算中常見的問題。一般有三種方法來處理這類問題 spark.sql.shuffle.partitions 引數通過在處理joins 或 aggregations 等shuffle操作來控制輸出的分割槽數。可...
Hive insert into小檔案問題
測試資料 create table test small dist id intcomment 區組id account string comment 賬號 gold intcomment 金幣 row format delimited fields terminated by 插入兩條資料 ins...