大量小檔案的缺點:
1) 占用namenode記憶體
2) 處理時增加map任務數量,增加定址次數
1 使用har(hadoop archives),構建在其他檔案系統之上用於檔案存檔的檔案系統
hadoop存檔檔案系統通常將hdfs中的多個檔案打包成乙個存檔檔案,減少namenode記憶體的使用
hadoop archive命令建立har檔案
2 使用sequencefile
3 執行時使用combinerfileinputformat
reference:
處理大量TIME WAIT的情況
登陸伺服器的時候輸入 netstat an grep mysql netstat an awk tcp sort uniq c 發現存在大量time wait狀態的連線 tcp 0 0 127.0.0.1 3306 127.0.0.1 41378 time wait tcp 0 0 127.0.0....
QTreeView處理大量資料
如何使qtreeview快速顯示1000萬條資料,並且記憶體佔用量少呢?這個問題困擾我很久,在網上找了好多相關資料,都沒有找到合理的解決方案,今天在這裡把我的解決方案提供給朋友們,供大家相互學習。我開始使用的qtreewidget 控制項來顯示我的資料,發現該控制項在顯示10000行以下的資料還可以...
linux 下大量TIME WAIT 的處理
原文 linux 下大量time wait 的處理 linux下高併發的squid伺服器,tcp time wait套接字數量經常達到兩 三萬,伺服器很容易被拖死。通過修改linux核心引數,可以減少伺服器的ime wait套接字數量。vim etc sysctl.conf 增加以下幾行 net.i...