調節flume的配置引數
1.source
(1)增加source元件的數量,可以增大source讀取資料的能力
(2)batchsize引數決定source一次批量傳輸到channel的event數量;將引數batchsize的值調大,可以調高source搬運event的能力。
2.channel
(1)type選擇memory時channel效能最好,但是容錯不行,一旦flume程序意外掛程式掉可能會導致資料丟失。type選擇file時channel的容錯性能好,但是效率不高。使用file時datadirs配置多個不同的盤下的目錄可能會提高效率。
3.sink
(1)增加sink的個數可以增加sink消費event的能力。當然sink也不是越多越好,夠用就行,過多會占用系統資源 。
(2)batchsize引數決定一次從cannel中讀取出event的數量,調大batchsize的引數也可以提高效率。
spark調優 shuffle調優
基於spark1.6 引數可以通過 new sparkcontext set 來設定,也可以通過命令的引數設定 conf spark.shuffle.file.buffer 預設值 32k 引數說明 該引數用於設定shuffle write task的bufferedoutputstream的buf...
Spark Spark調優 資源調優
spark在乙個executor的記憶體分為三塊,1.一塊是execution記憶體 2.一塊是storge 記憶體 3.一塊是其他記憶體 執行記憶體是執行記憶體,加入,聚合都是在這部分記憶體中執行.shuffle的資料也會先快取在這個記憶體中,滿了再寫入磁碟,能減少io,其實地圖過程也是在這個記憶...
spark調優 shuffle調優
每乙個shuffle的前半部分stage的task,每個task都會建立下乙個stage的task數量相同的檔案,比如下乙個stage會有100個task,那麼當前stage每個task都會建立100份檔案,會將同乙個key對應的values,一定是寫入同乙個檔案中的,也一定會將同乙個key對應的v...