spark引數調整
1. 減少num-executors,調大executor-memory,這樣的目的是希望executor有足夠的記憶體可以使用
2. cache的級別適當調成memory_only_ser和disk_only
3. 修改邏輯,避免shuffle;shuffle是stage的區分標準
4. 引數設定
spark.sql
.shuffle
.partitions
spark.serializer
5.設定廣播變數
2. spark 提高並行度
實現簡單,可在需要shuffle的操作運算元上直接設定並行度或者使用spark.default.parallelism設定。如果是spark sql,還可通過set spark.sql.shuffle.partitions=[num_tasks]設定並行度。可用最小的代價解決問題。一般如果出現資料傾斜,都可以通過這種方法先試驗幾次,如果問題未解決,再嘗試其它方法。
spark之shuffle引數優化
spark.shuffle.file.buffer預設32k shuffle write task端的緩衝區,到達閾值後,溢寫到磁碟。將數值調大,減少io操作,提公升整體效能 具體數值根據實際情況設定 spark.reducer.maxsizeinflight預設48m reduce shuffle...
linux 核心引數調整優化網路
linux系統核心設定優化tcp網路,vi etc sysctl.conf,新增以下內容 net.ipv4.tcp syncookies 1 表示開啟syn cookies。當出現syn等待佇列溢位時,啟用cookies來處理,可防範少量syn攻擊,預設為0,表示關閉 net.ipv4.tcp tw...
mysql 優化 調整mysql 併發相關引數
引數控制允許連線到mysql 資料庫的最大數量.預設值151.如果狀態變數connection errors max connections 不為零,並且一直在增長,說明不斷有連線請求因資料庫已達到最大允許的值而失敗.應考慮增大max connections 值.在增大max connections...