技術難點 Spark效能調優 RDD運算元調優篇

不廢話，直接進入正題！

1. rdd復用

在對rdd進行運算元時，要避免相同的運算元和計算邏輯之下對rdd進行重複的計算，如下圖所示：

對上圖中的rdd計算架構進行修改，得到如下圖所示的優化結果：

2. 盡早filter

獲取到初始rdd後，應該考慮盡早地過濾掉不需要的資料，進而減少對記憶體的占用，從而提公升spark作業的執行效率。

3. 讀取大量小檔案-用wholetextfiles

當我們將乙個文字檔案讀取為 rdd 時，輸入的每一行都會成為rdd的乙個元素。

也可以將多個完整的文字檔案一次性讀取為乙個pairrdd，其中鍵是檔名，值是檔案內容。

val input:rdd[string] = sc.textfile("dir/*.log")

如果傳遞目錄，則將目錄下的所有檔案讀取作為rdd。檔案路徑支援萬用字元。

但是這樣對於大量的小檔案讀取效率並不高，應該使用wholetextfiles

返回值為rdd[(string, string)]，其中key是檔案的名稱，value是檔案的內容。

def wholetextfiles(path: string, minpartitions: int = defaultminpartitions): rdd[(string, string)])

wholetextfiles讀取小檔案:

val filesrdd: rdd[(string, string)] =
sc.wholetextfiles("d:\\data\\files", minpartitions = 3)
val linesrdd: rdd[string] = filesrdd.flatmap(_._2.split("\\r\\n"))
val wordsrdd: rdd[string] = linesrdd.flatmap(_.split(" "))
wordsrdd.map((_, 1)).reducebykey(_ + _).collect().foreach(println)

map(_….) 表示每乙個元素

如果是普通的map運算元，假設乙個partition有1萬條資料，那麼map運算元中的function要執行1萬次，也就是對每個元素進行操作。

rrd.foreache(_….) 表示每乙個元素

rrd.forpartitions(_….) 表示每個分割槽的資料組成的迭代器

在生產環境中，通常使用foreachpartition運算元來完成資料庫的寫入，通過foreachpartition運算元的特性，可以優化寫資料庫的效能。

如果使用foreach運算元完成資料庫的操作，由於foreach運算元是遍歷rdd的每條資料，因此，每條資料都會建立乙個資料庫連線，這是對資源的極大浪費，因此，對於寫資料庫操作，我們應當使用foreachpartition運算元。

使用了foreachpartition 運算元後，可以獲得以下的效能提公升：

對於我們寫的function函式，一次處理一整個分割槽的資料；

對於乙個分區內的資料，建立唯一的資料庫連線；

只需要向資料庫傳送一次sql語句和多組引數；

5. filter+coalesce/repartition(減少分割槽)

在spark任務中我們經常會使用filter運算元完成rdd中資料的過濾，在任務初始階段，從各個分割槽中載入到的資料量是相近的，但是一旦進過filter過濾後，每個分割槽的資料量有可能會存在較大差異，如下圖所示：

根據上圖我們可以發現兩個問題：

每個partition的資料量變小了，如果還按照之前與partition相等的task個數去處理當前資料，有點浪費task的計算資源；

每個partition的資料量不一樣，會導致後面的每個task處理每個partition資料的時候，每個task要處理的資料量不同，這很有可能導致資料傾斜問題。

如上圖所示，第二個分割槽的資料過濾後只剩100條，而第三個分割槽的資料過濾後剩下800條，在相同的處理邏輯下，第二個分割槽對應的task處理的資料量與第三個分割槽對應的task處理的資料量差距達到了8倍，這也會導致執行速度可能存在數倍的差距，這也就是資料傾斜問題。

針對上述的兩個問題，我們分別進行分析：

針對第乙個問題，既然分割槽的資料量變小了，我們希望可以對分割槽資料進行重新分配，比如將原來4個分割槽的資料轉化到2個分割槽中，這樣只需要用後面的兩個task進行處理即可，避免了資源的浪費。

針對第二個問題，解決方法和第乙個問題的解決方法非常相似，對分割槽資料重新分配，讓每個partition中的資料量差不多，這就避免了資料傾斜問題。

那麼具體應該如何實現上面的解決思路？我們需要coalesce運算元。

repartition與coalesce都可以用來進行重分割槽，其中repartition只是coalesce介面中shuffle為true的簡易實現，coalesce預設情況下不進行shuffle，但是可以通過引數進行設定。

假設我們希望將原本的分割槽個數a通過重新分割槽變為b，那麼有以下幾種情況：

a > b（多數分割槽合併為少數分割槽）

技術難點 Spark效能調優 RDD運算元調優篇

spark 效能調優

Spark效能調優

Spark效能調優 JVM調優

技術難點 Spark效能調優 RDD運算元調優篇

spark 效能調優

Spark效能調優

Spark效能調優 JVM調優

相關推薦