如何高效使用Spark的mappartition

主要是map和foreach這類的是針對乙個元素呼叫一次我們的函式，也即是我們的函式引數是單個元素，假如函式內部存在資料庫鏈結、檔案等的建立及關閉，那麼會導致處理每個元素時建立一次鏈結或者控制代碼，導致效能底下，很多初學者犯過這種毛病。而foreachpartition是針對每個分割槽呼叫一次我們的函式，也即是我們函式傳入的引數是整個分割槽資料的迭代器，這樣避免了建立過多的臨時鏈結等，提公升了效能。

val a = sc.parallelize(1 to 20, 2)
defmapterfunc
(a : int) : int = 
val mapresult = a.map(mapterfunc)
println(mapresult.collect().mkstring(","))
結果3,6,9,12,15,18,21,24,27,30,33,36,39,42,45,48,51,54,57,60

val a = sc.parallelize(1 to 20, 2)
defterfunc
(iter: iterator[int]) : iterator[int] = 
res.iterator
}println(result.collect().mkstring(","))
結果30,27,24,21,18,15,12,9,6,3,60,57,54,51,48,45,42,39,36,33

class
customiterator
(iter: iterator[int])
extends
iterator[int] 
def next : int= 
}  println(result.collect().mkstring(","))
結果：3,6,9,12,15,18,21,24,27,30,33,36,39,42,45,48,51,54,57,60

如何高效使用Spark的mappartition

如何高效使用Spark的mappartition

Map的高效遍歷

如何高效的使用STL

如何高效使用Spark的mappartition

如何高效使用Spark的mappartition

Map的高效遍歷

如何高效的使用STL

相關推薦