spark RDD常用運算元(三)

2021-08-30 15:17:22 字數 681 閱讀 9637

first:返回第乙個元素

take:rdd.take(n)返回第n個元素

collect:rdd.collect() 返回 rdd 中的所有元素

count:rdd.count() 返回 rdd 中的元素個數

top:按照降序的或者指定的排序規則,返回前n個元素

takeordered:對rdd元素進行公升序排序,取出前n個元素並返回,也可以自定義比較器(這裡不介紹),類似於top的相反的方法

foreach:迴圈rdd中的每個元素

fold:rdd.fold(num)(func) 一般不用這個函式和 reduce() 一 樣, 但是提供了初始值num,每個元素計算時,先要合這個初始值進行摺疊, 注意,這裡會按照每個分割槽進行fold,然後分割槽之間還會再次進行fold

reduce:並行整合rdd中所有資料, 類似於是scala中集合的reduce

countbyvalue:各元素在 rdd 中出現的次數 返回

lookup函式對(key,value)型的rdd操作,返回指定key對應的元素形成的seq。 這個函式處理優化的部分在於,如果這個rdd包含分割槽器,則只會對應處理k所在的分割槽,然後返回由(k,v)形成的seq。 如果rdd不包含分割槽器,則需要對全rdd元素進行暴力掃瞄處理,搜尋指定k對應的元素。

SparkRDD運算元 sample運算元

val newrdd oldrdd.sample withreplacement,fraction,seed withreplacement表示是抽出的資料是否放回,true為有放回的抽樣,false為無放回的抽樣 fraction表示隨機抽樣的資料數量 seed用於指定隨機數生成器種子 def s...

Spark RDD運算元介紹

spark學習筆記總結 spark可以用於批處理 互動式查詢 spark sql 實時流處理 spark streaming 機器學習 spark mllib 和圖計算 graphx spark是mapreduce的替代方案,而且相容hdfs hive,可融入hadoop的生態系統,以彌補mapre...

Spark RDD運算元介紹

spark學習筆記總結 spark可以用於批處理 互動式查詢 spark sql 實時流處理 spark streaming 機器學習 spark mllib 和圖計算 graphx spark是mapreduce的替代方案,而且相容hdfs hive,可融入hadoop的生態系統,以彌補mapre...