總目錄:
hadoop - 子目錄:
從大方向來說,運算元有兩種型別,對應著sparkrdd的兩種操作--轉換型別操作和動作型別操作。也就是:
如果在細緻劃分一下,轉換型別運算元由兩種型別:針對於value資料的transformation運算元和針對k-v資料的transformation運算元。
輸入分割槽與輸出分割槽一對一型
輸入分割槽與輸出分割槽多對一型
輸入分割槽與輸出分割槽多對多型
輸出分割槽為輸入分割槽子集型
cache型
輸入分割槽與輸出分割槽一對一
對單個rdd或兩個rdd聚集
單個rdd聚集
兩個rdd聚集
連線無輸出
hdfs
聚合運算元
Spark運算元詳解
目錄 spark常用運算元詳解 3.getnumpartitions 4.partitions 5.foreachpartition 6.coalesce 7.repartition 8.union,zip,join 9.zipwithindex,zipwithuniqueid 未完待續.本文主要介...
spark常用運算元詳解
1.map 接收乙個函式,對於rdd中的每乙個元素執行此函式操作,結果作為返回值。eg val rdd sc.parallelize array 1,2,3,4 1 rdd.map x x x foreach println x x x 將元素x做平方處理,scala語句 sparkcontext....
Spark(二)運算元詳解
目錄基於上次的wordcount,我們來寫乙個wordcountcount,來對wc程式進行第二次計數,我們來分析一下效能。package com.littlepage.wc import org.apache.spark.rdd.rdd import org.apache.spark.object...