rdd語法:(踩坑日記)
map() =>(k,(v1,v2,v3)) #最多不能超過兩個數
mapvalues()=>(v)
flatmap()
filter(k,v=>條件) =>後面不能用distinct,應該在前面的map之後用distinct
repartition(n)=>重新指定分割槽數
rdd1.union(rdd2) =>全部求並集
rdd1.intersec(rdd2)=>求出交集
distinct=>去重
groupbykey=>(k,iterator[v])
groupby(x)=>(x,iterator[last])
sortbykey(fase/true,任務數)=>
sortby=>
rdd1.join(rdd2)=>(k,iterate,iterabte)
reducebykey=>(k,v1+v2+v3...+vn)聚集
reduce=>result=v1+v2+v3+...vn
collect()
count()=>rdd的元素個數 #與_.size不同
first()
take(n)
countbykey()=>(k,int(元素個數))
foreach()
基於Scala的RDD運算
def addone x int int map運算 對rdd中每乙個元素做乙個轉換操作,生成乙個新的rdd println 使用具體的函式完成map運算 intrdd.map addone collect mkstring println 使用匿名函式完成map運算 intrdd.map x x ...
scala基礎語法
一 變數定義 1 val 定義的變數值不可以修改 2 var 定義的變數值可以修改 二 一些變數型別 1 unit 表示不返回任何結果方法的結果型別,相當於void 2 null null 空引用 3 nothing 任何其他類的子型別 4 any 所有其他類的父類 5 anyref 所有引用類的基...
Scala基本語法
scala基本語法 object表示物件,因為scala中沒有靜態物件這一說,但是要實現單例模式該怎麼辦呢?這時就可以使用object關鍵字。如果要對某個類實現單例模式,我們可以使用object 再定義乙個同class 類名相同的物件。它和class定義的類的區別在於,object定義的物件不允許有...