spark中建立rdd的幾種方式:
1、使用程式中的集合建立rdd(一般用於測試)
2、使用本地檔案系統建立rdd(一般用於資料量大的檔案的測試)
3、基於hdfs建立rdd(生產環境最常用的rdd建立方式)
4、使用s3建立rdd
5、基於資料流建立rdd
packagecom.dt.sparkimportorg.apache.spark.
/*** created by 全全 on 2016/3/9.
*/objectrddbasedoncollections
}
defmain(args:array[string])//對每一行的字串進行單詞拆分並把所有行的拆分結果通過flat合併成乙個大的集合valpairs = words.map
valwordcounts = pairs.reducebykey(_+_) //對相同的key,進行value的累計(包括local和reducer級別同時reduce)
wordcounts.foreach(wordnumberpair => println(wordnumberpair._1+":"+wordnumberpair._2))
sc.stop()
}
Spark之RDD的建立
在spark中建立rdd的建立方式可以分為三種 從集合中建立rdd 從外部儲存建立rdd 從其他rdd建立。從集合中建立rdd,spark主要提供了兩種函式 parallelize和makerdd 1 使用parallelize 從集合建立 2 使用makerdd 從集合建立 包括本地的檔案系統,還...
建立RDD方式
i 通過外部的儲存系統建立rdd,如本地檔案,hdfs等 scala val a sc.textfile root.text.txt scala val a sc.textfile hdfs hadoop 01 9000 text.txt ii 將driver的scala集合通過並行化的方式變成rd...
spark的rdd建立臨時表的兩張方式
都需要變成dataframe 1.val outstructfield array structfield dataframe.schema.fields val outschema structtype structtype outstructfield structtype age intege...