不多說,直接上乾貨!
方式一:從集合建立rdd
(1)makerdd
(2)parallelize
注意:makerdd可以指定每個分割槽perferredlocations引數,而parallelize則沒有。
方式二:讀取外部儲存建立rdd
spark與hadoop完全相容,所以對hadoop所支援的檔案型別或者資料庫型別,spark同樣支援。
(1)多檔案格式支援:
(2)多檔案系統支援:
1)本地檔案系統
2)s3
3)hdfs
(3)資料庫
1)jdbcrdd
2)spark-cassandra-connector(datastax/spark-cassandra-connector)
3)org.apache.hadoop.hbase.mapreduce.tableinputformat(sparkcontext.newapihadooprdd)
4)elasticsearch-hadoop
Spark RDD概念學習系列之RDD的操作(七)
rdd的操作 rdd支援兩種操作 轉換和動作。1 轉換,即從現有的資料集建立乙個新的資料集。2 動作,即在資料集上進行計算後,返回乙個值給driver程式。例如,map就是一種轉換,它將資料集每乙個元素都傳遞給函式,並返回乙個新的分布式資料集表示結果。另乙個方面,reduce是一種動作,通過一些函式...
Beam概念學習系列之PTransform資料處理
不多說,直接上乾貨!ptransform資料處理 ptransform對pcollection進行並行處理,每次處理1條,例如filter過濾 groupby分組 combine統計 join關聯等等,還允許根據業務邏輯編寫pardo。apache beam借鑑了函式式程式設計的不可變性,ptran...
Storm概念學習系列之storm的功能和三大應用
不多說,直接上乾貨!storm的功能 下面介紹storm 的三大主要應用 1 流處理 stream processing storm 可用來實時處理新資料和更新資料庫,兼具容錯性和可擴充套件性,即 storm 可以用來處理源源不斷流進來的訊息,處理之後將結果寫入某個儲存中。2 持續計算 contin...