Spark RDD概念學習系列之如何建立RDD

不多說，直接上乾貨！

方式一：從集合建立rdd

（1）makerdd

（2）parallelize

注意：makerdd可以指定每個分割槽perferredlocations引數，而parallelize則沒有。

方式二：讀取外部儲存建立rdd

spark與hadoop完全相容，所以對hadoop所支援的檔案型別或者資料庫型別，spark同樣支援。

（1）多檔案格式支援：

（2）多檔案系統支援：

1)本地檔案系統

2)s3

3)hdfs

（3）資料庫

1)jdbcrdd

2)spark-cassandra-connector（datastax/spark-cassandra-connector）

3)org.apache.hadoop.hbase.mapreduce.tableinputformat(sparkcontext.newapihadooprdd)

4)elasticsearch-hadoop

Spark RDD概念學習系列之RDD的操作（七）

rdd的操作 rdd支援兩種操作轉換和動作。1 轉換，即從現有的資料集建立乙個新的資料集。2 動作，即在資料集上進行計算後，返回乙個值給driver程式。例如，map就是一種轉換，它將資料集每乙個元素都傳遞給函式，並返回乙個新的分布式資料集表示結果。另乙個方面，reduce是一種動作，通過一些函式...

Beam概念學習系列之PTransform資料處理

不多說，直接上乾貨！ptransform資料處理 ptransform對pcollection進行並行處理，每次處理1條，例如filter過濾 groupby分組 combine統計 join關聯等等，還允許根據業務邏輯編寫pardo。apache beam借鑑了函式式程式設計的不可變性，ptran...

Storm概念學習系列之storm的功能和三大應用

不多說，直接上乾貨！storm的功能下面介紹storm 的三大主要應用 1 流處理 stream processing storm 可用來實時處理新資料和更新資料庫，兼具容錯性和可擴充套件性，即 storm 可以用來處理源源不斷流進來的訊息，處理之後將結果寫入某個儲存中。2 持續計算 contin...

Spark RDD概念學習系列之如何建立RDD

Spark RDD概念學習系列之RDD的操作（七）

Beam概念學習系列之PTransform資料處理

Storm概念學習系列之storm的功能和三大應用

相關推薦