動手實戰建立RDD的三種方式

1.通過已經存在的scala集合

2.通過hdfs，hbase等

從 hadoop中的hdfs讀取資料。

todebugstring可以檢視rdd建立的過程

1.首先要從hadoop中讀取資料，因此會有mapred.fileinputformat,共有88個檔案

2.hadooprdd就把物理層分片轉化成邏輯層分片。

3.mapartitionsrdd就可以把讀取出來的資料做一次轉換，把索引號去掉

3.其他的rdd轉換

rdd支援兩種操作：轉換(transformation),即從現有的資料集建立乙個新的資料集；動作(action)，即在資料集上進行計算後，返回乙個值給driver程式。

例如：map就是一種轉換，它將資料集每乙個元素都傳遞給函式，並返回乙個新的分布式資料集表示結果。reduce是一種動作，通過一些元素將所有元素疊加起來，

並將最終結果返回給driver，其次另乙個reducebykey，能返回乙個分布式資料集。

單詞統計：

從下面的過程可以看出來每個 rdd之間存在的依賴。

三種方式建立DataFrame

import pandas as pd data df pd.dataframe data dfab c047 10158 11269 12import pandas as pd data 4,7,10 5,8,11 6,9,12 df pd.dataframe data,columns a b c...

執行緒的三種建立方式

public class web12306 多執行緒的三種方式 class threadtest01 extends thread class threadtest02 implements runnable class threadtest03 implements callable return...

建立執行緒的三種方式

一是繼承thread方法 public class mythread extends thread private void dosomething public class newthread private static void dosomething 二是實現runnable介面使用r...

動手實戰建立RDD的三種方式

三種方式建立DataFrame

執行緒的三種建立方式

建立執行緒的三種方式

相關推薦