1.通過已經存在的scala集合
2.通過hdfs,hbase等
從 hadoop中的hdfs讀取資料。
todebugstring可以檢視rdd建立的過程
1.首先要從hadoop中讀取資料,因此會有mapred.fileinputformat,共有88個檔案
2.hadooprdd就把物理層分片轉化成邏輯層分片。
3.mapartitionsrdd就可以把讀取出來的資料做一次轉換,把索引號去掉
3.其他的rdd轉換
rdd支援兩種操作:轉換(transformation),即從現有的資料集建立乙個新的資料集;動作(action),即在資料集上進行計算後,返回乙個值給driver程式。
例如:map就是一種轉換,它將資料集每乙個元素都傳遞給函式,並返回乙個新的分布式資料集表示結果。reduce是一種動作,通過一些元素將所有元素疊加起來,
並將最終結果返回給driver,其次另乙個reducebykey,能返回乙個分布式資料集。
單詞統計:
從下面的過程可以看出來每個 rdd之間存在的依賴。
三種方式建立DataFrame
import pandas as pd data df pd.dataframe data dfab c047 10158 11269 12import pandas as pd data 4,7,10 5,8,11 6,9,12 df pd.dataframe data,columns a b c...
執行緒的三種建立方式
public class web12306 多執行緒的三種方式 class threadtest01 extends thread class threadtest02 implements runnable class threadtest03 implements callable return...
建立執行緒的三種方式
一 是繼承thread方法 public class mythread extends thread private void dosomething public class newthread private static void dosomething 二 是實現runnable介面 使用r...