RDD操作建立RDD，轉換操作

學習完廈門大學資料庫spark課程總結

rdd是面對物件的檔案集合，類似於dataframe的一行資料，

建立rdd有很多種模式

lines = sc.textfile(「file:///usr/local/spark/…檔案目錄位址」）注意sc是sparkcontext縮寫可能需要import一下，這是從本地檔案建立rdd，file：後面是三個///

lines = sc.textfile(「hdfs://localhost:90000/usr/檔案目錄位址」）從hdfs中建立rdd,也可以不寫前面的目錄，直接寫檔名稱也行

llines = sc.parallelize(array) 通過並行陣列建立rdd，相當於把（1，2，3）變成了rdd（1）（2）（3）

rdd的操作包括了轉換操作和行動操作，rdd本身是無法修改的，每一次轉換操作都會形成新的rdd，但rdd的轉換操作是依賴惰性機制的，就是說轉換過程並不是真的轉換了，只是記錄了轉換的軌跡，等到行動操作發生時，才真的開始轉換

rdd轉換操作之filter

lineswithspark = lines.filter(lambda line: 「spark」 in line)

rdd轉換操作之map

words = lines.map(lambda line:line.split(" 「)) 用空格切分，與python一致，」screw you「變成 array（」screw「，」you「）

rdd轉換操作之flatmap

words = lines.flatmap(lambda line:line.split(」 ")) 直接切成乙個乙個的，變成（」screw「）（」you「）

rdd轉換操作之groupbykey

groupbykey只能對鍵值對操作，把words = [（」spark「，1）,（『spark」，1）]變成（「spark」，（1，1））

rdd轉換操作之reducebykey

wordscount = words.reducebykey(lambda:a ,b:a+b) 只能對鍵值對操作，把words = [（」spark「，1）,（『spark」，1）]變成（「spark」，2）

rdd行動操作

rdd = sc.parallelize([1,2,3])

rdd.count() 結果3

rdd.first()結果1

rdd.take(2)結果 [1,2]

rdd.reduce(lambda:a,b:a+b) 結果6

rdd.collect()結果[1,2,3] 以陣列形式返回

rdd.foreach(lambda elem:print(elem))python3以前版本不支援foreach