spark RDD基礎裝換操作 zip操作

將數字1~3組成的rdd，與字母a到c組成的rdd應用拉鍊（zip）操作，合併到乙個新的rdd中。

scala>  val rdddata1 = sc.parallelize(1 to 10,5)
rdddata1: org.apache.spark.rdd.rdd[int] = parallelcollectionrdd[32] at parallelize at :24
scala>  val rdddata2 = rdddata1.glom
scala>  rdddata2.collect
res13: array[array[int]] = array(array(1, 2), array(3, 4), array(5, 6), array(7, 8), array(9, 10))
scala>  val rdddata1 = sc.parallelize(1 to 3, 2)
rdddata1: org.apache.spark.rdd.rdd[int] = parallelcollectionrdd[34] at parallelize at :24
scala>  val rdddata2 = sc.parallelize(array("a","b","c"),2)
rdddata2: org.apache.spark.rdd.rdd[string] = parallelcollectionrdd[35] at parallelize at :24
scala>  val rdddata3 = rdddata1.zip(rdddata2)
rdddata3: org.apache.spark.rdd.rdd[(int, string)] = zippedpartitionsrdd2[36] at zip at :28
scala>  rdddata3.collect
res14: array[(int, string)] = array((1,a), (2,b), (3,c))

說明：

zip操作可以將兩個rdd中的元素，以鍵值對的形式合併。

在使用zip操作時，需要確保兩個rdd中的元素個數與分割槽個數完全一樣，否則會出現異常。

python強制裝換

對python內建的資料型別進行轉換時，可以使用內建函式，常用的型別轉換函式如下 python常用型別轉換函式函式格式使用示例描述int x base int 8 可以轉換的包括string型別和其他數字型別，但是會丟失精度 float x float 1 或者float 1 可以轉換stri...

Spark RDD程式設計基礎

從檔案建立rdd lines sc.textfile 篩選出含某個單詞的行 lines.filter lambda 引數條件表示式生成單詞的列表從列表建立rdd words sc.parallelize 篩選出長度大於10 的單詞 words.filter 從檔案建立rdd lines sc....

SparkRDD操作經驗

可以指代集合中的每乙個元素篩選出可以被2整除的數 a.filter 2 0 map 2 注在reducebykey中指代的是鍵值對中的值參考將某些經過了複雜計算得到的rdd存入快取中，避免下次呼叫時重複計算將userinfomation這個rdd儲存到快取中 userinfomation....

spark RDD基礎裝換操作 zip操作

python強制裝換

Spark RDD程式設計基礎

SparkRDD操作經驗

相關推薦