1、啟動spark
spark-shell --master local[2]
2、建立乙個最簡單的rdd
val rdd = sc.makerdd(list(1,2,3,4,5));
3、檢視rdd
rdd.collect()
返回res0: array[int] = array(1, 2, 3, 4, 5)
4、rdd指定分割槽(這樣9個資料,就放在了3個分割槽中)
val rdd = sc.makerdd(list(1,2,3,4,5,6,7,8,9),3)
5、檢視分割槽的方法
執行以下**,定義rddutil
import org.apache.spark.rdd.rdd
import scala.reflect.classtag
object rddutil
partitionmap(i) = valuelist
partitionmap.iterator
}).collect().foreach((partitionmap:(int, list[t])) =>
})}}
執行檢視
rddutil.lookpartition(rdd)
partition:[0]12
3partition:[1]45
6partition:[2]78
9
RDD彈性分布式資料集特性總結
rdd彈性分布式資料集 集合分布式的 1 最重要的特性 分割槽 rdd究竟是如何分割槽?從外部載入資料時,比如hdfs,分割槽數與hdfs的block數一致 從內部的單機list中載入資料為rdd,parallelize numpartition 從mysql等非內建支援的資料來源載入資料,分割槽就...
大資料技術學習 彈性分布式資料集RDD
一 rdd定義 rdd resilient distributed dataset 叫做分布式資料集,是spark中基本的資料抽象,它代表乙個不可變 資料和元資料 可分割槽 裡面的元素可平行計算的集合。其特點在於自動容錯,位置感知性排程和可伸縮性。二 rdd的屬性 1 一組分片。即資料集的基本組成單...
Spark系列之分布式資料集 DataFrame
目錄 1 df的建立 2 臨時表 3 sql查詢 4 rdd到df的轉換 5 df的api 簡介dataframe是一種不可變的分布式資料集,資料被組織成指定的列。和資料庫中的表類似。以下的spark變數均由sparksession建立。1 dataframe的建立 jsondf spark.rea...