rdd又叫彈性分布式資料集,是spark資料的基礎單元,spark程式設計是圍繞著在rdd上建立和執行操作來進行的。它們是跨集群進行分割槽的不可變集合(immutable collection),如果某個分割槽丟失,這些分割槽可以重建(重新計算)。它們是使用資料流運算子(map, filter, groupby)在穩定儲存中通過對資料進行變換而建立的,並且可以在並行運算架構的記憶體中進行快取。
彈性:如果記憶體中的資料丟失,它可以重新建立(或重新計算)
分布式:在集群中進行分布
資料集:初始資料可以來自檔案或以程式設計方式建立
Spark學習之RDD程式設計(一)
rdd是spark的核心概念,它是乙個可讀的 可分割槽的分布式資料集,這個資料集的全部或部分可以快取在記憶體中,可在多次計算間重用。spark用scala語言實現了rdd的api,我們可以通過呼叫api實現對rdd的各種操作,從而實現各種複雜的應用。spark採用textfile 方法從檔案系統中載...
Spark之RDD的屬性
1.一組分片 partition 即資料集的基本組成單位。對於rdd來說,每個分片都會被乙個計算任務處理,並決定平行計算的粒度。使用者可以在建立rdd時指定rdd的分片個數,如果沒有指定,那麼就會採用預設值。預設值就是程式所分配到的cpu core的數目。2.乙個計算每個分割槽的函式。spark中r...
Spark之RDD的建立
在spark中建立rdd的建立方式可以分為三種 從集合中建立rdd 從外部儲存建立rdd 從其他rdd建立。從集合中建立rdd,spark主要提供了兩種函式 parallelize和makerdd 1 使用parallelize 從集合建立 2 使用makerdd 從集合建立 包括本地的檔案系統,還...