1、a list of partitions
一系列的分片:比如說128m一片,類似於hadoop中的split
2、a function for computing each split
每個分片上都有乙個函式去迭代/執行/計算它
3、a list of dependencies on other rdds
一系列的依賴:rdda轉換為rddb,rddb轉換為rddc,那麼rddc就依賴於rddb,rddb就依賴於rdda
4、optionally,a partitioner for key-value rdds
對應key-value的rdd可以指定乙個partitioner,告訴它如何分片,常用的有hash,range(可以模擬mr中的getpartition)
5、optionally,a list of prefered location(s) to computer each split on
要執行的計算/執行最好在哪(幾)個機器上執行。資料本地性,機器去找資料,而不是資料去找機器
比如hadoop預設乙個block會有三個備份,或者spark cache到記憶體可能通過storagelevel設定了多個副本,所以乙個partition可能返回多個最佳位置
spark的RDD五大特點
rdd的5大特點 1 有乙個分片列表,就是能被切分,和hadoop一樣,能夠切分的資料才能平行計算。一組分片 partition 即資料集的基本組成單位,對於rdd來說,每個分片都會被乙個計算任務處理,並決定平行計算的粒度。使用者可以在建立rdd時指定rdd的分片個數,如果沒有指定,那麼就會採用預設...
演算法的五大特性
輸入 input 演算法可以有0個或多個輸入,用來說明物件的初始值,其中的0的輸入的意思是指演算法自己已經定出了初始條件 輸出 output 演算法中必須有1或多個輸出,因為輸出是用來說明資料處理後的結果,如果乙個演算法沒有了輸出,就失去了存在的意義 確定性 definiteness 演算法中的每一...
資訊保安五大特性
網路資訊保安五大特性 完整性 保密性 可用性 不可否認性 可控性,綜合起來說就是保障電子資訊的有效性。1.完整性 指資訊在傳輸 交換 儲存和處理過程保持非修改 非破壞和非丟失的特性,即保持資訊原樣性,使資訊能正確生成 儲存 傳輸,這是最基本的安全特徵。1.1 完整性實現 資料完整性保護有兩種基本方法...