圳鵬大資料 spark Rdd的預設分割槽

2021-08-14 13:14:46 字數 1063 閱讀 5797

1.spark.default.parallelism

2.檔案塊的大小

spark.default.parallelism:(預設的併發數)

本地模式下spark.default.parallelism :

spark-shell                             和spark-default.conf相關預設為4

spark-shell --master local[n] spark.default.parallelism = n (使用n個核)

偽集群模式下:

spark-shell --master local-cluster[x,y,z] spark.default.parallelism = x * y

x為本機上啟動的executor數,

y為每個executor使用的core數,

z為每個 executor使用的記憶體

mesos 細粒度模式:

mesos fine grained mode  spark.default.parallelism = 8
yarn模式stand模式:

spark.default.parallelism =  max(所有executor使用的core總數, 2)
影響預設分割槽的因素還有spark.files.maxpartitionbytes = 128 m,分割槽的數量必須(檔案size/12m)

從本地檔案讀取:

rdd的分割槽數 = max(本地file的分片數, sc.defaultminpartitions)
從hdfs分布式檔案系統:

rdd的分割槽數 = max(hdfs檔案的block數目, sc.defaultminpartitions)
從hbase的資料表:

rdd的分割槽數為該table的region數。
從kafka:

待續。。。。

引用自:

大資料學習 sparkRDD

練習1 map filter 通過並行化生成rdd val rdd1 sc.parallelize list 5,6,4,7,3,8,2,9,1,10 對rdd1裡的每乙個元素乘2然後排序 val rdd2 rdd1.map 2 sortby x x,true 過濾出大於等於十的元素 val rdd...

目前大資料最缺的是什麼?

目前大資料技術演算法已經基本成形,想往更高處發展,需要新的技術產生。而目前大資料發展最缺的不是技術,而是人。從目前的環境來看,國內,大資料專案比較集中在一些大的企業及網際網路公司,當相比網際網路公司的優勢已經很明顯。已經走的企業的前面。企業大資料的現狀為什麼是這樣?1 企業基礎資料不全,例如人員資訊...

大資料時代 大資料的應用

大資料應用的關鍵,也是其必要條件,就在於 it 與 經營 的融合,當然,這裡的經營的內涵可以非常廣泛,小至乙個零售門店的經營,大至乙個城市的經營。以下是我整理的關於各行各業,不同的組織機構在大資料方面的應用的案例,在此申明,以下案例均 於網路,本文僅作引用,並在此基礎上作簡單的梳理和分類。通訊行業 ...