關於RDD分割槽（一）

rdd是彈性分布式資料集，通常rdd很大，會被分成很多個分割槽，分別儲存在不同的節點上，作用有二：增加並行度和減少通訊開銷（連線操作），例如下圖：

rdd分割槽原則：

rdd分割槽的乙個原則是使得分割槽的個數盡量等於集群中的cpu核心（core）數目

對於不同的spark部署模式而言（本地模式、standalone模式、yarn模式、mesos模式），都可以通過設定spark.default.parallelism這個引數的值，來配置預設的分割槽數目，一般而言：

*本地模式：預設為本地機器的cpu數目，若設定了local[n],則預設為n，local[*]則自動判斷

*apache mesos：預設的分割槽數為8

*standalone或yarn：在「集群中所有cpu核心數目總和」和「2」二者中取較大值作為預設值

設定分割槽的個數的方法：

建立rdd時手動指定分割槽個數

使用reparititon方法重新設定分割槽個數

自定義分割槽方法：

spark提供了自帶的hashpartitioner（雜湊分割槽）與rangepartitioner（區域分割槽），能夠滿足大多數應用場景的需求。與此同時，spark也支援自定義分割槽方式，即通過提供乙個自定義的partitioner物件來控制rdd的分割槽方式，從而利用領域知識進一步減少通訊開銷。

那麼問題來了：改變分割槽數會影響集群的效率嗎？

關於RDD分割槽（一）

RDD分割槽理解

RDD的分割槽數

spark 的RDD分割槽

關於RDD分割槽（一）

RDD分割槽理解

RDD的分割槽數

spark 的RDD分割槽

相關推薦