Spark快取策略說明及選擇

2021-08-03 04:22:36 字數 1814 閱讀 4082

提高rdd的使用效率。

spark快取策略示例:

不需要快取)

引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)

1.disk_only

引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)

2.disk_only_2

副本2份

引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)

3.memory_only(預設的)

引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)

4.memory_only_2

引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)

5.memory_only_ser

ser做序列化。會消耗cpu。

引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)

6.memory_only_ser_2

引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)

7.memory_and_disk

記憶體中若放不下,則多出的部分放在機器的本地磁碟上,區別於memory_only(記憶體中若放不下,則多出的部分原來在哪就還在哪)

引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)

8.memory_and_disk_2

引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)

9.memory_and_disk_ser

引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)

10.memory_and_disk_ser_2

引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)

11.off_heap(不使用堆,比如可以使用tachyon)

引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)

如何選擇rdd的持久化策略?

1.cache() memeory_only

2.memory_only_ser

3._2

4.能使用記憶體就不使用磁碟

鬥地主策略說明

以鬥地主策略說明 不僅涉及博弈論,還涉及概率 邏輯推理和心理學 1.什麼情況下應該要地主?一副牌總共有四個2,兩個王,我們叫大牌。可能出現的情況有 1 無大牌。這個時候明顯不能要。2 有1張大牌。如果是2,不要。如果是大王,牌型整齊兩手出完可以要。總體建議不要。3 有2張大牌。兩個2,不要。一2一小...

Spark運算元選擇策略

內容 reducebykey aggregatebykey底層使用combinerbykey實現,會在map端進行區域性聚合 groupbykey不會 通常對乙個rdd執行filter運算元過濾掉rdd中較多資料後 比如30 以上的資料 建議使用coalesce運算元,手動減少rdd的partiti...

粗略說明 自定義控制項快取的實現

petshop源程式的呼叫順序 1 首先過載onload函式 1 獲取url的page值 string page context.request key page 2 設定page值 onpageindexchanged new datagridpagechangedeventargs null,i...