提高rdd的使用效率。
spark快取策略示例:
不需要快取)
引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)
1.disk_only
引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)
2.disk_only_2
副本2份
引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)
3.memory_only(預設的)
引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)
4.memory_only_2
引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)
5.memory_only_ser
ser做序列化。會消耗cpu。
引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)
6.memory_only_ser_2
引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)
7.memory_and_disk
記憶體中若放不下,則多出的部分放在機器的本地磁碟上,區別於memory_only(記憶體中若放不下,則多出的部分原來在哪就還在哪)
引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)
8.memory_and_disk_2
引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)
9.memory_and_disk_ser
引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)
10.memory_and_disk_ser_2
引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)
11.off_heap(不使用堆,比如可以使用tachyon)
引數:_usedisk, _usememory, _useoffheap, _deserialized, _replication(預設值為1)
如何選擇rdd的持久化策略?
1.cache() memeory_only
2.memory_only_ser
3._2
4.能使用記憶體就不使用磁碟
鬥地主策略說明
以鬥地主策略說明 不僅涉及博弈論,還涉及概率 邏輯推理和心理學 1.什麼情況下應該要地主?一副牌總共有四個2,兩個王,我們叫大牌。可能出現的情況有 1 無大牌。這個時候明顯不能要。2 有1張大牌。如果是2,不要。如果是大王,牌型整齊兩手出完可以要。總體建議不要。3 有2張大牌。兩個2,不要。一2一小...
Spark運算元選擇策略
內容 reducebykey aggregatebykey底層使用combinerbykey實現,會在map端進行區域性聚合 groupbykey不會 通常對乙個rdd執行filter運算元過濾掉rdd中較多資料後 比如30 以上的資料 建議使用coalesce運算元,手動減少rdd的partiti...
粗略說明 自定義控制項快取的實現
petshop源程式的呼叫順序 1 首先過載onload函式 1 獲取url的page值 string page context.request key page 2 設定page值 onpageindexchanged new datagridpagechangedeventargs null,i...