Spark中的記憶體管理一

乙個spark應用執行的過程如下所示:

executor上面執行的每個maptask結束後都會有mapstatus匯報給driver, 當maptask數量非常多的時候可能會導致driver出現oom，此時需要調整driver的記憶體大小，通過--conf spark.driver.memory=4g或者--driver-memory 4g來進行設定。

executor的記憶體由--conf spark.executor.memory=4g或者--executor-memory 4g設定。

上面介紹了spark中兩個角色(driver/executor)，其中executor是實際執行task的節點，spark記憶體管理主要在executor上面。

如上圖所示, spark on yarn模式下乙個executor的記憶體使用情況:

整個executor是yarn的乙個container，所以它的總記憶體受yarn.scheduler.maximum-allocation-mb的引數控制;

當使用者提交作業的時候通過spark.executor.memory引數設定了executor的堆記憶體(heapsize)，這部分記憶體的使用情況如上圖所示:

對於spark.executor.memroyoverhead,它是executor可額外使用的堆外(off-heap)記憶體，比如spark的shuffle過程使用的netty就會使用到堆外記憶體，如果程式有遇到相關的oom錯誤，可以嘗試調大該引數。該記憶體不屬於上面spark.executor.memory(on-heap)，但是它們的總和不能超過yarn.scheduler.maximum-allocation-mb.

上圖中execution/storage的記憶體((m-r)*spark.memroy.fraction)是task在executor中執行需要用到的記憶體，它們通過unifiedmemorymanager這個統一記憶體管理器來管理。

unifiedmemorymanager中的execution和storage的管理沒有硬性的邊界控制(比如execution固定佔比多少)，它們之間是乙個軟邊界，初始的邊界由spark.memory.storagefraction來設定(預設0.5),但這個並不是乙個固定的邊界:

a)當execution不夠的時候，可以從storage側借記憶體，如storage基本沒使用(如沒有cache資料等)，execution可以從storage借記憶體甚至全部都借完，即使後續有storage需要用記憶體也不能強制從execution拿回，除非execution後續自己釋放了部分記憶體，storage才能拿來使用;

b)當storage不夠的時候，如果execution有空閒多餘的記憶體，則也可以借，但是後續如果execution又需要更多記憶體了則可以強制從storage拿回記憶體(如可以將storge的資料寫到磁碟,然後釋放對應的記憶體)，直到storage使用的記憶體減少到spark.memory.storagefraction的比例。

Spark中的記憶體管理一

Spark記憶體管理

Spark記憶體管理

Spark記憶體管理

Spark中的記憶體管理 一

Spark記憶體管理

Spark記憶體管理

Spark記憶體管理

相關推薦

Spark中的記憶體管理一