Spark On YARN部署模式下的記憶體分配情況

2021-08-04 19:00:45 字數 668 閱讀 3584

本文主要了解spark on yarn部署模式下的記憶體分配情況,因為沒有深入研究spark的源**,所以只能根據日誌去看相關的源**,從而了解「為什麼會這樣,為什麼會那樣」。

按照spark應用程式中的driver分布方式不同,spark on yarn有兩種模式:yarn-client模式、yarn-cluster模式。

當在yarn上執行spark作業,每個spark executor作為乙個yarn容器執行。spark可以使得多個tasks在同乙個容器裡面執行。

關於spark on yarn相關的配置引數,請參考

spark配置引數

注意:另外,因為任務是提交到yarn上執行的,所以yarn中有幾個關鍵引數,參考yarn的記憶體和cpu配置:

yarn.nodemanager.resource.memory-mb:nodemanager能夠申請的最大記憶體,預設值為8192mb

yarn.scheduler.minimum-allocation-mb:排程時乙個container能夠申請的最小資源,預設值為1024mb

yarn.scheduler.maximum-allocation-mb:排程時乙個container能夠申請的最大資源,預設值為8192mb

Spark on yarn安裝部署

說明 1.spark的部署模式主要有 local模式 standalone模式 yarn模式 yarn client,yarn master mesos模式 coarse grained mode,fine grained mode。整理了幾篇說明性blog spark集群三種部署模式的區別 spa...

spark on yarn 模式在hdp異常處理

其中乙個異常關鍵字 bad substitution 然後在stackoverflow發現相同提問,文中提到是因為沒有制定hdp版本,我才明白spark bin hadoop,編譯的是原生態的hadoop。英文應該都懂,我就不用翻譯了。正常情況遇見問題,不應該直接在網上找答案,診斷流程 從log或者...

Spark on YARN的兩種模式

目錄前言 一 client模式 二 cluster模式 三 兩種模式對比 需要在環境變數裡設定hadoop conf dir或yarn conf dir,告訴spark如何連線hadoop 可以看到兩種模式,最大的區別就是 client模式driver執行在本地,而cluster模式driver執行...