spark 課程總結

2021-07-24 20:07:16 字數 256 閱讀 6127

1. 乙個階段的若干task組成乙個taskset,乙個excutor可以併發執行的多少個task由executor-cores決定。

2.  除非用checkpoint,否則各階段的rdd的資料都儲存到記憶體裡不釋放。spark sql需要的記憶體如果只有乙個階段的shuffle,如group by,各executor的總記憶體應該是輸入記憶體的4倍。

3. spark.defaultparallellism沒有興趣做,所以不能根據任務大小自動設定reduce端的並行度。

Spark 模型總結

註明 以及相關資料均來自scalable machine learning from berkelyx,只是個人總結使用,侵權即刪 mr的價值體現在對大資料集的分布式處理上。如下面的圖例 來自scalable machine learning from berkelyx 將大規模的文件先分開成不同的...

Spark原理總結

spark是uc berkeley amp lab所開源的類hadoop mapreduce的通用分布式平行計算框架。spark擁有hadoop mapreduce所具有的優點,但和mapreduce 的最大不同之處在於spark是 基於記憶體的迭代式計算 spark的job處理的中間輸出結果可以儲...

Spark學習總結

1.spark是什麼?spark是乙個基於記憶體的快速的用於大規模資料處理的統一分析引擎。2.spark有什麼特性?容錯 並行 3.spark的核心元件有哪些?spark core spark sql spark streaming spark mllib spark graphx 4.spark的...