Spark學習總結

2021-08-21 11:08:35 字數 531 閱讀 2737

1.spark是什麼?

spark是乙個基於記憶體的快速的用於大規模資料處理的統一分析引擎。

2.spark有什麼特性?

容錯、並行

3.spark的核心元件有哪些?

spark core、spark sql、spark streaming、spark mllib、spark graphx

4.spark的核心資料模型?

rdd(resilient distrubuted dataset,彈性分布式資料集)是乙個抽象的元素集合,包含有資料。

彈性體現在,rdd的資料預設情況下是儲存在記憶體中的,如果記憶體中儲存不下,spark會自動將rdd中的資料寫入到磁碟中。

分布式體現在,rdd的資料是分割槽儲存的,這樣不同分割槽的資料就可以分布在不同的節點上並行處理。

5.sparksession.sql("語句")

語句中如果出現判斷型別的語句,如 string = int時,不需要型別轉換。

as 是可以使用的,跟sql中的作用一樣

雙引號換行要注意換行符或者空格的使用

spark學習資源總結

1 spark 中文文件目錄彙總 主要是rdd的一些操作 2 spark streaming 大規模流式資料處理的新貴 3 spark streaming與spark core的關係 4 spark入門實戰系列 7.spark streaming 上 實時流計算spark streaming原理介紹...

Spark 模型總結

註明 以及相關資料均來自scalable machine learning from berkelyx,只是個人總結使用,侵權即刪 mr的價值體現在對大資料集的分布式處理上。如下面的圖例 來自scalable machine learning from berkelyx 將大規模的文件先分開成不同的...

spark 課程總結

1.乙個階段的若干task組成乙個taskset,乙個excutor可以併發執行的多少個task由executor cores決定。2.除非用checkpoint,否則各階段的rdd的資料都儲存到記憶體裡不釋放。spark sql需要的記憶體如果只有乙個階段的shuffle,如group by,各e...