Spark學習筆記 概念知識

2022-03-18 14:45:29 字數 457 閱讀 8797

rdd被視為由不同的資料塊組成,對於rdd的訪問是以資料塊為單位的,本質上分割槽(partition)和資料塊(block)是等價的,只是看待的角度不同。

資料塊spark儲存管理模組中所管理的幾種主要資料塊

rdd資料塊:用來標識所快取的rdd資料

shuffle資料塊:用來標識持久化的shuffle資料

廣播變數資料塊:用來標識所儲存的廣播變數資料

任務返回結果資料塊:用來標識儲存在儲存管理模組內部的任務返回結果

通常情況下任務返回結果隨任務一起通過akka返回到driver端,但是當任務返回結果很大時,會引起akka幀溢位,這時的另一種方案是將返回結果以塊的形式放入儲存管理模組,然後在driver端獲取該資料塊即可,因為儲存管理模組內部資料塊的傳輸是通過socket連線的,因此就不會出現akka幀溢位了。

流式資料塊:只用在spark streaming中,用來表示所接收到的流式資料塊。

Spark學習筆記 Spark基礎知識

1 rdd表示分布在多個計算節點上的可以並行操作的元素集合,是spark主要的變成抽象。spark streaming 是 spark 提供的對實時資料進行流式計算的元件 spark是乙個用於集群計算的通用計算框架,因此被應用於各種各樣的應用程式 2 從上層來看,每個saprk應用都有乙個驅動器程式...

spark 學習筆記

最近使用spark簡單的處理一些實際中的場景,感覺簡單實用,就記錄下來了。部門使用者業績表 1000w測試資料 使用者 部門 業績 資料載入 val context new sparkcontext conf var data context.textfile data.txt 場景1 求每個部門的...

spark學習筆記

1 缺省會寫成一堆小檔案,需要將其重新分割槽,直接指定幾個分割槽 spark.sql select row number over partition by depid order by salary rownum from emp repartition 2 write.parquet hdfs ...