今天主要學習了spark執行基本流程rdd概念rdd 中的依賴關係spark劃分rdd 在 spark 架構中的執行過程
以及完成實驗一linux系統常用命令
spark執行基本流程
sparkcontext 會向資源管理器註冊並申 請執行 executor 的資源;
(2)資源管理器為 executor 分配資源,並啟動 executor 程序,
executor 啟動以後會不斷向資源管理器匯報其運**況
(3)sparkcontext 根據 rdd 的依賴關係構建 dag 圖,dag 圖提交給 dagscheduler 進行解析,將 dag 圖分解成 stage,並且計算出各個 stage 之間的依賴關係,(每乙個stage階段裡面都會包含多個task,這些task構成乙個taskset)然後把乙個個 taskset 提交給底層任務排程器 taskscheduler 進行處理;
(taskscheduler拿到taskset以後要把任務分配給相關的executor 程序去執行這些task,但是它不能隨便分配 必須接到executor申請才會分配)
executor 會向 sparkcontext 申請 task,task scheduler將相關task傳送給executor執行,同時,sparkcontext也會將應用程式**發放給executor;
(4)task 在 executor 上執行,把執行結果反饋給 taskscheduler,然後反饋給 dagscheduler,執行完畢後寫入資料並釋放所有資源。
rdd概念
乙個 rdd 就是乙個分布式物件集合,本質上是乙個唯讀的分割槽記錄集合,每個 rdd 可分成多個分割槽,每個分割槽就是乙個資料集片段,並且乙個 rdd 的不同分割槽可以被儲存到 集群中不同的節點上,從而可以在集群中的不同節點上進行平行計算。
rdd 提供了一種高 度受限的共享記憶體模型,即 rdd 是唯讀的記錄分割槽的集合,不能直接修改,只能基於穩定 的物理儲存中的資料集建立 rdd,或者通過在其他 rdd 上執行確定的轉換操作(如 map、 join 和 group by)而建立得到新的 rdd
從輸入中邏輯上生成 a 和 c 兩個 rdd,經過一系列轉換操作,邏輯上生成了 f(也是乙個 rdd),之所以說是 邏輯上,是因為這時候計算並沒有發生,spark 只是記錄了 rdd 的生成和依賴關係。當 f 要進行輸出時,也就是當f進行動作操作的時候,spark才會根據rdd的依賴關係生成dag, 並從起點開始真正的計算。
rdd 中不同的操作會使得不同 rdd 中的分割槽會產生不同的依賴。
rdd 中的依賴關係分為窄依賴與寬依賴,
窄依賴表現為乙個父 rdd 的分割槽對應於乙個子 rdd 的分割槽,或多個父 rdd 的分割槽對 應於乙個子 rdd 的分割槽;
寬依賴則表現為存在乙個父 rdd 的乙個分割槽對應乙個子 rdd 的多個分割槽。
窄依賴典型的操作包括 map、filter、union 等,寬依賴典型的操作包括 groupbykey、sortbykey 等。對於連線(join)操作,可以分為兩種情況,如果連線操作使 用的每個分割槽僅僅和已知的分割槽進行連線,就是窄依賴(如圖 16-9(a)中的連線操作),其他 情況下的連線操作都是寬依賴(如圖 16-9(b)中的連線操作)。寬依賴的情形通常伴隨著 shuffle 操作。
spark劃分
通過分析各個 rdd 的依賴關係生成了 dag,再通過分析各個 rdd 中的分割槽之 間的依賴關係來決定如何劃分 stage,
具體劃分方法是:在 dag 中進行反向解析,遇到寬 依賴就斷開,遇到窄依賴就把當前的rdd加入到stage中;將窄依賴盡量劃分在同乙個stage 中,可以實現流水線計算 提高了計算的效率。
rdd 在 spark 架構中的執行過程:
(1)建立 rdd 物件;
(2)sparkcontext 負責計算 rdd 之間的依賴關係,構建 dag;
(3)dagscheduler 負責把 dag 圖分解成多個 stage,每個 stage 中包含了多個 task,每個 task 會被 taskscheduler 分發給各個 workernode 上的 executor 去執行。
寒假自學進度11
2,資料清洗 對熱詞資訊進行資料清洗,並採用自動分類技術生成自動分類計數生成資訊領域熱詞目錄。5,資料視覺化展示 用字元雲或熱詞圖進行視覺化展示 用關係圖標識熱詞之間的緊密程度。6,資料報告 可將所有熱詞目錄和名詞解釋生成 word 版報告形式匯出。再運用xpath獲取相應的位置的解釋,輸出即可。需...
寒假自學進度1
今天主要學習了對spark的初步認識以及相應名詞的理解 包括spark特點 scala特性 bdas架構 spark元件的應用場景 spark基本概念 spark執行架構 spark架構設計的優點 spark各種概念之間的相互關係 hadoop 是基於磁碟的大資料計算框架 spark是基於記憶體計算...
寒假自學進度十一
hadoop和apache spark究竟有什麼異同。首先,hadoop和apache spark兩者都是大資料框架,但是各自存在的目的不盡相同。hadoop實質上更多是乙個分布式資料基礎設施 它將巨大的資料集分派到乙個由普通計算機組成的集群中的多個節點進行儲存,意味著您不需要購買和維護昂貴的伺服器...