driver功能的**和分布在集群中多個節點上執行的
executor**。
2.driver
使用driver這乙個概念的分布式框架很多,比如hive等,spark中的driver即執行上
有sparkcontext負責與clustermanager通訊,進行資源申請、任務的分配和監控等,當executor部分執行完畢後,driver同時負責將sparkcontext關閉
,通常用sparkcontext代表driver。
3.executor
worker節點上的乙個程序,
負責將task包裝成taskrunner,並從執行緒池中抽取乙個空閒執行緒執行task, 這個每乙個coarsegrainedexecutor backend能並行執行task的數量取決與分配給它的cpu個數。
4.cluter manager:指的是在集群上獲取資源的外部服務。目前有三種型別。
[1].standalon : spark原生的資源管理,由master負責資源的分配,可以在ec2上執行
[2].apache mesos:與hadoop mr相容性良好的一種資源排程框架。
[3].hadoop yarn: 主要是指yarn中的resourcemanager。
5.worker
6.task
7.job
8.stage
每個job會被拆分成多組task, 作為乙個taskset, 其名稱為stage,stage的劃分和排程是有dagscheduler來負責的,stage有非最終的stage(shuffle map stage)和最終的stage(result stage)兩種,stage的邊界就是發生shuffle的地方。
9.rdd
spark的基本計算單元,可以通過一系列運算元進行計算(主要由transformation和action操作),同時rdd是spark最核心的東東,他表示已被分割槽、被序列化的、不可變的、有容錯的並且能夠被並行操作的資料集合。其儲存級別可以是記憶體,也可以是磁碟,可通過spark.storage.storagerlevel屬性來配置。
10.共享變數
廣播變數;另一種是只支援
加法操作,可以實現求和的累加變數。
11.寬依賴
或稱為為shuffledependency,與hadoop mr的shuffle的資料依賴相似,寬依賴需要計算所有父rdd對應分割槽的資料,然後在節點之間進行shuffle。
12.窄依賴
或稱為narrowdependency, 某個具體的rdd,其分割槽partition a最多子rdd中乙個分割槽partition b依賴,此種情況只有map任務, 是不需要傳送shuffle過程的, 窄依賴又分為1:1和n:1兩種。
13.dagscheduler
根據job構建基於stage的dag,並提交stage給taskscheduler。 其劃分stage的依據是rdd之間的依賴的關係。
14.tasksedulter
將taskset提交給worker執行,每個executor執行什麼task就是在此處分配的。
---**於網際網路
Spark 名詞解釋
梳理一下spark中關於併發度涉及的幾個概念file,block,split,task,partition,rdd以及節點數 executor數 core數目的關係。輸入可能以多個檔案的形式儲存在hdfs上,每個file都包含了很多塊,稱為block。當spark讀取這些檔案作為輸入時,會根據具體資...
BE 名詞解釋
1 名詞解釋 介質 用於備份資料的裝置,如磁帶庫,磁碟資料夾,相當於乙個檔案。介質集 相當與乙個資料夾,管理該資料夾下的所有介質。介質伺服器 安裝be的機器。清點 inventory 對匯入的介質必須清點,才能使用。檢查一遍所有的磁帶,確保磁帶可以使用。編錄 catalog 對匯入的介質必須編錄,才...
模組耦合名詞解釋 名詞解釋 簡答
c s 又稱client server 或客戶伺服器模式 對伺服器要求不用太高,穩定即可,建議使用 windows server 伺服器。客戶端需要安裝專用的客戶端軟體,客戶端應為 windows 作業系統。c s的優點是能充分發揮客戶端 pc的處理能力,很多任務作可以在客戶端處理後再提交 給伺服器...