Spark 名詞解釋

2021-08-07 15:14:48 字數 1008 閱讀 1982

梳理一下spark中關於併發度涉及的幾個概念file,block,split,task,partition,rdd以及節點數、executor數、core數目的關係。

輸入可能以多個檔案的形式儲存在hdfs上,每個file都包含了很多塊,稱為block

當spark讀取這些檔案作為輸入時,會根據具體資料格式對應的inputformat進行解析,一般是將若干個block合併成乙個輸入分片,稱為inputsplit,注意inputsplit不能跨越檔案。

隨後將為這些輸入分片生成具體的task。inputsplit與task是一一對應的關係。

隨後這些具體的task每個都會被分配到集群上的某個節點的某個executor去執行。

注意:這裡的core是虛擬的core而不是機器的物理cpu核,可以理解為就是executor的乙個工作執行緒。

而 task被執行的併發度 = executor數目 * 每個executor核數。

至於partition的數目:

spark中的job和mr中job不一樣不一樣。mr中job主要是map或者reduce job。而spark的job其實很好區別,乙個action運算元就算乙個job,比方說count,first等。

task是spark中最新的執行單元。rdd一般是帶有partitions的,每個partition的在乙個executor上的執行可以任務是乙個task。 

stage概念是spark中獨有的。一般而言乙個job會切換成一定數量的stage。各個stage之間按照順序執行。至於stage是怎麼切分的,首選得知道spark**中提到的narrow dependency(窄依賴)和wide dependency( 寬依賴)的概念。其實很好區分,看一下父rdd中的資料是否進入不同的子rdd,如果只進入到乙個子rdd則是窄依賴,否則就是寬依賴。寬依賴和窄依賴的邊界就是stage的劃分點

spark種的名詞解釋

driver功能的 和分布在集群中多個節點上執行的 executor 2.driver 使用driver這乙個概念的分布式框架很多,比如hive等,spark中的driver即執行上 有sparkcontext負責與clustermanager通訊,進行資源申請 任務的分配和監控等,當executo...

BE 名詞解釋

1 名詞解釋 介質 用於備份資料的裝置,如磁帶庫,磁碟資料夾,相當於乙個檔案。介質集 相當與乙個資料夾,管理該資料夾下的所有介質。介質伺服器 安裝be的機器。清點 inventory 對匯入的介質必須清點,才能使用。檢查一遍所有的磁帶,確保磁帶可以使用。編錄 catalog 對匯入的介質必須編錄,才...

模組耦合名詞解釋 名詞解釋 簡答

c s 又稱client server 或客戶伺服器模式 對伺服器要求不用太高,穩定即可,建議使用 windows server 伺服器。客戶端需要安裝專用的客戶端軟體,客戶端應為 windows 作業系統。c s的優點是能充分發揮客戶端 pc的處理能力,很多任務作可以在客戶端處理後再提交 給伺服器...