spark相關知識雜記

2021-10-07 19:19:22 字數 1120 閱讀 2031

工作中經常用到hadoop和spark的相關操作,大資料的知識點很多,想要全部掌握爛熟於心很困難,將一些比較重要或經常忘記的點記錄一下

1. saprk與hadoop的關係

hadoop是乙個完善的大資料生態系統,包含了底層的檔案系統hdfs,計算引擎mapreduce,大資料查詢引擎hive,實時流計算storm,資源排程系統yarn等,而spark主要是用來替換mr計算引擎的,利用記憶體計算替換磁碟交換來提公升計算效率,因此spark可以看作是hadoop生態系統中的一員,一種基於記憶體的計算引擎,它提供的spark sql、spark streaming、spark ml、graphx等都是基於記憶體的大資料計算框架

2. spark的主要角色

spark應用部署常用的有三種模式,即master等於local、standalone、yarn

standalone是spark自帶的集群模式,需要設定master和work節點,其中master充當資源排程的角色,接受client提交的spark任務,分配executor資源等,worker充當執行任務的角色,開啟executor程序

3. spark作業的拆分

乙個spark任務提交後,sparkcontext在初始化時會根據寬窄依賴確定stage數量,其中乙個stage內部全是窄依賴操作,rdd之間是一對一的,沒有發生資料交換shuffer,沒有資料落磁碟,stage與stage之間的操作是寬依賴的,需要打亂資料順序計算。每個action操作會觸發乙個job,乙個job是一組stage的組合,其中每個stage會切分為多個task(取決於對應的處理的資料在hdfs上的block數量),executor中的乙個執行緒執行乙個task,對應乙個partition的資料

job的劃分:action操作

stage的劃分:寬窄依賴

task的劃分:partition數量(hdfs block數量)

Vlan相關知識雜記

劃分vlan的目的 很多人還真就以為劃分vlan的目的就是為了隔離不同vlan不讓他們互訪 其實這是非常多人的誤區,當然這可以通過acl做到,但並不是劃分vlan的目的,這個最多可以理解成這是劃分vlan之後的一種應用並不是最終目的 其實劃分vlan的目的就兩個 1.提高安全性 舉個例子 沒有劃分v...

網路 協議 相關知識雜記

如果乙個tcp連線長期沒有資料傳輸,tcp可以通過keep alive機制來控制和斷開連線。在設定之前我們先來看看keepalive都支援哪些設定項 keepalive預設情況下是關閉的,可以被上層應用開啟和關閉 tcp keepalive time keepalive的空閒時長,或者說每次正常傳送...

linux相關雜記

6.2 管道命令 6.3 shell script 6.4 kill 7.運維知識 7.1.2 檢視磁碟讀寫效能 7.1.3 檢視cpu個數 核數 執行緒數 以下三種方式 以下兩種方式 netstat anlp grep 3306 ntpdate asia.pool.ntp.org 注 1.user...