spark相關知識雜記

工作中經常用到hadoop和spark的相關操作，大資料的知識點很多，想要全部掌握爛熟於心很困難，將一些比較重要或經常忘記的點記錄一下

1. saprk與hadoop的關係

hadoop是乙個完善的大資料生態系統，包含了底層的檔案系統hdfs，計算引擎mapreduce，大資料查詢引擎hive，實時流計算storm，資源排程系統yarn等，而spark主要是用來替換mr計算引擎的，利用記憶體計算替換磁碟交換來提公升計算效率，因此spark可以看作是hadoop生態系統中的一員，一種基於記憶體的計算引擎，它提供的spark sql、spark streaming、spark ml、graphx等都是基於記憶體的大資料計算框架

2. spark的主要角色

spark應用部署常用的有三種模式，即master等於local、standalone、yarn

standalone是spark自帶的集群模式，需要設定master和work節點，其中master充當資源排程的角色，接受client提交的spark任務，分配executor資源等，worker充當執行任務的角色，開啟executor程序

3. spark作業的拆分

乙個spark任務提交後，sparkcontext在初始化時會根據寬窄依賴確定stage數量，其中乙個stage內部全是窄依賴操作，rdd之間是一對一的，沒有發生資料交換shuffer，沒有資料落磁碟，stage與stage之間的操作是寬依賴的，需要打亂資料順序計算。每個action操作會觸發乙個job，乙個job是一組stage的組合，其中每個stage會切分為多個task（取決於對應的處理的資料在hdfs上的block數量），executor中的乙個執行緒執行乙個task，對應乙個partition的資料

job的劃分：action操作

stage的劃分：寬窄依賴

task的劃分：partition數量（hdfs block數量）

spark相關知識雜記

Vlan相關知識雜記

網路協議相關知識雜記

linux相關雜記

spark相關知識雜記

Vlan相關知識雜記

網路 協議 相關知識雜記

linux相關雜記

相關推薦

網路協議相關知識雜記