Spark深入第一步DAGScheduler

在spark集群上執行wordcount程式

spark-shell --master spark://s600:7077

def textfile(

path: string,

minpartitions: int = defaultminpartitions): rdd[string] = withscope

sparkconf類的作用：

設定spark環境的配置，使用build模式，返回物件自身；

sparkcontext

atomicboolean使用原子型別保證執行緒安全；

dagscheduler:有向無環圖排程器

為每個作業計算階段有向無環圖，dagscheduler以來taskscheduler類；

在dagscheduler中有幾個關鍵概念：

jobs:由activejob類實現，在dagscheduler中執行的job分為result job和map-stage job;

提交給排程器的頂層工作項

stages:任務集合，由stage類具體實現，stages分為resultstage和shufflemapstage;

如果jobs重用相同的rdds,則它們之間可以共享同乙個stages;

task:

cache tracking: 避免重複計算，

preferred locations:dagscheduler為每個stage中task計算所在執行的位置基於rdds

cleanup:清理所有資料結構在依賴這些資料結構的running jobs結束；

taskscheduler是底層的任務排程介面，由taskschedulerimpl實現；針對單獨sparkcontext進行任務排程；

dagscheduler為每個stages傳送任務集給schedulers去排程。schedulers負責將任務傳送給集群，並執行

和錯誤重試；最後結果收集並返回events給dagscheduler

踏出第一步

我是乙個比較內向的人，或許應該說有一點自卑的傾向。因為生活中的一些事情，總是不斷的打擊我的自信心，讓我產生一種感覺我缺乏能力，是乙個無用的人。我想有過這種經歷的，肯定不只我乙個人。人的信心有時候是很脆弱的，兩三次的失敗就可能讓其消失殆盡，然後你就覺得，反正我也做不出什麼事情來，乾脆就這樣混著吧，於...

邁出第一步

我，乙個程式小白，不是為了熱愛而走上程式設計之路。就這樣稀里糊塗的度過了兩年，期間，自己有為找不出那乙個個errors煩躁，也有為成功編譯後而獲得正確結果的那種喜悅。如今是真的想去改變現狀，想去提公升自己，想不負剩餘的兩年時光，不負你，不負我！對於今後的學習之路的想法，首先基礎的語言學習，其次資料結...

爬蟲第一步

注意正規表示式的書寫注意正規表示式的書寫 import re import requests url headers html requests.get url,headers,timeout 10 text print html redata re.compile r for i in re.fi...

Spark深入第一步DAGScheduler

踏出第一步

邁出第一步

爬蟲第一步

相關推薦