在spark集群上執行wordcount程式
spark-shell --master spark://s600:7077
def textfile(
path: string,
minpartitions: int = defaultminpartitions): rdd[string] = withscope
sparkconf類的作用:
設定spark環境的配置,使用build模式,返回物件自身;
sparkcontext
atomicboolean使用原子型別保證執行緒安全;
dagscheduler:有向無環圖排程器
為每個作業計算階段有向無環圖,dagscheduler以來taskscheduler類;
在dagscheduler中有幾個關鍵概念:
jobs:由activejob類實現,在dagscheduler中執行的job分為result job和map-stage job;
提交給排程器的頂層工作項
stages:任務集合,由stage類具體實現,stages分為resultstage和shufflemapstage;
如果jobs重用相同的rdds,則它們之間可以共享同乙個stages;
task:
cache tracking: 避免重複計算,
preferred locations:dagscheduler為每個stage中task計算所在執行的位置基於rdds
cleanup:清理所有資料結構在依賴這些資料結構的running jobs結束;
taskscheduler是底層的任務排程介面,由taskschedulerimpl實現;針對單獨sparkcontext進行任務排程;
dagscheduler為每個stages傳送任務集給schedulers去排程。schedulers負責將任務傳送給集群,並執行
和錯誤重試;最後結果收集並返回events給dagscheduler
踏出第一步
我是乙個比較內向的人,或許應該說有一點自卑的傾向。因為生活中的一些事情,總是不斷的打擊我的自信心,讓我產生一種感覺 我缺乏能力,是乙個無用的人。我想有過這種經歷的,肯定不只我乙個人。人的信心有時候是很脆弱的,兩三次的失敗就可能讓其消失殆盡,然後你就覺得,反正我也做不出什麼事情來,乾脆就這樣混著吧,於...
邁出第一步
我,乙個程式小白,不是為了熱愛而走上程式設計之路。就這樣稀里糊塗的度過了兩年,期間,自己有為找不出那乙個個errors煩躁,也有為成功編譯後而獲得正確結果的那種喜悅。如今是真的想去改變現狀,想去提公升自己,想不負剩餘的兩年時光,不負你,不負我!對於今後的學習之路的想法,首先基礎的語言學習,其次資料結...
爬蟲第一步
注意正規表示式的書寫注意正規表示式的書寫 import re import requests url headers html requests.get url,headers,timeout 10 text print html redata re.compile r for i in re.fi...