spark的核心元件包括rdd、 scheduler、 storage、 shuffle四部分:
rdd是spark最核心最精髓的部分,spark將所有資料都抽象成rdd。
scheduler是spark的排程機制,分為dagscheduler和taskscheduler。
storage模組主要管理快取後的rdd、 shuffle中間結果資料和broadcast資料
shuffle分為hash方式和sort方式,兩種方式的shuffle中間資料都寫本地盤
• rdd2也是乙個filteredrdd,是從rdd1這個rdd衍生(即計算) 得到的。
• rdd1是rdd2的父節點,即rdd2依賴rdd1。
• filter是rdd的操作,即每個分片需要計算的函式。
Spark實戰練習03 Pair RDD
一 場景 現有某 的 日誌,內容為使用者對 的請求,包含user id ip address datetime 等等 另有乙份檔案中包含使用者的賬戶詳細資訊資料,包含user id creation date first last name等等 二 任務 1 統計每位使用者的請求次數 1 從檔案建立...
核心模組筆記
1 解壓核心原始碼到目錄檔案 tar xjvf linux 2.6.22.6.tar.bz2 c home guoqian test4 1 1 cd home guoqian test4 1 1 linux 2.6.22.6 make distclean 2 配置檔案 cp boot config ...
筆記 《核心剖析》 03 核心程式語言和環境
1 本章主要描述linux 0.12核心中使用的組合語言 目標檔案格式和編譯環境,主要目標是提供閱讀linux 0.12核心源 所需要的組合語言和gnu c語言擴充套件知識。首先,比較詳細地介紹了as86和gnu as匯程式設計序的語法和使用方法 然後,對gnu c語言中的內聯彙編 語句表示式 暫存...