以spark原始碼為參照分析模式匹配及種類
graphx
核心理解
spark 核心排程理解
效能spark效能相關引數配置
搜狗實驗室(sogou labs)
富貴有定數,學問則無定數。求一分,便得一分 (關於博主:許鵬,花名@徽滬一郎,2023年畢業於南京郵電學院,現就業於愛立信上海,在udm部門從事相關產品研發,個人關注於linux 核心及實時計算框架如storm、spark等。)
rdd:基於記憶體的集群計算容錯抽象
過往記憶
fxjwind
岑玉海 (此人最近忙於泡妞,部落格更新緩慢)
colorant
瞌睡中的葡萄虎
spark 1.x 大資料平台 (七牛技術總監、spark contributor之一 陳超老師主講)
(三)Spark學習系列
本章節講一講spark的shuffle模組 shuffle模組作用是將若干node節點上面的資料重新分割,再劃分到不同的節點中,也就是將上乙個stage中的各個task的中間結果整合起來,然後再重新分組,以供下乙個stage的task對它們做運算。原因就是spark的設計就是把相具有某種共同特徵的一...
Spark學習系列一
1 spark 是什麼?spark是乙個快速的處理大規模資料的通用工具。它是乙個基於記憶體計算框架 包含核心元件 spark core 互動式查詢 spark sql 準實時流式計算 spark streaming 機器學習 spark mllib 圖計 算 spark graphx 2 spark...
待續 四)spark學習系列
這章節主要延續的 三 中的shuffle模組提供的shuffle read。在spark 中,shuffle read是提供給shuffle的後繼用來讀取shuffle資料的。當需要讀取遠端資料的時候,1.每次只會開最多5個執行緒進行讀取 2.每次請求的數量不會超過maxmbinflight,預設是...