1、spark 是什麼?
spark是乙個快速的處理大規模資料的通用工具。它是乙個基於記憶體計算框架
包含核心元件-spark core、互動式查詢-spark sql、準實時流式計算-spark streaming、機器學習- spark mllib、圖計 算-spark graphx
2、spark產生的背景是什麼?
1)mapreduce侷限性
1、僅支援map和reduce兩種操作
2、mapreduce處理效率低:
(1) map階段會將中間結果寫入磁碟, reduce階段會將運算結果寫入hdfs,多個mr任務之間通過hdfs交換資料
(2) 任務排程和啟動開銷大
(3) mapreduce無法充分利用記憶體
(4) map階段和reduce階段都需要對運算結果進行排序
3、mapreduce不適合批處理(如機器學習、 圖計算等), 互動式處理(如資料探勘)和流式處理(如日誌分析)等
4、mapreduce程式設計不夠靈活
2)處理資料的技術框架太雜太多
批處理:mapreduce、hive、pig
流式計算:storm
互動式計算:presto,impala
能不能有乙個能集大成者,把資料計算處理的天下統一?不然各種技術框架混戰,不利於業界快速發展,開發維護學習成 本高。這時候需要一種集大成者出現,那就是spark。
3、spark框架長啥樣?
spark學習系列
以spark原始碼為參照分析模式匹配及種類 graphx 核心理解 spark 核心排程理解 效能spark效能相關引數配置 搜狗實驗室 sogou labs 富貴有定數,學問則無定數。求一分,便得一分 關於博主 許鵬,花名 徽滬一郎,2000年畢業於南京郵電學院,現就業於愛立信上海,在udm部門從...
(三)Spark學習系列
本章節講一講spark的shuffle模組 shuffle模組作用是將若干node節點上面的資料重新分割,再劃分到不同的節點中,也就是將上乙個stage中的各個task的中間結果整合起來,然後再重新分組,以供下乙個stage的task對它們做運算。原因就是spark的設計就是把相具有某種共同特徵的一...
待續 四)spark學習系列
這章節主要延續的 三 中的shuffle模組提供的shuffle read。在spark 中,shuffle read是提供給shuffle的後繼用來讀取shuffle資料的。當需要讀取遠端資料的時候,1.每次只會開最多5個執行緒進行讀取 2.每次請求的數量不會超過maxmbinflight,預設是...