Spark學習系列一

1、spark 是什麼？

spark是乙個快速的處理大規模資料的通用工具。它是乙個基於記憶體計算框架

包含核心元件-spark core、互動式查詢-spark sql、準實時流式計算-spark streaming、機器學習- spark mllib、圖計算-spark graphx

2、spark產生的背景是什麼？

1）mapreduce侷限性

1、僅支援map和reduce兩種操作

2、mapreduce處理效率低：

(1) map階段會將中間結果寫入磁碟， reduce階段會將運算結果寫入hdfs，多個mr任務之間通過hdfs交換資料

(2) 任務排程和啟動開銷大

(3) mapreduce無法充分利用記憶體

(4) map階段和reduce階段都需要對運算結果進行排序

3、mapreduce不適合批處理（如機器學習、圖計算等），互動式處理（如資料探勘）和流式處理（如日誌分析）等

4、mapreduce程式設計不夠靈活

2）處理資料的技術框架太雜太多

批處理：mapreduce、hive、pig

流式計算：storm

互動式計算：presto，impala

能不能有乙個能集大成者，把資料計算處理的天下統一？不然各種技術框架混戰，不利於業界快速發展，開發維護學習成本高。這時候需要一種集大成者出現，那就是spark。

3、spark框架長啥樣？

spark學習系列

以spark原始碼為參照分析模式匹配及種類 graphx 核心理解 spark 核心排程理解效能spark效能相關引數配置搜狗實驗室 sogou labs 富貴有定數，學問則無定數。求一分，便得一分關於博主許鵬，花名徽滬一郎，2000年畢業於南京郵電學院，現就業於愛立信上海，在udm部門從...

（三）Spark學習系列

本章節講一講spark的shuffle模組 shuffle模組作用是將若干node節點上面的資料重新分割，再劃分到不同的節點中,也就是將上乙個stage中的各個task的中間結果整合起來，然後再重新分組，以供下乙個stage的task對它們做運算。原因就是spark的設計就是把相具有某種共同特徵的一...

待續四）spark學習系列

這章節主要延續的三中的shuffle模組提供的shuffle read。在spark 中，shuffle read是提供給shuffle的後繼用來讀取shuffle資料的。當需要讀取遠端資料的時候，1.每次只會開最多5個執行緒進行讀取 2.每次請求的數量不會超過maxmbinflight，預設是...

Spark學習系列一

spark學習系列

（三）Spark學習系列

待續 四）spark學習系列

相關推薦

待續四）spark學習系列