Spark學習系列一

2021-08-21 17:54:14 字數 1000 閱讀 1395

1、spark 是什麼?

spark是乙個快速的處理大規模資料的通用工具。它是乙個基於記憶體計算框架

包含核心元件-spark core、互動式查詢-spark sql、準實時流式計算-spark streaming、機器學習-             spark mllib、圖計       算-spark graphx

2、spark產生的背景是什麼?

1)mapreduce侷限性

1、僅支援map和reduce兩種操作

2、mapreduce處理效率低:

(1) map階段會將中間結果寫入磁碟, reduce階段會將運算結果寫入hdfs,多個mr任務之間通過hdfs交換資料

(2) 任務排程和啟動開銷大

(3) mapreduce無法充分利用記憶體

(4) map階段和reduce階段都需要對運算結果進行排序

3、mapreduce不適合批處理(如機器學習、 圖計算等), 互動式處理(如資料探勘)和流式處理(如日誌分析)等

4、mapreduce程式設計不夠靈活

2)處理資料的技術框架太雜太多        

批處理:mapreduce、hive、pig

流式計算:storm

互動式計算:presto,impala

能不能有乙個能集大成者,把資料計算處理的天下統一?不然各種技術框架混戰,不利於業界快速發展,開發維護學習成             本高。這時候需要一種集大成者出現,那就是spark。

3、spark框架長啥樣?

spark學習系列

以spark原始碼為參照分析模式匹配及種類 graphx 核心理解 spark 核心排程理解 效能spark效能相關引數配置 搜狗實驗室 sogou labs 富貴有定數,學問則無定數。求一分,便得一分 關於博主 許鵬,花名 徽滬一郎,2000年畢業於南京郵電學院,現就業於愛立信上海,在udm部門從...

(三)Spark學習系列

本章節講一講spark的shuffle模組 shuffle模組作用是將若干node節點上面的資料重新分割,再劃分到不同的節點中,也就是將上乙個stage中的各個task的中間結果整合起來,然後再重新分組,以供下乙個stage的task對它們做運算。原因就是spark的設計就是把相具有某種共同特徵的一...

待續 四)spark學習系列

這章節主要延續的 三 中的shuffle模組提供的shuffle read。在spark 中,shuffle read是提供給shuffle的後繼用來讀取shuffle資料的。當需要讀取遠端資料的時候,1.每次只會開最多5個執行緒進行讀取 2.每次請求的數量不會超過maxmbinflight,預設是...