課程大綱
一
spark
概述(共1課時)
1.1
spark
產生背景
包括mapreduce缺陷,多計算框架並存等
1.2
spark
基本特點
1.3
spark
版本演化
1.4
spark
核心概念
包括rdd, transformation, action, cache等
1.5
spark
生態系統
包括spark生態系統構成,以及與hadoop生態系統關係
1.6
spark
在網際網路公司中的地位與應用
介紹當前網際網路公司的spark應用案例
1.7
spark
集群搭建
包括測試集群搭建和生產環境中集群搭建方法
二
spark core
(共3課時)
2.2
spark
程式設計與實戰
2.1.1
spark
執行模式介紹
spark
執行元件構成,spark執行模式(local、standalone、mesos/yarn等)
2.1.2
spark
開發環境構建
整合開發環境選擇,演示spark程式開發與除錯,spark執行
2.1.3
常見transformation與action用法
介紹常見transformation與action使用方法,以及**片段剖析
2.1.4
常見控制函式介紹
包括cache、broadcast、accumulator等
2.2
spark
內部原理剖析與原始碼閱讀
2.2.1
spark
執行模式剖析
深入分析spark執行模式,包括local,standalone以及spark on yarn
2.2.2
spark
執行流程剖析
包括spark邏輯查詢計畫,物理查詢計畫以及分布式執行
2.2.3
spark shuffle剖析
深入介紹spark shuffle的實現,主要介紹hash-based和sort-based兩種實現
2.2.4
spark
原始碼閱讀
spark
原始碼構成以及閱讀方法
2.3
spark
程式調優
2.3.1
資料儲存格式調優
資料儲存格式選擇,資料壓縮演算法選擇等
2.3.2
資源調優
如何設定合理的executor、cpu和記憶體數目
2.3.3
程式引數調優
介紹常見的調優引數
2.3.4
程式實現調優
如何選擇最合適的transformation與action函式
三
spark sql 2.0
(共2課時)
3.1
spark sql基本原理
3.1.1
spark sql
是什麼
3.1.2
spark sql
基本原理
3.1.3
spark dataframe與datasets
3.1.4
spark sql
與spark core的關係
3.2
spark sql程式設計與應用案例
3.2.1
spark sql
程式設計
如何訪問mysql、hdfs等資料來源,如何處理parquet格式資料
常用的dsl語法有哪些,如何使用
四
spark streaming
(共1課時)
4.1
spark streaming基本原理
4.1.1
spark streaming
是什麼
4.1.2
spark streaming
基本原理
4.1.3
structured streaming
4.1.4
spark streaming 程式設計介面介紹
4.1.5
spark streaming
應用案例
4.2
spark streaming程式設計
4.2.1
常見流式資料處理模式
4.2.2
spark streaming
與kafka 互動
4.2.3
spark streaming
部署與執行
C 基礎學習大綱
最近一直在投簡歷,面試工作。可是沒有面試通過,在筆試的時候就沒有通過。於是,我回家惡補基礎。可是每天都去翻翻那些基礎,總覺得看的沒意思。也看得很沒有效率。看了後面的就把前面的忘記了。看了前面又把後面的忘記了。不知道怎麼回事?每天這樣看著,對程式設計都沒興趣了。覺得好無聊,學習的效率又跟不上來。哎 傷...
spark基礎學習
1 基礎介紹 spark是基於記憶體的大資料平行計算框架。具有高容錯性所謂高容錯性 高可伸縮性。伸縮性就是可以利用大量廉價的硬體機器進行分布式部署。高容錯性此處引入了血緣依賴在子rdd中儲存了父rdd的相關資訊,當出現問題就可以回溯找到最初的資料,重新執行確保資料不丟失。這時候可以設定快取,尤其是重...
java基礎學習整理大綱
工作也又有一段時間了,總是發現自己的提公升不快,很多基礎的東西一段時間不用就忘了。最近下了下決心,決定把所有學過的東西都記錄一下,隨時回顧。溫故而知新我算是真正的感受其中的樂趣了。人總是思想的巨人,行動的矮子。總是習慣於過安逸舒坦的日子,久而久之溫水煮青蛙,當自己真正明白的時候發現已經完了。本次基礎...