課程目錄:
第一天:
01.傳統廣告回顧
02.幾個問題思考
03.廣告的表現形式
04.名詞解釋
05.dsp原理圖
06.dsp業務流程
07.dmp專案背景
08.dmp業務流程----重要
09.日誌格式介紹
10.需求一日誌轉parquet檔案
第二天:
01.工程包的建立
02.日誌轉parquet檔案實現方式一----structtype
03.日誌轉換成parquet檔案格式實現方式二---自定義類
04.統計各省市的資料量分布情況----結果輸出成json
05.統計各省市的資料量分布情況----結果輸出到mysql中
06.統計各省市的資料量分布情況----使用spark運算元的方式實現
07.地域分布需求
第三天:
00.ambari介紹及專案打包上傳
00.集群執行job觀察01
00.集群執行job觀察02
01.地域報表實現---spark sql
02.地域報表實現---spark core實現01
03.地域報表實現---spark core實現02
03.地域報表實現---讀取原始日誌檔案
04.**報表需求
05.**報表實現---broadcast
06.**報表實現---改造---字典存入到redis
07.**報表實現---改造---將redis作為字典庫
08.**託管到git
第四天:
01.git建立分支--合併分支--切換分支--刪除分支
02.上下文標籤需求
第五天:
01.標籤實現過程--step1
02.標籤實現過程--step2
03.標籤實現過程--step3
04.標籤實現過程--step4
05.商圈標籤實現思路
第六天:
01.經緯度知識庫的建立-stepone
02.經緯度知識庫的建立-steptwo
03.新增商圈標籤
04.商圈標籤bug解決
05.graph共同好友案例
06.graph解決使用者當天標籤合併
第七天:
01.案例聚合使用者標籤
02.案例聚合使用者標籤--**實現
03.案例聚合使用者標籤--**實現--測試
04.上下文標籤資料合併
05.專案總結
第八天:
01.中國移動實時專案背景
02.專案整體業務架構圖
03.flume節點及資料量分布
04.需求
05.日誌字段說明
06.scalikejdbc介紹
第九天:
01.建立kafka -- topic
02.將資料對接到kafka
03.工程搭建--思路分析
04.**實現-01---kafka偏移量有效性問題
05.**實現-02---校驗更新偏移量
06.**實現--03--測試接收資料
07.**實現--04---業務概況指標實現
08.**實現--05---分割槽資料處理
09.**實現--06---省市資料分布---每小時資料分布---每分鐘資料分布
10.**實現--07---偏移量有效性檢驗觀察
11.echarts展示
12.面試時的專案表述
13.面試問題補充
SDUT軟體1705(大資料)2019暑假實訓
1.hadoop 生態圈專題講座及大資料開發實戰 hadoop 背景介紹 hadoop 生態圈及各組成部分簡介 分布式系統軟體舉例 離線資料分析流程介紹 hadoop 集群簡介 伺服器準備與網路環境 啟動集群與測試 hdfs使用 案例專案實戰 2.zookeeper zookeeper原理 zook...
2019最新《尚矽谷Git和GitHub實戰教程》
git是先進的分布式版本控制系統,而github是常用的git 託管中心。本套教程內容豐富 詳實,囊括 git安裝過程 本地庫基本操作 遠端基本操作 基於分支的gitflow工作流 跨團隊協作的 forking工作流 eclipse中的git版本控制以及git對eclipse特定檔案忽略的配置方法。...
開源大資料週刊 第52期
摘要 利用yarn capacity scheduler在emr集群上實現大集群的多租戶的集群資源隔離和quota限制 本文結合emr集群,講述了如何利用yarn capacity scheduler在emr集群上實現大集群的多租戶的集群資源quota限制與管控。本文根據姜偉華博士在數果智慧型新產品...