資料倉儲實戰教程

2021-10-13 05:36:22 字數 3281 閱讀 9700

資料倉儲已經是企業的資料競爭的核心了,學好資料倉儲對提高自己和找到乙份好的工作都至關重要,但是很多人對數倉的印象還是停留在寫sql的層面,其實今天的數倉更像是乙個資料平台應用,我們學習的大資料技術其實最終的價值都體現在資料服務上,數倉是資料服務的基石,如果說業界以前還有離線和實時之分的話,那麼現在實時數倉的提出與落地,未來數倉將是資料戰爭的最激烈的戰場,一切大資料技術都將為數倉提供服務,也都將在數倉這一環節進行收口。

本專欄主要專注於數倉工具學習、數倉建模以及業務建模、sql 實戰和平台建設,最後以3家公司的數倉建建設和實時數倉作為結尾專案,裡面包含了很多的東西,這份教程有以下特點

知識體系完善,從數倉的概念、建模、數倉工具的使用、數倉的落地實踐都有,還會有很多小案例

使用的技術都是當前企業最常用的技術,版本也是比較新的,不會導致大家看到乙個**,然後一執行發現語法不支援或者廢棄掉了

後續的更新也會很及時,不會說更新了一段時間斷更了,在更新完大綱之後,我也會不斷完善該系列,不斷新增新的知識點

適合人群

小白對數倉感興趣同學

有數倉經驗但是缺乏全面認識的同學

​ 什麼是數倉

​ 數倉架構發展史

​ 數倉建模方**

​ 分層建設理論

​ 資料治理

​ 資料湖初識

指標體系建設

資料模型

寬表的設計

埋點設計與管理

oneid落地實踐

資料整合

元資料管理

自助分析

建模工具pdman(chiner) 入門介紹

事實表維度表

數倉建模實戰(建模流程/建模工具)

1. hive

1.hive 基礎篇

​ 1. 什麼是hive

​ 2. hive的編譯安裝

​ 3. hive表的基礎操作

​ 4. hive資料的組織管理方式

​ 5. hive內部表和外部表

​ 6. hive動態分割槽

​ 7. hive命令列

​ 8. hive基本資料型別

​ 9. hive復合資料型別

​ 10. hive streaming

​ 11. hive關鍵字

​ 12. hive函式大全

​ 13. hive的架構設計

​ 14. hive架構之hiveserver2

​ 15. hive的其他語言呼叫

​ 16. hive架構服務

​ 17. hive的嚴格模式和本地模式

​ 18. hive的執行引擎

​ 19. hive檢視和物化檢視

​ 20. hive udf

​ 21. metastore

22.metastore的standalone模式和高可用

2.hive 語法篇

​ 1. json 解析

​ 2. like rlike regexp

​ 3. explode 和 lateral view

​ 4. with as和from

​ 5. order by, sort by ,dristribute by,cluster by

​ 6. grouping sets

​ 7. cube和rollup

​ 8. map join、reduce join、smb join

​ 9. 視窗函式初識 max count sum

​ 10. 視窗函式row_number、rank、dense_rank

​ 11. 視窗函式ntile

​ 12. 視窗函式first_value和last_value

​ 13. 視窗函式lead和lag

​ 14. 視窗函式cume_dist和 percent_rank

​ 15. 視窗函式練習和總結

​ 16. hive語法之抽樣

​ 17. collect_set 和 collect_list

18. 行列轉換

3.hive 高階篇

​ 1. hive高階之索引

​ 2. hive高階之事務初識

​ 3. hive高階之事務深度剖析

​ 4. hive高階之執行計畫

​ 5. hive高階之資料儲存格式

​ 6. hive高階之資料壓縮配置與格式

​ 7. hive高階之serde

​ 8 hive高階之許可權管理

​ 10. hive優化指南

4.hive 原始碼篇

1. 原始碼環境搭建

2. cli 模組

3. clidriver

4. beeline/hivecli

5. 擴充套件篇thrift

5. hive 實戰篇

​ 1. udf分詞

​ 2. udf ip 解析

3. udf sql 解析

4. 拉鍊表

5. 使用者行為記錄session分割

6. 最大連續登陸

7. 留存分析

8. 各種join的經典應用

9. 漏斗分析

10. 累計計算

11. 佔比同比環比

12. 自關聯經典案例

13. 日活躍周活躍月活

14. full join 經典案例

15. udf外部依賴檔案找不到

16. 對比分析

17. 事件序列匹配/複雜事件處理

18. udf gis

19. 描述性計算

20. 滑動/滾動時間視窗計算

2. 高效能查詢引擎

1.spark-sql

2.impala

3.presto

4.druid

3.資料同步工具

4. 排程工具

1. 排程工具的使用

2. 排程工具整合

首先我們會建立常用的指令碼然後配合配合數倉的sql 進行數倉的整體的排程,指令碼的話我們主要有抽數的指令碼、執行sql的指令碼、監控的指令碼、發布指令碼

當然我們還會引入版本管理工具,管理我們的sql和指令碼,然後進行發布

5. 元資料管理工具

6. 監控工具

7. 報表工具

8. 實時數倉

9. 資料資產1. k12賽道top公司的數倉建設案例

2. 知名遊戲公司的數倉建設案例

3. 如何設計企業級資料平台案例

4. 大型支付公司實時數倉建設案例以hadoop 作為基礎生態,從0到進行數倉建設,主要分為基礎篇和實戰篇兩部分,基礎篇主要是各種元件的學習和案例,實戰篇主要是三家企業的數倉設計案例,最後是擴充套件篇主要是實時數倉。

資料倉儲之ETL實戰

etl,extraction transformation loading的縮寫,中文名稱為資料抽取 轉換和載入。一般隨著業務的發展擴張,產線也越來越多,產生的資料也越來越多,這些資料的收集方式 原始資料格式 資料量 儲存要求 使用場景等方面有很大的差異。作為資料中心,既要保證資料的準確性,儲存的安...

資料倉儲之ETL實戰

etl,extraction transformation loading的縮寫,中文名稱為資料抽取 轉換和載入。一般隨著業務的發展擴張,產線也越來越多,產生的資料也越來越多,這些資料的收集方式 原始資料格式 資料量 儲存要求 使用場景等方面有很大的差異。作為資料中心,既要保證資料的準確性,儲存的安...

資料倉儲原理與實戰

資料倉儲誕生背景 資料倉儲概述 mpp 分布式架構 資料倉儲技術實現 常見資料倉儲產品 資料倉儲架構設計 etl流程 資料積存功能之ods層 資料分析功能之dwd dws ads層 不同系統的建模方法 rolap維度模型 molap建模方法 多維分析 表的分類 etl同步策略 任務排程 專案 資料概...