一 複雜業務梳理
數倉建設初期,需要了解各種業務,有些業務比較複雜,對資料開發人員的要求比較高,這個時候,需要和業務開發多交流溝通,可以看看他們的詳細設計文件,er圖和時序圖,多方位去了解,最終落成文件共享
二 技術選型困難
技術選型也是需要在數倉建設前就需要考慮的,從資料抽取同步到資料處理再入供需求方使用,需要選擇比較合理的技術棧。根據實際需求去選擇。
資料同步:sqoop datax
日誌採集:flume logstash filebeat
資源排程:yarn
分布式儲存:hdfs
資料處理:mr hive sparkcore sparksql flink
資料儲存;hbase mysql es
olap:kylin clickhouse
介面開發:springboot
三 機器配置
根據資料量及表數量,預估任務數去選機器配置及數量
四 指標定義及指標體系建設
原子指標,派生指標的定義及命名,指標評審,指標體系建設
五 統一維度管理
維度管理,一致性維度的構建
六 口徑梳理
開發之前一定要需求評審,需求方提供明確的口徑,防止後續頻繁返工
七 開發規範(文件)
模型規範
任務上線流程
運維八 緩慢變化維處理
緩慢變化維(scd)常見解決方案
九 數倉分層
資料倉儲分層架構
十主題劃分
十一 模型建設
資料建模知多少?
er模型
維度模型
data vault模型
anchor模型
其中,維度模型是資料倉儲工程領域最流行的資料倉儲建模的經典
十二 資料質量管理
資料質量那點事
十三 元資料管理
簡述元資料管理
十四 統一使用者識別
十五 hive調優
hive調優,資料工程師成神之路
大資料方案 數倉建設
基於阿里雲日誌服務實現,拉取阿里雲日誌到本地資料庫儲存。優點 實施速度快。缺點 依賴阿里雲日誌服務,擴充套件性和靈活性較差。前端 雲端 nginx等不同格式的日誌傳送到kafka訊息佇列,之後做etl資料清洗,之後可以使用storm做實時計算或使用hive spark streaming做離線批處理...
數倉dw怎麼建 從0到1建設資料倉儲 數倉基礎篇
資料倉儲建設主題是系列篇,目的是帶大家從了解資料倉儲的基礎知識開始,循序漸進,學會資料倉儲的建設,本篇是數倉建設的第一篇,主要講講資料倉儲的基礎知識。01 什麼是資料倉儲 資料倉儲,英文名稱為datawarehouse,可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料...
什麼是數倉
資料倉儲全稱為data warehouse,簡稱dw。它是面向主題的,整合的,相對穩定的,反映歷史變化的資料儲存集合,用於支撐企業的分析報告與決策。將不同資料來源的資料在乙個較高抽象層次上做整合,資料圍繞某一主題進行彙總,如電商主題有 訂單 流量 商品 使用者等 數倉中的資料 於不同資料來源的整合 ...