從0 1建設數倉遇到什麼問題?怎麼解決的?

2022-07-01 09:09:08 字數 1447 閱讀 6179

一 複雜業務梳理

數倉建設初期,需要了解各種業務,有些業務比較複雜,對資料開發人員的要求比較高,這個時候,需要和業務開發多交流溝通,可以看看他們的詳細設計文件,er圖和時序圖,多方位去了解,最終落成文件共享

二 技術選型困難

技術選型也是需要在數倉建設前就需要考慮的,從資料抽取同步到資料處理再入供需求方使用,需要選擇比較合理的技術棧。根據實際需求去選擇。

資料同步:sqoop  datax

日誌採集:flume  logstash  filebeat

資源排程:yarn

分布式儲存:hdfs

資料處理:mr hive sparkcore sparksql flink

資料儲存;hbase mysql es

olap:kylin  clickhouse

介面開發:springboot

三 機器配置

根據資料量及表數量,預估任務數去選機器配置及數量

四 指標定義及指標體系建設

原子指標,派生指標的定義及命名,指標評審,指標體系建設

五 統一維度管理

維度管理,一致性維度的構建

六 口徑梳理

開發之前一定要需求評審,需求方提供明確的口徑,防止後續頻繁返工

七 開發規範(文件)

模型規範

任務上線流程

運維八 緩慢變化維處理

緩慢變化維(scd)常見解決方案

九 數倉分層

資料倉儲分層架構

主題劃分

十一 模型建設

資料建模知多少?

er模型

維度模型

data vault模型

anchor模型

其中,維度模型是資料倉儲工程領域最流行的資料倉儲建模的經典

十二 資料質量管理

資料質量那點事

十三 元資料管理

簡述元資料管理

十四 統一使用者識別

十五 hive調優

hive調優,資料工程師成神之路

大資料方案 數倉建設

基於阿里雲日誌服務實現,拉取阿里雲日誌到本地資料庫儲存。優點 實施速度快。缺點 依賴阿里雲日誌服務,擴充套件性和靈活性較差。前端 雲端 nginx等不同格式的日誌傳送到kafka訊息佇列,之後做etl資料清洗,之後可以使用storm做實時計算或使用hive spark streaming做離線批處理...

數倉dw怎麼建 從0到1建設資料倉儲 數倉基礎篇

資料倉儲建設主題是系列篇,目的是帶大家從了解資料倉儲的基礎知識開始,循序漸進,學會資料倉儲的建設,本篇是數倉建設的第一篇,主要講講資料倉儲的基礎知識。01 什麼是資料倉儲 資料倉儲,英文名稱為datawarehouse,可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料...

什麼是數倉

資料倉儲全稱為data warehouse,簡稱dw。它是面向主題的,整合的,相對穩定的,反映歷史變化的資料儲存集合,用於支撐企業的分析報告與決策。將不同資料來源的資料在乙個較高抽象層次上做整合,資料圍繞某一主題進行彙總,如電商主題有 訂單 流量 商品 使用者等 數倉中的資料 於不同資料來源的整合 ...