資料倉儲 資料治理

2022-09-21 21:24:16 字數 3304 閱讀 1871

目錄dmbok的資料治理框架

數倉治理

資料來源治理

數倉模型治理

統一指標和字段命名

公共處理邏輯下沉及單一

核心模型與擴充套件模型分離

層次呼叫約定

組合原則

資料拆分

資料冗餘

sql 規範

資料服務治理

上下游約定

下游約定

數倉評價(如何評價乙個資料倉儲的好壞)

總結知識星球

資料倉儲系列文章(部分已出,持續更新)

數倉架構發展史

數倉建模方**

數倉建模分層理論

數倉建模—寬表的設計

數倉建模—指標體系

資料倉儲之拉鍊表

數倉—資料整合

數倉—資料集市

數倉—商業智慧型系統

數倉—埋點設計與管理

數倉—oneid

數倉—aarrr海盜模型

數倉—匯流排矩陣

數倉—資料安全

數倉—資料質量

數倉—數倉建模和業務建模

資料治理(data governance),是一套持續改善管理機制,通常包括了資料架構組織、資料模型、政策及體系制定、技術工具、資料標準、資料質量、影響度分析、作業流程、監督及考核流程等內容。

資料質量層次不齊

資料交換和共享困難

打通各個業務線之間的資料建設,很多公司都是統一建設

缺乏有效的管理機制

存在資料安全隱患

發現問題嚴重滯後

影響不清晰

注:dama 是資料管理協會的簡稱,是乙個全球性資料管理和業務專業志願人士組成的非營利協會,致力於資料管理的研究和實踐。

資料控制:在資料管理和使用層面之上進行規劃、監督和控制。

資料架構管理:定義資料資產管理藍圖。

資料開發:資料的分析、設計、實施、測試、部署、維護等工作。

資料操作管理:提供從資料獲取到清除的技術支援。

資料安全管理:確保隱私、保密性和適當的訪問許可權等。

資料質量管理:定義、監測和提高資料質量。

資料倉儲和商務智慧型管理:實現報告和分析。

檔案和內容管理:管理資料庫以外的資料

元資料管理:元資料的整合、控制以及提供元資料。

這個是乙個長期的工作,類似於**重構

粗治理

細治理

專項性質的治理方案,主要針對有人負責的專案

資料來源管理

資料來源監控

資料同步資料劃分及命名空間約定

表的命名就涉及到資料域的劃分,因為表的命名需要將資料域囊括進去

常規表的命名

中間表統一指標和字段命名

公共處理邏輯下沉及單一

核心模型與擴充套件模型分離

層次呼叫約定

垃圾的數倉就會出現大量的跨層呼叫,所以可以通過跨層呼叫ods 表率來衡量數倉的建設

組合原則
相關性強是指經常需要一起查詢或進行報表展現、兩個維度屬性間是否存在天然的關係等。例如,商品基本屬性和所屬品牌。

資料拆分
資料的水平和垂直拆分是按照訪問熱度分布和資料表非空資料值、零資料值在行列二維空間上分布情況進行劃分的。

核心表

資料冗餘

sql 規範

任務注釋

sql 模板報表治理

介面治理上游約定

表結構變更

列舉值create_time & update_time

is_delete & is_valid

下游約定

其實對整個數倉而言,我們關注的就三個點,準確性、時效性、穩定性

面試官說這些都是一些原則,比較虛,有沒有可衡量的指標?就是乙個資料倉儲建好了,用這些指標評價它好不好,有不好的要指出來,指導它改進。

指標項失敗的離線任務個數

沒有按時完成的任務個數

ods 同步超時的任務個數

我們主要指的是對資料域的覆蓋情況

需要持續不斷的業務邏輯重構,是整體的sql 水平上公升,提倡優化精神

通過冗餘維度和事實表,進行公共計算邏輯下沉,明細與彙總共存等為業務提供靈活性

數倉建設的好,底層設施完善,報表開發人員就可以快速響應業務方的需求,跟上業務方快速試錯、快速嘗試的節奏

穩定性影響了時效性,也就是決定了我們的資料能不能按時產出,衡量穩定性的方式,我們可以使用三個9,或者四個9,甚至是用每天失敗的任務數除以總的任務數,我們的主要目標是得出乙個相對合理的指標,從而不斷的去優化它。

資料治理和**重構一樣,是乙個慢活,但是它不能不做,因為資料治理可以提高整個數倉的管理效率,從而更好的服務業務

資料治理需要一些資料去指導,同理它的成果需要從資料方面去衡量,所以在整個過程中需要資料去證明它的價值與意義

數倉本身也需要自身的指標去衡量,我們可以通過資料治理,使得數倉的指標得到改善,這樣我們也可以證明資料治理的意義。

其實知識星球我以前就建立了,當時覺得自己沒有那麼多的精力維護,不能很好的幫助有需要的同學們,所以一直沒有開放。最近很多同學私聊我學習路線,個人精力也是有限,並不能及時解答所有同學的問題。

通過調查,大部分同學表示願意加入知識星球,我也覺得這樣讓大家的提問更加有層次和意義,而不是問一些比較膚淺和不太合適的問題,有問題也能自己先查詢一下,這樣更好的交流和解答疑問,提公升時間利用率。

這裡生成了50張5折優惠券,先到先得,領完為止(星球人數每增加50人,****10元)。

資料倉儲 資料倉儲部署

1 首先用下面的語句查詢是否有要建立的表空間 hospdw tab 和 hospdw idx 如果沒有,則把d database zyhip改為對應的路徑,有的話直接建立使用者 select tablespace name,file name,round bytes 1024 1024 0 size...

資料倉儲,什麼是資料倉儲?

資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲是為企業所有級別的決策制定過程提供支援的所有型別資料的戰略集合。它是單個資料儲存,出於分析性報告和決策支援的目的而建立。為企業提供需要業務智慧型來指導業務流程改進和監視時間 成本 質量和控制。資料倉儲是決策支援系統 ds...

資料倉儲和資料倉儲分層

資料倉儲 data warehouse 可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。為需要業務智慧型的企業,提供指導業務流程改進 監視時間 成本 質量以及控制。1 問題簡單化,將乙個複雜的問題分...