1.資料倉儲和資料平台有什麼區別?
2.為何提前規劃你的資料倉儲?
3.文件有什麼作用?
前言
大資料時代,作為資料的掌握者,我們不僅要更好地使用資料,也要更好地管理資料。而資料倉儲正是這樣一套管理和組織資料的解決方案。
本文試圖從一種經驗的角度來描述在資料倉儲建設中的會遇到的各種坑和需要注意的關鍵點,希望以此幫助踏上資料倉儲之路的小夥伴們。
注意:本文不會詳細地解釋資料倉儲的各個概念,亦不會給出各種示例**來闡述資料倉儲的建設細節。
一請理解資料倉儲和資料平台的區別
當你開始建設資料倉儲之前,需要明白資料倉儲和資料平台是兩個不同的概念,不要把搭建一套 hadoop + hive 的平台叫資料倉儲,這是資料平台的範疇。
我們常說的資料倉儲不僅僅是指資料接入、資料儲存和資料計算,它也要包括資料治理、資料建模和資料探勘。比如元資料管理、維度建模和 olap 分析,這些都是我們在建設資料倉儲時候要考慮的內容。
二提前規劃你的資料倉儲
資料倉儲是公司資料體系的核心模組,資料倉儲可以做的不好,但是不能不做。
因此,在資料體系設計的前期最好要有一定的規劃,即使最簡單的表和字段命名的規範也能帶來很大的收益。
另外,從資料開發的角度出發,在做各種臨時資料處理需求的時候也要有資料倉儲的思維,多嘗試抽象出來資料中間層,這樣對公司和對自己的成長都是有幫助的。
三實現輕量級的資料倉儲
如果業務的快速發展不能留給你太多的時間來實現乙個完善的資料倉儲,那麼可以考慮在前期實現乙個輕量級的資料倉儲,以盡可能小的成本帶來最大收益。關於這個輕量級的資料倉儲,建議優先考慮如下幾個點:
1.明確資料分層
2.確定可執行的表和字段命名規範
3.定期抽象出常用的中間表
4.建設元資料管理系統,或者建設文件庫,提供中間表的文件說明
四不要脫離業務場景
做資料一定要記得貼近業務,雖說會有很多臨時和重複需求,但卻能切實地創造價值。
切記不要以為可以完全脫離業務去做一套資料倉儲,我們可以在資料倉儲的某個層次不以業務需求為導向來設計,但是最終面向業務的資料一定會是和業務理解有關。
五文件!文件!
資料倉儲建設的初期,要逐步沉澱出各種文件,比如模型設計文件、字段命名規範文件、sql 開發規範文件。文件是資料倉儲沉澱的最直觀的一種體現,這也是技術積累的一部分。
最重要的是,如果元資料系統沒有成型,那就要把資料倉儲中間表的內容沉澱到文件中,盡量做到一表一文件。這樣不管是從節約溝通成本的角度,亦或是增加團隊積累,更或是完成 kpi 的角度考慮,都是有很大益處的。
六盡早布局資料質量管理
請盡早布局資料質量管理的內容,不要等到發生嚴重的資料事故後才注意到資料質量問題。關於資料質量監控,如果沒有足夠的時間和精力做一套完整的系統,可以先從以下幾個點入手,這樣至少能對自己有一層基本的保護:
1.核心資料每日資料量級監控和告警
2.重要業務指標監控和告警
3.主要業務流程各階段資料的監控和告警
七多使用檢視表
多使用檢視表對外提供資料服務,它可以有效地遮蔽業務方對最底層表結構變更的感知,同時加強許可權管理。
如下場景可以多考慮使用檢視表:
1.該錶經常會有加欄位的需求
2.該錶的計算口徑會出現變化,需要並行跑多份資料,某個時間點進行表切換
3.該錶可能會對不同人或部門提供服務,希望不同人或部門可讀的字段不同
檢視表主要是來晚上表結構變更、口徑修改和許可權管理的場景,不要濫用而增加維護成本。
八考慮你的職業發展
不要一直埋著頭搞 etl,可以搞半年或一年來了解大致的業務和技能,但不能長期這樣發展。現在開源平台相對成熟,長時間搞 etl,會弱化自己的技術深度,如果再沒有資料探勘相關的專案經驗,很容易在以後得面試中被淘汰。
因此,建議各位資料開發的小夥伴,如果你近一年的工作主要都是在用 sql 做 etl,那就要有一點危機意識,經常反思一下自己是否有成長,核心競爭力是否有所提現。
如果有些心虛,可以考慮在資料倉儲、資料探勘或者核心平台開發上下一些功夫。
金融行業資料倉儲的建設思路
金融機構建設資料倉儲並非一朝一夕之事,需要投入巨大的人力物力,是整個公司戰略級的專案,本文只是結合自己的行業知識,整理下大概的建設思路。從上面概念中,大概可以知道資料倉儲是用於上層分析性報告和決策支援的基石,也就是現在流行的資料中颱中重要的組成部分。所以搭建好資料倉儲,是整個資料中臺建設的重中之重。...
數倉建設生命週期 建設資料倉儲7個步驟
成功實施資料倉儲專案的七個步驟 建立乙個資料倉儲並不是乙個簡單的任務,不應該由乙個人單獨完成。由於資料倉儲最佳結合了業務慣例 和資訊系統技術,因此,乙個成功的資料倉儲實施需要這兩方面的不斷協調,以均衡其所有的需要,要求,任務和成果。我很樂意與大家分享我在規劃和管理任何資料庫專案時採用的方法,這些資料...
資料倉儲與ETL的實現過程
當我們了解了什麼事bi 商業智慧型 以及資料倉儲和etl的概念後,我們就要程序相關操作,etl過程 是 資料從資料來源向目標資料倉儲抽取 extract 轉換 transform 裝載 load 的過程。構建資料倉儲的重要一環,使用者從資料來源抽取出所需的資料,經過資料清洗,最終按照預先定義好的資料...