1.搭建資料倉儲的意義
資料倉儲更多代表的是一種對資料的管理和使用的方式,它是一整套包括了etl、排程、建模在內的完整的理論體系。資料倉儲在構建過程中通常都需要進行分層處理。業務不同,分層的技術處理手段也不同。
資料倉儲的儲存並不需要儲存所有原始資料,因為比如你儲存冗長的文字資料完全沒必要,但需要儲存細節資料,因為需求是多變的,而且資料倉儲是匯入資料必須經過整理和轉換使它面向主題,因為前台資料庫的資料是基於oltp操作組織優化的,這些可能不適合做分析,面向主題的組織形式才有利於分析。
2.分層的優點
分層的主要原因是在管理資料的時候,能對資料有乙個更加清晰的掌控,詳細來講,主要有下面幾個原因:
通過建設多層次的資料模型供使用者使用,避免使用者直接使用操作型資料,可以更高效的訪問資料。
把複雜問題簡單化:
將乙個複雜的任務分解成多個步驟來完成,每一層只處理單一的步驟,比較簡單和容易理解。而且便於維護資料的準確性,當資料出現問題之後,可以不用修復所有的資料,只需要從有問題的步驟開始修復。
便於處理業務的變化:
隨著業務的變化,只需要調整底層的資料,對應用層對業務的調整零感知.
清晰資料結構:
每乙個資料分層都有它的作用域,這樣我們在使用表的時候能更方便地定位和理解。
資料血緣追蹤:
簡單來說,我們最終給業務呈現的是乙個能直接使用業務表,但是它的**有很多,如果有一張**表出問題了,我們希望能夠快速準確地定位到問題,並清楚它的危害範圍。
減少重複開發:
規範資料分層,開發一些通用的中間層資料,能夠減少極大的重複計算。
遮蔽原始資料的異常:
遮蔽業務的影響,不必改一次業務就需要重新接入資料
資料倉儲搭建
1.資料倉儲需求分析 1.1主題分析 確定主題 使用者從哪些角度來分析資料 主題 比如銷售主體 指標 維度 粒度 1.2資料分析 了解資料情況,是否可以支撐主題 資料來源分析 資料來源的資料表的關係,資料表的內容 資料量分析 記錄和字段的量進行乙個統計分析 資料質量分析 正確性分析 一致性分析 規範...
資料倉儲怎麼搭建?
資料倉儲怎麼搭建?在網上一搜,有太多的大廠中廠數倉完整實踐的文章,已經能把數倉由哪些組成,各部分如何建設,重點難點和解決方法都講的很清楚。我接觸到的大多數數倉開發者對於資料倉儲都有乙個較為完整的了解,各個部分也都能說得頭頭是道。可另一方面,從我了解到的片面的行業資訊來說,除了在網上發文章的那些公司,...
資料倉儲1 數倉的意義
在進行資料分析的時候,我們總會遇到一些名詞,比如資料倉儲。資料倉儲是資料分析中乙個比較重要的東西,資料倉儲是乙個面向主題的 整合的 相對穩定的 反應歷史變化的資料集合。下面就說一下資料分析中的資料倉儲。對資料分析的理解大家應該都是比較熟悉的,資料分析的流程有很多,首先需要進行對業務的理解,然後就是對...