圖中我們可以看到有資料倉儲和沒有資料倉儲的區別。在進行資料分析的時候,我們總會遇到一些名詞,比如資料倉儲。資料倉儲是資料分析中乙個比較重要的東西,資料倉儲是乙個面向主題的、整合的、相對穩定的、反應歷史變化的資料集合。下面就給大家解釋一下資料分析中的資料倉儲。
對資料分析的理解大家應該都是比較熟悉的,資料分析的流程有很多,首先需要進行對業務的理解,然後就是對資料的理解,挖掘資料,資料處理,資料分析,資料展現,這些步驟就能夠給大家帶來乙個不錯的資料分析結果。
但是資料分析中的工作最重要的就是資料處理工作,由於資料分析對資料質量、格式的要求比較高,對資料的理解也必須非常深刻,使得資料契合業務需求也要一定的過程,根據我做資料分析的經驗,在整個資料分析流程中,用於資料處理的時間往往要佔據70%以上。所以,如何高效、快速地進行資料理解和處理,往往決定了資料分析專案的進度和質量。而資料倉儲具有整合、穩定、高質量等特點,基於資料倉儲為資料分析提供資料,往往能夠更加保證資料質量和資料完整性。
我們如果要做好資料分析的時候,要使用etl工具構建資料倉儲提公升資料分析效果需要從三個方面。分別是資料理解、資料質量、資料跨系統關聯。
我們都知道,資料倉儲是面向主題的,所以其自身與業務結合就相對緊密和完善,更方便資料分析師基於資料理解業務。而資料倉儲是有很多的主題組成,包括了很多的資料。當我們需要對資料進行分析的時候,如果理解資料倉儲的模型,資料理解也就水到渠成了。
我們在做資料分析的時候要求資料是乾淨、完整的,而資料倉儲已經對源系統的資料進行了業務契合的轉換,以及髒資料的清洗,這就為資料分析的資料質量做了較好的保障。
資料跨系統關聯資料倉儲的乙個簡單架構,各業務源系統的資料經過etl過程後流入資料倉儲,當不同系統資料整合到資料倉儲之後,至少解決了資料分析中的兩個問題:
第一,跨系統資料收集問題,在金融分析中同乙個客戶的儲蓄交易和理財交易我們在同一張事實表就可以找到;
第二,跨系統關聯問題,進行資料整合時,總是需要找到共同點來關聯來自不同系統的資訊,而資料倉儲在etl過程中就會整合相關客戶資訊,完美解決跨系統關聯問題。
通過上面的內容我們不難發現資料倉儲確實能夠給大家帶來很多的幫助,大家在學習資料分析之餘需要對資料分析中的資料倉儲進行了解,這樣才能夠更好地去進行資料分析工作。希望這篇文章能夠給大家帶來幫助,最後感謝大家的閱讀。
掃碼**:
資料倉儲(二) 資料倉儲為什麼要分層
1 空間換時間。通過建設多層次的資料模型供使用者使用,避免使用者直接使用操作型資料,可以更高效的訪問資料。把複雜問題簡單化。講乙個複雜的任務分解成多個步驟來完成,每一層只處理單一的步驟,比較簡單和容易理解。而且便於維護資料的準確性,當資料出現問題之後,可以不用修復所有的資料,只需要從有問題的步驟開始...
資料倉儲為什麼要分層
如何分層 ods層是將oltp資料通過etl同步到資料倉儲來作為資料倉儲最基礎的資料 在這個過程中,資料經過了一定的清洗,比如欄位的統一,髒資料的去除等,但是資料的粒度是不會變化的。ods層的資料可以只保留一定的時間。mid中間層是採用inmon集線器架構的方式,使用正規化建模 貼源 的方法。這一層...
資料倉儲為什麼要分層
資料倉儲為什麼要分層 如何分層 為什麼要分層 空間換時間。通過建設多層次的資料模型供使用者使用,避免使用者直接使用操作型資料,可以更高效的訪問資料。把複雜問題簡單化。講乙個複雜的任務分解成多個步驟來完成,每一層只處理單一的步驟,比較簡單和容易理解。而且便於維護資料的準確性,當資料出現問題之後,可以不...