數倉vs資料庫
資料庫通常是乙個軟體,負責業務資料的實時增刪改查(oltp),業務系統的資料庫要求實時響應
資料倉儲:oltp的資料在閒時將每天的業務資料匯出到另乙個資料庫(不做oltp,不連web服務),做一些裡顯得資料分析(和儲存);
所以例如oracle或者mysql,既可以用來作業務系統資料庫,也可以用來做資料倉儲,但是用普通資料庫做數倉的瓶頸:儲存量小;
這裡引入數倉需要滿足的兩個條件:
儲存海量資料
支援資料分析
普通資料庫在第一條上不是最優解,因此hive更能夠更好地充當資料倉儲的角色
另乙個區別: 業務系統資料庫的某條資料是不斷變化的,而數倉中的資料是不變化的(通過儲存歷史記錄來體現時間的變化)
數倉的特點:
面向主題的,整合的,相對穩定的,反映歷史的
數倉也分兩種:
脫機數倉 -> hive 這種需要大量時間計算的數倉
聯機資料分析(olap) -> mysql這種可以事實查詢分析的數倉
數倉分層:
數倉層說明
ads應用服務層(對dw層的資料進一步進行計算,以得到應用層需要的資料)
dws數倉彙總層(對明細資料進行 聚合彙總操作,有時也跟dwd層合成乙個dw層)
dwd數倉明細層(分主題,打標籤->「是否週末」,補全欄位->通過id將desc join進來)
ods運算元據層(結構與源資料一致),最底層,也叫貼源層
資料庫和資料倉儲的區別
資料庫設計是盡量避免冗餘,一般採用符合正規化的規則來設計,資料倉儲在設計是有意引入冗餘,採用反正規化的方式來設計。資料庫是為捕獲資料而設計,資料倉儲是為分析資料而設計,它的兩個基本的元素是維表和事實表。維是看問題的角度,比如時間,部門,維表放的就是這些東西的定義,事實表裡放著要查詢的資料,同時有維的...
資料庫和資料倉儲的區別
一 資料倉儲的概念 資料倉儲之父比爾 恩門 bill inmon 在1991年出版的 building the data warehouse 建立資料倉儲 一書中所提出的定義被廣泛接受 資料倉儲 data warehouse 是乙個面向主題的 subject oriented 整合的 integra...
資料庫和資料倉儲的區別
資料庫設計是盡量避免冗餘,一般採用符合正規化的規則來設計,資料倉儲在設計是有意引入冗餘,採用反正規化的方式來設計。資料庫是為捕獲資料而設計,資料倉儲是為分析資料而設計,它的兩個基本的元素是維表和事實表。維是看問題的角度,比如時間,部門,維表放的就是這些東西的定義,事實表裡放著要查詢的資料,同時有維的...