BI中事實表,維度表和資料集市,資料倉儲的理解

2021-09-25 12:26:38 字數 1065 閱讀 3406

維度表(dimension)存放著一些維度屬性,例如時間維度:年月日時;地域維度:省份,城市;年齡維度:老年,中年,青年;職稱維度:高,中,低。它定義了可以從哪些角度分析事實表。

事實表(fact)存放著一些業務產生的資料,例如:商品訂購產生的訂單資訊,銀行的流水資訊,erp系統的辦公資訊。但它不僅存放著上述事實資訊,而且存放在事實資訊與維度資訊關聯的鍵值,例如訂單資訊裡面有日期字段可以和時間維度關聯,可以通過銀行中的個稅流水與收入維度關聯量化各個收入群體,erp流水中的員工號可以同職稱維度表關聯統計公司執行狀態。

其實,在設計事實表與維度表的關聯關係時,要引入兩個模型結構:星型表(star)和雪花表(snow)。

顧名思義,星型表模型是事實表與每個維度表分別關聯,事實表位於**,維度表圍繞事實表周圍。這種模型結構是一種反正規化的設計方式。優點是設計簡單,減少了關聯事實表和維度表的關聯層級,查詢效率會高一些,缺點是資料的冗餘。例如:事實表student(學號,年齡,姓名,國家,省份,地市,專業。。。),維度表:country(國家編碼,國家名稱),province(省份編碼,省份名稱),city(國家編碼,省份編碼,城市編碼,城市名稱);則在儲存來自同一省份不同地市的學生時,國家和省份就重複存放了。

雪花表模型則是一種規範的正規化結構,它的資料組織方式是消除冗餘的,能有效減少資料量;優點是減少了冗餘並且在關聯查詢中不容易出現資料重複計算的情況,因為它引入了資料完整性,缺點是維護複雜,增加了關聯層級,執行效率較低。例如:事實表student(學號,年齡,姓名,地域,專業。。。),維度表:area(地域編碼,國家編碼,省份編碼,城市編碼)country(國家編碼,國家名稱),province(省份編碼,省份名稱),city(國家編碼,省份編碼,城市編碼,城市名稱)。

接著,有上述星型表和雪花表組成的資料集合就是乙個資料集市(datamart),其面向於部門級應用,存放少量的歷史資料,資料**於資料倉儲。

在資料集市的底層則為資料倉儲(data warehouse),它的資料**於ods,存放著大量歷史資料,它是ods資料的檢視反映。資料儲存符合第三正規化,面向企業級應用。

另外,ods(operational data store):是業務產生的資料,是不斷變化的資料,例如業務產生的流水資料。

BI中事實表和維度表的定義

乙個典型的例子是,把邏輯業務比作乙個立方體,產品維 時間維 地點維分別作為不同的座標軸,而座標軸的交點就是乙個具體的事實。也就是說事實表是多個維度表的乙個交點。而維度表是分析事實的乙個視窗。首先介紹下資料庫結構中的星型結構,該結構在位於結構中心的單個事實資料表中維護資料,其它維度資料儲存在維度表中。...

BI中事實表和維度表的定義

乙個典型的例子是,把邏輯業務比作乙個立方體,產品維 時間維 地點維分別作為不同的座標軸,而座標軸的交點就是乙個具體的事實。也就是說事實表是多個維度表的乙個交點。而維度表是分析事實的乙個視窗。首先介紹下資料庫結構中的星型結構,該結構在位於結構中心的單個事實資料表中維護資料,其它維度資料儲存在維度表中。...

資料倉儲 事實表和維度表的設計

資料倉儲的物理模型較常見的操作型資料庫的物理模型有很大不同。最明顯的區別是 操作型資料庫主要是用來支撐即時操作,對資料庫的效能和質量要求都比較高,為了防止 garbage in,garbage out 通常設計操作型資料庫的都要遵循幾個正規化的約束,除非少數情況下為了效能進行妥協,才可能出現冗餘。而...