資料倉儲靈魂30問之數倉有哪幾種建模思想?

2021-10-09 09:25:22 字數 2445 閱讀 5373

正規化建模在實際的應用中有:第一正規化(1nf)、第二正規化(2nf)、第三正規化(3nf)、巴斯-科德正規化(bcnf)、第四正規化(4nf)、第五正規化(5nf)

在企業正規化建模中,一般追求三正規化,即:

屬性不可分割

假設有表如下:

班級物品

3年e班

30張桌子

3年e班

30張椅子

很顯然這個表不符合第一正規化,因為列中的資料不是原子資料項,可以再分割。修改後如下:

年級班級

數量物品3e

30桌子3e

30椅子

不存在部分函式依賴

有表如下:

學號姓名

系名系主任

課名分數

1022211101

李小明經濟系

王強高等數學

951022211101

李小明經濟系

王強大學英語

871022211101

李小明經濟系

王強普通化學

761022211102

張莉莉經濟系

王強高等數學

721022211102

張莉莉經濟系

王強大學英語

981022211102

張莉莉經濟系

王強計算機基礎

881022211101

高芳芳法律系

劉玲高等數學

821022211101

高芳芳法律系

劉玲法學基礎

82假設這個表中學號與課名為主鍵,那麼分數完全依賴於學號與課名,但是姓名,系名,系主任不完全依賴於學號與課名,那麼修改如下:

表一:學號

課名成績

1022211101

高等數學

951022211101

大學英語

871022211101

普通化學

761022211102

高等數學

721022211102

大學英語

981022211102

計算機基礎

881022211101

高等數學

821022211101

法學基礎

82表二:

學號姓名

系名系主任

1022211101

李小明經濟系

王強1022211102

張莉莉經濟系

王強1022211101

高芳芳法律系

劉玲不存在傳遞函式依賴

在表二中,我們可以通過學號推導學生屬於那個系,然後推導出系主任,但是我們不能直接通過系主任推導出學號。這就表示學號+學生姓名+系名與系名+系主任是兩對資訊,傳遞依賴的是系名,所以可以修改為:

表三:系名

系主任經濟系

王強法律系

劉玲表四:

學號姓名

系名1022211101

李小明經濟系

1022211102

張莉莉經濟系

1022211101

高芳芳法律系

維度建模就簡單說一下就是事實表+維度表的不同組合方式。事實表是存放事實的表,維度表是存放維度的表,相關概念可以去什麼是事實,什麼是維度看。

目前組合方式主要有三種:

星型模型

核心乙個事實表,連線著多個只有乙個層次維度表。

雪花模型

雪花模型與星型模型的區別在於維度表的層次。

星座模型

星座模型與其他兩個模型的區別在於事實表的數量,而星座模型也是最貼切資料倉儲的模型。畢竟維度表可以復用,所以星型模型和雪花模型與星座模型不衝突。

在資料倉儲建模中使用維度建模而不使用正規化建模的原因是為了減少join,減少join就是減少shuffle,可以帶來直觀的效能提公升。

在資料倉儲的建設中,層次越向上越趨向於星型模型。

data vault模型是一種中心輻射式模型,其設計重點圍繞著業務鍵的整合模式。這些業務鍵是儲存在多個系統中的、針對各種資訊的鍵(最好是主金鑰),用於定位和唯一標識記錄或資料。

data vault由中心表(hub),鏈結表(link)和衛星表(satellite)組成。

data vault是面向細節的,可追蹤歷史的,一組有連線關係的規範化的表的集合。 這些表可以支援乙個或多個業務功能。

它是一種綜合了第三正規化(3nf)和星型模型優點的建模方法。

資料倉儲之數倉分層

1 為什麼要分層 1.1 把複雜問題簡單化,將複雜的任務分解成多層來完成,每一層只處理簡單的任務,方便定位問題。1.2 減少重複開發 規範資料分層,通過中間層資料,能夠減少極大的重複計算,增加一次計算結果的復用性。1.3 隔離原始資料 不論是資料的異常還是資料的敏感性,使真實資料與統計資料解耦開 2...

資料倉儲 數倉分層 01

資料倉儲,資料倉儲是面向主題的 subject oriented 整合的 integrated 非易失的 non volatile 和時變的 time variant 資料集合,用以支援管理決策。每個資料倉儲面向分析的主題都是一樣的 資料倉儲需要分析某乙個主題的資料結果,需要整合各個其他方面的資料 ...

資料倉儲與數倉建模

資料倉儲,英文名為data warehouse,簡寫為dw或dwh。資料倉儲,是乙個面向主題的 整合的 隨時間變化的 但資訊本身相對穩定的資料集合,用於對管理決策過程的支援1。它是單個資料儲存,出於分析性報告和決策支援目的而建立。為需要業務智慧型的企業,提供指導業務流程改進 監視時間 成本 質量以及...