資料倉儲edw層資料整合整合的思考
比爾*門恩(bill inmon)給出了資料倉儲這樣乙個定義,資料倉儲是在企業管理和決策中面向主題的、整合的、與時間相關的、不可修改的資料集合。今天單就資料倉儲的整合整合特性進行思考,我想資料倉儲的整合性大致主要體現在如下幾個方面。
1、將企業相關it系統經過面向主題的處理,本身就是一種整合
www.2cto.com
1.1、不同系統、不同業務邏輯的相關資料在各主題的統一
1.2、不同系統、相似業務邏輯的相關資料在同一主題內或主題之間的資料整合
2、統一的命名規範
2.1、表名、欄位名、儲存過程名以及使用者名稱的統一規劃命名
如:表名或欄位名統一使用英文大寫字母和固定的字段英文簡稱,如「loan_contract_no」表示貸款合同編號;表名相同主題下具有相同的字首;每一字段和表都要求有必要的注釋等。
2.2、**字段、標誌字段統一新增字尾處理
如:為與其他鍵及屬性字段區分,**字段、標誌字段統一新增「_cd」、「_flag」字尾。
2.3、相同欄位在不同倉庫表裡統一用同乙個列名及相應的注釋
3、相同及相似欄位的domain處理
3.1、對於相同欄位在不同資料倉儲表裡,其欄位型別用domain統一處理
3.2、對於有需要的可以處理為同一字段型別的不同字段,也使用domain統一處理
4、公共**及**值的統一
www.2cto.com
4.1、公共**及標誌性字段,其欄位資料型別、命名方式等的統一
4.2、公共**及標誌字段,相對於源系統其**值的統一
如:標誌可用「0」表示「否」,「1」表示「是」;對於**於不同業務系統的具有相同業務含義的公共**,其**值需要進行統一,對外代表的是資料倉儲的統一標準**(當然,資料倉儲的標準**可能跟某一源系統的**相同,其他系統的**值經業務分析後向那乙個源系統靠近和統一)。
對於**值的整合,如果不想太費勁分析,那麼就用「源系統編號||源系統**值」生成資料倉儲的**值,這應該叫做公共**值的輕度整合。
5、業務含義相同,表結構有相同含義欄位的表的整合
根據整合的程度或專案的實際需要,通常有如下整合方式:
5.1、採用主從表的設計方式,兩表或多表都有的字段放在主表中(主要基本資訊),從屬修改資訊分別放在各自的從表中
對於主表中的主鍵,要麼採用復合主鍵,源主鍵和系統或表區別標誌;要麼採用唯一主鍵,「源主鍵||系統或表區別標誌」生成新的主鍵。通常建議採用復合主鍵的方式。
5.2、進行兩表的直接合併,共有資訊和個性資訊都放在乙個表中
採用此種直接合併的方式,會出現大量空值,不利於系統儲存和效能的提公升;如果表字段的重合度在80%以下,不建議採用此方式。
5.3、雖然有相同的業務邏輯,但兩源表的表結構及主鍵等卻大相徑庭
這種情況已經沒有辦法合併,所以索性就不合併,使用兩個資料倉儲裡的表存放各自資料;不合併不代表不整合,其整合整合特性在其他方面依然有體現。
6、各主題內總分模式表間關係
主要主題內都會有乙個總表統籌主題內各表,他是該主題內的精神核心(有時此表在模型中有,但並不物理化,所以稱之為精神核心)。當然並非所有主題都具體這種總分架構,對於主要主題是都存在著的。
7、各主題間關聯關係
各個主題間的連線關係通過主題間關係表進行關聯。這些關係表,通常**於源業務系統已經存在著的表間關係,並非資料倉儲製造。
8、相關聯表的相似屬性集中儲存
相關聯的表的相似屬性集中在同一張表中儲存,這樣一是便於查詢,再是使儲存效率更好;此種情況還較多的用於進行歷史拉鍊資料儲存的情況。
如:協議狀態歷史,會儲存貸款合同、貸款借據、授信合同等協議型別的狀態相應屬性值;為了資料儲存效率高效,採用歷史拉鍊表記錄協議記錄的全景資訊,節省了空間且提高了資料的取數效率。
9、其他的一些處理
資料倉儲最大的整合就是根據源系統的業務進行分析,在資料倉儲中重新組織和儲存資料。如,刪除無用無效的列欄位、過濾無意義的表或記錄、資料關聯**轉換、資料型別轉換、源系統不同表進行組合與關聯儲存等。
資料倉儲巨量資料產生,通常來自於兩方面的原因:一是整合了企業內各業務系統,各系統資料的累加;二是儲存了大量的時間序列流水資料。所以在倉庫資料架構最優化的同時,我們在資料倉儲處理的時候就必須進行有效的篩選和清洗,防止無用資料占用大量儲存空間。
資料倉儲學習筆記 ODS 與 EDW
ods簡單的理解為 operational data store,可操作的資料倉儲。edw簡單理解為 enterprise data warehouse,企業級資料倉儲。普遍存在於各種企業的bi business intelligence 專案。ods是資料倉儲的乙個擴充套件,它也是乙個企業級的資料...
資料倉儲 stg層 資料倉儲架構設計
資料倉儲經過多年的發展,倉庫架構設計也隨之多次調整,框架調整的過程中,寫入層上,lambda 沒有對資料寫入進行抽象,而是將雙寫流批系統的一致性問題反推給了寫入資料的上層應用 儲存上,以 hdfs 為代表的master dataset 不支援資料更新,持續更新的資料來源只能以定期拷貝全量 snaps...
資料倉儲與企業應用整合(二)
三 cif的案例 sapbw 主要特點是erp 商提供了整個體系結構,這就節省了大量的工作,並且降低了設計和開發的成本,將業務封裝在bw中,降低了長期維護的難度。erp的資料資源是非常豐富和寶貴的,應該是 資料倉儲的重要 sap的bw就是將 資料倉儲納入了erp應用。1.sapbw概述 a.sapb...