Microsoft資料倉儲架構

2021-06-16 01:03:07 字數 1977 閱讀 8912

microsoft

資料倉儲架構

摘要:本文簡單介紹了使用

microsoft

資料倉儲架構的資料倉儲,討論了資料倉儲能夠實現的功能,使用資料倉儲的恰當時機,以及如何將資料倉儲與系統體系結構合成一體。

目錄簡介

資料倉儲

作為資料倉儲模型的立方體

使用資料倉儲進行決策

檢視立方體片段和介面

microsoft

資料倉儲架構

資料倉儲的其他應用

實現資料倉儲易犯的錯誤

總結簡介

2023年發布的7.0版

microsoft®™中已經包含資料倉儲。如果您對資料倉儲比較陌生,您可能會問:「它能夠幹什麼?什麼時候使用資料倉儲比較合適?怎樣才能將資料倉儲與系統體系結構合為一體?」本文將簡要介紹使用

microsoft

資料倉儲架構的資料倉儲。

資料倉儲

在軟體行業相對短暫的歷史中,已經成為收集和分布資訊的系統的基礎。這些資料庫深層隱藏的是統計學或測量方法,戰略家們可以對其進行研究,以提高系統的整體效率。資料採集是這類資訊的重要部分,目的在於根據資料庫內容進行正確決策。直到最近,這種努力還需要昂貴而笨重的資料採集軟體包,或能夠將資訊請求精確翻譯成可使用的、更有效的查詢的資料庫專家。除特大型的機構以外,對其他所有人來說,這兩種方案的成本都極為昂貴。

就資料採集的目的而言,能夠有效用於產品分類、庫存控制和訂單條目系統的普通關聯式資料庫可能並不是最佳的。跨表和跨資料庫(有時甚至是跨伺服器)彙總輸出可能會非常複雜,而這種複雜是可以避免的。需要進行資料採集時,建立乙個可供資料分析查詢用的資訊中心儲備庫將更有意義。這就是資料倉儲的含義。來自系統不同部分的資訊被整合到資料倉儲中,以便於訪問。

作為資料倉儲模型的立方體

用立方體作為資料倉儲儲備庫的名稱雖然不完美,但比較令人滿意。如何區分資料倉儲立方體和幾何立方體呢?這兩種立方體之間存在幾個重要的不同之處。資料倉儲立方體由任意數量的維度定義(並不限於,有時資料倉儲立方體可能少於三維)。描述資料倉儲立方體的維度與描述幾何立方體的長、寬和高一樣。如果需要,可以將維度組合成任意數量的級別。

兩維間的關係可以用網格定型。維度類似於網格座標軸上的標記。單元格才是內容。內容對應於立方體每個維度的交叉結果。單元格中的資料是乙個計量單位。計量單位是判斷立方體的全部依據。如果立方體是關於售出專案的數目,則計量單位就是已**專案數量的計數。要重複網格示例,計量單位便是您在網格單元格中找到的數目。

圖1:上圖顯示的是兩維立方體的組織結構。在該示例中,「產品」和「地區」是維度;「椰菜」、「肥皂」、「奧勒岡」、「華盛頓」、「西雅圖」和「斯波坎」是各個維度的級別。包含不同圖表的單元格就是內容。內容單元格中的單個資料就是計量值。在該示例中,立方體中共使用了三種計量單位。

維度和級別

對於為雜貨店設計的資料倉儲立方體,其維度可能包括產品、優惠、時間(營業天數)和地區等內容。可能還包括雇員維度和客戶維度(某些雜貨店可能有會員帳戶)。

級別用於將維度按需要組織為更小的單位。根據級別在立方體中的配置,它們還可能包含其他級別。例如,假設有乙個區域維。也許這個雜貨店在三個州營業,並且使用州界作為分界線。假設區域維包含三個級別:加利福尼亞、奧勒岡和華盛頓。如果該店在華盛頓州還包括其他子區域(例如西雅圖、奧林匹亞、亞基馬和斯波坎),即使加利福尼亞和奧勒岡區域沒有這樣的情況,這些級別仍可以作為子級別新增到華盛頓區域。級別只是組織維度內容的一種便利方法。

內容和計量單位

內容是由各個維度組合而成的。定位內容類似於使用座標系。就象數學立方體中的原點可以表示為(x=0,y=0,z=0),內容將由特定的維度組合(例如(product=broccoli,region=seattle,time=wednesday))表示,生成乙個有關星期三在西雅圖銷售椰菜的內容。根據立方體的使用方法,內容可能顯示乙個類似於「售出580單位物品」或「銷售額為$860.00」的計量單位。計量單位的含義取決於立方體的定義方式。在本例中,可能有多種椰菜或在西雅圖地區有多個商店。該值將表示定義組的彙總。立方體內的計量單位可能是數字。對於乙個雜貨店,計量單位可能會是產品**、淨銷售額、銷售數量、商品成本等。1

資料倉儲分層架構

在一篇部落格看見了有關資料倉儲分層的內容,概括如下 複製層 ssa,system of records staging area ssa 直接複製源系統的資料,盡量保持業務資料的原貌 與源系統資料唯一不同的是,ssa 中的資料在源系統資料的基礎上加入了時間戳的資訊,形成了多個版本的歷史資料資訊。原子...

資料倉儲架構分層

資料倉儲簡介 有些人不理解資料倉儲,認為資料倉儲就是獲取資料,只要會使用hadoop spark等大資料工具就懂資料倉儲,這樣的認識太片面。如果要從海量資料中總結出乙個報表或者是多個報表,大資料工程師足以 如果在有限的資源動態的資料情況下,向前可歷史追溯,向後對不斷增加的報表實現相容,這就需要一套科...

資料倉儲 stg層 資料倉儲架構設計

資料倉儲經過多年的發展,倉庫架構設計也隨之多次調整,框架調整的過程中,寫入層上,lambda 沒有對資料寫入進行抽象,而是將雙寫流批系統的一致性問題反推給了寫入資料的上層應用 儲存上,以 hdfs 為代表的master dataset 不支援資料更新,持續更新的資料來源只能以定期拷貝全量 snaps...