《DW2 0 下一代資料倉儲的架構》讀書筆記

2021-08-25 10:33:00 字數 4524 閱讀 9896

在公司花了一天時間把這本書翻完了,這本書是pm借我看的,之前一直忙專案,沒有時間看,在國慶期間就想把它看完早點還了。書不厚,才218頁,所以比較快的看完了,總算完成了既定目標。這本書是老外寫的,但是翻譯的不錯。至少我從頭讀到尾沒感覺很不順暢的地方。看封面上寫的主要四個人翻譯的,看來多點人翻譯校對,翻譯質量還是能夠上去的嘛。這本書寫的挺好,介紹了資料倉儲的一些基本知識,雖然多是概念上的東西,沒有什麼實際案例,但是對於我入門還是挺有幫助的。

書的章節後都會有乙個總結,整理的很好,有時候我會先看總結,然後再針對性的看詳細內容,這樣看起來效率蠻高,效果也不錯。主要內容是介紹了dw2.0只區別於之前的資料倉儲的變化,以及dw2.0中採用的一些方案,從資料的生命週期,談到資料模型,如何應對不斷變化的業務需求,etl在資料倉儲中的角色,以及後面的效能,成本考慮以及對非結構化資料的處理。感覺有些概念是需要記下的,大部分內容就摘錄總結的內容了。

dw2.0是新一代資料倉儲的構架

。dw2.0和第一代資料倉儲有很大的差別。四個最大的差別如下:

1,隨著資料進入並儲存於資料倉儲,產生了對資料生命週期的認識。

2,資料倉儲中包含非結構化資料。

3,dw2.0環境包含元資料。

4,dw2.0的技術基礎能夠隨著時間而變化。

dw2.0的四個主要的生命週期區:

1,互動區,資料倉儲一更新模式在交易響應時間水平下完成構建

2,整合去,資料在這裡經過整合並完成分析處理

3,近線區,作為整合區資料的乙個快取區域

4,歸檔區,存放訪問概率顯著下降但仍有可能訪問的資料

以上的四個區,按照資料的時間進行劃分,互動區的資料非常新,比如剛2秒的資料。整合區大概有24小時或乙個月之久的資料。而近線區存放3~4年的資料,作為整合區的乙個快取,如果有些資料不被頻繁的訪問到,則可能會將資料從整合區放到近線區,反之也有可能移回整合區,在很多方面,近線區就是整合區的延伸,近線區時可選擇的,亦即資料不一定需要經過這一區。但是當資料量非常大並且資料間的訪問概率差別很大時,就可以利用近線區來處理。後面提到近線區的儲存成本比整合區要低很多。歸檔區存放超過5年甚至10年的資料,這些資料一般不會被查詢到,但是不排除專門的資料分析師會用到,所以還是需要儲存的。

設定不同區的原因:

由於資料的訪問概率和訪問模式差別很大。比如互動區的資料被頻繁訪問,並且其訪問模式是隨機訪問。這樣就有必要將資料進行劃分,區別對待,不同區的資料採用的技術會有所不同。在經典的資料倉儲中,所有的資料都被存放在磁碟儲存器上,好像所有的資料都有平等的訪問機會。這樣其實會導致資料越聚越多,造成經常被訪問的資料的訪問效率下降,對不同的資料要求的響應時間也會不同,比如歷史很久的資料,查詢很少,可以忍受等幾個小時或一天的時間等資料出來。而最近的資料會被經常訪問到,希望是秒殺級的速度。所以要將資料進行分割槽,集中性的處理。這樣層次上也比較清晰。

資料是會會隨著時間流動的,慢慢的從互動區,最終移動到歸檔區。資料的結構在不同的區之間可能會做些改變。不同的生命週期,資料的訪問方式和分析手段會不同,對資料的響應要求也會改變,這樣就會利用etl或其他應用程式來處理。

整合區的資料是在對互動區中的資料通過etl層處理後收集得到的。在進行etl處理時,同時進行資料的質量處理。簡單的資料質量處理就是域檢查和範圍檢查。

訪問整合區中資料事務處理僅限於讀取資料。這不像互動區中,刪除,修改,整合區中的資料只能訪問,不能更新。整合區中的資料不能新增,刪除,修改意味著不溶於資料的更改,而是可以以一種不同的方式完成對資料的更改。整合區對於同一時間提出的問題保證了回答的一致性。整合區中有兩種相關的參照完整性。 第一張是區間參照完整性,區間參照完整性指的是互動區通過各區時的完整性。就是說,當資料從互動區進入整合區時,資料必須有可辨別的源和目的以確保資料不會丟失。整合區中另一種參照完整性是相同區內的參照完整性,這種完整性意味著同一區內資料元素之間可能存在某種關係。

整合區的資料通常與使用它的某一特定版本的軟體是相容的。到歸檔資料被從歸檔環境中檢索出來時,使用它們的這個版本的軟體可能早已不存在了。因此,把歸檔區的資料結構設計的與整合區一樣是不明智的 。沒有任何理由不允許資料以兩種格式存放在歸檔環境-一種是整合區中的源格式,另一種是更為簡單通用的格式。

近線區

就像是整合區的乙個快取。近線區基於非磁碟儲存技術執行,其中包含了整合區中資料的映象。近線區通過人工或者一種跨媒介儲存管理(cmsm)方法與整合區連線。近線區的工作流主要是不頻繁的資料讀取。但是資料的讀取都是集中進行的。當資料的訪問頻率下降時就被放入近線區。

dw2.0中的元資料

dw2.0中的每個區中都有各自的元資料,其中包括互動區元資料,整合區元資料,近線區元資料以及歸檔區元資料。歸檔區元資料不同於其他元資料,這是因為歸檔區元資料直接置於歸檔資料中,以確保元資料不會跟其所描述的基礎資料分離或丟失。

dw2.0的方法與途徑

成功實施dw不是一次性可以完成的,存在需求不明確,開發周期長等問題。所以企業需要採用一種螺旋型的開發方法,以快速多次迭代的方式完成資料倉儲的開發。每次迭代的開發周期不應超過3個月 。引入

螺旋式方法

時第二代資料倉儲邁向成功的關鍵一步,其被證明是建立資料倉儲最為行之有效的方法。螺旋式方法因為「

七流法」的實施,其功能更為強大。資料倉儲/商業智慧型專案方法的七種流的每一種都側重於企業資料結構的不同方面,並且都採用不同的和相應合適得工作方法:

1,企業參考模型流:以物件為單位建立的企業參考模型

2,企業知識協調流:以工作為單位建立的企業知識協調

3,資訊工廠開發流:以主題為單位建立的資訊工廠開發

4,資料歸檔定位流:以源為單位建立的資料歸檔和定位

5,資料糾正流:以屬性為單位建立的資料校正

6,基礎設施流:以元件為單位建立的基礎設施管理

7,整體資訊質量管理流:以工序為單位建立的整體資訊質量管理

以上的每一事件流是根據不同的步調進行的。每乙個流是同步開始和併發驅動的,並且需要監控和協調。

資料模型與dw2.0

建立資料模型的第一步是定義整合範圍。資料模型建立在企業的資料基礎之上,但是大多數機構有大量的資料,這樣即使定義了整合範圍,仍然可能導致資料模型的建立永無休止。在這種情況下,要明確的區分粒狀型資料和概括型資料。

區別粒狀型資料和概括型資料:

粒狀型資料是指體現最底層意義的資料。乙個人的姓名是粒狀型資料,生日也是粒狀型資料,薪水在乙個時段內也可以看成是粒狀型資料。概括型資料則是諸如一天的交易量,乙個月的收入,一年企業的員工數,乙個季度內的國民生產總值之類的資料。

關於為什麼要區別

粒狀型資料和概括型資料

主要有以下幾個原因:

1,概括型資料遠遠多於粒狀型資料

2,概括型資料變化速度比對其建模過程要快

3,概括型資料自身攜帶描述其是如何形成的演算法。

如果資料模型中包含概括型資料,那麼該模型肯定不能完成。

資料模型包括三個

層次-erd層,中間層以及底層。

互動區的形成由應用模型決定,整合區的形成由企業資料模型決定。

一些資料模型可以被用在非結構資料中。特別是外部分類可以有為它們建立的資料模型。另外,內部資料模型可以根據主題建立模型,這些主題是根據文字產生的。

監視機制:

資料倉儲在大部分情況下,就像是乙個黑盒,隨著時間的變化,資料倉儲會出現這樣或那樣的問題,所以要有相應的監視機制,在發生問題時能夠提前通知,而不是我們被動的去做。在dw2.0環境中至少需要三種監視 :事務監視(包含響應時間,高峰期處理的資源使用情況,檢測工作力量,佇列長度等),資料質量監視(包含etl資料質量,轉化資料的完整一致性),資料倉儲監視(檢測資料的使用頻度,休眠情況,通過嗅探sql可以做到)

etl與dw2.0

dw2.0的效能問題

有兩種型別的效能:事務型和分析型。當事務型處理的效能出現問題時,公司的操作型活動會受到影響,而當分析型處理的效能出現問題時,公司的分析能力就會受到影響。

提公升效能

可以採用以下方法:

1,選擇合適的索引

2,盡快移除休眠資料

3,培訓終端使用者怎樣識別好的和差的**

4,監控事務和資料倉儲環境,以便當效能變差時,可以有乙個用於判斷到底出現什麼錯誤的起點

5,規劃容量以便組織可以預見資源將要被用完

6,公升級,保證正在使用的是最新版本的硬體和軟體

7,元資料,以便利用重用性,最小化所需的工作量

8,批處理,減少消耗的時間

9,事務並行,有效的處理大的工作負荷量

10,工作負荷量管理,保證一項工作不會因為大小而合其他工作衝突

11,資料集市,完成從**資料倉儲中轉出的主要的分析型處理

12,探索工具,將統計型處理移動到其他位置進行

13,基於事務所要使用的資源將事務分為不同的類

14,服務標準協議,建立量化的指標來衡量效能

15,保護互動區來最小化資源的爭奪

16,將資料分成不同類別來分別管理

17,選擇合適的硬體和軟體來實現效能

18,區別農民和探索者的工作

19,非正規化資料,將經常會被同時訪問的資料物理的放到一起

20,檢查由工具(如商業智慧型工具)自動產生的**

資料集市

包含了用於做決策的部門資料。有若干理由支援建立資料集市:

1,機器週期成本低

2,終端使用者擁有控制權

3,dw2.0的效能得以提公升

下一代資料中心演變的五個方向

為了提高功率密度 效率和管理水平,如今的現代資料中心都普遍採用了雲計算和虛擬化等新技術。因此,虛擬化和雲服務在世界各地都有明顯的增長。事實上,根據最近的gartner報告指出,2016年全球雲計算的支出將成為新的it支出的大部分。印度在2012年到2017年的雲計算細分市場中,其雲服務收入的預計年復...

2023年下一代資料中心網路的趨勢和發展

在過去幾年裡,隨著xaas雲服務提供商的興起以及資料中心的持續虛擬化,資料中心網路也迅速發展起來。此外,微應用程式架構在應用程式中的應用以及對大資料分析的依賴,改變了資料中心內部以及資料中心之間的流量模式。為了充分支援日益增加工作負載的規模和需求,資料中心建設者和運營商正在轉向新的網路技術,包括更高...

能耗是下一代資料中心需要優化的 必選項

摘要 作為資料中心顛覆式創新技術之一,資料中心綠色化將成為趨勢,通過液冷技術 裝置的自動休眠 動態能耗等技術,讓能耗用到真正給使用者提供價值的計算和資料當中去。下一代超級計算機有哪些亮點和難點?什麼樣的資料中心能夠適應未來?9月9日,億 觸即發 2016年中科曙光創新技術全國巡展 簡稱 idic巡展...