讀了資料倉儲第2章,這一章講解的是資料倉儲環境。
梳理出來的知識點:
1、資料倉儲是面向主題的。(資料倉儲的資料只對於特定的領域或客戶是有意義的。)
2、資料倉儲整合。這是資料倉儲所有特性中最重要的特性。資料倉儲中的資料是從多個資料來源來的。整合的功能之一就是消除不同資料來源對於同一資料的表示差異。
3、資料倉儲是非易失的。資料倉儲中的資料一般意義上不進行資料更新。
4、資料倉儲是隨時間變化的。
5、建立資料倉儲不是一蹴而就的。相反,資料倉儲只能一步一步地進行設計並載入資料。即它是進化的不是革命性的。一下子完整地簡歷乙個資料倉儲的費用、所需的資源和對環
境的破壞,都決定了資料倉儲的建立要採用有序地反覆和一步一步進行的方式。對於資料倉儲的開發而言,**式的開發智慧型帶來災難性的後果 ,這種方法永遠不是合適的選擇。
6、當資料倉儲資料量非常龐大時可以考慮使用「活樣本資料庫」。活樣本資料庫是從資料倉儲中取得的真實檔案資料或輕度綜合資料的乙個子集。(個人感覺活樣本資料庫就是使
用概率論的理論從全集資料庫中隨機抽取資料以使資料在某一方面統計概率近似於真實資料環境)
本章小結如下:
資料的粒度與分割槽時進行資料倉儲設計決策的兩個最重要的方面。對於大部分機構來說,採用雙重粒度是非常有意義的。資料分割槽是將資料分解成為小的物理單元。通常,分割槽時在應用層而非系統層 進行。
資料倉儲開發最好是以反覆的方式進行。首先,簡歷資料倉儲的一部分,然後再建立另一部分。幻想一次建成資料倉儲是不合適的。其中乙個原因是資料倉儲的終端使用者工作於一種發現模式下,只有在資料倉儲的第一次迴圈開發完成後,開發者才能確定資料倉儲中究竟應該包含什麼。
資料倉儲中資料的粒度是資料倉儲設計中最重要的問題。非常低的粒度會帶來大量資料,系統最終會被巨大的資料量所壓垮。非常高的粒度雖然處理起來高效,但卻不能進行許多需要細節資料的分析。此外,資料倉儲中的粒度的選擇應該在清楚地知道哪些體系結構部件需要從資料倉儲獲取資料的前提下進行。
令人驚奇的是有許多設計也可以用來處理粒度的問題。其中一種方法是建立乙個服務於不同型別查詢與分析的雙重粒度的多層資料倉儲。另一種方法是建立乙個活樣本資料庫,這樣統計處理就可以再這個活樣本資料庫上進行非常高效的處理。
資料倉儲的分割槽也由於許多原因而特別重要。資料分割槽似的資料可以在小的分開的離散單元中進行管理。這使得資料倉儲中的資料裝載變得簡單,建立索引也更流暢,資料歸檔也變得容易,等等。至少有兩種對資料進行分割槽的方法---在dbms/操作西天那個層和在應用層。每一種分割槽方法都有各自的優缺點。
資料倉儲環境中的每一資料單元都有乙個時刻與它關聯。一般情況下,這個時刻在每個記錄中以快照形式出現。另一些情況下,這個時間是應用於整個表的。資料經常是按天、月或季度彙總的。另外,資料以一種連續的方式建立。資料的內部時間組織可以用多種形式實現。
審計可以再資料倉儲中進行,但卻不應該在其中進行。相反,審計最好置於細節的面向作業系統型事務的環境中進行。在資料倉儲中進行審計會強制資料倉儲採用某種粒度級,但這可能並不是其他處理所需的力度級。
資料倉儲中的資料生命週期包含了資料的清理。開發者經常在設計規範中忽視了清理。結果導致資料倉儲永遠地增長下去,這當然是不能能的。
《資料倉儲》讀書筆記 3
這兩天讀了 資料倉儲 第三章,這一章講解的是設計資料倉儲。將主要的內容梳理如下 1 建造資料倉儲主要包括兩個部分的工作 與操作型系統介面的設計和資料倉儲本身的設計。資料倉儲是在啟發方式下建造的,在這個過程中乙個階段的開發完全依賴於上乙個階段的結構。2 將資料從操作型環境移入資料倉儲環境不是簡單的抽取...
《資料倉儲》讀書筆記 4
今天開始讀資料倉儲的第四章,這一章講解的是資料倉儲中的粒度。下面是本章的小結 為體系結構化環境選擇乙個適當的粒度級別是成功的關鍵。選擇粒度級別的一般方法是利用常識。首先建立資料倉儲的一小部分,並讓使用者訪問這些資料。然後仔細聆聽使用者的意見,根據他們的反饋意見對粒度級別做適當的調整。最壞的想法是想要...
資料倉儲 DW BI架構對比 讀書筆記二
kimball 分工明確,資源占用更加合理,呼叫鏈路少,整個dw bi系統更加穩定 高效 有保障。etl系統高度關注資料質量 完整性 一致性。輸入資料在進入時要檢查其質量。一致的獲取增值度量和屬性的業務規則由etl系統中的有技能的專業人員開發,這樣會給客戶發布更好的 保持一致性的產品。展現區根據客戶...