本文寫作的初衷,是想以阿里巴巴的onedata體系為出發點,詳細闡述資料倉儲搭建的初衷、架構的理念及實現的方式,藉此來總結從事大資料開發崗位多年以來的經驗積累。僅從筆者個人角度出發,收集相關素材,進行二次整理,並非原創。
要想全面的來看待資料倉儲,首先要回答的是資料倉儲搭建的目的:
筆者個人理解:以資料建模理念為基礎,以消除資料孤島為目的,通過一套標準方法和工具集,解決大資料計算中諸如質量、復用、擴充套件、成本等問題,能夠驅動業務發展的體系。
第三方解釋:資料倉儲是資料管理、儲存、計算、建模的方**,是一種過程處理方法;它的特點為:面向主題的、整合的、穩定的、反映歷史變化;資料倉儲由元資料、資料建模、實現**、血緣關係、規範準則組成;資料倉儲在整個資料體系中的位置:資料採集->資料接入->資料倉儲->資料包表/資料分析/資料探勘。
需要注意的是,雖然數倉建設能帶來諸多的益處,但其是乙個龐大複雜耗時的工程,需要一些支援系統的配合,比如說元資料管理系統、排程系統等,而且也並不是所有的業務一開始都要建設數倉,要根據業務發展所處的狀態和未來的發展趨勢以及分析決策的複雜性等綜合評判。
大資料系統,其複雜度之高,是幾乎不可能在一開始就完整和完美地進行自上而下定義和設計的,其設計過程必然遵守從需求->設計->迭代->理論的過程。大資料的真正價值在於生命性和生態型,其價值是隨著使用場景和方式動態變化的。
資料倉儲的業務意義,在於從底層的資料採集、資料處理,到挖掘演算法、資料應用服務以及資料產品的全鏈路、標準化的大資料體系。通過這個體系,超過eb級別的海量資料能夠高效融合,並以秒級的響應速度,服務並驅動自身的業務和外部千萬使用者的發展。
資料倉儲的技術意義,在於規避重複建設,統一計算口徑,有效降低成本,提公升開發效率。
資料倉儲(二) 資料倉儲為什麼要分層
1 空間換時間。通過建設多層次的資料模型供使用者使用,避免使用者直接使用操作型資料,可以更高效的訪問資料。把複雜問題簡單化。講乙個複雜的任務分解成多個步驟來完成,每一層只處理單一的步驟,比較簡單和容易理解。而且便於維護資料的準確性,當資料出現問題之後,可以不用修復所有的資料,只需要從有問題的步驟開始...
資料倉儲為什麼要分層
如何分層 ods層是將oltp資料通過etl同步到資料倉儲來作為資料倉儲最基礎的資料 在這個過程中,資料經過了一定的清洗,比如欄位的統一,髒資料的去除等,但是資料的粒度是不會變化的。ods層的資料可以只保留一定的時間。mid中間層是採用inmon集線器架構的方式,使用正規化建模 貼源 的方法。這一層...
資料倉儲為什麼要分層
資料倉儲為什麼要分層 如何分層 為什麼要分層 空間換時間。通過建設多層次的資料模型供使用者使用,避免使用者直接使用操作型資料,可以更高效的訪問資料。把複雜問題簡單化。講乙個複雜的任務分解成多個步驟來完成,每一層只處理單一的步驟,比較簡單和容易理解。而且便於維護資料的準確性,當資料出現問題之後,可以不...