資料倉儲更多代表的是一種對資料的管理和使用的方式,它是一整套包括了etl、排程、建模在內的完整的理論體系。現在所謂的大資料更多的是一種資料量級的增大和工具的上的更新。 兩者並無衝突,相反,而是一種更好的結合。
ods全稱是operational data store,運算元據儲存;這一層面的資料卻不等同於原始資料。在源資料裝入這一層時,要進行諸如去噪(例如去掉明顯偏離正常水平的銀行刷卡資訊)、去重(例如銀行賬戶資訊、公安局人口資訊中均含有人的姓名,但是只保留乙份即可)、提髒(例如有的人的銀行卡被盜刷,在十分鐘內同時有兩筆分別在中國和日本的刷卡資訊,這便是髒資料)、業務提取、單位統
一、砍字段(例如用於支撐前端系統工作,但是在資料探勘中不需要的字段)、業務判別等多項工作。
維表簡單分類
高基數維度資料:一般是使用者資料表、商品資料表類似的資料表。資料量可能是千萬級或者上億級別。
低基數維度資料:一般是配置表,比如列舉值對應的中文含義,或者日期維表。資料量可能是個位數或者幾千幾萬。
指標與度量的關係
這就得說到指標,我願意表述為"它是表示某種相對程度的值"。區別於上面的度量概念,那是一種絕對值,尺子量出來的結果,彙總出來的數量等。而指標至少需要兩個度量之間的計算才能得到,例如收入增長率,用本月收入比上上月收入。當然可能指標的計算還需要兩個以上的度量。
一般理解,維表包含維度**鍵,維度屬性,維度關聯的擴充套件屬性;而事實表包含粒度、維度、度量、指標資料;寬表則包含粒度[主鍵]、維度、維度屬性、度量、指標、標籤及其他方面同粒度度量的聯合。
一定程度上,正規化建模與維度建模並不兩種對立的建模方式。他們是在滿足規範化與取資料方便、應用便捷上作的不同側重的取捨;也可以說,他們是對資料的重組與重構在不同角度的理解而已。他們沒有優劣,都有自身適用的場景。
數倉分層概念
把複雜問題簡單化 將乙個複雜的任務分解成多個步驟來完成,每一層只處理單一的步驟,比較簡單和容易理解。清晰資料結構 每乙個資料分層都有它的作用域,這樣我們在使用表的時候能更方便地定位和理解。便於維護資料的準確性,當資料出現問題之後,可以不用修復所有的資料,只需要從有問題的步驟開始修復。減少重複開發 規...
數倉OLAP OLTP概念的整理
資料處理大致可以分成兩大類 聯機事務處理oltp on line transaction processing 聯機分析處理olap on line analytical processing oltp是傳統的關係型資料庫的主要應用,主要是基本的 日常的事務處理,例如銀行交易。olap是資料倉儲系統...
數倉分層聚合的理解
統計本身就是從明細資料彙總出結果的過程。但是如果很多的統計任務都從明細資料直接得到結果,那麼就會存在很多的重複計算 尤其是明細資料一般會比較多,那麼就會造成計算資源的浪費 所以分層聚合的目的就是將一些公共的聚合提前做好 後續的統計,只需要基於這個初步聚合的資料。聚合就是根據維度,關聯這些維度在多個業...