[目錄]
漸變維也叫緩慢漸變維度。這個概念提出來,其實也就直接意味著,我們分析的角度並不是一成不變,而是會變化的。前面談增量/拉鍊的時候,更多討論「事實」資料的變化。業務每天都在發生這個是必然的。但對應的分析維度也一定會變化。
比如客戶資訊,某個客戶一開始在a城市,但某時間點之後,搬家到了b城市。在跟蹤這個客戶的消費行為的時候必然要考慮其在不同地區的差異。因此需要記錄客戶的之前和現在的狀態。這種情況可以使用前面提到的拉鍊表方式,增加資料的有效期間(起止日期)。這也叫type 2 scd。其他兩種儲存方式,個人認為沒啥價值。但可以提一下,所謂type 1則是不保留歷史;type 2則是增加字段保留歷史。
這裡帶來乙個主鍵的問題。一般業務表都有自己的主鍵,一般稱為業務鍵。業務鍵在業務系統是唯一的。但在倉庫裡面,特別是拉鍊表,同乙個客戶出現多條記錄。這時候,我們會增加乙個**鍵——無意義的,一般是數字,就是為了表示記錄唯一的鍵。
增加**鍵除了滿足同一條記錄不同有效期之外,也可以解決多個業務系統整合在一起可能存在的主鍵衝突問題。
**鍵的出現,把不同狀態的乙個實體分成了多條記錄,但通過業務鍵,依然能彙總到同乙個實體上。因此,可以實現:
對於金融機構,尤其銀行來說,機構是很重要的維度或分析角度。但機構偶爾會發生變化,如新設、撤併等;會導致變動時間點前後彙總規則發生變化。正常情況下,變動時間點之前按原規則彙總,時間點之後按新規則彙總。但也有特別的需求,比如機構歸屬雖然變動了,但按照之前的歸屬進行彙總和現在的結果進行對比等。
未完待續。
資料倉儲實踐雜談(十九) 資料探勘
目錄 我們經常說,資料統計是根據已有規律的進行計算得到結果,比如特定產品銷量的地區分布或時間分布,因為我們都知道銷量和地區 時間肯定是關聯的。而資料探勘則是發現未知的規律。比如傳說已久的 啤酒與尿布 的故事,就是資料探勘的乙個成功的典型範例。雖然不存在普適性,但針對沃爾瑪在當時特定的場景確實揭露了未...
資料倉儲雜談
昨天跟同事聊了下目前哪些行業資料倉儲比較領先,各個行業的資料倉儲是怎麼做的,跟網際網路比,差別是什麼東西,前期資源評估,資料庫選型怎麼搞等。有點心得,記錄如下 1,目前來看,金融,保險,通訊,網際網路,物流這幾個行業的資料倉儲做的比較領先,其中由於金融和通訊的業務模型比較穩定,清晰,所以基本上從業務...
資料倉儲實踐雜談(八) 去重
目錄 資料重複是乙個比較麻煩的事情。從正常邏輯上來看,如果應用系統和資料卸出的程式沒問題,不應該存在這個問題。但實際情況來看,確又時有發生。一旦確定資料來源的資料會有重複的可能,就需要專門進行去重處理。在資料量很大的情況下,去重很耗時。所以如果可以,盡量先行優化資料來源系統。最直觀的去重可能就是先把...