我們通常所說的增量資料,其實更確切的說,應該是變數資料,包括對資料的增加、修改和刪除。特別是當有些系統存在物理刪除資料的情況時,這一點尤為重要。
從各源系統獲取增量資料,是dw/bi
這第一種可以是由源系統在資料處理過程當中由應用程式直接記錄增量資料,產生增量資料檔案。這種做法對源系統的效率會有較大影響,需要改造源系統的應用(植入獲取增量資料的程式)所以如果源系統方比較強硬的話不同意植入,甚至源系統與dw系統不是一家單位的那就更無法讓你植入了。
第二種由源系統在日終時按照資料的邏輯規則(如業務日期)識別增量資料,產生增量資料檔案。這種做法不影響源系統的日間處理效率,需要開發新的增量資料解除安裝應用,能夠比較有效的識別源系統中的增量資料。這是目前採取的比較多的方式。但是如果存在不經過應用而物理刪除資料的情況,則無法識別(日積月累將導致資料倉儲出現歷史髒資料)
第三
利用資料庫系統的機制,在源系統中增加設定(如
trigger,mv
,cdc
),在日間資料處理過程中由資料庫系統識別增量資料,然後再通過應用加工得到增量檔案。這種方式對日間處理的效率會有一定的影響,但通常都可以接受,對增量的識別會非常全面,但識別出來的增量資料往往含有大量的過程資料,特別是當同一資料被多次修改時,會產生大量的冗餘資料,這是這種方式的乙個缺點,需要通過應用加以合併取得該資料的最終狀態。這種方式的乙個優點,是可以識別出繞過應用直接對資料庫所作的修改,包括直接物理刪除的內容,這是前一種方式難以做到的。這種方式也是目前比較常見的一種方式,但需要對相關的設定和使用方法非常熟悉。
第四
資料比對。將源系統當日的資料與昨日的資料進行比較,識別出差異部分作為增量資料,如果需要識別出被物理刪除的資料,由於不同的實現方式這種比對可能需要執行兩次,一次是找出源系統當日增加和修改了的資料,另一次是找出源系統中當日被刪除的資料。這種比對需要首先將源系統的全量資料解除安裝,然後進行全量資料的比對,效率是乙個主要的問題。這種方式據說也有採用,但好像不多。
第五 資料複製。如果目標資料庫與源資料庫是同構的,還可以利用資料庫系統的複製機制直接獲得增量資料並應用到目標資料庫中。不同資料庫廠商的複製機制不盡相同,對源系統效率的影響通常都可以接受,但複製本身的效率是需要特別關注的,而且還需要考察複製機制下的中斷恢復能力。據說目前這種做法在某些領域也有應用。
第六 依賴rdbms的日誌,對事務資料庫的日誌檔案進行分析,這種辦法的成本太高並且要求也比較專業,一般不太適用。
資料增量更新定義 資料倉儲
背景 結合公司的數倉體系,和工作經歷,談一談資料倉儲體系。首先在編寫這邊文章之前,需要知道什麼是資料倉儲。資料倉儲之父bill inmon在1991年出版的 building the data warehouse 一書中所提出的定義被廣泛接受 資料倉儲是乙個面向主題的 整合的 相對穩定的 反映歷史變...
資料倉儲 資料倉儲部署
1 首先用下面的語句查詢是否有要建立的表空間 hospdw tab 和 hospdw idx 如果沒有,則把d database zyhip改為對應的路徑,有的話直接建立使用者 select tablespace name,file name,round bytes 1024 1024 0 size...
資料倉儲,什麼是資料倉儲?
資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲是為企業所有級別的決策制定過程提供支援的所有型別資料的戰略集合。它是單個資料儲存,出於分析性報告和決策支援的目的而建立。為企業提供需要業務智慧型來指導業務流程改進和監視時間 成本 質量和控制。資料倉儲是決策支援系統 ds...