SAP BW 學習筆記(三)

2022-05-01 18:09:08 字數 1778 閱讀 3120

繼續寫etl部分的學習體會,今天是extraction的第三部分

dimensions of data extraction (

資料抽取的維數

)資料抽取的過程通常可以由四種不同的維度來進行描述和分類。

首先是抽取模式,抽取模式通常分為完全抽取和動態抽取。兩者意思很明確,完全抽取是每次抽取的時候講資料來源可用的所有資料都抽取過來,而動態抽取則是每次抽取的時候只抽取更新和增加了的新的資料。

其次是按照抽取的情景作為抽取的維度,分為推式抽取和拉式抽取,推式抽取時,資料抽取和傳輸過程的發起者是操作的系統,反之在拉式抽取時,發起者變成了資料倉儲。推式和拉式抽取的共存也暗含了乙個領導角色的概念,因為在實際生活中,資訊後台更多地是在和發起者進行交易。另外一種更好的解釋方法是將推式抽取和拉式抽取分別比擬為資訊的發布與預定和請求與反應的情形。

第三種抽取的維度是時間的滯後性,這裡常用的有三種時間滯後尺度:同步的(就是實時的),不同步的(儲存和**)和不同步批處理(按需或者事件觸發或者排程式的)。

第四種維度則是抽取的範疇,抽取範疇對我們抽取資料方法角度的一種描述,是從對映的角度,還是從選擇的角度,還是從聚合的角度,來進行這麼一次抽取。

每一次資料抽取的過程都可以拿這四種維度來衡量,

sap bw

中首先符合

sap 3/r

資料抽取需求的抽取器就主要是非同步批處理拉式完全抽取模式。現在主流的資料抽取還都是集中在拉式抽取這一塊內容,不過隨著業務的需求變化,現在的資料抽取已經穩步地由動態總結表變成業務表,動態抽取的捕捉機制更加複雜化了。

動態抽取的難點在於,如果和識別那些動態變化了的部分,這裡通常也有兩種不同的方法,一種是用增量佇列的方法,一種是時間戳判斷法。時間戳判斷方法比較常用,也因為它比較容易實現,所以常用。但是時間戳法有缺憾就是在時間戳被記錄的時間和抽取實際開始的時間之間有段無法彌補的空白,這段時間內的檔案更新將會丟失。不過也有對付這個的「安全增量」法,那就是將使用者的時間戳調後幾小時,這樣便能避免了。

另外一種代價不菲但是質量***的方法就是增量佇列法了,這個類似於對每次的更新和新加入元素進行記錄,形成

log,就是所謂的增量佇列了,增量佇列關鍵就表現為一些記錄了主要鍵值發生變化的抓拍過程。

和時間戳法相對比來說,增量佇列法不需要更多的安全方面的顧慮,它完全與資料的更新頻率沒有了關係,另外兩者還有乙個不同之處就在於,時間戳技術只能獲取在抽取時間內出現的版本序列,而不是全部,相比之下,增量佇列法會有乙個完備的版本連續性。

不管使用哪種方法,動態抽取乙個比較複雜的地方都在於,如何在互相緊密依靠的表之間的微小改變。除此之外,動態抽取的另乙個挑戰在與它要隨時隨地地面對多個不同的資料來源的不同資料表的不同時間的資料更新。它卻需要提供乙個統一的東東,來統一這一切。

當前來講,同步的推式抽取還不能被

sap bw

完全支援,同時對於拉式的對事務資訊立方體的實時更新卻能夠實現。這種更新總是直接性的繞開了正規的分段運輸過程,它們也絲毫沒有運用傳輸或者是更新法則,它們甚至不在

sap/bw

的監控範圍內。

推式抽取技術通常和增量更新脫不開干係,而拉式抽取則可以同時用於完全和增量抽取模型。現在

bw中為開發報表最普遍深入的技術還是通過使用遠端的資訊塊,實現抽取技術。這一進步的帶來的最相關的就是效能了,通過使用多個提供者的模式,則會使得效能減低。然而,當需要實時的顆粒狀資料時,非同步抽取依然是可取的方法。

當對r/3

可用的抽取器滿足了選則的動態規範和對映規範時,只有一小部分是滿足對集合層面的規範,對非同步抽取來說,你通常可以通過直接在

sap bw

中聚合資料而不是在資料來源中聚合,來彌補這個不足,對同步抽取來說,這個就是無法實現的了。

SAP BW 學習筆記(五)

這段時間沒怎麼看書,都在bw的系統裡面摸索,今天繼續看了 mastering sap bw.一點小小心得,流於此,但願後面能多看看.sap source system 元資料流 元資料在bw系統中,貫穿了整個資料傳輸的過程,在這其中,元資料流的作用就是基本上用來決定了資料從各種元資料到達bw的資料來...

SAP BW 學習筆記(四)

繼續.看的好慢啊我 oltp on line transaction process technology considerations 聯機事務處理的技術考慮事項 這一部分主要講述了聯機事務處理的系統中涉及到的資料儲存方式 包括寫入和讀取資料庫 物理更新,資料在 r 3系統中進行更新的時候通常有兩...

SAP BW 學習筆記(二)

今天主要看了sap bw中的etl services中的extraction部分的前面兩個引入話題的小節。效率真是汗啊 做了一點筆記,其實幾乎是在翻譯了。extraction basic principles 1,classes of data data 在典型的像 sap一樣的 erp系統中被分為...