顧名思義,owb是用來建立資料倉儲的工具。既然是工具,那麼對於使用者來說,最重要的就是知道自己想要做什麼,然後才是怎麼去實現。就像使用word,最重要的是知道要寫些什麼,至於怎麼使用word來完成我們心中的功能,則是下一步的工作了。
但成為乙個好作家是乙個漫長的過程。我們還沒有足夠的積累和機遇來知道應該如何設計資料倉儲。但是我們可以通過學習工具來使這個過程變得快一些。
我理解的建立資料倉儲的過程就是乙個etl(extract, transform, load)的過程。這個過程可能在被設計好之後只執行一遍(對於歷史資料來說),但大多數是每間隔一段時間就執行一次,從而使我們資料倉儲中的資料保持up to date.
總的來說,建立乙個資料倉儲,有三個大步驟:
3. 通過process flow,schedule或手動等方式,呼叫執行plsql package,從而真正的將資料裝載到資料倉儲中。
一般前兩步在開發測試環境中反覆進行,直到方案最紅確定。和寫**差不多乙個意思。一旦設計完成,就會每隔一段時間進行一次第三個步驟。而如何查詢和使用資料倉儲中的資料,則不是我們現在需要考慮的時候,這些東東以後可以由obise、obiee,甚至其他公司的產品來使用。
重要是第一步。即如何設計metadata元資料。我們把etl的設計分開來說。
extract。一般翻譯為抽取。意思是從各種不同的資料來源中讀取資料。可能是oracle, db2, sqlserver, mysql中的資料,可能是excel檔案,可能是peoplesoft、sap中的資料,還可能是純文字。這需要我們了解資料來源的基本結構,在owb對其進行定義。
transform。一般翻譯為轉換。意思是在裝入資料倉儲前需要對資料結構進行的處理。比如不同的資料來源中,把性別以(0,1), (m,f), (男,女)等形式儲存。我們需要將其統一為一種格式,如(0,1)。再比如,不同的資料來源中的字段需要截短或補齊等等。
load。一般翻譯為裝載。將資料存入資料倉儲。話說資料倉儲的儲存方式老多種。最簡單的就是所謂relational-olap。直接用table作為儲存媒介。所有的dimension和cube都被對映到其對應的table。此外還有multi-dimensional-olap,以一種全新的結構儲存dimension和cube的資料。另外還有最新的所謂holap,結合rolap和molap的優點於一身。這些實現方法回頭慢慢再細談。
最後就是schedule了,設定乙個定時器,讓某個process flow在某個時間點執行一次,完成我們裝載資料倉儲的整個過程。
資料探勘的一般過程
1.資料集選取或構造 根據任務的目的,選擇資料集。或者從實際中構造自己需要的資料。2.資料預處理 確定資料集後,就開始對資料進行預處理使得資料能夠為我們所用了。資料預處理提高資料質量 準確性 完整性和一致性,包括資料清理 資料整合 資料規約和資料變換方法。1 資料清理 忽略元祖 人工填寫缺失值 使用...
感冒的一般過程
又感冒了 哎 挺嚴重,鼻涕流不停,特別畏寒,以前沒 發現感冒 這麼可怕。看到 一篇關於感冒的 文章,粘過來 給大家分享 一下,以防感冒 感冒,是一種自癒性疾病。有位著名醫生說過 感冒,不 七天就會好,如果 的話,一周即可痊癒。感冒是自癒性疾病,病程7天。這個病程是指的感冒病毒活動期。一般感覺到的感冒...
搜尋的一般過程
之前學習過很多劉老師的lucene原始碼分析的課程,結果現在整的都忘了,這次重新梳理一下爭取形成自己的東西。後面就不容易忘掉了。劉老師的課程是基於lucene2.x的原始碼分析的,後面lucene迭代了很多版本,也引入了新的資料結構進行優化,但是主體的模組基本上是沒有變的。計畫是先把之前的lunce...