資料探勘 資料倉儲

2021-09-23 18:04:32 字數 1917 閱讀 4688

雖然存在資料倉儲並不是資料探勘的先決條件,但實際上,若能訪問資料倉儲,資料探勘的任務就會變得容易的多

資料倉儲主要目標是增加決策過程的「情報」和此過程的相關人員的知識。資料倉儲對不同的人來說有不同的意義。

資料倉儲是乙個整合的,面向主題的資料庫集合,用於實現決策支援功能(dsf),其中的每個資料單元都和某個時刻相關。

根據這個定義,資料倉儲也可看成是某個組織的資料儲存庫,用於支援戰略決策。資料倉儲的功能是以整合的方式儲存某組織的歷史資料,來反應這個組織和企業的多個方面。資料倉儲中的資料永遠不會更新,僅用於相應終端使用者的查詢。一般來說,資料倉儲非常的大,儲存了數以億計的記錄。

要更好的理解資料倉儲的設計過程最重要的是兩個方面:

第一是資料倉儲中儲存的資料的特定型別(分類);

第二是對資料進行什麼轉換才能使資料變成有利於決策的最終形式。

資料倉儲包括一下資料類別,這個分類適用於依賴時間的資料來源。

1、過去細節資料

2、當前(新)細節資料

3、輕度綜合資料

4、高度綜合資料

5、元資料(資料目錄或者嚮導)

為了在資料倉儲中準備這5種基本資料或者匯出資料,資料轉換的基本型別已經標準化。有以下4中主要轉換形式,每一種轉換形式都有自己的特點:

第一種 簡單轉換—— 這種轉換是所有其他複雜型別轉換的基石。這種型別的轉換包括一次只操作乙個欄位中的資料,而不考慮相關欄位的值。

第二種 清潔和淨化——這種轉換確保乙個欄位或一組相關的字段採用一致的格式和用法。

第三種 整合——這個過程從乙個或者多個資料來源中提取操作型別資料,並逐個欄位地把它們對映到資料倉儲中的新資料結構上。在構建資料倉儲時,常見的識別符號問題是最難的繼承問題之一。當同乙個實體有多個系統源,但無法將這些實體區分開時,就會出現這種情況。

第四種 聚合和總結——這個方法將操作環境中的資料例項濃縮成資料倉儲環境中更少的例項。總結是一維或者多維資料值的簡單相加。聚合指的是不同商業元素相加得到乙個總計,它高度依賴於域。

這些轉換是把資料倉儲作為資料探勘過程的資料來源的主要原因。如果資料倉儲可用,資料探勘的預處理階段就可以極大地簡化,有時候甚至可以去掉。資料準備是最耗時間的階段。

資料倉儲的開發過程可概括為3個階段:

1、建模——簡單地說,就是花時間了解商業過程,這些過程的資訊需求以及在這些過程中做出的當前的決策。

2、構建——確定對工具的需求,該工具符合目標商業過程所需的決策支援型別;建立乙個有助於進一步定義資訊需求的資料模型;把問題分解為資料規範和實際的資料儲存庫,資料儲存最終會表示為資料集市或者更加全面的資料倉儲。

3、部署—— 使用者研究儲存庫(了解可用的和應當可用的資料)和實際資料倉儲的早期版本。這會使資料倉儲出現演化,包括增加更多的資料擴充歷史週期或重新回到構建階段,以方便通過資料模型來擴充套件資料倉儲的範圍。

資料倉儲的唯一功能是向終端使用者提供資訊已作出決策。資料倉儲也允許終端使用者提取隱藏的,重要的資訊。這種資訊雖然更加難以提取,但能提供更大的商業和科學利益。

與其他典型的資料倉儲應用(如結構化查詢語言sql)和聯機分析處理工具(olap)的不同

sql:一種標準的關聯式資料庫語言,善於進行在資料庫資料上強加一些約束條件以獲取答案;

資料探勘:進行另外一種本質上的探測性分析:獲取隱藏的,不那麼明顯的資訊。

olap:是決策支援的一部分。他回答了為什麼某些事情是正確的。使用者可以建立乙個關聯假設,二隊資料執行一系列查詢來驗證該假設。olap分析實際上是乙個推導過程。olap工具不依賴與資料,也不創造新的知識。它們通常是根據圖形化濃縮的資料,幫助終端用使用者做出結論和決策的。具有專門用途的視覺化工具。

資料探勘和資料倉儲

概念 基於ai 機器學習 統計學等技術,高度自動化的分析原有資料,進行歸納推理,從資料倉儲中提取可信的 新穎的 有效的 人們感興趣的 別人能理解的知識的高階處理過程。模式分類 性模式或描述性模式 實際應用中可細分為 關聯模式 分類模式 聚類模式 序列模式 目的提高市場的決策能力,檢測異常模式,在過去...

資料倉儲(OLAP OLTP)與資料探勘

一 挖掘資料存在問題 1 把來自各個資料來源的資料匯集到乙個中心倉庫中,即資料倉儲。資料倉儲位於乙個單獨的節點上,使用同一的模式從多個資料來源收集資料,給使用者提供乙個單獨的 統一的資料介面,目的是能在不同的資料上高效執行查詢。2 分析收集到的資料發現可以成為商務決策基礎的資訊或知識。資料探勘 目標...

商務智慧型 資料倉儲 資料探勘

商務智慧型 資料倉儲 資料探勘 商務智慧型 是通過對大量的資料進行自動地加工 處理 分析,實現資料向資訊,資訊向知識的轉換,並將知識應用與決策的一系列過程的技術。從某種方面來說,商務智慧型是一種解決方案。資料倉儲 是乙個環境,而不是一件產品,提供使用者用於決策支援的當前和歷史資料,這些資料在傳統的操...