概念
基於ai、機器學習、統計學等技術,高度自動化的分析原有資料,進行歸納推理,從資料倉儲中提取可信的、新穎的、有效的、人們感興趣的、別人能理解的知識的高階處理過程。
模式分類:
**性模式或描述性模式
實際應用中可細分為:關聯模式、分類模式、聚類模式、序列模式
目的提高市場的決策能力,檢測異常模式,在過去經驗的基礎上預言未來的趨勢。
在資料庫中找規律
步驟:
挖掘 表述
評價 資料探勘的任務
從大量的資料中發現模式:
關聯分析
分類分析
聚類分析
序列分析
偏差檢測
模式相似性挖掘
web資料探勘
資料探勘的結構
採用三層c/s結構:使用者介面、資料探勘引擎、資料倉儲
資料探勘的常用技術
資訊理論方法
集合論方法
統計學方法
視覺化方法
準備的是否充分影響到資料探勘的效率和準確度,以及最終模式的有效性,include:
存在的意義:
頻繁互動資料庫的同時進行大量複雜運算,會有很高的時間複雜度。so。。特點
技術要求
資料庫資料倉儲
主要任務
oltp(聯機事務處理)
olap(聯機分析處理)
細節的綜合的
在訪問瞬間是準確的
代表過去的資料
可更新不可更新、唯讀
面向應用
面向分析
一次運算元據量小
一次運算元據量大
操作需求可事先知道
操作需要事先不知道
q:那直接用資料倉儲不就行了,為什麼要分離?
a:主要原因是提高兩個系統的效能,資料庫是為已知的任務和負載設計的
而資料倉儲的查詢通常是複雜的,設計大量資料在彙總級的計算,在運算元據庫系統上處理olap查詢,會打打降低操作任務的效能。
資料倉儲的實現
立方體計算:立方體總數t如果10維每維4個層次產生的方體數是5的10次方。
so,物化所有方體是不現實的,比較合理的方法是物化部分
q:資料探勘和資料倉儲為什麼聯合使用
a:談麼你都可以完成決策的過程的支援,並且相互間有一定的內在聯絡,整合在一起可以更加有效的提高系統的決策支援能力。
資料倉儲和資料倉儲分層
資料倉儲 data warehouse 可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。為需要業務智慧型的企業,提供指導業務流程改進 監視時間 成本 質量以及控制。1 問題簡單化,將乙個複雜的問題分...
資料探勘 資料倉儲
雖然存在資料倉儲並不是資料探勘的先決條件,但實際上,若能訪問資料倉儲,資料探勘的任務就會變得容易的多。資料倉儲的主要目標是增加決策過程的 情報 和此過程的相關人員的知識。資料倉儲對不同的人來說有不同的意義。資料倉儲是乙個整合的,面向主題的資料庫集合,用於實現決策支援功能 dsf 其中的每個資料單元都...
資料倉儲(OLAP OLTP)與資料探勘
一 挖掘資料存在問題 1 把來自各個資料來源的資料匯集到乙個中心倉庫中,即資料倉儲。資料倉儲位於乙個單獨的節點上,使用同一的模式從多個資料來源收集資料,給使用者提供乙個單獨的 統一的資料介面,目的是能在不同的資料上高效執行查詢。2 分析收集到的資料發現可以成為商務決策基礎的資訊或知識。資料探勘 目標...