從大量資料中挖掘出隱含的、未知的、對決策有潛在價值的關係、模式和趨勢,並用這些知識和規則建立用於決策支援的模型,提供**性決策支援的方法、工具和過程,這就是資料探勘。
是統計學、資料庫技術、人工智慧技術的結合。
利用分類與**、聚類分析、關聯規則、時序模式、偏差檢測、智慧型推薦等方法,幫助企業提取資料中蘊含的商業價值,提高企業的競爭力。
定義挖掘目標
資料取樣
資料探索
資料質量分析
檢查是否存在髒資料——不符合要求,以及不能直接進行相應分析的資料
缺失值、異常值、不一致的值、重複資料、含特殊符號的資料
資料特徵分析
分布分析、對比分析、統計量分析、週期性分析、貢獻度分析、相關性分析
統計量分析
集中趨勢:均值、中位數
離中趨勢:方差、四分位間距
貢獻度分析
帕累託法則/28定律:同樣的投入放在不同的地方會產生不同的效益,乙個企業
80%的利潤通常來自
20%最暢銷的產品。
資料預處理
資料清洗:刪除原始資料集中的無關資料、重複資料,平滑噪音資料,篩選掉與挖掘主題無關的資料,
處理缺失值、異常值。缺失值可用拉格朗日插值法和牛頓插值法進行填補;
資料整合:將多個資料來源合併存放在乙個一致的資料儲存(如資料倉儲)中的過程,在資料整合時,
由於資料來源的表達形式不一樣,有可能不匹配,要考慮實體識別問題和屬性冗餘問題,從而將源
資料在最低層上加以提煉、轉換和整合。
資料變換:簡單函式變換、規範化、連續屬性離散化、屬性構造、小波變換。
有時簡單的對數變換或者差分運算就可以將非平穩序列轉換成平穩序列。
小波變換在訊號處理、影象處理、語音處理、模式識別、量子物理領域得到廣泛應用。
資料規約:屬性規約—列角度—減少維度、數值規約—行角度—減少資料量。
挖掘建模
分類、聚類、關聯規則、時序模式、智慧型推薦?
模型評價
資料探勘1基礎概念
機器學習 假設用p來估計計算機程在某個任務t上的效能,若乙個程式通過利用經驗e在t中獲得了效能改善,我們說關於t和p,該程式對e進行了學習。適用機器學習的地方 1 表現或目標能夠增進 2 不知道把規則寫下 3 一切學習從資料開始 人工智慧的核心主要使用歸納 綜合而不是演繹。機器學習的三要素 資料 模...
資料探勘1
資料探勘過程的方 其中比較經典的是crisp dm cross industrystandard process for data mining,跨行業資料探勘標準流程 其中一共分為6個步驟 商業理解,資料理解,資料準備,建模,評估,發布。統計學習劃分為兩種型別 有 監督學習,無監督學習 有監督學習...
資料探勘 1
資料倉儲技術包括資料清理 資料整合和聯機分析處理 olap olap是一種分析技術,具有彙總,合併和聚集功能,以及從不同的角度觀察資訊的能力。但,對於深層次的分析,如資料分類,聚類和資料隨時間變化的特徵,仍然需要其他 分析工具。儘管市場上已有許多 資料探勘系統 但是並非所有的 都能進行真正的資料探勘...