1.1為什麼進行資料探勘?
資訊時代的來臨不貼切,我們的時代其實是資料時代,還沒有真正步入資訊時代,現在資料**增長,需要將資料轉化為知識。
1.2什麼是資料探勘?
即kdd,資料中的資料發現
知識發現的迭代步驟為:1)資料清理2)資料整合3)資料選擇4)資料變換5)資料探勘6)模式評估7)知識表示
廣義的資料探勘可表述為:從大量資料中挖掘有趣模式和知識的過程。
1.3可以挖掘什麼型別的資料?
1)資料庫資料
一些概念如:
資料庫系統(有一組內部相關的資料和一組管理和訪問資料的軟體程式組成)
關聯式資料庫(表的匯集,實體-聯絡資料模型,將資料庫表示成一組實體和他們之間的聯絡)
資料庫查詢(連線、選擇、投影、優化,提取資料的乙個指定的問題)
2)資料倉儲
乙個從多個資料來源收集的資訊儲存庫,存放在一直的模式下,並且通常駐留在單個結點上,通常是彙總的
一些概念:
資料立方體(多維資料結構建模,每個維對於乙個或一組屬性,每個單元存放某種度量)
olap操作(聯機分析處理,包括下鑽,上捲,資料立方體的每乙個單元都可下鑽為另乙個資料立方體,上捲也可)
3)事務資料
4)其他
1.4可以挖掘什麼型別的模式
一般可分為描述性、**性
1)類/概念描述:特徵化與區分
面向屬性的歸納技術,用來進行泛化和特徵化
資料特徵化的輸出形式:餅圖、條圖、曲線、多維資料立方體、多維表
資料區分:使用者指定目標類和對比類
2)挖掘頻繁模式、關聯和相關性
頻繁模式分為頻繁項集、頻繁子串行、頻繁子結構等
關聯分析:置信度、支援度
單維關聯規則、多維關聯規則
3)用於**分析的分類與回歸
分類:找出描述和區分資料類或概念的模型,以便能夠使用模型**類標號未知的物件的類標號。匯出模型為對資料集的分析。
如何提供到處的模型:決策樹、神經網路
4)聚類分析
最大化類內相似性、最小化類間相似性
5)離群點分析
大部分被視為雜訊或異常而丟棄
某些情況,罕見的事件可能比正常出現的事件更令人感興趣。(離群點分析、異常挖掘)
6)所有模式都是有趣的嗎?
什麼模式是有趣的:易於被人理解、對新的或檢驗資料是有效的、潛在有用的、新穎的
有趣的度量:支援度、置信度、(準確率、覆蓋率)
主觀興趣度度量:基於使用者對資料的信念
dm能產生所有有趣的模式嗎:涉及資料探勘演算法的完全性
dm僅產生有趣的模式嗎:優化問題
1.5使用什麼技術
統計學、機器學習、模式識別、資料庫和資料倉儲、資訊檢索、視覺化、演算法、高效能計算和其它
對於分類和聚類任務,機器學習通常關注模型的準確率,資料探勘非常強調挖掘方法在大型資料集上的有效性和可伸縮性,以及處理複雜資料型別的方法。
1.6面向什麼型別的應用
1)商務智慧型
2)web搜尋引擎
1.7資料探勘的主要問題
挖掘方法、使用者互動、有效性與可伸縮性、資料型別的多樣性、資料探勘與社會
《資料探勘導論》學習筆記
寫在前面 粗體字為書中定義,紅色字型為筆者認為的重點詞。第一章 緒論 1.資料探勘 在大型資料儲存庫中,自動地發現有用資訊的過程。3.資料探勘要解決的問題 可伸縮,高維性,異種資料和複雜資料,資料的所有權和分布,非傳統的分析。4.資料探勘任務 任務,描述任務。四種主要資料探勘任務 1 建模,有兩類 ...
《資料探勘導論》筆記 (一)
資料探勘是再大型資料儲存庫中,自動地發現有用資訊的過程。發現先前未知的有用模式,還可以 未來觀測結果 並非所有的資訊發現都視為資料探勘,例使用資料庫查詢個別的記錄或通過網際網路查詢特定的web頁面,則是資訊檢索。儘管如此,人們也在利用資料探勘技術增強資訊檢索系統的能力。資料探勘是資料庫中知識發現 k...
資料探勘導論
20世紀60年代,從檔案處理演化到資料庫系統 20世紀70年代,演化到關聯式資料庫,聯機事務處理 oltp 將查詢看做唯讀事務 80年代中期到現在,研究分布性 多樣性和資料共享等問題,還有基於internet的全球資訊系統 80年代後期到現在,出現的資料庫結構是資料倉儲,可將多個一種資料來源在單個站...