四種主要的資料探勘任務:
1、**建模任務
2、關聯分析
3、聚類分析
4、異常檢測
主要的資料質量問題:存在雜訊和離群點,資料遺漏、不一致或重複,資料有偏差,或者在別的方面,資料不代表描述所設想的現象或總體情況。
資料集主要分為三類:記錄資料,基於圖形的資料、有序的資料
一般資料集的三個特性:
記錄資料的不同型別:
基於圖形的資料:
有序資料:
資料清理:對資料質量問題的檢測和糾正
抽樣:資料探勘處理所有的資料的費用太高,太費時間,因此使用抽樣的演算法可以壓縮資料量,從而可以使用更好但開銷更大的演算法
特徵子集的選擇有三個標準選擇方法:
特徵建立:可以有原來的屬性建立新的屬性集,新的屬性集可能比原有的要少,主要三種方法
相似性和相異性的度量
歐幾里德距離是指多維空間兩點間的距離,這是一種用直尺測量出來的距離。
如果將兩個點分別標記為(p1,p2,p3....pn)和(q1,q2,q3.....qn),則歐幾里德距離的計算公式為:
歐幾里得公式的性質:
非負性
對於所有x和y,d(x,y)>=0;
僅當x=y時,d(x,y)=0;
對稱性 對於所有x和y,d(x,y)=d(y,x)
三角不等式
對於所有x,y,z,d(x,z)<=d(x,y)+d(y,z)
對於兩個有n個二元屬性的物件x和y來說,可以用簡單匹配係數,公式為
smc=(值匹配的屬性個數/屬性個數)=(f₁₁+f00)/(f00 + f10 + f01 + f11) 其中f11表示x取1並且y取1的屬性個數,其他類推
對於非對稱的二元屬性,則用jaccard係數來處理,忽略0-0匹配
對於文件相似性,用余弦相似度處理
如果余弦相似度為1,則除大小外,x和y是相同的,如果余弦相似度為0,則他們不包含任何相似的詞
《資料探勘導論》學習筆記
寫在前面 粗體字為書中定義,紅色字型為筆者認為的重點詞。第一章 緒論 1.資料探勘 在大型資料儲存庫中,自動地發現有用資訊的過程。3.資料探勘要解決的問題 可伸縮,高維性,異種資料和複雜資料,資料的所有權和分布,非傳統的分析。4.資料探勘任務 任務,描述任務。四種主要資料探勘任務 1 建模,有兩類 ...
《資料探勘導論》筆記 (一)
資料探勘是再大型資料儲存庫中,自動地發現有用資訊的過程。發現先前未知的有用模式,還可以 未來觀測結果 並非所有的資訊發現都視為資料探勘,例使用資料庫查詢個別的記錄或通過網際網路查詢特定的web頁面,則是資訊檢索。儘管如此,人們也在利用資料探勘技術增強資訊檢索系統的能力。資料探勘是資料庫中知識發現 k...
《資料探勘導論》學習筆記(二)
資料探勘導論 第四章 分類 基本概念 決策樹與模型評估 分類的定義 分類任務就是通過學習得到乙個目標函式f,把每個屬性集x對映到乙個預先定義的類標號y。目標函式也稱為分類模型,有兩個主要目的 1 描述性建模 2 性建模 分類適用於 兩元或標稱型別的資料集,即離散的資料集。決策樹分類法 選擇最佳劃分的...