資料探勘導論學習筆記(2) 資料(2)

2021-09-01 14:09:12 字數 394 閱讀 6607

資料預處理

優點:減少分析的資料可以減少占用空間和處理時間,可以使用更大開銷的挖掘演算法。

缺點:可能會丟失模式。

優點:減少分析的資料可以減少占用空間和處理時間,可以使用更大開銷的挖掘演算法。

缺點:肯定沒有全量資料分析準確,可能會

丟失模式。

抽樣方法:

1.簡單隨機抽樣(****** random samping):隨機取樣。兩種變形,無放回抽樣,有放回抽樣。

2.漸進抽樣:隨著分析資料集的大小,改變抽樣策略。

特徵子集選擇方法:嵌入、過濾、包裝

離散化:連續屬性轉為分類屬性

二元化:暫時理解的是轉為二進位制方式表示,例如m個分類值,轉成n=【log2 m】個二元屬性標

《資料探勘導論》學習筆記

寫在前面 粗體字為書中定義,紅色字型為筆者認為的重點詞。第一章 緒論 1.資料探勘 在大型資料儲存庫中,自動地發現有用資訊的過程。3.資料探勘要解決的問題 可伸縮,高維性,異種資料和複雜資料,資料的所有權和分布,非傳統的分析。4.資料探勘任務 任務,描述任務。四種主要資料探勘任務 1 建模,有兩類 ...

資料探勘導論 筆記

1.1為什麼進行資料探勘?資訊時代的來臨不貼切,我們的時代其實是資料時代,還沒有真正步入資訊時代,現在資料 增長,需要將資料轉化為知識。1.2什麼是資料探勘?即kdd,資料中的資料發現 知識發現的迭代步驟為 1 資料清理2 資料整合3 資料選擇4 資料變換5 資料探勘6 模式評估7 知識表示 廣義的...

《資料探勘導論》學習筆記(一)

四種主要的資料探勘任務 1 建模任務 2 關聯分析 3 聚類分析 4 異常檢測 主要的資料質量問題 存在雜訊和離群點,資料遺漏 不一致或重複,資料有偏差,或者在別的方面,資料不代表描述所設想的現象或總體情況。資料集主要分為三類 記錄資料,基於圖形的資料 有序的資料 一般資料集的三個特性 記錄資料的不...