資料探勘學習07 《資料探勘導論》第二章 資料

2022-04-09 04:29:53 字數 1311 閱讀 3224

本文目的

最近在看《資料探勘導論》,此書作為此領域的入門書籍,很有口碑。這幾天抽業餘時間,看了第二章,覺得該記點什麼,否則對不起自己。人總在與遺忘作鬥爭,好記性不如爛筆頭。

主要內容

本章節主要討論了資料處理的4個主要方面:

資料型別(type of data)

定義資料的屬性,記錄,資料集。

屬性的型別分為4種

資料集的型別

資料資糧(data quality)

主要介紹了如何度量資料的質量,精度,如何處理錯誤的資料,異常的資料,不一致的資料等,說的比較籠統,主要還是介紹概念和一些簡單的實踐方法,如去掉一些不符合要求的資料等等。

資料預處理(data preprocess)

這一章介紹了集中常見的資料處理方法,涉及到數理統計與線性代數相關的知識,有些公式和方法需要查閱相關書籍,才能明白,本書也只是提到了使用場景,沒有討論推導過程。主要預處理的技術有如下:

相似性測量

個人認為本節是本章中最實用的一章,因為後續的很多章節的分析都是基於資料間的相似度來進行的,比如聚類分析。

歐式距離:集合距離的n維向量空間的擴充套件

minkowski distance:距離的正規化表示

jaccrd 距離:用於計算稀疏的0-1向量之間的距離

餘弦定理:用於計算稀疏的非0-1i向量的距離,如果向量的莫需要考慮,那麼可以採用歐式距離。0元素對相似性不做貢獻

相似度可以放到一些單調遞減的函式,用來度量相異性。

比如,上述方法用於統一余弦值和歐式距離。余弦值越大,越相似。但是歐式距離越大,越相異。所以可以任選乙個,通過乙個簡單的單調遞減函式來轉換,使兩者的值表述一致(要麼越大越相似,要麼越小越相似),這樣就可以原封不動的運用的同乙個演算法中,比如作為hierarchical cluster中的距離公式。

一點思考

上面流水賬式的記錄了第二章的大概,現在對資料處理已經有了大概的認識。以前雖然滅有明確的這個步驟,但是在一些地方見過。比如weka中有一塊專門的地方用於資料預處理。自己在工作中,實現的聚類時,資料初始化時,其實也是在資料與處理,所以實際上本章的內容並不陌生,只是跟全面更廣的了解的相關知識。

同時,發現線性代數,數理統計在資料探勘中的應用還是比較多的,後續要抽點時間撿起相關的知識。

吐槽:好不容易從老婆那裡要過來的兩個小時的上機時間,終於完成了這篇blog,看來是要買個pad了,一台機器是在hold不住。

資料探勘導論

20世紀60年代,從檔案處理演化到資料庫系統 20世紀70年代,演化到關聯式資料庫,聯機事務處理 oltp 將查詢看做唯讀事務 80年代中期到現在,研究分布性 多樣性和資料共享等問題,還有基於internet的全球資訊系統 80年代後期到現在,出現的資料庫結構是資料倉儲,可將多個一種資料來源在單個站...

資料探勘導論

誤差平方均值,越小越好 從大家直觀的感受,這三個模型哪個更好?左上?右上?還是左下?右上,因為左下有可能過擬合。最下面的模型過於強調特定點的誤差了。雜訊點也被擬合了。我們用什麼樣的手段,來幫助我們發現過擬合?擬合曲線的引數過多。分訓練集和測試集,設定測試資料用於判斷擬合的情況。泛化誤差 模型在新樣本...

《資料探勘導論》學習筆記

寫在前面 粗體字為書中定義,紅色字型為筆者認為的重點詞。第一章 緒論 1.資料探勘 在大型資料儲存庫中,自動地發現有用資訊的過程。3.資料探勘要解決的問題 可伸縮,高維性,異種資料和複雜資料,資料的所有權和分布,非傳統的分析。4.資料探勘任務 任務,描述任務。四種主要資料探勘任務 1 建模,有兩類 ...