《讀書筆記》新手菜鳥1號 《資料探勘基礎教程》 1

2021-06-26 20:11:45 字數 922 閱讀 5495

開始了自己的資料探勘之路,怎麼開始呢,從乙個基礎教程開始吧。《資料探勘基礎教程》大體上看了三遍,總結每一章覺得重點的知識點吧.....

第一、二章

1. 資料探勘是資料庫中的知識發現(kdd)過程。

2.kdd過程的步驟:

1)確定和逐步理解應用領域。

2)選擇研究的資料集。

3)選擇補充的資料集。

4)資料編碼、清理重複和錯誤資料、變換資料。

5)開發模型、構建假設。

6)選擇合適的資料探勘演算法。

7)解釋結果。使用合適的視覺化工具顯示結果。

8)檢驗結果。

9)管理發現的知識。

告訴我們什麼是資料探勘。資料探勘的乙個整體框架,而後面幾章主要涉及的是6)資料的挖掘演算法。

第三章:資料探勘演算法的資料型別、輸入和輸出

1.用於資料探勘的結構化資料的標準模型是案例的匯集,要指定稱作特徵的可能測量值,並且這些特徵在許多案例上統一測量。

特徵的型別

標稱變數、分類變數、序數變數、區間變數、比例變數

2.資料探勘應用的4種型別

分類學習:對未知例項的分類(監督學習)

關聯學習:搜尋特徵之間的任意關聯(非監督學習)

聚類:搜尋屬於同一組的例項

數值**:在數值**中,**的輸出是數值量

我們把要學習的內容稱作概念,學習模式產生的輸出稱為概念描述。(描述的好經典)

3.對於挖掘好的資料的表示方法

決策樹:id3、回歸樹、二叉樹之類的演算法。

神經網路:《機器學習》中講的很nice

規則:x->y;是乙個條件語句。if-then結構。

關聯規則:x->y的形式,即包含x的也包含y,其中涉及支援度,置信度。

表形式:簇隸屬圖;venn圖;顯示簇隸屬度的圖;樹狀圖;自組織對映。

數值**的輸出:回歸樹、模型樹

《資料探勘導論》讀書筆記1

資料預處理 1.聚集 將兩個或者多個物件合併成單個物件。2.抽樣 一種選擇資料物件子集進行分析的常用方法。抽象方法 簡單隨機抽樣 和漸進抽樣 3.維度約 我覺得翻譯的不好,英文明細是降維。降維技術 1.pca principal components analysis 是一種用於連續屬性的線性代數技...

資料探勘概念與技術 讀書筆記(1)

原書第三版 jiawei han micheline kamber jian pei 著 解決 資料豐富,但資訊貧乏 的問題。資料的 式增長,廣泛可用,巨大數量 資料時代 需要功能強大和通用的工具,從海量資料中發現有價值的資訊。從資料中挖掘知識。資料倉儲 事務資料 其他型別的資料 類 概念描述 特徵...

《資料探勘導論》讀書筆記(一) 緒論

書名 資料探勘導論 introduction to data mining 資料探勘是在大型資料儲存庫中,自動地發現有用資訊的過程。資料探勘技術用來探查大型資料庫,發現先前未知的有用模式。資料探勘還可以 未來觀測結果。傳統資料分析技術遇到的實際問題 可伸縮 需要處理海量資料,演算法必須是可伸縮的 s...