開始了自己的資料探勘之路,怎麼開始呢,從乙個基礎教程開始吧。《資料探勘基礎教程》大體上看了三遍,總結每一章覺得重點的知識點吧.....
第一、二章
1. 資料探勘是資料庫中的知識發現(kdd)過程。
2.kdd過程的步驟:
1)確定和逐步理解應用領域。
2)選擇研究的資料集。
3)選擇補充的資料集。
4)資料編碼、清理重複和錯誤資料、變換資料。
5)開發模型、構建假設。
6)選擇合適的資料探勘演算法。
7)解釋結果。使用合適的視覺化工具顯示結果。
8)檢驗結果。
9)管理發現的知識。
告訴我們什麼是資料探勘。資料探勘的乙個整體框架,而後面幾章主要涉及的是6)資料的挖掘演算法。
第三章:資料探勘演算法的資料型別、輸入和輸出
1.用於資料探勘的結構化資料的標準模型是案例的匯集,要指定稱作特徵的可能測量值,並且這些特徵在許多案例上統一測量。
特徵的型別
標稱變數、分類變數、序數變數、區間變數、比例變數
2.資料探勘應用的4種型別
分類學習:對未知例項的分類(監督學習)
關聯學習:搜尋特徵之間的任意關聯(非監督學習)
聚類:搜尋屬於同一組的例項
數值**:在數值**中,**的輸出是數值量
我們把要學習的內容稱作概念,學習模式產生的輸出稱為概念描述。(描述的好經典)
3.對於挖掘好的資料的表示方法
決策樹:id3、回歸樹、二叉樹之類的演算法。
神經網路:《機器學習》中講的很nice
規則:x->y;是乙個條件語句。if-then結構。
關聯規則:x->y的形式,即包含x的也包含y,其中涉及支援度,置信度。
表形式:簇隸屬圖;venn圖;顯示簇隸屬度的圖;樹狀圖;自組織對映。
數值**的輸出:回歸樹、模型樹
《資料探勘導論》讀書筆記1
資料預處理 1.聚集 將兩個或者多個物件合併成單個物件。2.抽樣 一種選擇資料物件子集進行分析的常用方法。抽象方法 簡單隨機抽樣 和漸進抽樣 3.維度約 我覺得翻譯的不好,英文明細是降維。降維技術 1.pca principal components analysis 是一種用於連續屬性的線性代數技...
資料探勘概念與技術 讀書筆記(1)
原書第三版 jiawei han micheline kamber jian pei 著 解決 資料豐富,但資訊貧乏 的問題。資料的 式增長,廣泛可用,巨大數量 資料時代 需要功能強大和通用的工具,從海量資料中發現有價值的資訊。從資料中挖掘知識。資料倉儲 事務資料 其他型別的資料 類 概念描述 特徵...
《資料探勘導論》讀書筆記(一) 緒論
書名 資料探勘導論 introduction to data mining 資料探勘是在大型資料儲存庫中,自動地發現有用資訊的過程。資料探勘技術用來探查大型資料庫,發現先前未知的有用模式。資料探勘還可以 未來觀測結果。傳統資料分析技術遇到的實際問題 可伸縮 需要處理海量資料,演算法必須是可伸縮的 s...