資料探勘學習筆記 分類(1)

2021-07-14 13:28:20 字數 583 閱讀 1906

1、定義:分類任務就是通過學習得到乙個目標函式(target function)f,把每個屬性集x對映到乙個預定義的類標號y。目標函式也是分類模型(classification model)

描述性建模:分類模型作為解釋性工具,用於卻分不同類中的物件。

**性建模:分類模型用於**未知記錄的類標號,給定乙個物件作為輸入,輸出為該物件的類標號。即分類器

2、分類的學習演算法:決策樹分類法、基於規則的分類法、神經網路、支援向量機和樸素貝葉斯分類法

3、分類過程:訓練集(training set)由類標號已知紀錄組成。使用訓練集建立分類模型,再對檢驗集(test set).分類模型的效能根據正確和錯誤的**的檢驗記錄技術進行評估,這些技術將放在混淆矩陣(confusion matriex)

準確率=正確**數/**總數=(f11+f00)/(f11+f10+f01+f00)

機器學習實戰學習筆記 分類

k 近鄰演算法 優點 精度高 對異常值不敏感 無資料輸入假定 簡單有效 缺點 計算複雜度高 空間複雜度高 非常耗時 關鍵 對訓練集到資料向量的距離進行排序,選出到資料向量最近的k個訓練集向量,然後對k個向量標籤出現的次數進行排序,出現次數最多的就是資料向量的 標籤 備註 需要對各特徵進行歸一化 決策...

資料探勘學習筆記(1)

碎碎念 最近選修了聯合國教科文組織國際工程科技知識中心的電腦科學微學位,裡面包括 資料結構和演算法設計 資料探勘 理論和演算法應對大資料 計算思維和資料科學導論 使用ruby on rails的敏捷開發基礎 內容都比較基礎,很適合新手入門或者拓展自己的知識面。其中就被清華大學深圳研究生院的袁博老師圈...

學習筆記 分類演算法 邏輯回歸

邏輯回歸 logistic regression 簡稱lr。它的特點是能夠使我們的特徵輸入集合轉化為0和1這兩類的概率。一般來說,回歸不用在分類問題上,因為回歸是連續型模型,而且受雜訊影響比較大。如果非要應用進了 來,可以使用邏輯回歸。了解過線性回歸之後再來看邏輯回歸可以更好的理解。logistic...