k-近鄰演算法
優點:精度高 對異常值不敏感 無資料輸入假定
缺點:複雜度高
適用範圍:數值型 標稱型
收集資料
準備資料 距離計算所需要的資料。最好結構化
分析資料
訓練演算法 不適合
測試演算法 計算錯誤率
使用演算法
2. 決策樹
優點:計算複雜度不高 輸出結果易於理解 可以處理不相關特徵資料
缺點:過度匹配
收集資料
準備資料 只適用於標稱型,數值型離散化
分析資料
訓練演算法 構造樹的資料結構
測試演算法 計算錯誤率
使用演算法 使用任何監督學習
樸素貝葉斯
優點:資料很少也有效
缺點: 資料輸入格式敏感
適用:標稱型
logistic回歸
優點:計算代價低
缺點:欠擬合 分類精度不高
適用:數值型 標稱型
支援向量機
優點:泛化錯誤率低 計算開銷小
缺點:引數調節 核函式 敏感 二分類
adaboost提高分類效能
優點:泛化錯誤率低
缺點:離群點敏感
線性回歸
優點:計算容易
缺點:對非對成型擬合差
樹回歸優點:非對成型 複雜 建模
利用k-均值聚類對未標註資料分組
缺點:收斂到區域性最小值 大規模資料上收斂慢
fp-growth高效發現頻繁項集
缺點:大規模收斂慢
機器學習實戰
花了一段時間,總算把 機器學習實戰 粗讀了一遍,重點就在這個粗讀上。這本書的確不錯,機器學習的幾個經典演算法都涉及了,每個演算法都有1 2個實際例子進行說明,都有實實在在的 讓我想起了linus的 talk is cheap,show me the code 那句名言。但多年來養成的習慣,從來都是喜...
機器學習機器學習實戰 kmeans
簡介 聚類演算法是一種無監督學習,它將相似的物件歸類到同一簇中。聚類的方法可以應用所有的物件,簇內的物件越相似,聚類效果也就越好。聚類和分類的最大不同之處在於,分類的目標是已知的,聚類是完全無監督學習,類別沒有像分類那樣被預先定義出來,所以叫做無監督學習。kmeans演算法是實際中最常用的聚類演算法...
機器學習實戰 apriori
前面主要學習了機器學習的兩大塊 分類,回歸,接下來的兩節進入到頻繁項集和關聯規則的分析。關聯分析中最著名的例子當屬啤酒和尿布了。為了定義上述的頻繁和關聯我們引入兩個定義 1 支援度 資料集中包含該集項的記錄所佔的比例 2 置信度 對於關聯規則p m,該規則的置信度為 support p u m su...