機器學習實戰總結

k-近鄰演算法

優點：精度高對異常值不敏感無資料輸入假定

缺點：複雜度高

適用範圍：數值型標稱型

收集資料

準備資料距離計算所需要的資料。最好結構化

分析資料

訓練演算法不適合

測試演算法計算錯誤率

使用演算法

2. 決策樹

優點：計算複雜度不高輸出結果易於理解可以處理不相關特徵資料

缺點：過度匹配

收集資料

準備資料只適用於標稱型，數值型離散化

分析資料

訓練演算法構造樹的資料結構

測試演算法計算錯誤率

使用演算法使用任何監督學習

樸素貝葉斯

優點：資料很少也有效

缺點: 資料輸入格式敏感

適用：標稱型

logistic回歸

優點：計算代價低

缺點：欠擬合分類精度不高

適用：數值型標稱型

支援向量機

優點：泛化錯誤率低計算開銷小

缺點：引數調節核函式敏感二分類

adaboost提高分類效能

優點：泛化錯誤率低

缺點：離群點敏感

線性回歸

優點：計算容易

缺點：對非對成型擬合差

樹回歸優點：非對成型複雜建模

利用k-均值聚類對未標註資料分組

缺點：收斂到區域性最小值大規模資料上收斂慢

fp-growth高效發現頻繁項集

缺點：大規模收斂慢

機器學習實戰

花了一段時間，總算把機器學習實戰粗讀了一遍，重點就在這個粗讀上。這本書的確不錯，機器學習的幾個經典演算法都涉及了，每個演算法都有1 2個實際例子進行說明，都有實實在在的讓我想起了linus的 talk is cheap,show me the code 那句名言。但多年來養成的習慣，從來都是喜...

機器學習機器學習實戰 kmeans

簡介聚類演算法是一種無監督學習，它將相似的物件歸類到同一簇中。聚類的方法可以應用所有的物件，簇內的物件越相似，聚類效果也就越好。聚類和分類的最大不同之處在於，分類的目標是已知的，聚類是完全無監督學習，類別沒有像分類那樣被預先定義出來，所以叫做無監督學習。kmeans演算法是實際中最常用的聚類演算法...

機器學習實戰 apriori

前面主要學習了機器學習的兩大塊分類，回歸，接下來的兩節進入到頻繁項集和關聯規則的分析。關聯分析中最著名的例子當屬啤酒和尿布了。為了定義上述的頻繁和關聯我們引入兩個定義 1 支援度資料集中包含該集項的記錄所佔的比例 2 置信度對於關聯規則p m，該規則的置信度為 support p u m su...

機器學習實戰總結

機器學習實戰

機器學習機器學習實戰 kmeans

機器學習實戰 apriori

相關推薦