常見的機器學習演算法特點梳理

傳統技術與機器學習各有特點。本文對於機器學習的一些特點進行一些梳理。

在我的一篇部落格中說道1

，機器學習總的來說可以分為5個部分，每個部分各有特點。結合石油行業的特點，主要部分就集中在資料處理與網路模型這兩個部分。

資料處理需要根據不同的專案進行調整，調整的越細微，效果越好，不過即使使用通用資料處理流程也可以完成多數任務。同時模型也是同理，成熟的演算法已經可以滿足絕大多數專案應用，改進演算法肯定是有進步空間，不過代價肯定也是有的。

因此，如果說資料處理有一套通用模板的話，那麼模型的選擇就有多套模板供您挑選。

在機器學習領域，乙個基本的定理就是「沒有免費的午餐 no free lunch theorem 」（簡稱nlf）。換言之，就是沒有演算法能完美地解決所有問題，尤其是對監督學習而言（例如**建模）2

。

比如只要足夠的網路引數，神經網路理論上能擬合任意函式，也就是說任何資料都能進行訓練，但是實際專案中經常會表現的糟糕。造成這種結果的原因有很多，比如資料量不夠（很多時候專案限制了資料量本來就沒有太多）。所以，每個演算法都試一試是解決實際問題最有效的手段，並且需要選擇合理的演算法，比如我想**有時間序列關係的資料就不能直接套用神經網路去解決，需要做一些資料處理再使用，比如讓輸入的資料本身就能體現出時間的先後關係，或者讓**值體現時間先後關係。

經常會有新演算法被提出來，這裡僅簡單的說明幾個經過比較簡單有效的演算法。

各類演算法有很多，專案實踐中主要用的還是分類與回歸問題，故此本文會主要對這兩個線進行闡述。

並且大多數演算法可能研發時是為了分類，後來會衍生出回歸的能力。這也是有的演算法既能分類又能回歸的原因。

本節是把後文的特點進行簡述，想看更多的內容可以在後續章節進行檢視，也可以索引各個演算法的原理詳情，本文的內容會從專案實踐的角度闡述3

。

注：有的缺點可能是通用缺點比如過擬合這個缺點其實每個演算法都會存在。

演算法

特點優勢

劣勢決策樹

1. 支援分類與回歸

1. 計算簡單

2. 可以解釋檢視分類或者回歸的依據

1. 容易過擬合

隨機森林

1. 支援分類與回歸

2. 屬於整合演算法，是多個決策樹得到的結論經過投票得出的最終結果

1. 決策樹的加強版，對於缺失值、樣本不均衡、訓練速度有提公升

2. 對於大規模資料、各屬性間沒什麼關係的情況有優勢

1. 雜訊對過擬合影響較大

2. 某個屬性如果有過多的類別可能導致結果差

xgboost

1. 支援分類與回歸

2. 結合隨機森林思想的決策樹，這裡單獨列出來是因為它的各方面效果都很好

3. 個人感覺分類的效果比回歸的效果好

1. 緩解過擬合

2. 並行優化

3. 採用二階導數

4. 缺失值處理

5. 列抽樣

1. 劃分層數過多時，繼續新增層數的效果會降低

k-means聚類

1. 聚類演算法，既不能分類也不能回歸

2. 需要人根據經驗把結果綜合業務場景進行解釋

1. 簡單、快複雜度較低

1. 噪音的影響較大

knn1. 支援分類與回歸

1. 簡單、複雜度極低

1. 受樣本不均衡影響會偏向大容量資料（比如型別a多就多**為型別a）

線性回歸

1. 回歸

1. 簡單

2. 存在解析解

1. 欠擬合（資料如果複雜擬合效果差）

svm1. 支援分類與回歸

2. 資料公升維（比如兩個圈套在一起，平面上看是沒法區分，三維上看很容易解決）

1. 擬合效果可以很好

1. 核函式（svm內使用的乙個具體方法）不同，效果也有很大差距

2. 可解釋性差（只有用線性核才便於解釋，然而線性核對於實際問題沒什麼用）

神經網路

1. 支援分類與回歸

2. 本質上的神經網路的兩個核心操作就是全連線和卷積，前者是對於資料點的操作，後者主要是體現了多個資料點在一起具有某種意義的操作，比如影象的某個區域內n個畫素

3. 深度學習的大門在這，效果的確很好，同時模型會特別複雜，以及耗時、燒錢

1. 全都是優點

1. 資料不行的時候所有優點都沒用

個人覺得各種演算法的優缺點只是理論上的，並且很多優缺點都是通用的，比如容易過擬合這個缺點是所有模型都有的，因為擬合與過擬合本身就是矛盾的，只能尋找平衡。優點方面有的模型比較簡單，而實際上如果專案要求不是很高，再複雜的模型也不會消耗太多的時間或計算機資源，反之亦然。

資料決定了效果的上限，模型只是逼近這個上限的手段。

↩︎ ↩︎

↩︎

常見的機器學習演算法特點梳理

機器學習 GBDT演算法梳理

機器學習線性回歸演算法梳理

機器學習基礎演算法梳理 2

常見的機器學習演算法特點梳理

機器學習 GBDT演算法梳理

機器學習 線性回歸演算法梳理

機器學習基礎演算法梳理 2

相關推薦

機器學習線性回歸演算法梳理