傳統技術與機器學習各有特點。本文對於機器學習的一些特點進行一些梳理。
在我的一篇部落格中說道1
,機器學習總的來說可以分為5個部分,每個部分各有特點。結合石油行業的特點,主要部分就集中在資料處理與網路模型這兩個部分。
資料處理需要根據不同的專案進行調整,調整的越細微,效果越好,不過即使使用通用資料處理流程也可以完成多數任務。同時模型也是同理,成熟的演算法已經可以滿足絕大多數專案應用,改進演算法肯定是有進步空間,不過代價肯定也是有的。
因此,如果說資料處理有一套通用模板的話,那麼模型的選擇就有多套模板供您挑選。
在機器學習領域,乙個基本的定理就是「沒有免費的午餐 no free lunch theorem 」(簡稱nlf)。換言之,就是沒有演算法能完美地解決所有問題,尤其是對監督學習而言(例如**建模)2比如只要足夠的網路引數,神經網路理論上能擬合任意函式,也就是說任何資料都能進行訓練,但是實際專案中經常會表現的糟糕。造成這種結果的原因有很多,比如資料量不夠(很多時候專案限制了資料量本來就沒有太多)。所以,每個演算法都試一試是解決實際問題最有效的手段,並且需要選擇合理的演算法,比如我想**有時間序列關係的資料就不能直接套用神經網路去解決,需要做一些資料處理再使用,比如讓輸入的資料本身就能體現出時間的先後關係,或者讓**值體現時間先後關係。。
經常會有新演算法被提出來,這裡僅簡單的說明幾個經過比較簡單有效的演算法。
各類演算法有很多,專案實踐中主要用的還是分類與回歸問題,故此本文會主要對這兩個線進行闡述。本節是把後文的特點進行簡述,想看更多的內容可以在後續章節進行檢視,也可以索引各個演算法的原理詳情,本文的內容會從專案實踐的角度闡述3並且大多數演算法可能研發時是為了分類,後來會衍生出回歸的能力。這也是有的演算法既能分類又能回歸的原因。
。
注:有的缺點可能是通用缺點比如過擬合
這個缺點其實每個演算法都會存在。
演算法
特點優勢
劣勢決策樹
1. 支援分類與回歸
1. 計算簡單
2. 可以解釋 檢視分類或者回歸的依據
1. 容易過擬合
隨機森林
1. 支援分類與回歸
2. 屬於整合演算法,是多個決策樹得到的結論經過投票得出的最終結果
1. 決策樹的加強版,對於缺失值、樣本不均衡、訓練速度有提公升
2. 對於大規模資料、各屬性間沒什麼關係的情況有優勢
1. 雜訊對過擬合影響較大
2. 某個屬性如果有過多的類別可能導致結果差
xgboost
1. 支援分類與回歸
2. 結合隨機森林思想的決策樹,這裡單獨列出來是因為它的各方面效果都很好
3. 個人感覺分類的效果比回歸的效果好
1. 緩解過擬合
2. 並行優化
3. 採用二階導數
4. 缺失值處理
5. 列抽樣
1. 劃分層數過多時,繼續新增層數的效果會降低
k-means聚類
1. 聚類演算法,既不能分類也不能回歸
2. 需要人根據經驗把結果綜合業務場景進行解釋
1. 簡單、快複雜度較低
1. 噪音的影響較大
knn1. 支援分類與回歸
1. 簡單、複雜度極低
1. 受樣本不均衡影響會偏向大容量資料(比如型別a多就多**為型別a)
線性回歸
1. 回歸
1. 簡單
2. 存在解析解
1. 欠擬合(資料如果複雜擬合效果差)
svm1. 支援分類與回歸
2. 資料公升維(比如兩個圈套在一起,平面上看是沒法區分,三維上看很容易解決)
1. 擬合效果可以很好
1. 核函式(svm內使用的乙個具體方法)不同,效果也有很大差距
2. 可解釋性差(只有用線性核才便於解釋,然而線性核對於實際問題沒什麼用)
神經網路
1. 支援分類與回歸
2. 本質上的神經網路的兩個核心操作就是全連線和卷積,前者是對於資料點的操作,後者主要是體現了多個資料點在一起具有某種意義的操作,比如影象的某個區域內n個畫素
3. 深度學習的大門在這,效果的確很好,同時模型會特別複雜,以及耗時、燒錢
1. 全都是優點
1. 資料不行的時候所有優點都沒用
個人覺得各種演算法的優缺點只是理論上的,並且很多優缺點都是通用的,比如容易過擬合
這個缺點是所有模型都有的,因為擬合與過擬合本身就是矛盾的,只能尋找平衡。優點方面有的模型比較簡單,而實際上如果專案要求不是很高,再複雜的模型也不會消耗太多的時間或計算機資源,反之亦然。
資料決定了效果的上限,模型只是逼近這個上限的手段。
↩︎ ↩︎
↩︎
機器學習 GBDT演算法梳理
學習任務 前向分步演算法 負梯度擬合 損失函式 回歸二分類,多分類 正則化優缺點 sklearn引數 應用場景 前言 提公升 boosting 方法是整合學習方法的一種,在分類問題中,它通過改變訓練樣本的權重,學習多個分類器,將弱分類器組裝成乙個強分類器,提高分類的效能。其最具代表性的是adaboo...
機器學習 線性回歸演算法梳理
學習內容 機器學習的一些概念 有監督 無監督 泛化能力 過擬合欠擬合 方差和偏差以及各自解決辦法 交叉驗證 線性回歸的原理 線性回歸損失函式 代價函式 目標函式 優化方法 梯度下降法 牛頓法 擬牛頓法等 線性回歸的評估指標 sklearn引數詳解 1.基本概念 有監督 訓練資料有標記資訊,如分類和回...
機器學習基礎演算法梳理 2
1.3 邏輯回歸損失函式 1.4 優缺點 1.5 樣本不均衡解決方法 二 正則化與模型評估 2.2 評估指標 2.2.1 混淆矩陣 邏輯回歸於線性回歸實際上有很多相似之處,它們都屬於乙個族群,即廣義線性模型。這一模型中的形式基本差不多,基於模型中資料的特徵進行建模,所解決的問題均以資料為導向的連續或...