重要機器學習演算法

2021-09-03 09:57:24 字數 886 閱讀 7918

從svm到隨機森林,再到梯度提公升機,他們都是機器學習領域應用廣泛的代表。

svm的理解可以參考該部落格:

svm,支援向量機就是一種將低維資料通過核函式對映到高維空間,對資料進行某種變換,使得資料在高維空間可以輕易的實現分離。

隨機森林:發現隨機森林這個演算法在分類問題上效果十分的好,大多數情況下效果遠要比svm,log回歸,knn等演算法效果好。因此想琢磨琢磨這個演算法的原理。可參考該部落格:

對於訓練集中的每個樣本建立權值wi,表示對每個樣本的關注度。當某個樣本被誤分類的概率很高時,需要加大對該樣本的權值。

進行迭代的過程中,每一步迭代都是乙個弱分類器。我們需要用某種策略將其組合,作為最終模型。(例如adaboost給每個弱分類器乙個權值,將其線性組合最為最終分類器。誤差越小的弱分類器,權值越大)

bagging,boosting的主要區別

樣本選擇上:bagging採用的是bootstrap隨機有放回抽樣;而boosting每一輪的訓練集是不變的,改變的只是每乙個樣本的權重。

樣本權重:bagging使用的是均勻取樣,每個樣本權重相等;boosting根據錯誤率調整樣本權重,錯誤率越大的樣本權重越大。

**函式:bagging所有的**函式的權重相等;boosting中誤差越小的**函式其權重越大。

平行計算:bagging各個**函式可以並行生成;boosting各個**函式必須按順序迭代生成。

下面是將決策樹與這些演算法框架進行結合所得到的新的演算法:

1)bagging + 決策樹 = 隨機森林

2)adaboost + 決策樹 = 提公升樹

3)gradient boosting + 決策樹 = gbdt

隨機森林是一種重要的基於bagging的整合學習方法,可以用來做分類、回歸等問題。

梯度提公升機:參考該博文

機器學習演算法 其他重要演算法

1 hmm 隱馬爾科夫模型的引數估計方法 em 演算法 2 boostrap 方法 從資料集中有放回的抽取n次,每次抽m個 3 focal loss 介紹一下 focal loss 主要是為了解決one stage 目標檢測中正負樣本比例嚴重失衡的問題。該損失函式降低了大量簡單負樣本中所佔的權重,可...

機器學習重要理解

1.模型本質是乙個函式,輸入 f 輸入 輸出 1.1f x 是乙個複雜的函式,由簡單的函式組成,神經網路中,f由多層神經層組成,每層神經層由神經元組成,神經元是具體的函式h x h稱為啟用函式,一般型別有 sigmoid函式,tanh函式,relu函式,softmax函式等,x是線性矩陣函式w x ...

機器學習重要概念補充

多項式回歸對非線性資料進行處理的方法 研究乙個因變數與乙個或多個自變數間多項式的回歸分析方法,稱為多項式回歸 polynomial regression 完全是使用線性回歸的思路,關鍵在於為資料新增新的特徵,而這些新的特徵是原有的特徵的多項式組合,採用這樣的方式就能解決非線性問題。多項式回歸是公升維...