R語言之裝袋 adaboost 隨機森林演算法

2021-07-04 19:02:10 字數 2497 閱讀 7786

首先,這三個演算法都是分類演算法,分類的準確率很高,這些方法都是組合多個分類器,每個分類器分別進行**,通過簡單選舉多數,判定最終所屬分類。為什麼組合分類器能提高分類準確率:可以通過下面的圖進行解釋。左圖單個分類器就是圖上的對角線,當進行多個組合時,出現了圖上的折線圖,每個摺邊都是乙個分類器,當有多個分類器進行組合,就會出現右圖,最終達到乙個曲線圖。組合演算法的優勢:1、能明顯提公升判別準確率;2、對誤差和噪音更加魯棒性;3、一定程度抵消過度擬合;4、適合並行化計算。

一、裝袋演算法

建立k個模型就需要k個訓練集,且這些訓練集都有放回抽樣,這樣每次抽樣時每個樣本都有機會被抽到。袋裝演算法的優勢:1、準確率明顯高於組合中任何單個的分類器;2、對於較大的噪音,表現不至於很差,並且具有魯棒性;3、不容易過度擬合

二、adaboost演算法

提公升(boosting)演算法思想:

1 訓練集中的元組被分配權重

2 權重影響抽樣,權重越大,越可能被抽取

3 迭代訓練若干個分類器,在前乙個分類器中被錯誤分類的元組,會被提高權重,使到

它在後面建立的分類器裡被更加「關注」

4 最後分類也是由所有分類器一起投票,投票權重取決於分類器的準確率

adaboost演算法

解釋:首先對原組進行權重初始化,建立k個資料集,切記此時每個資料集的樣本不一樣,後乙個模型的資料集大部分樣本都是來自前乙個模型誤分的樣本,是由於誤分樣本權重提高了。每個分類器進行**屬於哪個類,並給該類加權重,最後看哪個累的權重之和最大就選哪個類。

提公升演算法的優缺點:1:可以獲得比bagging更高的準確率;2、容易過度擬合。

三、隨機森林(random forest)演算法

1、由很多決策樹分類器組合而成(因而稱為「森林」)

2、單個的決策樹分類器用隨機方法構成。首先,學習集是從原訓練集中通過有放回抽樣

得到的自助樣本。其次,參不構建該決策樹的變數也是隨機抽出,參不變數數通常大

大小於可用變數數。

3、單個決策樹在產生學習集和確定參不變數後,使用cart演算法計算,丌剪枝

4、 最後分類結果取決於各個決策樹分類器簡單多數選舉

解釋:

構建k個決策樹,組成隨機森林,但是產生每個決策樹的資料集的變數數通常不一樣,使用cart演算法,只要進行簡單的四則運算就行了。最後根據選舉。隨機森林演算法優點:1、準確率可以和adaboost媲美;2、對錯誤和離群點更加魯棒性;3、決策樹容易過度擬合的問題會隨著森林覎模而削弱;4、在大資料情況下速度快,效能好;

隨機森林演算法

匯入randomforest包

> attach(iris)

> model.forest

> pre.forest

> table(pre.forest,species)

species

pre.forest   setosa versicolor virginica

setosa         50          0         0

versicolor      0         50         0

virginica       0          0        50

準確率100%

決策樹演算法

匯入rpart包

model.tree

> pre.tree

> plot(model.tree,uniform = t,branch = 0,margin = 0.1,main="1")

> text(model.tree,use.n = t,fancy = t,col="red")

> table(pre.tree,species)

species

pre.tree     setosa versicolor virginica

setosa         50          0         0

versicolor      0         49         5

virginica       0          1        45

準確率下降,下面是決策樹

解釋:setosa50個正確分類,versicolor誤分5個**virginica,virginica誤分1個來自versicolor。

R語言之for迴圈

程式示例 資料集 id t1 t2 t3 1 1 52.56441 10.074323 18.81786 2 1 50.18791 10.058374 18.30228 3 1 47.68246 10.476636 21.96603 4 1 48.52158 10.005308 20.05809 5...

R語言之OOP篇

setclass passenger representation name character origin character destination character 定義類passenger setclass freqflyer representation ffnumber numeri...

r語言 svycoxph R語言之cox回歸分析

cox比例風險模型 cox proportional hazards model,也稱為cox回歸 主要用於帶有時間的生存結局的影響因素研究,或評價某個臨床 措施對患者生存的影響。cox模型可以由hazard function表示,h t 簡單的說就是t時刻死亡的風險,公式如下 h t h0 t e...