機器學習 隨機森林

2021-09-10 16:32:58 字數 1874 閱讀 3079

以下內容均為個人理解,如有錯誤,歡迎指出

如何生成隨機森林基學習器的訓練資料集

"隨機"的含義

bagging整合學習的評測方法

隨機森林的引數

以下內容摘自周志華老師的《機器學習》

隨機森林是bagging的乙個擴充套件變體,它在以決策樹為基學習器構建的bagging整合的基礎上,進一步在決策樹的訓練過程中引入隨機屬性的選擇

bagging是整合學習中的一種演算法,其並行訓練多個基學習器,測試樣本將輸入到訓練好的多個基學習器,獲得多個輸出,對於分類任務,常採用簡單的投票法,即少數服從多數,假設有10個基學習器**為a,5個基學習器**為b,最終**結果將為a。對回歸任務使用簡單的平均法,即把所有基學習器的輸出做平均。bagging側重於降低方差,其偏差與基學習器基本相同,因此,我們常採用強基學習器,關於這點簡單的理論推導,可以檢視我之前的文章機器學習——xgboost。

bagging的基學習器必須是強學習器,深度足夠的決策樹可以很好擬合訓練資料,資料越多,決策樹也就越強,因此隨機森林選擇決策樹作為基學習器,作為bagging基學習器的決策樹一般不需要減枝,

可以看到隨機森林其實非常簡單,本文將側重總結隨機森林的某些細節,並不會對決策樹等進行介紹,決策樹請檢視我之前的文章機器學習——決策樹(id3、c4.5、cart)

不能使用相同的訓練集來訓練基學習器。如果使用相同的訓練集,對於以決策樹為基學習器的整合模型而言,意味著每個決策樹都是一樣的,整合學習的結果等於單個決策樹的輸出,這是沒有意義的。若每個決策樹使用完全不同的訓練資料,每個基學習器的訓練資料可能很少。我們採用了一種折中的做法,如下:

每個基學習器的訓練資料集(取樣集)都是從初使訓練資料集中有放回的進行抽樣,即先從初使訓練資料集中抽出乙個樣本a放入某個基學習器的取樣集,樣本a仍然存在於初始訓練資料集,在接著抽樣。假設有m個基學習器,通過上述操作,我們將獲得m個取樣集,初使訓練集的某些樣本在m個取樣集中多次出現,有的從未出現,取樣集的大小由自己確定,隨機森林作為bagging的一種擴充套件變體,也繼承了這種做法

與決策樹不同,隨機森林的決策樹每次**前,都會從n個特徵中隨機抽取m個特徵(m(1−

1m)δ

2ρ+δ

2m(1-\frac)\delta^2\rho+\frac

(1−m1​

)δ2ρ

+mδ2

​其中,δ

2\delta^2

δ2表示基學習器的方差,ρ

\rho

ρ為兩兩基學習器的相關係數,bagging通過增加基學習器的個數降低方差,而隨機森林通過上述隨機策略,降低了兩兩基學習器的相關係數,從而使方差下降更加明顯,在esl中,給出了隨機選擇的特徵個數m與兩兩基學習器的相關係數之間的關係,如下圖:

可見m越小,樹與樹之間的相關係數越小

對於一顆樹,不在它訓練集中的初始訓練集樣本稱為oob樣本,對於每個樣本

(1)對每個樣本,計算它作為oob樣本的樹對它的分類情況;

(2)然後以簡單多數投票作為該樣本的分類結果;

(3)最後用誤分個數佔樣本總數的比率作為bagging的oob誤分率;

以下是個人理解的引數,僅做參考

決策樹的個數

決策樹停止**的條件,對於bagging、隨機森林來說,決策樹要足夠深

取樣集的大小

隨機抽樣的樣本個數m,在esl一書中,給出的建議如下,p為該節點總的特徵個數:

當然也需要根據實際情況進行調參,上圖也給出了決策樹停止**的條件(node size即葉子節點的大小)

機器學習 隨機森林

opencv包含隨機森林 random forest 類,隨機森林可以通過收集很多樹的子節點對各個類別的投票,然後選擇獲得最多投票的類別作為判斷結果。通過計算 森林 的所有子節點上的值的平均值來解決回歸問題。隨機森林包含隨機選擇的一些決策樹。隨機森林建立時的基本子系統也是決策樹,在建立決策樹時會一直...

機器學習 隨機森林

以決策樹為基礎 隨機森林 決策樹的乙個主要缺點在於經常對訓練的資料過擬合。隨機森林是解決這個問題的一種方法。隨機森林的本質上是很多決策樹的集合,其中那個每棵樹都和其他樹略有不同。隨機森林背後砈思想史是,每棵樹的 都可能相對較好,但可能對部分書聚過擬合,如果我們構建很多樹,並且每棵樹都可以 的很好,但...

隨機森林演算法原理 機器學習演算法 隨機森林

隨機森林是一種通用的機器學習方法,能夠處理回歸和分類問題。它還負責資料降維 缺失值處理 離群值處理以及資料分析的其他步驟。它是一種整合學習方法,將一組一般的模型組合成乙個強大的模型 我們通過適用隨機的方式從資料中抽取樣本和特徵值,訓練多個不同的決策樹,形成森林。為了根據屬性對新物件進行分類,每個數都...