機器學習方法篇 10 隨機森林

2021-08-07 17:10:18 字數 1133 閱讀 4675

因年齡增長所帶來的理解力,與努力無關。

前面介紹了決策樹演算法應用之一的gbdt模型,本節講講決策樹另乙個比較火的應用模型,隨機森林。與gbdt模型相比,同樣屬於整合學習,隨機森林模型的原理更為直觀簡潔,效能也同樣十分強悍。那麼,隨機森林演算法模型的原理與思想是怎樣的?

所謂多樹成林,random forests(或者random decision forests)隨機森林,顧名思義由多棵決策樹構成,這些決策樹都是cart(classification and regression tree)分類或回歸樹。

隨機森林的演算法核心思想有二:取樣完全**取樣又分為行取樣和列取樣,這裡的行與列對應的就是樣本與特徵。完全**指的是決策樹每一次**擴充套件節點時,能**必須**,**依據可以是資訊增益或者增益率(具體可參見

機器學習方法篇(3)——決策樹入門)。

對於行取樣,模型從m條資料集中隨機取樣m條資料,一般情況下m取m的平方根大小,分別作為每一棵決策樹的訓練集。行取樣保證了每棵決策樹使用的訓練集各不相同,這在一定程度上抑制了over-fitting問題。

對於列取樣,每一棵決策樹都從m個特徵中隨機挑選m個特徵作為節點**特徵來計算,一般情況下m也取m的平方根大小。列取樣具體又分為兩種方式,一種是全域性列取樣,即同一棵樹的建樹過程均採用同一批取樣特徵;另一種是區域性列取樣,即每一次節點**的時候均單獨隨機挑選m個特徵進行擴充套件。列取樣進一步保證了隨機森林不會出現over-fitting問題。

隨機森林的最終輸出由每一棵決策樹的結果共同決定。如果是分類樹則通過投票產生最終分類,如果是回歸樹則取所有結果的平均值。敬請期待下節內容。

整合學習方法之隨機森林

整合學習通過建立幾個模型組合的來解決單一 問題。它的工作原理是生成多個分類器 模型,各自獨立地學習和作出 這些 最後結合成組合 因此優於任何乙個單分類的做出 在機器學習中,隨機森林是乙個包含多個決策樹的分類器,並且其輸出的類別是由個別樹輸出的類別的眾數而定。例如,如果你訓練了5個樹,其中有4個樹的結...

機器學習 隨機森林

opencv包含隨機森林 random forest 類,隨機森林可以通過收集很多樹的子節點對各個類別的投票,然後選擇獲得最多投票的類別作為判斷結果。通過計算 森林 的所有子節點上的值的平均值來解決回歸問題。隨機森林包含隨機選擇的一些決策樹。隨機森林建立時的基本子系統也是決策樹,在建立決策樹時會一直...

機器學習 隨機森林

以下內容均為個人理解,如有錯誤,歡迎指出 如何生成隨機森林基學習器的訓練資料集 隨機 的含義 bagging整合學習的評測方法 隨機森林的引數 以下內容摘自周志華老師的 機器學習 隨機森林是bagging的乙個擴充套件變體,它在以決策樹為基學習器構建的bagging整合的基礎上,進一步在決策樹的訓練...