理解隨機森林
隨機森林利用隨機的方式將許多決策樹組合成乙個森林,每個決策樹在分類的時候投票決定測試樣本的最終類別。下面我們再詳細說一下隨機森林是如何構建的。
隨機森林主要包括4個部分:隨機選擇樣本;隨機選擇特徵;構建決策樹;隨機森林投票分類。
給定乙個訓練樣本集,數量為n,我們使用有放回取樣到n個樣本,構成乙個新的訓練集。注意這裡是有放回的取樣,所以會取樣到重複的樣本。詳細來說,就是取樣n次,每次取樣乙個,放回,繼續取樣。即得到了n個樣本。
然後我們把這個樣本集作為訓練集,進入下面的一步。
在構建決策樹的時候,我們前面已經講過如何在乙個節點上,計算所有特徵的information gain(id3) 或者 gain ratio(c4.5),然後選擇乙個最大增益的特徵作為劃分下乙個子節點的走向。
但是,在隨機森林中,我們不計算所有特徵的增益,而是從總量為m的特徵向量中,隨機選擇m個特徵,其中m可以等於sqrt(m),然後計算m個特徵的增益,選擇最優特徵(屬性)。注意,這裡的隨機選擇特徵是無放回的選擇!
所以,隨機森林中包含兩個隨機的過程:隨機選擇樣本,隨機選擇特徵。
有了上面隨機產生的樣本集,我們就可以使用一般決策樹的構建方法,得到一棵分類(或者**)的決策樹。需要注意的是,在計算節點最優分類特徵的時候,我們要使用上面的隨機選擇特徵方法。而選擇特徵的標準可以是我們常見的information gain(id3) 或者 gain ratio(c4.5)。
通過上面的三步走,我們可以得到一棵決策樹,我們可以重複這樣的過程h次,就得到了h棵決策樹。然後來了乙個測試樣本,我們就可以用每一棵決策樹都對它分類一遍,得到了h個分類結果。這時,我們可以使用簡單的投票機制,或者該測試樣本的最終分類結果。
優點:缺點:
理解隨機森林
理解隨機森林 隨機森林利用隨機的方式將許多決策樹組合成乙個森林,每個決策樹在分類的時候投票決定測試樣本的最終類別。下面我們再詳細說一下隨機森林是如何構建的。隨機森林主要包括4個部分 隨機選擇樣本 隨機選擇特徵 構建決策樹 隨機森林投票分類。1.隨機選擇樣本 給定乙個訓練樣本集,數量為n,我們使用有放...
隨機森林深入理解
決策樹演算法 id3 中,我們介紹了決策樹的分類思想及原理,可以看出,決策樹對經驗資料可以很好的分類,但是模型通用性不強,往往不準確,也就是過擬合。我們可以通過剪枝減弱過擬合,但是還不夠完美。隨機森林原理 隨機森林的出現,完美的解決了決策樹的劣勢,使得分類效果大大提公升,甚至超過了神經網路。隨機森林...
如何理解隨機森林RF 隨機性的理解
1 rf 1.1 原理 提到隨機森林,就不得不提bagging,bagging可以簡單的理解為 放回抽樣,多數表決 分類 或簡單平均 回歸 基學習器之間屬於並列生成,不存在強依賴關係。引入了隨機特徵選擇 1 隨機選擇樣本 放回抽樣 隨機選擇特徵是指在樹的構建中,會從樣本集的特徵集合中隨機選擇部分特徵...