理解隨機森林
隨機森林利用隨機的方式將許多決策樹組合成乙個森林,每個決策樹在分類的時候投票決定測試樣本的最終類別。下面我們再詳細說一下隨機森林是如何構建的。
隨機森林主要包括4個部分:隨機選擇樣本;隨機選擇特徵;構建決策樹;隨機森林投票分類。
1.隨機選擇樣本
給定乙個訓練樣本集,數量為n,我們使用有放回取樣到n個樣本,構成乙個新的訓練集。注意這裡是有放回的取樣,所以會取樣到重複的樣本。詳細來說,就是取樣n次,每次取樣乙個,放回,繼續取樣。即得到了n個樣本。
然後我們把這個樣本集作為訓練集,進入下面的一步。
2. 隨機選擇特徵
在構建決策樹的時候,我們前面已經講過如何在乙個節點上,計算所有特徵的information gain(id3) 或者 gain ratio(c4.5),然後選擇乙個最大增益的特徵作為劃分下乙個子節點的走向。
但是,在隨機森林中,我們不計算所有特徵的增益,而是從總量為m的特徵向量中,隨機選擇m個特徵,其中m可以等於sqrt(m),然後計算m個特徵的增益,選擇最優特徵(屬性)。注意,這裡的隨機選擇特徵是無放回的選擇!
所以,隨機森林中包含兩個隨機的過程:隨機選擇樣本,隨機選擇特徵。
3. 構建決策樹
有了上面隨機產生的樣本集,我們就可以使用一般決策樹的構建方法,得到一棵分類(或者**)的決策樹。需要注意的是,在計算節點最優分類特徵的時候,我們要使用上面的隨機選擇特徵方法。而選擇特徵的標準可以是我們常見的information gain(id3) 或者 gain ratio(c4.5)。
4. 隨機森林投票分類
通過上面的三步走,我們可以得到一棵決策樹,我們可以重複這樣的過程h次,就得到了h棵決策樹。然後來了乙個測試樣本,我們就可以用每一棵決策樹都對它分類一遍,得到了h個分類結果。這時,我們可以使用簡單的投票機制,或者該測試樣本的最終分類結果。
5. 優缺點分析
優點:它能夠處理很高維度(feature很多)的資料,並且不用做特徵選擇;
由於隨機選擇樣本導致的每次學習決策樹使用不同訓練集,所以可以一定程度上避免過擬合;
缺點:隨機森林已經被證明在某些噪音較大的分類或回歸問題上會過擬合;對於有不同級別的屬性的資料,級別劃分較多的屬性會對隨機森林產生更大的影響,所以隨機森林在這種資料上產出的屬性權值是不可信的。
理解隨機森林
理解隨機森林 隨機森林利用隨機的方式將許多決策樹組合成乙個森林,每個決策樹在分類的時候投票決定測試樣本的最終類別。下面我們再詳細說一下隨機森林是如何構建的。隨機森林主要包括4個部分 隨機選擇樣本 隨機選擇特徵 構建決策樹 隨機森林投票分類。給定乙個訓練樣本集,數量為n,我們使用有放回取樣到n個樣本,...
隨機森林深入理解
決策樹演算法 id3 中,我們介紹了決策樹的分類思想及原理,可以看出,決策樹對經驗資料可以很好的分類,但是模型通用性不強,往往不準確,也就是過擬合。我們可以通過剪枝減弱過擬合,但是還不夠完美。隨機森林原理 隨機森林的出現,完美的解決了決策樹的劣勢,使得分類效果大大提公升,甚至超過了神經網路。隨機森林...
如何理解隨機森林RF 隨機性的理解
1 rf 1.1 原理 提到隨機森林,就不得不提bagging,bagging可以簡單的理解為 放回抽樣,多數表決 分類 或簡單平均 回歸 基學習器之間屬於並列生成,不存在強依賴關係。引入了隨機特徵選擇 1 隨機選擇樣本 放回抽樣 隨機選擇特徵是指在樹的構建中,會從樣本集的特徵集合中隨機選擇部分特徵...