理解隨機森林

理解隨機森林

隨機森林利用隨機的方式將許多決策樹組合成乙個森林，每個決策樹在分類的時候投票決定測試樣本的最終類別。下面我們再詳細說一下隨機森林是如何構建的。

隨機森林主要包括4個部分：隨機選擇樣本；隨機選擇特徵；構建決策樹；隨機森林投票分類。

給定乙個訓練樣本集，數量為n，我們使用有放回取樣到n個樣本，構成乙個新的訓練集。注意這裡是有放回的取樣，所以會取樣到重複的樣本。詳細來說，就是取樣n次，每次取樣乙個，放回，繼續取樣。即得到了n個樣本。

然後我們把這個樣本集作為訓練集，進入下面的一步。

在構建決策樹的時候，我們前面已經講過如何在乙個節點上，計算所有特徵的information gain（id3）或者 gain ratio（c4.5），然後選擇乙個最大增益的特徵作為劃分下乙個子節點的走向。

但是，在隨機森林中，我們不計算所有特徵的增益，而是從總量為m的特徵向量中，隨機選擇m個特徵，其中m可以等於sqrt(m)，然後計算m個特徵的增益，選擇最優特徵（屬性）。注意，這裡的隨機選擇特徵是無放回的選擇！

所以，隨機森林中包含兩個隨機的過程：隨機選擇樣本，隨機選擇特徵。

有了上面隨機產生的樣本集，我們就可以使用一般決策樹的構建方法，得到一棵分類（或者**）的決策樹。需要注意的是，在計算節點最優分類特徵的時候，我們要使用上面的隨機選擇特徵方法。而選擇特徵的標準可以是我們常見的information gain（id3）或者 gain ratio（c4.5）。

通過上面的三步走，我們可以得到一棵決策樹，我們可以重複這樣的過程h次，就得到了h棵決策樹。然後來了乙個測試樣本，我們就可以用每一棵決策樹都對它分類一遍，得到了h個分類結果。這時，我們可以使用簡單的投票機制，或者該測試樣本的最終分類結果。

優點：缺點：