準確地說,隨機森林的工作原理如下:
從資料集(表)中隨機選擇k個特徵(列),共m個特徵(其中k小於等於m)。然後根據這k個特徵建立決策樹。
重複n次,這k個特性經過不同隨機組合建立起來n棵決策樹(或者是資料的不同隨機樣本,稱為自助法樣本)。
對每個決策樹都傳遞隨機變數來**結果。儲存所有**的結果(目標),你就可以從n棵決策樹中得到n種結果。
計算每個**目標的得票數再選擇模式(最常見的目標變數)。換句話說,將得到高票數的**目標作為隨機森林演算法的最終**。
針對回歸問題,隨機森林中的決策樹會**y的值(輸出值)。通過隨機森林中所有決策樹**值的平均值計算得出最終**值。而針對分類問題,隨機森林中的每棵決策樹會**最新資料屬於哪個分類。最終,哪一分類被選擇最多,就**這個最新資料屬於哪一分類。
例子:詹姆斯要決定在巴黎的一周要去哪些景點。他拜訪了一位曾在巴黎住過一年的朋友,問朋友曾去過哪些景點,是否覺得有趣。基於自己的經驗,這位朋友會給詹姆斯一些建議。這是典型的決策樹演算法方法。詹姆斯的朋友根據自己的經驗,告訴詹姆斯可以去哪些景點遊覽。之後,詹姆斯問了很多在巴黎待過的朋友,詢問建議,他們推薦了自己去過的景點。然後詹姆斯選擇了被推薦次數最多的景點,這就是典型的隨機森林演算法。因此,隨機森林是一種在共擁有m個特徵的決策樹中隨機選擇k個特徵組成n棵決策樹,再選擇**結果模式(如果是回歸問題,選擇平均值)。
優缺點
優點:
1.可以用來解決分類和回歸問題:隨機森林可以同時處理分類和數值特徵。
2. 抗過擬合能力:通過平均決策樹,降低過擬合的風險性。
3. 只有在半數以上的基分類器出現差錯時才會做出錯誤的**:隨機森林非常穩定,即使資料集**現了乙個新的資料點,整個演算法也不會受到過多影響,它只會影響到一顆決策樹,很難對所有決策樹產生影響。
缺點:
1.據觀測,如果一些分類/回歸問題的訓練資料中存在噪音,隨機森林中的資料集會出現過擬合的現象。. 比決策樹演算法更複雜,計算成本更高。
2.由於其本身的複雜性,它們比其他類似的演算法需要更多的時間來訓練。
參考
機器學習筆記 隨機森林
隨機森林是典型的bagging整合演算法,它的所有基評估器都是決策樹。分類樹整合的森林叫隨機森林分類器,回歸樹整合的森林叫隨機森林回歸器。重要引數 max depth 限制樹的最大深度,超過設定深度的樹枝全部剪掉。min samples leaf 限定,乙個節點在分枝後的每個子節點都必須包含至少mi...
隨機森林筆記
下圖是bagging思想 個體學習器,就是弱學習器。bagging的個體學習器可以是svm,可以是神經網路。但隨機森林特殊在它的個體學習器都是決策樹 bagging的策略如下 skelearn中的bagging base estimator可以指定為神經網路 svm都可以。當然預設是決策樹。袋外樣本...
GEE學習筆記5 隨機森林
在gee中,隨機森林的介紹如下圖 已分好訓練樣本和實驗樣本 print sam1 trainingpartition sam1 trainingpartition print sam1 testingpartition sam1 testingpartition 通過選取樣本,把landcover屬...