在隨機森林中某個特徵x的重要性的計算方式如下:
首先是對隨機森林的每一顆決策樹,使用對應的oob(袋外資料)資料來進行計算他的袋外的資料誤差,記做error1
這樣每個決策樹都可以得到乙個error1,k顆數就有k個error1.
然後就是要遍歷所有的特徵,來考察該特徵的重要性,考察重要性的方式是,隨機的對袋外的資料oob所有樣本的特徵x加入雜訊干擾,考察(可以理解為隨機得改變樣本在特徵x處的值),再次計算它袋外的資料誤差,記做error2,這樣每棵樹就可以得到乙個error2,k顆樹就可以的得到k個error2.
之所以可以這樣的表示式來作為相應特徵的重要性的度量值是因為:若給某個特徵隨機加入雜訊之後,袋外的準確率大幅度下降,說明這個特徵對於樣本的分類結果影響很大,也就是說他的重要程度比較高.
對於特徵x的重要性=∑
(error2-error1)/ktree
隨機森林,隨機森林中進行特徵重要性
用有抽樣放回的方法 bootstrap 從樣本集中選取n個樣本作為乙個訓練集 用抽樣得到的樣本集生成一棵決策樹。在生成的每乙個結點 隨機不重複地選擇d個特徵 利用這d個特徵分別對樣本集進行劃分,找到最佳的劃分特徵 可用基尼係數 增益率或者資訊增益判別 重複步驟1到步驟2共k次,k即為隨機森林中決策樹...
隨機森林特徵篩選
剛看到一篇介紹特徵篩選的文章,裡面介紹基於模型的特徵排名,附加了乙個隨機森林的python程式,感覺挺好,趕緊mark下來。程式使用了skliearn機器學習庫,資料集為boston房屋 資料,源程式如下所示 fromsklearn.cross validationimportcross val s...
隨機森林特徵選擇
隨機森林具有準確率高 魯棒性好 易於使用等優點,這使得它成為了目前最流行的機器學習演算法之一。隨機森林提供了兩種特徵選擇的方法 mean decrease impurity 和mean decrease accuracy。隨機森林由多個決策樹構成。決策樹中的每乙個節點都是關於某個特徵的條件,為的是將...