今天在複習隨機森林的時候,突然有了一些思考:信貸風險模型在我的理解,就是為了評估某個客戶(企業,個體)在貸款等相關業務中,是否能夠有效的將其貸款**。通過自己的一些了解與猜想,信用評估模型中的主要評價**是客戶的資料。那麼,資料可能會存在各種各樣的資料,例如其歷史借貸資訊等。同時,收集的資料肯定會有很多的雜訊。所以,如何根據這些特徵資訊來分析客戶的借貸情況就顯得尤為重要。
通常,在機器學習這裡,我們都會構造乙個合適的模型,從而根據資料來訓練出乙個比較合適的引數。這裡,資料的特徵構造對模型的效能會造成很大的影響。
所以,這裡我就聯想了到了再進行模型訓練之前可以對資料進行一些操作,其中特徵的選擇就可以借鑑一下。下面,我主要介紹如何使用隨機森林進行特徵選擇。
這裡,隨機森林可以作為一種特徵選擇的工具來進行資料預處理。隨機森林的主要思想可由下面這張圖來說明:
主要的步驟有三步:
對於隨機森林的每一顆決策樹,使用響應的oob(袋外資料)來計算袋外資料誤差(eroor_oob1)
然後,在袋外資料oob的所有樣本中,對於某個樣本特徵x隨機加入雜訊干擾,相當於隨機改變了樣本在特徵x處的值, 再次計算袋外資料誤差error_oob2
n棵樹:
《scikit learn》隨機森林之回歸
今天我們學習下隨機森林做回歸的用法 話不多說直接上測試 看的更加清晰,總體上和回歸樹是一樣的使用流程 from sklearn.datasets import load boston from sklearn.model selection import cross val score from s...
隨機森林之特徵選擇
摘要 在隨機森林介紹 中提到了隨機森林乙個重要特徵 能夠計算單個特徵變數的重要性。並且這一特徵在很多方面能夠得到應用,例如在銀行貸款業務中能否正確的評估乙個企業的信用度,關係到是否能夠有效地 貸款。但是信用評估模型的資料特徵有很多,其中不乏有很多噪音,所以需要計算出每乙個特徵的重要性並對這些特徵進行...
隨機森林之Bagging法
摘要 在隨機森林介紹 中提到了bagging方法,這裡就具體的學習下bagging方法。bagging方法是乙個統計重取樣的技術,它的基礎是bootstrap。基本思想是 利用bootstrap方法重取樣來生成多個版本的 分類器,然後把這些分類器進行組合。通常情況下組合的分類器給出的結果比單一分類器...