金融風控學習筆記 5

2021-10-10 00:22:52 字數 1092 閱讀 4357

stacking模型本質上是一種分層的結構,這裡簡單起見,只分析二級stacking。假設我們有3個基模型m1、m2、m3。

基模型m1,對訓練集train訓練,然後用於**train和test的標籤列,將**的訓練集和測試集的結果(即**出的y)分別作為p1,t1

對於m2和m3,重複相同的工作,這樣也得到p2,t2,p3,t3。

分別把p1,p2,p3以及t1,t2,t3合併,得到乙個新的訓練集和測試集train2,test2.

再用第二層的模型m4訓練train2,**test2,得到最終的標籤列。必須要注意的是,也是我一開始有點懵的地方。train2和test2裡的特徵其實是在第一層**出的y的結果。

stacking本質上就是這麼直接的思路,但是這樣肯定是不行的,問題在於p1的得到是有問題的,用整個訓練集訓練的模型反過來去**訓練集的標籤,毫無疑問過擬合是非常非常嚴重的,因此現在的問題變成了如何在解決過擬合的前提下得到p1、p2、p3,這就變成了熟悉的節奏——k折交叉驗證。我們以2折交叉驗證得到p1為例,假設訓練集為4行3列

將其劃分為2部分

用traina訓練模型m1,然後在trainb上進行**得到preb3和pred4

在trainb上訓練模型m1,然後在traina上進行**得到pred1和pred2

然後把兩個**集進行拼接

對於測試集t1的得到,有兩種方法。注意到剛剛是2折交叉驗證,m1相當於訓練了2次,所以一種方法是每一次訓練m1,可以直接對整個test進行**,這樣2折交叉驗證後測試集相當於**了2次,然後對這兩列求平均得到t1(接下來的**是這麼做的)。或者直接對測試集只用m1**一次直接得到t1。

p1、t1得到之後,p2、t2、p3、t3也就是同樣的方法。理解了2折交叉驗證,對於k折的情況也就理解也就非常順利了。所以最終的**是兩層迴圈,第一層迴圈控制基模型的數目,每乙個基模型要這樣去得到p1,t1,第二層迴圈控制的是交叉驗證的次數k,對每乙個基模型,會訓練k次最後拼接得到p1,取平均得到t1。

該圖是乙個基模型得到p1和t1的過程,採用的是5折交叉驗證,所以迴圈了5次,拼接得到p1,測試集**了5次,取平均得到t1。而這僅僅只是第二層輸入的一列/乙個特徵,並不是整個訓練集。再分析接下來的**也就很清楚了。也就是剛剛提到的兩層迴圈。

金融風控5 模型融合

stacking vs.blending stacking 將若干基學習器獲得的 結果,將 結果作為新的訓練集來訓練乙個學習器。假設有五個基學習器,將資料帶入五基學習器中得到 結果,再帶入模型六中進行訓練 但是由於直接由五個基學習器獲得結果直接帶入模型六中,容易導致過擬合。所以在使用五個及模型進行 ...

金融風控專案

一 問題定義 金融的核心是風險控制。自然而然地,ai的主戰場也變成了如何使用ai技術精準的做風險控制。在風控領域,有乙個很重要的問題是 如何通過使用者的資訊來判斷使用者的逾期與否?我們通過收集使用者的基本資訊 地域資訊 社交資訊等來判斷乙個人的逾期概率。資料如下 二 roc與auc 特徵工程 第一 ...

金融風控模型

工作中暫時未涉及。此處為有幸得到的ppt。記錄學習內容,還有些心得,有錯誤請指出,感激 什麼是欺詐風險 網路借款人是否是本人 網路借款人提交的資料是否真實 什麼是信用風險 網路借款人是否有還款的能力 是否是沒有還款意願的老賴,多次違約 貸款公司如何防範以上兩種風險 針對乙個p2p借款的流程來說,借款...