信用評分卡建模 特徵工程總結

2021-10-21 17:55:09 字數 1119 閱讀 1230

資料和特徵決定了機器學習的上限,而模型和演算法只是進一步接近這個上限而已。由此可見特徵工程在建模中的重要性。在傳統評分卡模型的建模過程中,會經過一系列非常嚴格的資料預處理和特徵工程,從眾多特徵中,選擇少於20個特徵參與建模,以保證模型效能。接下來我們從資料層和演算法層兩方面介紹如何衍生變數。

變數編碼

連續變數分箱

函式變換

如對數變換,日期型別轉化為天數,變數歸一化,標準化等

多項式公升維

核函式對映

時間切片

如計算日期型別變數的1,3,6個月內的特徵變化情況,可以是均值,方差,求和等。

笛卡爾積特徵

1. 基於樹模型的特徵生成

其中樹模型可以是普通的決策樹,整合學習中的random forest模型, gbdt模型, xgboost模型等。

2. fm特徵交叉

fm(factorization machine)特徵交叉是二階多項式模型的改進版,同時也是線性回歸模型的一種擴充套件,增加了二階交叉項,用隱向量的形式近似計算交叉項權重。

i)訓練的交叉引數從d(d-1)/2降至dk個,提高了模型效率,也降低了少量樣本的模型交叉項學習不充分的影響;

ii)交叉項的引數將分別通過對應兩個特徵的隱向量的內積得到,一些在新資料**現的交叉項特徵也能進行**,提公升了模型**能力。

fm模型的改進版是ffm模型(field-aware factorization machine)。對不同型別的變數所屬的域進行了區分。

3.神經網路特徵工程

神經網路能自動衍生出大量特徵。

fm模型和神經網路結合衍生特徵的方法:

並行結合:wide&deep,deepfm等

序列結合:deepcross,xdeepfm,pnn,nfm,afm等。

資料化風控 信用評分卡

風險存在於申貸時 審批後。早起的風險管理以人工為主,由於風險因子眾多彼此互動極為複雜 一 人工成本高 二 無法保持一致,大規模作業 所以減少人為主觀判斷,減輕風控人員負擔。目前最普遍的工具為信用評分卡,應用範圍包括進件 貸後管理及催收。篩選高風險客戶,減少損失發生,找到優質客戶群,發掘潛在機會。依發...

機器學習 信用風險評估評分卡建模方法及原理

阿里雲大學免費課程 機器學習 信用風險評估評分卡建模方法及原理 課程介紹 信用風險評分卡為信用風險管理提供了一種有效的 經驗性的解決方法,是消費信貸管理中廣泛應用的技術手段。評分卡是信用風險評估領域常見的建模方法。評分卡並不加單對應於某一種機器學習演算法,而是一種通用的建模框架,講原始資料通過分箱後...

機器學習 信用風險評估評分卡建模方法及原理

信用風險評級模型的型別 信用風險計量體系包括主體評級模型和債項評級兩部分。主體評級和債項評級均有一系列評級模型組成,其中主體評級模型可用 四張卡 來表示,分別是a卡 b卡 c卡和f卡 債項評級模型通常按照主體的融資用途,分為企業融資模型 現金流融資模型和專案融資模型等。a卡,又稱為申請者評級模型,主...