資料和特徵決定了機器學習的上限,而模型和演算法只是進一步接近這個上限而已。由此可見特徵工程在建模中的重要性。在傳統評分卡模型的建模過程中,會經過一系列非常嚴格的資料預處理和特徵工程,從眾多特徵中,選擇少於20個特徵參與建模,以保證模型效能。接下來我們從資料層和演算法層兩方面介紹如何衍生變數。
變數編碼
連續變數分箱
函式變換
如對數變換,日期型別轉化為天數,變數歸一化,標準化等
多項式公升維
核函式對映
時間切片
如計算日期型別變數的1,3,6個月內的特徵變化情況,可以是均值,方差,求和等。
笛卡爾積特徵
1. 基於樹模型的特徵生成
其中樹模型可以是普通的決策樹,整合學習中的random forest模型, gbdt模型, xgboost模型等。
2. fm特徵交叉
fm(factorization machine)特徵交叉是二階多項式模型的改進版,同時也是線性回歸模型的一種擴充套件,增加了二階交叉項,用隱向量的形式近似計算交叉項權重。
i)訓練的交叉引數從d(d-1)/2降至dk個,提高了模型效率,也降低了少量樣本的模型交叉項學習不充分的影響;
ii)交叉項的引數將分別通過對應兩個特徵的隱向量的內積得到,一些在新資料**現的交叉項特徵也能進行**,提公升了模型**能力。
fm模型的改進版是ffm模型(field-aware factorization machine)。對不同型別的變數所屬的域進行了區分。
3.神經網路特徵工程
神經網路能自動衍生出大量特徵。
fm模型和神經網路結合衍生特徵的方法:
並行結合:wide&deep,deepfm等
序列結合:deepcross,xdeepfm,pnn,nfm,afm等。
資料化風控 信用評分卡
風險存在於申貸時 審批後。早起的風險管理以人工為主,由於風險因子眾多彼此互動極為複雜 一 人工成本高 二 無法保持一致,大規模作業 所以減少人為主觀判斷,減輕風控人員負擔。目前最普遍的工具為信用評分卡,應用範圍包括進件 貸後管理及催收。篩選高風險客戶,減少損失發生,找到優質客戶群,發掘潛在機會。依發...
機器學習 信用風險評估評分卡建模方法及原理
阿里雲大學免費課程 機器學習 信用風險評估評分卡建模方法及原理 課程介紹 信用風險評分卡為信用風險管理提供了一種有效的 經驗性的解決方法,是消費信貸管理中廣泛應用的技術手段。評分卡是信用風險評估領域常見的建模方法。評分卡並不加單對應於某一種機器學習演算法,而是一種通用的建模框架,講原始資料通過分箱後...
機器學習 信用風險評估評分卡建模方法及原理
信用風險評級模型的型別 信用風險計量體系包括主體評級模型和債項評級兩部分。主體評級和債項評級均有一系列評級模型組成,其中主體評級模型可用 四張卡 來表示,分別是a卡 b卡 c卡和f卡 債項評級模型通常按照主體的融資用途,分為企業融資模型 現金流融資模型和專案融資模型等。a卡,又稱為申請者評級模型,主...