邏輯回歸模型是金融信貸行業製作各類評分卡模型的核心,幾乎80%的機器學習/統計學習模型演算法都是邏輯回歸模型,按照邏輯美國金融公司總結的sas建模過程,大致總結如下:
一般通用模型訓練過程:
a)按照指定需求和模型要求製作driver資料集,包含欄位有user_id, dep
b)其中,空值賦預設值即:coalesce(column, default_value)
2,計算變數的iv值
a)將excel資料集轉化為sas資料集
b)單月份的資料如:年齡、性別等可直接使用單月的值做iv計算
c)對於6個月的資料如:每月的消費金額、消費次數等需要先做vh變換(目前vh變換的方法有36種),然後將v1-v6以及36種變換一起合起來做iv計算。
d)按照所有變數的iv值排序,選擇iv閾值(申請行為評分的iv閾值為0.02;響應模型的iv閾值為0.1),將大於閾值的字段從vh變換後的表中抽出,合併生產後續資料集(大約剩餘變數個數為500~3000個)
3,變數再選擇
a)使用逐步判別分析(stepdisc)是先從所有因子中挑選乙個具有最顯著判別能力的因子,然後再挑選第二個因子,這個因子是在第一因子的基礎上具有最顯著判別能力的因子,即第乙個和第二個因子聯合起來有顯著判別能力的因子;接著挑選第三個因子,這因子是在第
一、第二因子的基礎上具有最顯著判別能力的因子。由於因子之間的相互關係,當引進了新的因子之後,會使原來已引入的因子失去顯著判別能力。因此,在引入第三個因子之後就要先檢驗一下各已經引入的因子是否還具有顯著判別能力,如果有就要剔除這個不顯著的因子;接著再繼續引入,直到再沒有顯著能力的因子可剔除為止。用這樣挑選出來的因子建立的判別函式進行判別,就能得到較高的判別準確率。通過向前選入、向後剔除或逐步選擇對判別有用的定量變數來完成逐步判別分析。生產檔案stepdisc_all.xls裡面會將選擇結果的變數保留下來(大約剩餘變數個數為100~300個)
b)使用逐步回歸方法(stepwise)是將變數逐個引入模型,每引入乙個解釋變數後都要進行f檢驗,並對已經選入的解釋變數逐個進行t檢驗,當原來引入的解釋變數由於後面解釋變數的引入變得不再顯著時,則將其刪除。以確保每次引入新的變數之前回歸方程中只包含顯著性變數。這是乙個反覆的過程,直到既沒有顯著的解釋變數選入回歸方程,也沒有不顯著的解釋變數從回歸方程中剔除為止。以保證最後所得到的解釋變數集是最優的。通過此步驟會生成logistic_step_v3.1.xls的檔案,在檔案末尾地方可以看到精選出來的變數(大約變數個數為15~30個)
4,進行模型報告列印
a)將資料集隨機分為訓練和測試2個資料集,分別在每一行的結尾新增欄位flag=』dev』和flag=』oot』
b)對變數進行模型報告的列印:訓練精選變數的模型,然後用測試資料集進行驗證,列印模型的psi、bivar、ks等評價指標的結果
c)在結果中,檢視p1. final model中的consistent值為false的變數,以及probchisq值較大的變數建議去掉;檢視p2.colin中的pearson 相關係數表,去掉相關係數大於0.4的變數;檢視p4. ks gain中的ks值;檢視7.bivar_after_treatment中的資料,使用
bivar_dev.xls使用快捷鍵ctrl+w可以生成bivar plot圖表,將其表匯入模型報告。根據以上調整去掉一些無效變數,根據bivar plot圖表進行treatment變換,再次重複進行模型報告的列印
5,模型變數說明和解釋
a)根據最終選取變數,以及變數變換的方法,將變數說明文件完善
b)根據變數係數、變數邏輯和dep進行邏輯性驗證,去掉不合邏輯、關聯性不強的變數,再次使用模型列印報告保證總體的ks下降不大
6,模型閾值和策略的調整
a)根據模型報告的p4. ks gain中的結果制定min score作為閾值進行模型**
end ...
線性模型 邏輯回歸
模型原型 class sklearn.linear model.logisticregression penalty l2 dual false,tol 0.0001,c 1.0,fit intercept true,intercept scaling 1,class weight none,ran...
邏輯回歸 LR模型
邏輯回歸演算法相信很多人都很熟悉,也算是我比較熟悉的演算法之一了,畢業 當時的專案就是用的這個演算法。這個演算法可能不想隨機森林 svm 神經網路 gbdt等分類演算法那麼複雜那麼高深的樣子,可是絕對不能小看這個演算法,因為它有幾個優點是那幾個演算法無法達到的,一是邏輯回歸的演算法已經比較成熟,較為...
邏輯回歸模型簡介
線性回歸針對的是連續型的資料型別,對於二分類 取值為0或1 問題當然不適用。數學推導中最常用的思想就是將未知問題轉化為已知的問題來求解。現在我們的問題是如何對資料集進行分類,很自然的就會想到將其與線性回歸模型聯絡起來。簡單的資料預處理一文中提到通過歸一化可以將連續值對映到 0,1 這個區間中,這樣我...