基礎準備
一、風控建模分類
授信類建模
反欺詐建模
二、反欺詐建模和授信建模的不同
什麼是欺詐?什麼是反欺詐?這一切都是由業務場景所決定。
反欺詐底層是什麼?不僅要與相類似的資料比較,還需要與自己相比較。也即是說反欺詐的核心是在尋找與欺詐相似的同時,尋找「正常」中的異常。
怎麼做?有監督,無監督,策略。
三、無監督
圖演算法模型(社交網路演算法、知識圖譜等)
圖資料庫(審核策略使用)
四、有監督
變數選擇
一、圖資料庫
唯一且有識別度的變數,如身份證,聯絡人+聯絡人****+地區組合等。
特定時間內唯一且可識別的變數,如手機號,通訊位址等。
客戶id等內部專用的唯一可識別變數不可用。
模糊匹配,關聯,如gps定位,ip位址等。
詞彙關聯,如工作單位等。
二、有監督學習的變數選擇
由因變數對映得到的變數
內部環境才存在的變數,如客戶id
建模時存在,未來確定不會存在的變數(業務)
不穩定的變數,絕大部分為空值,且bad與good分布差異不大的變數(特徵工程)
過去存在,將來存在,但截止建模為止大部分客戶資料中不存在的變數
不穩定的變數,絕大部分為空值,且bad與good分布差異很大的變數(特徵工程)
在確定現時模型表現的基礎上,再嘗試加入。
對於未來**影響很大的變數。
什麼是異常?
人為製造的異常不是異常。
業務可以解釋的異常值並不異常。
異常:離群值,空值,與其他值顯然不同的值,業務不可解釋的值
替代歸一化、標準化、log transfer等
異常極值做dummy transfer
特徵工程(1) 特徵工程是什麼?
特徵是資料中抽取出來的對結果 有用的資訊,可以是文字或者資料。特徵工程是使用專業背景知識和技巧處理資料,使得特徵能在機器學習演算法上發揮更好的作用的過程。過程包含了特徵提取 特徵構建 特徵選擇等模組。特徵工程的目的是篩選出更好的特徵,獲取更好的訓練資料。因為好的特徵具有更強的靈活性,可以用簡單的模型...
特徵工程 特徵交叉 交叉特徵 特徵組合
關於特徵交叉的作用以及原理,我這裡不進行詳細描述,因為大佬們已經說得很清楚了,這裡就附上幾個連線 特徵組合 特徵交叉 feature crosses 結合sklearn進行特徵工程 對於特徵離散化,特徵交叉,連續特徵離散化非常經典的解釋 下面說怎樣製作和交叉特徵 多項式生成函式 sklearn.pr...
特徵工程之特徵選擇
在前一篇文章中我介紹了一些資料預處理的方法,原始資料在經過預處理之後可以被演算法處理了,但是實際中可能有一些特徵是沒有必要的,比如在中國採集的一些資料,那麼國籍就都是中國,其實也就沒有意義了,反映在統計量上就是方差過小,也就是樣本在這個特徵上變化很小。還有一種情況是特徵和最後的結果相關性很小,也就是...