在分類問題中,每種類別的出現概率未必均衡。
比如 : 信用風險:正常使用者遠多於逾期/違約使用者。
非平衡樣本導致的問題:降低少類樣本的靈敏性。
考慮對小類下的樣本(不足1為甚至更少)進行過取樣,即新增部分樣本的副本,這樣做的缺點是過擬合。
考慮對大類下的樣本(超過1萬、十萬甚至更多)進行欠取樣,即刪除部分樣本;該演算法的主要步驟如下:欠取樣導致的問題是資訊丟失嚴重。
示例 :
如果現在有乙個違約樣本 x (30,10000) ,分別表示(年齡,收入),現在在k臨近中選取了乙個樣本y(40,15000),然後根據這兩個樣本進行新的樣本生成:
假設rand為隨機數為0.4 則 new_age = 30 + 0.4 * (40 - 30) = 34new_income =10000 + 0.4(15000 - 10000) = 12000
從而合成的新樣本為 : (34,12000)
非均衡樣本處理的心法
身處大資料時代,對模型和風控工作者來說無異於福音。但與此同時,資料呈現長尾分布,不均衡分布導致訓練困難,效果不佳。具體到風控場景中,負樣本的佔比要遠遠小於正樣本的佔比。考慮乙個簡單的例子,假設有10萬個樣本,其中逾期客戶500個,壞樣本佔比0.5 如果我們直接將資料輸入模型進行訓練,將導致即便全部判...
不均衡樣本權重的計算
資料探勘中有時候會遇到不均衡樣本,一種常用的方法是通過根據樣本個數進行統計計算,或者根據業務場景人工計算權重。諸如sklearn的dt rf等模型都設定了class weight引數進行快速balanced 而xgb的fit中也有sampe weight引數,只是需要手動提供每個樣本對應權重的arr...
樣本類別不均衡的問題
樣本類別數量不均衡主要出現在分類建模的情況。通常為某類別的樣本數量較少,導致模型忽略了小樣本的特徵,由大樣本主導。面對樣本數量不均的情況,常用的方法如下 這種方法要麼丟失資料資訊,要麼會導致較少樣本共線性,存在明顯缺陷 這種方式的弊端在於無法控制合適的權重比,需要多次嘗試 這種使用場景侷限,前置的知...