一種針對非均衡問題調節分類器的方法,就是對分類器的訓練資料進行改造。這可以通
過欠抽樣
(undersampling
)或者過抽樣
(oversampling
)來實現。過抽樣意味著複製樣例,而欠
抽樣意味著刪除樣例。不管採用哪種方式,資料都會從原始形式改造為新形式。抽樣過程則可以
通過隨機方式或者某個預定方式來實現。
通常也會存在某個罕見的類別需要我們來識別,比如在信用卡欺詐當中。如前所述,正例類
別屬於罕見類別。我們希望對於這種罕見類別能盡可能保留更多的資訊,因此,我們應該保留正
例類別中的所有樣例,而對反例類別進行欠抽樣或者樣例刪除處理。這種方法的乙個缺點就在於
要確定哪些樣例需要進行剔除。但是,在選擇剔除的樣例中可能攜帶了剩餘樣例中並不包含的有
價值資訊。
上述問題的一種解決辦法,就是選擇那些離決策邊界較遠的樣例進行刪除。假定我們有乙個
資料集,其中有
50例信用卡欺詐交易和
5000
例合法交易。如果我們想要對合法交易樣例進行欠抽
樣處理,使得這兩類資料比較均衡的話,那麼我們就需要去掉
4950
個樣例,而這些樣例中可能包
含很多有價值的資訊。這看上去有些極端,因此有一種替代的策略就是使用反例類別的欠抽樣和
正例類別的過抽樣相混合的方法。
要對正例類別進行過抽樣,我們可以複製已有樣例或者加入與已有樣例相似的點。一種方法
是加入已有資料點的插值點,但是這種做法可能會導致過擬合的問題。
處理非均衡問題的資料抽樣方法
舉個例子 測試樣本中有a類樣本90個,b 類樣本10個。分類器c1把所有的測試樣本都分成了a類,分類器c2把a類的90個樣本分對了70個,b類的10個樣本分對了5個。則c1的分類精度為 90 c2的分類精度為75 但是,顯然c2更有用些。針對分均衡問題的調節分類器的方法就是分類器的訓練資料進行改造。...
hive資料抽樣的方法
塊抽樣 block sampling hive 本身提供了抽樣函式,使用 tablesample 抽取指定的 行數 比例 大小,舉例 create table iteblog as select from iteblog1 tablesample 1000 rows create table ite...
非均衡樣本處理的心法
身處大資料時代,對模型和風控工作者來說無異於福音。但與此同時,資料呈現長尾分布,不均衡分布導致訓練困難,效果不佳。具體到風控場景中,負樣本的佔比要遠遠小於正樣本的佔比。考慮乙個簡單的例子,假設有10萬個樣本,其中逾期客戶500個,壞樣本佔比0.5 如果我們直接將資料輸入模型進行訓練,將導致即便全部判...