1.過取樣
(1)過取樣方法通過增加少數類樣本來提高少數類的分類效能,最簡單的辦法是簡單複製少數類樣本,缺點是可能導致過擬合,沒有給少數類增加任何新的資訊。
(2)smote演算法:設定向上取樣的倍率為n,即對每個少數類樣本都需要產生對應的n個少數類新樣本;對少數類中的每乙個樣本x,搜尋得到其k(通常取5)個少數類最近鄰樣本,並從中隨機選擇n個樣本,記為y1,y2,…,yn(可能有重複值);構造新的少數類樣本rj=x+rand(0,1)∗(yj−x),其中rand(0,1)表示區間(0,1)內的隨機數。
2.欠取樣
欠取樣方法通過減少多數類樣本來提高少數類的分類效能,最簡單的方法是通過隨機地去掉一些多數類樣本來減小多數類的規模,缺點是會丟失多數類的一些重要資訊,不能夠充分利用已有的資訊。
3.代價敏感方法
(1)重構訓練集的方法。不改變已有演算法,而是根據樣本的不同錯分代價給訓練集中的每乙個樣本賦乙個權值,接著按權重對原始樣本集進行重構。
(2)引入代價敏感因子,設計出代價敏感的分類演算法。通常對小樣本賦予較高的代價,大樣本賦予較小的代價,期望以此來平衡樣本之間的數目差異。
參考文獻
1.2.
樣本不平衡問題
樣本不平衡是指 不同類別的樣本差別比較大,比如說正類和負類的樣本比例為50 1。處理樣本不平衡的原因 一般而已,如果類別不平衡比例超過4 1,那麼其分類器會大大地因為資料不平衡性而無法滿足分類要求的。因此在構建分類模型之前,需要對分類不均衡性問題進行處理。在前面,我們使用準確度這個指標來評價分類質量...
樣本不平衡問題小記
來準備用vgg來做些fine tuning快速交個差,結果半天卡在0.3公升不上去 入行沒多久,不能肯定是方向有問題,找了個pascal voc跑跑分類 結果發現總是卡在0.2左右,在metric.py裡改了幾行 草根就該用mxnet 把predict label和ground truth打出來,發...
機器學習之樣本不平衡
1.樣本不平衡導致什麼問題?在機器學習的分類問題中,以二分類為例,如果訓練集合的正例和負例的樣本不平衡,相差懸殊很大。比如針對這個不平衡的訓練結合運用邏輯回歸的時候,一般來說,邏輯回歸的閾值0 1,常取0.5,當樣本不平衡時,採用預設的分類閾值可能會導致輸出全部為反例,產生虛假的高準確度,導致分類失...