樣本非平衡問題

2021-07-10 13:23:15 字數 1357 閱讀 9678

正負樣本比例為100:1 甚至1000:1,需要在分布如此不均勻的資料集中學習到有用資訊。
造成分類器在多數類精度較高,少數類的分類精度很低。以最大分類精度為目標,導致演算法提高多數樣本分類精度而忽略小樣本的**精度。

原因:以邏輯回歸為例,以優化總體精度為目標,不同類別的誤分類情況產生的誤差相同,考慮乙個500:1的資料集的話傳統學習演算法在不平衡資料集中會有較大侷限性。(因此可以通過加大少數樣本權值的方式,權值可以取樣本個數的倒數)

1)欠取樣:

a.隨機欠取樣。

從多數類中隨機選擇少量樣本再合併原有少數類樣本作為新的訓練資料集。分為有放回和無放回兩種。無放回欠取樣在多數類被取樣後不會再被重複取樣。

缺點:易丟失多數類的重要資訊。

b.通過一定規則有選擇的去掉對分類作用不大,即原理分類邊界或者引起資料重疊的多數樣本。(網頁分類初過濾)

c.informed undersampling取樣, 解決隨機欠取樣資料資訊丟失的問題。

此演算法類似於隨機森林的bagging方法,它把資料劃分為兩部分,分別是多數類樣本和少數類樣本,對於多數類樣本$s_maj$,通過n次有放回抽樣生成n份子集,少數類樣本分別和這n份樣本合併訓練乙個模型,這樣可以得到n個模型,最終的模型是這n個模型**結果的平均值。

2)過取樣:

a.隨機過取樣

對少數類樣本複製擴大資料集。

缺點:1、訓練複雜度增大

2、容易造成模型過擬合

b.生成少數類樣本

smote演算法:解決過擬合問題

合成少數類的過取樣技術。基於隨機過取樣的一種改進方案。由於隨機過取樣採取簡單複製樣本的策略增加少數類樣本,容易產生過擬合,使得模型不夠泛化。

smote基本思想:對少數類樣本分析,並根據少數類樣本人工合成新樣本新增到資料集中。

1、對於少數類中每個樣本,以歐式距離為標準計算它到少數類樣本集中所有樣本的距離,得到k近鄰。

2、根據樣本不平衡比例設定乙個取樣比例以確定取樣倍率。對每個少數類樣本,從其k近鄰中隨機選取若干個樣本

3、對於每個隨機選出的近鄰樣本,分別與原樣本按照如下公式構建新樣本。

smote演算法摒棄了隨機過取樣複製樣本的做法,可以防止隨機過取樣易過擬合的問題,實踐證明此方法可以提高分類器的效能。但是由於對每個少數類樣本都生成新

1)改進損失函式權重

因此可以通過加大少數樣本權值的方式,權值可以取樣本個數的倒數

參考:

樣本不平衡問題

樣本不平衡是指 不同類別的樣本差別比較大,比如說正類和負類的樣本比例為50 1。處理樣本不平衡的原因 一般而已,如果類別不平衡比例超過4 1,那麼其分類器會大大地因為資料不平衡性而無法滿足分類要求的。因此在構建分類模型之前,需要對分類不均衡性問題進行處理。在前面,我們使用準確度這個指標來評價分類質量...

樣本不平衡問題小記

來準備用vgg來做些fine tuning快速交個差,結果半天卡在0.3公升不上去 入行沒多久,不能肯定是方向有問題,找了個pascal voc跑跑分類 結果發現總是卡在0.2左右,在metric.py裡改了幾行 草根就該用mxnet 把predict label和ground truth打出來,發...

NLP中的樣本不平衡 長句問題

這次關係抽取任務,在資料方面,遇到了兩個問題。關係最多實體對有4w多個,最少的只有十幾條。句子長度從短句 個位數長度 到300不等。從驗證集分析後,模型對於訓練樣本中關係數目少以及長句均不是有很好地表現。從資料的角度進行提公升自然想到了資料增強。在機器學習中,對於結構化資料的樣本不平衡問題,常見的做...