解決資料不均衡的問題

2021-08-23 12:09:27 字數 930 閱讀 2003

1、類別不均衡會對分類效能產生有害的影響。

2、隨著任務規模的擴大,類別不均衡性對分類效能的影響越大。

3、類別不均衡的影響不能簡單地以訓練樣本數量的不足來解釋,它依賴於各類樣本的分布。

過取樣(oversampling,相當於插值),下取樣(downsampling,相當於壓縮),兩階段訓練(two-phase training),以及閾值化(threholding),閾值化可以補償先驗的類別概率。

解決類別不均衡問題的方法可以被分為兩大類。第一大類是資料層面的方法,這類方法對訓練資料進行處理,改變它的類別分布。這類方法的目標就是朝著使標準訓練演算法能夠起作用的目標去改變資料集。另一大類則包括分類器(演算法)層面的。這些方法保持訓練資料集不變,僅僅調整訓練(或者推理)演算法。另外,結合這兩類的方法也是可以使用的。在這一部分我們會概述常常被使用的這兩類方法,既包含在經典機器學習模型,也包括在深度神經網路中使用的。

1、將多類 roc auc 作為評價指標時,在絕大多數情況下表現最優異的方法是過取樣。

2、對於極端不均衡比率,以及大部分類別都是少數樣本的情況,下取樣比過取樣具有更好的效果。

3、為了實現最佳準確率,應該使用閾值化方法來補償先驗類別概率。最可取的方法是閾值化方法和過取樣的結合,然而不應該將閾值化方法和下取樣方法結合。

4、過取樣方法應該應用在需要完全消除不均衡性的情況,而下取樣則更適合於僅需要從一定程度上消除不均衡性的情況。

5、與一些經典機器學習方法不同的是,過取樣並不一定會在卷積神經網路中導致過擬合

類別不均衡問題

機器學習建模分類問題裡,各個類別樣本量差異較大時,就會出現類別不均衡問題。e.g.如果有99999個無症狀病例,1個有症狀病例,即使訓練的學習器將所有樣本識別成無症狀病例,準確率也高達99.9 但是這樣的學習器沒有任何價值,無任何鑑別有症狀病例的價值。以下假設正例樣本數遠小於負例樣本數 1 欠取樣 ...

目標不均衡問題

1.什麼是 類別不平衡 呢?詳細來說,檢測演算法在早期會生成一大波的bbox。而一幅常規的中,頂多就那麼幾個object。這意味著,絕大多數的bbox屬於background。2.類別不平衡 又如何會導致檢測精度低呢?因為bbox數量 正是因為bbox中屬於background的bbox太多了,所以...

解決樣本類別分布不均衡的問題

不均衡指的是不同類別的樣本量差異非常大,樣本類別分布不均衡從資料規模上課 可分為大資料分布不均衡和小資料分布不均衡兩種。大資料分布不均衡 例如擁有1000萬條記錄的資料集中,其中佔比50萬條的少數分類樣本便屬於這種情況 小資料分布不均衡 例如擁有1000條記錄的資料集中,其中占有10條樣本的分類,其...