分類樣本不均

2022-06-17 11:06:09 字數 427 閱讀 9499

實際使用分類器的時候,經常遇到分類樣本不均衡的問題。而只有分類樣本較為均衡,才可以達到比較好的分類效果。

1、如果各個類別的樣本數量都非常多,則對於樣本少的類,使用全部樣本。

而對於樣本多的類,進行取樣。取樣可以隨機取樣,或者如果有某一類別裡,有一部分資料非常接近,比如奈雪的茶、koi在茶飲裡佔了幾百家,對於這部分取樣的時候,要比總體取樣比例低。

也即盡可能的讓樣本豐富。

2、如果樣本少的類,樣本過於少,則可以使用召回率或者f1,而非準確率進行評測。

3、在文字分類的時候,我們可以通過複製多份少類樣本,並且亂序,比如:「我知道了,謝謝」。 和「謝謝,我知道了」,

或者去除停用詞與不去除停用詞,「我工作上有很多事情要處理」 和「我的工作上有很多的事情要處理」,他們意思是一樣的。思想類似於在影象識別時,如果樣本比較少,就使用平移、旋轉等手段豐富樣本。

分類問題 樣本不均衡

資料層 通過重取樣使樣本空間均衡 演算法層 重點學習正樣本來適應現存的分類器 損失敏感方法 整合資料層和演算法層的思想,假設正樣本誤分類的損失更大。boosting演算法 不斷提高樣本權重 1 對正樣本隨機過取樣,對負樣本隨機下取樣。2 按照樣本特徵和比例來過取樣正樣本或下取樣負樣本,雖然重取樣在樣...

樣本不均衡

在分類中,訓練資料不均衡是指不同類別下的樣本數目相差巨大。舉兩個例子 在乙個二分類問題中,訓練集中class 1的樣本數比上class 2的樣本數的比值為60 1。使用邏輯回歸進行分類,最後結果是其忽略了class 2,將所有的訓練樣本都分類為class 1。在三分類問題中,三個類別分別為a,b,c...

樣本不均衡問題

樣本不均衡是機器學習,深度學習中常見問題。分類任務 a 95 b 5 模型將所有樣本 為a,那麼正確率可以達到95 第一種 是把多的那個組變少 降取樣 第二種 是把少的那個組變多 過取樣 最簡單的是oversampling,由於其侷限性,又有很多根據已有的資料生成新資料的方法,比如各種變體的synt...