通常二分類使用交叉熵損失函式,但是在樣本不均衡下,訓練時損失函式會偏向樣本多的一方,造成訓練時損失函式很小,但是對樣本較小的類別識別精度不高。
解決辦法之一就是給較少的類別加權,形成加權交叉熵(weighted cross entropy loss)。今天看到兩個方法將權值作為類別樣本數量的函式,其中有乙個很有意思就錄在這裡。
(上邊說明的時,正負樣本的權值和他們的對方數量成比例,舉個例子,比如正樣本有30,負樣本有70,那麼正樣本的權w+=70/(30+70)=0.7,負樣本的權就是w-=30/(30+70)=0.3,
這樣算下來的權值是歸一的。這種方法比較直觀,普通,應該是線性的。
(這個的權值直接就是該類別樣本數的反比例函式,是非線性的,相比於上邊的很有意思,提供了另一種思路。為了統一期間還是使用w+,w-表示這裡的beta p和beta n,
舉個例子,比如正樣本有30,負樣本有70,那麼正樣本的權w+=(30+70)/30=3.33,負樣本的權就是w-=(30+70)/70=1.42。
第三中方法:focal loss
第四種方法:ghm-c loss
以後看到後繼續補充。
分類問題 樣本不均衡
資料層 通過重取樣使樣本空間均衡 演算法層 重點學習正樣本來適應現存的分類器 損失敏感方法 整合資料層和演算法層的思想,假設正樣本誤分類的損失更大。boosting演算法 不斷提高樣本權重 1 對正樣本隨機過取樣,對負樣本隨機下取樣。2 按照樣本特徵和比例來過取樣正樣本或下取樣負樣本,雖然重取樣在樣...
樣本不均衡
在分類中,訓練資料不均衡是指不同類別下的樣本數目相差巨大。舉兩個例子 在乙個二分類問題中,訓練集中class 1的樣本數比上class 2的樣本數的比值為60 1。使用邏輯回歸進行分類,最後結果是其忽略了class 2,將所有的訓練樣本都分類為class 1。在三分類問題中,三個類別分別為a,b,c...
分類樣本不均
實際使用分類器的時候,經常遇到分類樣本不均衡的問題。而只有分類樣本較為均衡,才可以達到比較好的分類效果。1 如果各個類別的樣本數量都非常多,則對於樣本少的類,使用全部樣本。而對於樣本多的類,進行取樣。取樣可以隨機取樣,或者如果有某一類別裡,有一部分資料非常接近,比如奈雪的茶 koi在茶飲裡佔了幾百家...