類別不平衡 (class-imbalance):指分類任務中不同類別的訓練樣例數目差別很大的情況。
解決方式
再縮放(改變分類決策規則)
舉個例子,在二分類中如果在類別平衡的情況下,假設**為1的概率為p,則**為0的概率為1-p,則:p1−
p>
1>1
1−pp
>
1時,類別為1,否則類別為0。若類別不平衡呢,假設資料集中,類別為1的數量為m
1m^1
m1,類別為0的數目為m
0m^0
m0,m
1m^1
m1!=m
0m^0
m0,觀測概率為m1m
0m^1 \over m^0
m0m1
,只要分類器的**機率高於觀測機率就應判定為類別1:
p 1−
p1−
pp>m1m
0m^1 \over m^0
m0m1
進行乙個簡單的調整,就變為求:
p ′1
−p
′\over 1-p'}
1−p′p′
=p1−p
1−ppxm1m
0m^1 \over m^0
m0m1
欠取樣
對較多類的資料樣本進行取樣來減少該類資料樣本的個數,使其與其他類數目接近,然後再進行學習。
缺點:欠取樣可能會丟失一些重要資訊。
代表easyensemble:利用整合學習機制,將反倒劃分為若干個
集合供不同學習器使用,這樣對每個學習器來看都進行了欠取樣,但在全域性來看卻不會丟失重要資訊。
過取樣對較少類的資料樣本進行取樣來增加小類的資料樣本個數。
代表性演算法smote:通過對訓練集裡的正例進行插值來產生額外的正例。思路:對每個少數類樣本a,從它的最近鄰中隨機選乙個樣本b,然後在a、b之間的連線上隨機選一點作為新合成的少數類樣本。
閾值移動
直接基於原始訓練集進行學習,但在用訓練好的分類器進行**時,將p′1
−p
′\over 1-p'}
1−p′p′
=p1−p
1−ppxm1m
0m^1 \over m^0
m0m1
嵌入到其決策過程中。
對類別不平衡問題的解決方法
類別不平衡 分類任務中不同類別的訓練樣例數目差別很大,會對學習過程造成困擾。假定正類樣例少,反類樣例多。一 再縮放 在logstic回歸分類模型中,輸出的y值實際上與乙個閾值進行比較,當y 0.5時,判斷為正例,否則為反例。由於y 0,所以y實際上表示的是 結果為正例的可能性。1.當正反例個數相同時...
類別不平衡問題的解決方法 過取樣 欠取樣和再平衡
類別不平衡問題 指的是在分類任務中不同類別的訓練樣本數目差異很大的問題。我們簡單舉乙個例子 如果我們要判斷一名大學生究竟是研究生還是本科生,我們已知在大學中本科生的數量會遠遠高於研究生的數量,我們假設本科生與研究生比例為9 1。此時,我們只需要將所有學生都判斷成是本科生,這樣我們的模型就有90 的正...
機器學習的樣本類別不均衡問題與解決方法
類別不平衡 class imbalance 就是指分類任務中,不同類別的訓練資料數目差別很大的情況。假設訓練樣例中正例數目m 負例數目m 那麼觀測機率為 m m 設乙個樣本 為正例的概率為p,則 為負例的概率為1 p,則分類器的 機率為p 1 p。通常情況下,我們假設訓練集是真實樣本總體的無偏取樣,...