樣本類別比例嚴重失衡

2022-08-26 08:48:10 字數 483 閱讀 2988

在機器學習中我們經常會遇到乙個比較讓人頭疼的問題,就是樣本類別比例失衡,在我第一次參加的kaggle的比賽中,是乙個而分類問題,給定的訓練集樣本中正負樣本的比例大致達到驚人的1:1600。

通過網上蒐集資料,其實針對這樣的情況解決辦法可以分為三種:

第一種:

將正向樣本進行重複混入訓練樣本中

因為訓練的指引來自損失函式,損失函式的影響因素分別來自 1錯分為0  和0錯分為1 ,當通過重複正向樣本增加比例後,相當於增加了在訓練時對1錯判為0的權重,也就增加了損失函式的修正性。

第二種:

增加損失函式中正樣錯判的權重:

原理與第一種做法原理類似

第三種:

bagging模式:

具體做法為,例如正負樣本比例為1:10 ,將負樣本分為9份,每乙份負樣本與正樣本合併為乙個正負比例為1:1的訓練樣本,對9個訓練樣本集進行分別的訓練,得到9個模型,然後用9個模型進行分別的**並將各自的結果綜合決策出最終的訓練結果。

樣本類別不均衡的問題

樣本類別數量不均衡主要出現在分類建模的情況。通常為某類別的樣本數量較少,導致模型忽略了小樣本的特徵,由大樣本主導。面對樣本數量不均的情況,常用的方法如下 這種方法要麼丟失資料資訊,要麼會導致較少樣本共線性,存在明顯缺陷 這種方式的弊端在於無法控制合適的權重比,需要多次嘗試 這種使用場景侷限,前置的知...

資料樣本類別不平衡

準確度 accuracy 注意與精度區分 對於二分類問題來說,正負樣例比相差較大為99 1,模型更容易被訓練成 較大佔比的類別。因為模型只需要對每個樣例按照0.99的概率 正類,該模型就能達到99 的準確率。1.上取樣 smote過取樣方法,基於插值來為少數類合成新的樣本 構建新的樣本 2.下取樣 ...

分類方法中樣本類別不均衡問題

大部分的分類學習方法都存在乙個基本的假設,訓練集中不同類別的訓練樣本數目差不多。如果不同類別的樣本數目差距很大,比如正類樣本有98個,而負類樣本只有2個,這種情況下學習出來的分類器只要一直返回正類的 結果,那很輕易的就能達到百分之九十八的正確率,但實際上這樣的模型並沒有什麼作用。欠抽樣,是指減少分類...