在機器學習任務中,我們經常會遇到這種困擾:資料不平衡問題。
資料不平衡問題主要存在於有監督機器學習任務中。當遇到不平衡資料時,以總體分類準確率為學習目標的傳統分類演算法會過多地關注多數類,從而使得少數類樣本的分類效能下降。絕大多數常見的機器學習演算法對於不平衡資料集都不能很好地工作。
本文介紹幾種有效的解決資料不平衡情況下有效訓練有監督演算法的思路:
可以使用不同的資料集。有兩種方法使不平衡的資料集來建立乙個平衡的資料集——欠取樣和過取樣。
欠取樣是通過減少豐富類的大小來平衡資料集,當資料量足夠時就該使用此方法。通過儲存所有稀有類樣本,並在豐富類別中隨機選擇與稀有類別樣本相等數量的樣本,可以檢索平衡的新資料集以進一步建模。
相反,當資料量不足時就應該使用過取樣,它嘗試通過增加稀有樣本的數量來平衡資料集,而不是去除豐富類別的樣本的數量。通過使用重複、自舉或合成少數類過取樣等方法(smote)來生成新的稀有樣品。
注意到欠取樣和過取樣這兩種方法相比而言,都沒有絕對的優勢。這兩種方法的應用取決於它適用的用例和資料集本身。另外將過取樣和欠取樣結合起來使用也是成功的。
值得注意的是,使用過取樣方法來解決不平衡問題時應適當地應用交叉驗證。這是因為過取樣會觀察到罕見的樣本,並根據分布函式應用自舉生成新的隨機資料,如果在過取樣之後應用交叉驗證,那麼我們所做的就是將我們的模型過擬合於乙個特定的人工引導結果。這就是為什麼在過度取樣資料之前應該始終進行交叉驗證,就像實現特徵選擇一樣。只有重複取樣資料可以將隨機性引入到資料集中,以確保不會出現過擬合問題。
k-fold交叉驗證就是把原始資料隨機分成k個部分,在這k個部分中選擇乙個作為測試資料,剩餘的k-1個作為訓練資料。交叉驗證的過程實際上是將實驗重複做k次,每次實驗都從k個部分中選擇乙個不同的部分作為測試資料,剩餘的資料作為訓練資料進行實驗,最後把得到的k個實驗結果平均。
對於二分類問題,如果正負樣本分佈比例極不平衡,我們可以換乙個完全不同的角度來看待問題:把它看做一分類(one class learning)或異常檢測(novelty detection)問題。這類方法的重點不在於捕捉類間的差別,而是為其中一類進行建模,經典的工作包括one-class svm等,如下圖所示:
one class svm 是指你的訓練資料只有一類正(或者負)樣本的資料, 而沒有另外的一類。在這時,你需要學習的實際上你訓練資料的邊界。而這時不能使用最大化軟邊緣了,因為你沒有兩類的資料。 所以呢,在這邊文章中,「estimating the support of a high-dimensional distribution」, schölkopf 假設最好的邊緣要遠離特徵空間中的原點。左邊是在原始空間中的邊界,可以看到有很多的邊界都符合要求,但是比較靠譜的是找乙個比較緊的邊界(紅色的)。這個目標轉換到特徵空間就是找乙個離原點比較遠的邊界,同樣是紅色的直線。當然這些約束條件都是人為加上去的,你可以按照你自己的需要採取相應的約束條件。比如讓你data 的中心離原點最遠。
說明:對於正負樣本極不均勻的問題,使用異常檢測,或者一分類問題,也是乙個思路。
成功泛化模型的最簡單方法是使用更多的資料,問題是像邏輯回歸或隨機森林這樣開箱即用的分類器,傾向於通過捨去稀有類來泛化模型。乙個簡單的最佳實踐是建立n個模型,每個模型使用稀有類別的所有樣本和豐富類別的n個不同樣本。假設想要合併10個模型,那麼將保留例如1000例稀有類別,並隨機抽取10000例豐富類別。然後,只需將10000個案例分成10塊,並訓練10個不同的模型。
如果擁有大量資料,這種方法是簡單並且是可橫向擴充套件的,這是因為可以在不同的集群節點上訓練和執行模型。集合模型也趨於泛化,這使得該方法易於處理。
方法4 可以很好地將稀有類別和豐富類別之間的比例進行微調,最好的比例在很大程度上取決於所使用的資料和模型。但是,不是在整體中以相同的比例訓練所有模型,所以值得嘗試合併不同的比例。如果10個模型被訓練,有乙個模型比例為1:1(稀有:豐富)和另乙個1:3甚至是2:1的模型都是有意義的。乙個類別獲得的權重依賴於使用的模型。
方法5 雖然能夠選出最好的樣本資料比例。但是它的魯棒性不能夠保證:它的魯棒性取決於測試集樣本的選取。
為了解決上述方法的缺陷,增加模型魯棒性。為此,我本人在 隨機森林演算法 思想的啟發下,想出了在上述方法的基礎上,將不同比例下訓練出來的模型進行多模型bagging
操作,具體的步驟如下:
sergey quora提出了一種優雅的方法,他建議不要依賴隨機樣本來覆蓋訓練樣本的種類,而是將r個群體中豐富類別進行聚類,其中r為r中的例數。每個組只保留集群中心(medoid)。然後,基於稀有類和僅保留的類別對該模型進行訓練。
首先,我們可以對具有大量樣本的豐富類進行聚類操作。假設我們使用的方法是k-means聚類演算法 。此時,我們可以選擇k值為稀有類中的資料樣本的個數,並將聚類後的中心點以及相應的聚類中心當做富類樣本的代表樣例,類標與富類類標一致。
經過上述步驟的聚類操作,我們對富類訓練樣本進行了篩選,接下來我們就可以將相等樣本數的k個正負樣本進行有監督訓練。如下圖所示:
所有之前的方法都集中在資料上,並將模型保持為固定的元件。但事實上,如果設計的模型適用於不平衡資料,則不需要重新取樣資料,著名的xgboost已經是乙個很好的起點,因此設計乙個適用於不平衡資料集的模型也是很有意義的。
通過設計乙個代價函式來懲罰稀有類別的錯誤分類而不是分類豐富類別,可以設計出許多自然泛化為稀有類別的模型。例如,調整svm以懲罰稀有類別的錯誤分類。
機器學習中的資料不平衡解決方案大全
在機器學習任務中,我們經常會遇到這種困擾 資料不平衡問題。資料不平衡問題主要存在於有監督機器學習任務中。當遇到不平衡資料時,以總體分類準確率為學習目標的傳統分類演算法會過多地關注多數類,從而使得少數類樣本的分類效能下降。絕大多數常見的機器學習演算法對於不平衡資料集都不能很好地工作。本文介紹幾種有效的...
機器學習 不平衡資料集
不平衡資料集是指在解決分類問題時每個類別的樣本量不均衡的資料集。比如,在二分類中你有100個樣本其中80個樣本被標記為class 1,其餘20個被標記為class 2.這個資料集就是乙個不平衡資料集,class 1和class 2的樣本數量之比為4 1.不平衡資料集不僅存在於二分類問題而且存在於多分...
資料不平衡 機器學習
2.1 加權處理 2.2 過取樣 2.3 降取樣 2.1加權處理 加權的操作 1.遍歷每個樣本 2.如果樣本滿足某個要求,例如在不平衡的二分類問題中,如果樣本的標籤是1,那麼我們就將其權重設為w 1w 1 w1 如果樣本標籤為0,那麼我們將其權重設定為w 2w 2 w2 3.將樣本權重帶入模型進行訓...