不平衡分類問題是指訓練樣本數量在類間分布不平衡的模式分類問題。在實際應用中,不平衡問題很常見。有些問題其原始資料的分布就存在不平衡,如通過衛星雷達檢測海面石油油汙、監測信用卡非法交易、發掘基因序列中編碼資訊以及醫學資料分類等。
所謂的資料不平衡是指:資料集樣本類別極不均衡。不平衡資料的學習即需要在如此分布不均勻的資料集中學習到有用的資訊。
不平衡分類問題具有一系列傳統模式分類方法沒有考慮到的特徵,從而引發了一系列的傳統模式分類難以解決的問題。
樣本分佈的不平衡容易導致稀有類樣本的稀缺,具體地說,稀缺包括絕對稀缺和相對稀缺。
絕對資料稀缺類的分類錯誤率要比一般類高出許多。此外,當某類資料過於稀缺時,容易在特徵空間中形成小的資料區域,從而引發小區塊(small disjuncts )問題。由於小區塊與雜訊資料難以區分,在小區塊存在很高的分類錯誤率。很多分類器為了防止過學習會進行統計顯著性(statistical significance)檢測,如在決策樹中,只有覆蓋足夠多樣本的決策規則和關聯規則才能被保留下來。而小區塊的資料經常無法順利通這類顯著性檢測,另一方面來說,如果降低檢測的閾值,又無法有效地去除雜訊。
綜上可得,對於相對稀有樣本能通過增加總樣本數量來減少資料不平衡對分類器效能的影響,而絕對稀缺則難以解決。雜訊資料的存在不可避免,並在一定程度上影響到分類器效能。但是,對不平衡分類問題,雜訊資料對稀有類將產生更大的影響。稀有類的抗噪能力較弱,並且分類器難以區分稀有類樣本和雜訊資料。
對於不平衡資料的雜訊問題存在很大的困難,雜訊會影響分類器的效能,但是由於雜訊和稀有類難以區分,很難在保留稀有類的情況下去除雜訊。傳統的模式分類方法,大都建立在訓練樣本數量均衡的前提下。當用於解決不平衡分類問題時,它們的分類效能往往有不同程度的下降。
分類器評測指標的科學性直接影響著分類器的效能,因為分類器訓練的目標是實現最高的評測指標。傳統模式分類的評價標準一般是準確率,但是以準確率為評價準則的分類器傾向於降低稀有類的分類效果。且準確率不重視稀有類對分類效能評測的影響。
解決不平衡分類問題的策略可以分為兩大類。一類是從訓練集入手,通過改變訓練集樣本分佈,降低不平衡程度。另一類是從學習演算法入手,根據演算法在解決不平衡問題時的缺陷,適當地修改演算法使之適應不平衡分類問題。
重取樣方法是上取樣和下取樣使不平衡的樣本分佈變得比較平衡,從而提高分類器對稀有類的識別率
下取樣(down-sampling):通過捨棄部分大類樣本的方法,降低不平衡程度。
雖然重取樣在一些資料集上取得了不錯的效果,但是這類方法也存在一些缺陷。上取樣方法不增加任何新的資料,只是重複或者增加人工生成的稀有類樣本,這樣增加了訓練時間,甚至由於這些重複或是周圍生成的新的稀有類樣本,使分類器過分注重這些樣本,導致過學習。上取樣不能從本質上解決稀有類樣本的缺失和資料表示的不充分性。而下取樣在去除大類樣本時,容易去除重要的樣本資訊,雖然有些啟發式下取樣方法知識去除冗餘樣本和雜訊樣本,但多數情況下這類樣本只是小部分,因此下取樣方法能夠調整的不平衡度相當有限。對訓練資料集進行劃分,是另一種有效的訓練集平衡方法。通過訓練集劃分得到的子分類器,利用分類器整合的方法獲得了良好的效果。具體如下圖:
首先根據代價敏感學習的需要,學習乙個合理的類別樣本分佈比例。然後將大類樣本隨機劃分成一系列不相交子集。這些子集的大小由稀有類樣本集的數量和預先學習的樣本分佈比例決定。接下來分別將這些不相交子集跟稀有類樣本結合,組成一系列平衡的分類子問題,單獨訓練成子分類器。最後通過元學習(meta learning)將這些子分類器的輸出進一步學習成組合分類器。
該方法子問題採用svm為子分類器,得到的分類器效能優於上、下取樣方法。後有人提出最小最大模組化神經網路模型,利用最小最大化整合規則,有效地將子分類器組合,使組合分類器容易地實現並列學習和增量學習。再後面有人將上述模型推廣到支援向量機並提出了「部分對部分」(part vs part)任務分解策略。「部分對部分」任務分解策略可對不平衡兩類子問題作進一步分解。這種分解策略可以自由地控制每個子問題的規模和平衡度,並且可以根據先驗知識和訓練集樣本的分布特徵,制定有效的分解規則。實驗表明,該方法比代價敏感學習和重取樣方法能更好地解決不平衡問題。
訓練集重取樣後用多種學習方法分別訓練,然後將得到的分類器採用多數投票方法給出**類別。
estabrook等人[26]通過計算發現,根據訓練集的自然分布得到的分類器不一定具有最好的一般化能力.他們提出通過對原不平衡問題進行重取樣,從而構建多個平衡度不同的訓練集,訓練後採用分類器挑選和偏向正類的原則將各個分類器綜合。該方法比單獨應用上取樣和下取樣方法獲得了更好的準確率和roc曲線。
代價敏感學習賦予各個類別不同的錯分代價,它能很好地解決不平衡分類問題。在演算法層面上解決不平衡資料學習的方法主要是基於代價敏感學習演算法(cost-sensitive learning),代價敏感學習方法的核心要素是代價矩陣,我們注意到在實際的應用中不同型別的誤分類情況導致的代價是不一樣的。
基於以上代價矩陣的分析,代價敏感學習方法主要有以下三種實現方式,分別是:
基於貝葉斯風險理論,把代價敏感學習看成是分類結果的一種後處理,按照傳統方法學習到乙個模型,以實現損失最小為目標對結果進行調整,優化公式如下所示。此方法的優點在於它可以不依賴所用具體的分類器,但是缺點也很明顯它要求分類器輸出值為概率。
基於預處理,將代價用於權重的調整,使得分類器滿足代價敏感的特性,下面講解一種基於adaboost的權重更新策略。
特徵選擇方法對於不平衡分類問題同樣具有重要意義。樣本數量分布很不平衡時,特徵的分布同樣會不平衡。尤其在文字分類問題中,在大類中經常出現的特徵,也許在稀有類中根本不出現。因此,根據不平衡分類問題的特點,選取最具有區分能力的特徵,有利於提高稀有類的識別率。
通過採用特徵選擇來解決不平衡分類問題主要集中於自然語言處理領域。
參考:葉志飛, 文益民, 呂寶糧. 不平衡分類問題研究綜述[j]. 智慧型系統學報, 2009, 4(2):148-156.。
不平衡資料下的機器學習方法簡介
資料不平衡問題
資料不平衡問題實際上指的就是y的分布相差很大的問題,又稱為類別不平衡問題。出現這種問題的原因是在實際取樣中,有可能會出現一類的y數量遠遠大於另一類的例子。乙個很明顯的例子就是在做信用卡還款 的時候,一定是按時還款的人佔據絕大多數,不按時還款的人佔一小部分,那如果機器無腦 新客戶一定會還款,正確率是很...
不平衡資料集中的分類問題
五 演算法級別 六 整合級別 總結不平衡資料集的部分分類或分類問題,是機器學習中的乙個基本問題,受到廣泛的關注。主要從三個級別進行考慮 演算法級別 資料級別 混合級別 在二元不平衡資料集中,一類的例項數高於第二類的例項數。因此,第一類被稱為多數派,第二類被稱為少數派。因此,該資料集包含兩種例項 多數...
不平衡分類問題處理方法
問題描述 工作中處理分類問題時,很多情況是多個分類類別的資料分布不平衡,有的類別的資料量可能遠小於其他類別。並且在實驗中發現,進行分類模型訓練時,各類別的資料比例不同對最終模型分類效果的影響很大。解決方法 對於這類問題,主要從資料和學習兩個角度進行處理。訓練集大小,類優先順序,誤分代價幾個重要影響因...