不平衡資料集中的分類問題

2021-10-10 06:20:24 字數 3994 閱讀 9206

五、演算法級別

六、整合級別

總結不平衡資料集的部分分類或分類問題,是機器學習中的乙個基本問題,受到廣泛的關注。主要從三個級別進行考慮:演算法級別、資料級別、混合級別

在二元不平衡資料集中,一類的例項數高於第二類的例項數。 因此,第一類被稱為多數派,第二類被稱為少數派。 因此,該資料集包含兩種例項:多數和少數. 不平衡二進位制資料集中例項的分布是通過等式(19)中定義的不平衡率(ir)[19]來衡量的。

根據ir的值,將不平衡的資料集分為三類[20]:低不平衡的資料集(ir介於1.5和3之間),中等不平衡的資料集(ir介於3和9之間)和高不平衡的資料集。 (ir高於9)。

在現代社會中,基於網路的計算機系統越來越扮演著至關重要的角色。 對計算機系統和網路的攻擊正在增長。 存在不同型別的網路攻擊。 有些數量很多,有些則很少。 例如,kdd-cup』99資料集包含四類網路攻擊:拒絕服務(dos),監視(探針),從根到本地(r2l)和從使用者到根。 (u2r)。 最後兩次攻擊本質上是罕見的[23]。

主要分為三類:過取樣、欠取樣、混合取樣

過取樣方法過取樣用於通過複製一些少數例項來增加不平衡資料集的大小。 可以通過以下方法完成此複製。

隨機過取樣

它會複製一些隨機選擇的少數例項[3]。 因此,少數例項的多個副本增加了這些例項之間的重疊[37]。 特別是,當生成的分類器包含針對同一例項的多個副本的更具體的規則時,就會出現重疊。 結果,在這種情況下,學習的準確性很高,並且用於測試的分類器的效能通常很低[38]。

少數綜合過取樣技術(smote)

smote [39]是一種具有資料生成功能的綜合方法。 它在各個領域都取得了一些成功[3]。 它為每個少數例項xi建立乙個綜合示例xnew,如下所示。 它確定xi的k個近鄰(它們與xi之間的歐式距離最小的少數例項)。 然後,它隨機選擇k最近鄰居yi之一。 最後,它應用等式。 (10),其中δ是隨機數∈[0,1]。 因此,我們知道xnew是連線xi和yi的段的乙個點:

smote不會忽略少數例項,因為它會概括少數例項的決策區域。 但是smote有兩個問題[40]:過度概括和方差。 第乙個問題是由於在不考慮多數階級的情況下對少數民族地區的盲目概括,這增加了階級之間的重疊數量。 第二個問題涉及在不考慮ir的情況下預先設定的生成合成例項的數量。

msmote smote

不考慮少數例項的分布以及資料集中有雜訊的例項的分布。 因此,msmote [41]將少數例項分為三類:安全,邊界和潛在雜訊。

如果屬於少數群體的k近鄰的數量大於屬於多數群體的k近鄰的數量,則該例項為秘書。 如果屬於少數群體的k近鄰的數量少於屬於多數群體的k近鄰的數量,則該例項為border。如果例項的所有k最近鄰都具有多數類,則該例項為潛在雜訊。

msmote以與smote相同的方式為所有安全例項生成綜合例項。 但是,對於每個邊界例項,它選擇最近的鄰居以生成合成示例。 但是,它不會為嘈雜的例項生成綜合例項,因為它們會降低分類器的效能。

borderline-smote

邊界例項和附近的例項比遠離邊界的例項更容易被誤分類,並且它們對於分類最重要。 基於此分析,邊界例項對分類的貢獻很小。 因此,有人提出使用borderline-smote [42]方法將過取樣應用於邊界少數群體例項,而不是將其應用於所有少數群體例項。 為此,它構造了一組稱為danger的邊界少數派例項。 然後,它將對危險集的每個例項應用smote。

自適應綜合取樣方法(adasyn)

adasyn [43]使用稱為密度的函式作為自動準則來決定每個少數例項可能生成的綜合例項的數量。

欠取樣方法它包括通過刪除一些多數例項來減少資料大小,目的是使每個類的例項數量相等[44]。 有幾種欠取樣方法,它們在選擇要刪除的多數例項的方式上有所不同。

隨機欠取樣(rus)rus

[4,44]刪除一些隨機選擇的多數例項。 但這可能會阻礙學習[37,38,45]; 刪除的多數例項會導致分類器忽略與多數類相關的重要概念。

***知情的欠取樣***建議避免由rus引起的資訊丟失[46]。 在這種欠取樣演算法中,我們有以下內容。

easyensemble

它旨在更好地利用rus忽略的多數例項。 首先,它將訓練資料集分別分為大小為n和p的少數集p和多數集n [46]。 然後,通過對n進行替換隨機抽樣,構建大小為p的t個子集n1,n2…,nt。此後,它生成t個分類器h1,h2…,ht。 分類器hi是通過在ni和p上應用adaboost產生的,它包含所有多數和少數例項的概念。 最後,它通過組合t個生成的分類器來構造最終分類器h。

***balancecascade***訓練資料集由大小為p的少數例項的集合p和大小為n的多數例項的集合n組成[46]。 balancecascade在每次迭代時,從所有集合p和從n中隨機選擇的子集e中構造分類器hi,其中| e |。 = p。 然後,它通過刪除所有被hi分類的多數例項來更新n。 該演算法以監督方式探索多數例項,因為多數例項集在每個分類器生成後都會更新。

用knn進行的資訊欠取樣該技術[44]基於應用knn演算法[47]的資料分布特徵。 已提出以下三種方法使用此技術:nearmiss-1選擇多數例項如下:對於每個多數例項xi。

對於每個少數例項xj:計算xi與xj之間的距離dij。

確定代表少數例項的xi的三個最近鄰居xk(1≤k≤3)。

計算公式中定義的平均距離di。 (11):di = 13∑3k = 1dik e11選擇多數例項xi,其與三個最近的少數群體例項的平均距離最小。

nearmiss-2方法具有與先前方法相同的步驟。 但是,它將選擇與三個最遠的少數類例項的平均距離最小的多數例項。

nearmiss-3為每個少數例項選擇給定數量的最接近多數例項,以確保每個少數例項都被某些多數例項包圍。nearmiss-1選擇多數例項如下:對於每個多數例項xi。

對於每個少數例項xj:計算xi與xj之間的距離dij。

確定代表少數例項的xi的三個最近鄰居xk(1≤k≤3)。

計算公式中定義的平均距離di。 (11):di = 13∑3k = 1dik e11選擇多數例項xi,其與三個最近的少數群體例項的平均距離最小。

nearmiss-2方法具有與先前方法相同的步驟。 但是,它將選擇與三個最遠的少數類例項的平均距離最小的多數例項。

nearmiss-3為每個少數例項選擇給定數量的最接近多數例項,以確保每個少數例項都被某些多數例項包圍。

這些方法結合了欠取樣和過取樣。 他們的目的是消除由過取樣方法引起的過擬合[3]。 例如,smote + tomek鏈結[17]在smote生成合成少數例項後應用tomek鏈結,而smote + enn [17]使用enn刪除少數和多數例項。 為此,刪除每個訓練資料集的三個最近鄰居的錯誤分類例項。

演算法級別大多數方法都基於修改現有的完整分類演算法以使其適應不平衡的資料集或提出特定的演算法。

5.2.1現有演算法的修改5.2.1.1決策樹決策樹[55、56、57、58]是基於規則的分類器的最流行形式。 它允許簡單,圖形化地快速建模或多或少複雜的現象。 它的可讀性,執行速度和一些必要的假設可以先驗地解釋其當前的流行度。 構造決策樹的所有方法都具有這些運算子:確定節點是否為終端,選擇要與該節點關聯的測試以及為葉分配乙個類。

決策樹的現有構建方法因針對不同運營商的選擇而不同。 cart [59]和c4.5 [60]是最流行的決策樹演算法。

在樹的構造階段,c4.5選擇使資訊增益最大化的節點屬性[60],即高置信度。 但是,此度量不適用於不平衡的資料集,因為最可信的規則並不意味著它們是最重要的,並且某些最重要的規則可能不是最可信的(可能沒有很高的可信度)。 對於使用gini函式[60]的cart,也會出現相同的問題。 這些演算法著重於找到類的前提。 而且,他們對班級分布使用敏感的度量。 由於這些原因,已經提出了一些應用非敏感措施[61]或修改施工階段的方法

過取樣/欠取樣svm的整合

這些方法[86]通過預處理來平衡訓練資料集,並將其提供給svm以建立最佳分類器。 例如,欠取樣支援向量(eus-svm)的集合在n個不同的訓練資料集上應用了n次支援向量支援。 它包含所有少數派例項和一些通過隨機抽樣選擇的多數派例項。 最終分類器由n個產生的分類器組合而成。

資料不平衡分類問題

不平衡分類問題是指訓練樣本數量在類間分布不平衡的模式分類問題。在實際應用中,不平衡問題很常見。有些問題其原始資料的分布就存在不平衡,如通過衛星雷達檢測海面石油油汙 監測信用卡非法交易 發掘基因序列中編碼資訊以及醫學資料分類等。所謂的資料不平衡是指 資料集樣本類別極不均衡。不平衡資料的學習即需要在如此...

資料不平衡問題

資料不平衡問題實際上指的就是y的分布相差很大的問題,又稱為類別不平衡問題。出現這種問題的原因是在實際取樣中,有可能會出現一類的y數量遠遠大於另一類的例子。乙個很明顯的例子就是在做信用卡還款 的時候,一定是按時還款的人佔據絕大多數,不按時還款的人佔一小部分,那如果機器無腦 新客戶一定會還款,正確率是很...

不平衡分類問題處理方法

問題描述 工作中處理分類問題時,很多情況是多個分類類別的資料分布不平衡,有的類別的資料量可能遠小於其他類別。並且在實驗中發現,進行分類模型訓練時,各類別的資料比例不同對最終模型分類效果的影響很大。解決方法 對於這類問題,主要從資料和學習兩個角度進行處理。訓練集大小,類優先順序,誤分代價幾個重要影響因...