ADASYN不平衡學習的自適應綜合取樣方法

2021-10-22 21:17:49 字數 2868 閱讀 7743

是不平衡學習中過取樣很經典的乙個方法,下面給出此演算法思想。

對不平衡學習及smote演算法發展想要有系統了解的可看我的另一篇文章《smote及其發展》。

adasyn思想:基於根據少數類資料樣本的分布自適應地生成少數類資料樣本的思想:與那些更容易學習的少數類樣本相比,更難學習的少數類樣本會生成更多的合成資料。adasyn方法不僅可以減少原始不平衡資料分布帶來的學習偏差,還可以自適應地將決策邊界轉移到難以學習的樣本上。

adasyn演算法

input:具有m個樣本

xi​,yi

​}(i =1, …, m)的訓練資料集dtr

d_dt

r​,x

ix_i

xi​是n維特徵空間x

xx中的乙個例項,yi∈

y=

yi∈ y =

yi∈y

= 是與x

ix_i

xi​相關聯的類標識標籤.將m

sm_s

ms​和m

lm_l

ml​分別定義為少數類示例的數量和多數類示例的數量。因此,m

sm_s

ms​≤ m

lm_l

ml​且ms+

ml=m

m_s+m_l=m

ms​+ml

​=m.

procedure:

(1)計算不平衡度: d=m

s/ml

d = m_s/m_l

d=ms​/

ml​  d∈(

0,1]

d ∈ (0, 1]

d∈(0,1

]     (1)

(2)如果d

hd < d_

dh​則(dth

d_dt

h​是最大容許不平衡率的預設閾值):

(a)計算需要為少數樣本生成的合成樣本的數量:

g =(

ml−m

s)×β

g = (m_l− m_s) × β

g=(ml​

−ms​

)×β       (2)

β ∈[

0,1]

β∈ [0,1]

β∈[0,1

]是乙個引數,用於指定合成資料生成後所需的平衡水平。β=1

β = 1

β=1表示在泛化過程之後建立了完全平衡的資料集。

(b)對於每個屬於少數類的x

ix_i

xi​,基於n維空間中的歐氏距離找到k

kk個最近的鄰居,並計算比例r

ir_i

ri​定義為:

r i=

δi/k

,i=1

,...

,m

sr_i= δ_i/k, i = 1, ..., m_s

ri​=δi

​/k,

i=1,

...,

ms​    (3)

其中δ

iδ_i

δi​是k個最近鄰中的屬於多數類的例子數,因此ri∈

[0,1

]r_i∈ [0,1]

ri​∈[0

,1](c ) 根據r^i

=ri/

∑i=1

msri

\widehat r_i=r_i/\sum_^r_i

ri​=ri

​/∑i

=1ms

​​ri

​歸一化r

ir_i

ri​,所以r

ir_i

ri​是乙個密度分布(∑ir

^i=1

\sum_i \widehat r_i=1

∑i​ri​

=1)(d)計算每個少數類樣本x

ix_i

xi​需要生成的合成樣本的數量:

g i=

r^i×

gg_i=\hat r_i×g

gi​=r^

i​×g

(4)其中,g是需要為等式(2)中定義的少數類樣本去生成的合成樣本的總數。

(e)對於每個少數類樣x

ix_i

xi​,按照以下步驟生成合成樣本g

ig_i

gi​:

do theloopfrom 1 to gi:

(i)從x

ix_i

xi​的k

kk個最近鄰居中隨機選擇乙個少數類樣本xzi

x_xz

i​(ii)生產合成資料樣本si=

xi+(

xzi−

xi)×

λs_i= x_i+ (x_− x_i) × λ

si​=xi

​+(x

zi​−

xi​)

×λ其中(xzi

−x

ix_-x_i

xzi​−x

i​)是n維空間中的差向量,λ是隨機數:λ∈(

0,1]

λ∈(0,1]

λ∈(0,1

].endloop

adasyn演算法的關鍵思想是使用密度分布作為標準來自動決定需要為每個少數類樣本生成的合成樣本的數量。從物理上來說,r

ir_i

ri​是根據不同少數民族學生的學習難度來衡量他們的權重分布。adasyn後得到的資料集不僅將提供資料分布的平衡表示(根據β係數定義的期望平衡水平),還將迫使學習演算法關注那些難以學習的樣本。

作者對adsyn方法進行了展望,可考慮用整合的方法做,將此方法作為整合中的乙個部分並給與權值。

機器學習 不平衡資料集

不平衡資料集是指在解決分類問題時每個類別的樣本量不均衡的資料集。比如,在二分類中你有100個樣本其中80個樣本被標記為class 1,其餘20個被標記為class 2.這個資料集就是乙個不平衡資料集,class 1和class 2的樣本數量之比為4 1.不平衡資料集不僅存在於二分類問題而且存在於多分...

資料不平衡 機器學習

2.1 加權處理 2.2 過取樣 2.3 降取樣 2.1加權處理 加權的操作 1.遍歷每個樣本 2.如果樣本滿足某個要求,例如在不平衡的二分類問題中,如果樣本的標籤是1,那麼我們就將其權重設為w 1w 1 w1 如果樣本標籤為0,那麼我們將其權重設定為w 2w 2 w2 3.將樣本權重帶入模型進行訓...

機器學習中的不平衡問題

從少數類sm in中抽取資料集 e 取樣的數量要大於原有少數類的數量,最終的訓練集為sm aj e 對於少數類中每乙個樣本 x 以歐氏距離為標準計算它到少數類樣本集sm in中所有樣本的距離,得到其k近鄰。根據樣本不平衡比例設定乙個取樣比例以確定取樣倍率n,對於每乙個少數類樣本x,從其k近鄰中隨機選...