資料混淆度的計算方式

面對機器學習的分類問題時，研究資料混淆度所使用的方法主要有兩類：1.基於幾何統計的角度。2.基於資訊理論的角度。

幾何統計的角度

1. 適用於連續資料集下的資料混淆度指標的演算法

（1）最大fisher判別率f1

f1是待分類的訓練資料集當中各個屬性的fisher判別率最大的那個值。 f=

(u1−

u2)2

(α1)

2+(α

2)2

其中，u1,

u2,α

1,α2

分別指的是類別１和類別２的平均值與方差。上式中的f被定義為屬性的特徵維數。對於多維屬性，選擇f值最大的乙個來代表f1。f1在一定意義上代表了資料的線性可分性。數值較

高的f1說明訓練資料集當中至少有乙個屬性具有很好的線性可分度，不過，數值較低的f1也並不能夠說明資料就一定具有非線性可分性。

（2）各個屬性混疊區域的體積f2

該指標是兩類條件分布的尾部混疊。對於每個特徵，每個類的最大值和最小值，我們可以通過尋找測量這個，然後計算所跨越這兩個類的值的範圍內歸一化的混疊區域的長度，再乘ｗ從每個特徵維度得到的比率，得到測量的混疊區域的體積（歸一化的特徵空間上的大小）。f2定義如下，假定ma

x(fi

,cj)

,min

(fi,

cj) 為類別cj

中屬性fi

的最大值和最小值，則f2的計算式如下, f2

=∏im

inma

xi−m

axmi

nima

xmax

i−mi

nmin

i 其中， mi

nmax

i=mi

n(ma

x(fi

,c1)

,max

(fi,

c2))

maxmini

=max

(min

(fi,

c1),

min(

fi,c

2))

minm

axi=

max(

fi,c

1),m

ax(f

i,c2

)) m

inma

xi=m

in(m

in(f

i,c1

),mi

n(fi

,c2)

) i=1,2,…,d，d維問題。注意，只要有至少乙個維度中的兩類取值範圍不混疊，那麼體積為零。f2是通過不同類別屬性取值的情況來衡量資料的混疊情況。低的f2值在一定層面反映了資料混疊輕微，可分性好。

（3）屬性的特徵效率f3

對於屬性值過多的問題，需要引起注意的是如何找到那些具有判斷力的資訊用於分類。針對眾多屬性，選擇對它們進行一一的考量，分別測得它們對分類貢獻的有效性，也就是說具體求得每乙個屬性對分類的貢獻率大小。

針對每乙個屬性，相同類別的點在每一類的所有取值範圍內的任何乙個區域發揮作用。假如不同類別的屬性值存在重合的情況，那麼該屬性在此重合部分中的類別模糊性就需要重視起來

（4）最大fisher判別率f1的方向向量f1v

ｆ1v計算方法的核也是尋找乙個方向向量，並且這個方向向量能夠分離兩類不同的樣本資料集，它實際上是對ｆ1演算法的補充。其針對於兩種類別樣本的計算公式如下所示 r(

d)=[

dt(u

1−u2

)]2d

t∑d=

dtbd

tdt∑

dt其中，dt

是待**資料的方向向量；ui

是均值向量；∑=

a∑1+

(1−a

)∑2 。，其中０<=a<=1。∑i

是類別ci

的模式散布矩陣；b=

(u1−

u2)(

u1−u

2)t 是類間散布矩陣；

d 的方向向量計

算公式為 d=

∑−1δ

其中，δ=u

1−u2

不過，值得一提的是f1v的這種計算方法僅僅適應於兩類別樣本的問題。如果fisher判別率的值比較大表明這種方法能夠找到乙個方向向量用於區分開隸屬於不同種類的樣本。

2. 適用於離散資料集下的資料混淆度指標的演算法

（1）改進後的f1 f(

tk)=

(e(t

k/p)

−e(t

k/n)

)2d(

tk/p

)+d(

tk/n

) 其中，p,n分別代表的是兩種類別，tk

是兩種類別中某乙個屬性下的乙個特徵值。e(

tk/n

) 分別是特徵值在兩種類別中出現的頻率。d(

tk/p

)和d(

tk/n

) 分別是特徵值tk

在兩種類別中的條件方差。其計算方法如下：

假設ｐ類中有ｍ個樣本，對於第i個樣本，若包含有特徵值t_k，則令dp

,i(t

k)=1

若未包含有特徵值tk

，則令dp

,i(t

k)=0

。統計所有樣本中dp

,i(t

k)=1

的個數，假設個數

為ｍl。那麼， e(

tk/p

)=ml

m d(

tk/p

)=1m

∑i=1

m(dp

,i(t

k)−1

m)2

對於第n類樣本，計算過程類同。

據於上述演算法的思想，本文提出了一種ｆ1的改進演算法：假設p，n兩類資料報含了aｌ到aｎ共ｎ個屬性。屬性aｌ中有b1個特徵值，屬性a２中有b2個特徵值，屬性an中有個特徵值。則 f1

=max

(fa1

1,fa

21,.

..,f

an1)

其中， fa

n1=p

(1,a

1)∗f

(1,a

1)+p

(2,a

1)∗f

(2,a

2)+.

..+p

(bn,

a1)∗

f(bn

,a1)

p(1,a1)是a1屬性中第1個特徵值在兩類所有樣本出現的概率。 fa

n1相當於在同一屬性下，用不同特徵值求得的ｆ乘以該特徵值出現的頻率之後求和。由於特徵值的f表徵的是該特徵值對類別的區分能力，因此fa

n1就表徵的是該屬性對類別的區分能力。

資料混淆度的計算方式

輪廓圓度計算方式

演算法時間複雜度計算方式

60 準確度的陷阱和混淆矩陣

資料混淆度的計算方式

輪廓圓度計算方式

演算法時間複雜度計算方式

60 準確度的陷阱和混淆矩陣

相關推薦