面對機器學習的分類問題時,研究資料混淆度所使用的方法主要有兩類:1.基於幾何統計的角度。2.基於資訊理論的角度。
幾何統計的角度
1. 適用於連續資料集下的資料混淆度指標的演算法
(1)最大fisher判別率f1
f1是待分類的訓練資料集當中各個屬性的fisher判別率最大的那個值。 f=
(u1−
u2)2
(α1)
2+(α
2)2
其中,u1,
u2,α
1,α2
分別指的是類別1和類別2的平均值與方差。上式中的f被定義為屬性的特徵維數。對於多維屬性,選擇f值最大的乙個來代表f1。f1在一定意義上代表了資料的線性可分性。數值較
高的f1說明訓練資料集當中至少有乙個屬性具有很好的線性可分度,不過,數值較低的f1也並不能夠說明資料就一定具有非線性可分性。
(2)各個屬性混疊區域的體積f2
該指標是兩類條件分布的尾部混疊。對於每個特徵,每個類的最大值和最小值,我們可以通過尋找測量這個,然後計算所跨越這兩個類的值的範圍內歸一化的混疊區域的長度,再乘w從每個特徵維度得到的比率,得到測量的混疊區域的體積(歸一化的特徵空間上的大小)。f2定義如下,假定ma
x(fi
,cj)
,min
(fi,
cj) 為類別cj
中屬性fi
的最大值和最小值,則f2的計算式如下, f2
=∏im
inma
xi−m
axmi
nima
xmax
i−mi
nmin
i 其中, mi
nmax
i=mi
n(ma
x(fi
,c1)
,max
(fi,
c2))
maxmini
=max
(min
(fi,
c1),
min(
fi,c
2))
minm
axi=
max(
max(
fi,c
1),m
ax(f
i,c2
)) m
inma
xi=m
in(m
in(f
i,c1
),mi
n(fi
,c2)
) i=1,2,…,d,d維問題。注意,只要有至少乙個維度中的兩類取值範圍不混疊,那麼體積為零。f2是通過不同類別屬性取值的情況來衡量資料的混疊情況。低的f2值在一定層面反映了資料混疊輕微,可分性好。
(3)屬性的特徵效率f3
對於屬性值過多的問題,需要引起注意的是如何找到那些具有判斷力的資訊用於分類。針對眾多屬性,選擇對它們進行一一的考量,分別測得它們對分類貢獻的有效性,也就是說具體求得每乙個屬性對分類的貢獻率大小。
針對每乙個屬性,相同類別的點在每一類的所有取值範圍內的任何乙個區域發揮作用。假如不同類別的屬性值存在重合的情況,那麼該屬性在此重合部分中的類別模糊性就需要重視起來
(4)最大fisher判別率f1的方向向量f1v
f1v計算方法的核也是尋找乙個方向向量,並且這個方向向量能夠分離兩類不同的樣本資料集,它實際上是對f1演算法的補充。其針對於兩種類別樣本的計算公式如下所示 r(
d)=[
dt(u
1−u2
)]2d
t∑d=
dtbd
tdt∑
dt其中,dt
是待**資料的方向向量;ui
是均值向量;∑=
a∑1+
(1−a
)∑2 。,其中0<=a<=1。∑i
是類別ci
的模式散布矩陣;b=
(u1−
u2)(
u1−u
2)t 是類間散布矩陣;
d 的方向向量計
算公式為 d=
∑−1δ
其中,δ=u
1−u2
不過,值得一提的是f1v的這種計算方法僅僅適應於兩類別樣本的問題。如果fisher判別率的值比較大表明這種方法能夠找到乙個方向向量用於區分開隸屬於不同種類的樣本。
2. 適用於離散資料集下的資料混淆度指標的演算法
(1)改進後的f1 f(
tk)=
(e(t
k/p)
−e(t
k/n)
)2d(
tk/p
)+d(
tk/n
) 其中,p,n分別代表的是兩種類別,tk
是兩種類別中某乙個屬性下的乙個特徵值。e(
tk/n
) 分別是特徵值在兩種類別中出現的頻率。d(
tk/p
)和d(
tk/n
) 分別是特徵值tk
在兩種類別中的條件方差。其計算方法如下:
假設p類中有m個樣本,對於第i個樣本,若包含有特徵值t_k,則令dp
,i(t
k)=1
若未包含有特徵值tk
,則令dp
,i(t
k)=0
。統計所有樣本中dp
,i(t
k)=1
的個數,假設個數
為ml。那麼, e(
tk/p
)=ml
m d(
tk/p
)=1m
∑i=1
m(dp
,i(t
k)−1
m)2
對於第n類樣本,計算過程類同。
據於上述演算法的思想,本文提出了一種f1的改進演算法:假設p,n兩類資料報含了al到an共n個屬性。屬性al中有b1個特徵值,屬性a2中有b2個特徵值,屬性an中有個特徵值。則 f1
=max
(fa1
1,fa
21,.
..,f
an1)
其中, fa
n1=p
(1,a
1)∗f
(1,a
1)+p
(2,a
1)∗f
(2,a
2)+.
..+p
(bn,
a1)∗
f(bn
,a1)
p(1,a1)是a1屬性中第1個特徵值在兩類所有樣本出現的概率。 fa
n1相當於在同一屬性下,用不同特徵值求得的f乘以該特徵值出現的頻率之後求和。由於特徵值的f表徵的是該特徵值對類別的區分能力,因此fa
n1就表徵的是該屬性對類別的區分能力。
輪廓圓度計算方式
設p為區域中心點 質點 p i為輪廓上全部畫素點,f為輪廓面積 此處指輪廓畫素點個數,並不是輪廓所圍成區域的面積 distance為輪廓上畫素點到中心的平均距離,sigma為輪廓畫素點到中心的距離與平均距離的偏差 roundness則表示平均值與標準差之間的關係 roundness 4 cv pi ...
演算法時間複雜度計算方式
對於乙個給定的演算法,通常要評估其正確性和執行效率的高低。演算法的正確性評估不在本文範圍之內,本文主要討論從演算法的時間複雜度特性去評估演算法的優劣。如何衡量乙個演算法的好壞呢?顯然,選用的演算法應該是正確的 演算法的正確性不在此論述 除此之外,通常有三個方面的考慮 1 演算法在執行過程中所消耗的時...
60 準確度的陷阱和混淆矩陣
我們評價演算法的好壞,對於回歸問題來說,我們提到過 mse msems e rmse rmse rmse 和 ma emae mae,還有乙個最好的評價回歸演算法的指標 rrrs quar esquare square 但是對於分類演算法的評價,到現在為止,我們都一直在使用分類準確度這乙個指標。是不...