機器學習(分類,回歸,聚類)評價指標
分類問題
roc(接收操作者特徵曲線)
最早用於雷達訊號檢測領域,用於區分訊號與雜訊。現用來評價模型的**能力,roc曲線基於混淆矩陣得出的。
兩個指標:真陽率(tpr)為縱座標與假陽率(fpr)為橫座標
tpr越高,同時fpr越低(即roc曲線越陡),模型效能越好
auc(曲線下的面積area under curve)
roc對角線實際含義:隨機判斷正負樣本覆蓋均為50%,表示隨機效果。但實際上roc越陡,效果越好;auc一般是介於0.5~1之間。
0.50.7:效果不好,0.70.85:效果一般,0.850.95:效果較好,0.951:效果非常好
回歸問題
聚類問題
非監督學習中的聚類問題不像監督學習中的分類,有乙個最優化目標和學習的過程,而只是乙個統計方法,講相似與不相似的資料分開。
聚類質量:一般來說非監督學習聚類沒有標籤,感覺只能通過分離情況來決定聚類質量;類內越緊密,類間界限越明晰效果越好
聚類穩定性:引入新資料之後聚類結果不容易被改變。
1.如含標籤
可以通過蘭德係數,互資訊,輪廓係數以及分類評價指標來進行判斷。
2.不含標籤
記錄的特徵向量計算內平方和(within sum of squares, wss)和外平方和(between sum of squares, bss)作為評價指標。對於有m條記錄,n個變數的聚類問題:
w ss
=∑i=
1md(
pi,q
i)2=
∑i=1
m∑j=
1n(p
ij−q
i)2b
ss−∑
k=1k
∣zk∣
d(q,
qk)2
=∑k=
1k∑j
=1n∣
zk∣(
qj−q
kj)2
wss=\sum_^d(p_i,q^i)^2=\sum_^\sum_^(p_-q^i)^2 \\ bss-\sum_^|z_k|d(q,q_k)^2=\sum_^\sum_^|z_k|(q_j-q_)^2
wss=i=
1∑m
d(pi
,qi
)2=i
=1∑m
j=1
∑n(
pij
−qi)
2bss
−k=1
∑k∣
zk∣
d(q,
qk)
2=k=
1∑k
j=1∑
n∣z
k∣(
**−
qkj
)2其中:pi=
(pi1
,pi2
…pin
)p_i=(p_,p_\dots p_)
pi=(p
i1,
pi2
…pin
),表示記錄i
ii的特徵向量
q i=
(q1i
,q2i
…qni
)q_=(q_^,q_^ \dots q_^)
qi=(q
1i,
q2i
…qni
),表示記錄i
ii所在聚類中心點的特徵向量
k聚類總數, z
kz_k
zk 第k聚類中的記錄數目
q =(
q1,q
2…qn
)q=(q_1,q_2 \dots q_n)
q=(q1
,q2
…qn
), 所有記錄點特徵向量
q k=
(qk1
,qk2
…qkn
)q_k=(q_,q_\dots q_)
qk=(q
k1,
qk2
…qkn
),表示第k
kk哥聚類中心點特徵向量
wss和bss分別度量相同聚類內部記錄之間的不相似度和不同聚類間記錄的不相似度。顯然,wss越小,bss越大,聚類結果越好。
聚類評價指標學習
一般分為 外部 內部 相對,這三種評價指標。正確聚類的樣本數佔總樣本的比例 非常直觀且簡單的計算法方法。即歸一化互資訊,計算公式如下 互資訊指的是兩個隨機變數之間的關聯程度,標準互資訊是將互資訊歸一化0 1。值越高越好。ri是蘭德指數,ari範圍是 1,1 值越大意味著聚類結果與真實情況越吻合。從廣...
機器學習 分類 回歸 聚類 降維
一 分類 樸素貝葉斯 貝葉斯分類法是基於貝葉斯公式 先驗概率和後驗概率的關係 的統計學分類方法。它通過 乙個給定的元組屬於乙個特定類的概率,來進行分類。logistic回歸 logistic回歸得出 值後,根據 值大小進行分類。通常是二分類 決策樹基於樹的結構來進行決策 支援向量機svm suppo...
機器學習模型評價指標 回歸任務
from sklearn.metrics import mean absolute error 沒找到sklearn怎麼實現,先用python 實現吧from sklearn.metrics import median absolute errorfrom sklearn.metrics impor...