對於特定任務最優建模方法的選擇或者對特定模型最佳引數的選擇
模型的選擇會盡可能多的選擇演算法進行執行,並比較每個演算法的執行結果模型的測試一般從以下幾個方面來進行比較:準確率、召回率、精確率、f值、roc、auc
準確率(accuracy) = 提取出的正確樣本數/總樣本數
a cc
urac
y=tp
+tnt
p+tn
+fp+
fnaccuracy = \frac
accura
cy=t
p+tn
+fp+
fntp
+tn
召回率(recall) = 正確的正例樣本數/樣本中正例樣本數 ——覆蓋率
r ec
all=
tptp
+fnrecall = \frac
recall
=tp+
fntp
精確率(precision) = 正確的正例樣本數/**為正例的樣本數
p re
ciso
n=tp
tp+f
pprecison = \frac
precis
on=t
p+fp
tp
f值 = precision * recall * 2 / (precision + recall)
即正確率和召回率的調和平均值
f =2
1pre
cisi
on+1
reca
llf = \frac + \frac}
f=prec
isio
n1+
reca
ll1
2
roc描述的是分類混淆矩陣中fpr-tpr兩個量之間的相對變化情況,roc曲線的縱軸是「真正例率(tpr)」,橫軸是「假正例率(fpr)」。
如果二元分類輸出的是對正樣本的乙個分類概率值,當去不同閥值時會得到不同的混淆矩陣,對應於roc曲線上的乙個點。那麼roc曲線就反映了fpr和tpr之間權衡的情況,通俗地來說,即在tpr隨著fpr遞增的情況下,誰增長得更快,快多少的問題。
tpr增長得越快,曲線越往上屈,auc就越大,反映了模型的分類效能就越好。當正負樣本不平衡時,這種模型評價方式比起一般的精確度評價方式的好處尤其顯著。
auc的值越大表示模型越好
auc被定義為roc曲線下的面積,顯然這個面積的數值不會大於1,又由於roc曲線一般都處於y=x
y = x
y=x 這條直線的上方,所以auc取值範圍在0.5和1之間。
使用auc值作為評價標準是因為很多時候roc曲線並不能清晰的說明哪個分類器的效果好,而auc作為數值可以直觀的評價分類器的好壞,值越大越好。
auc = 1,是完美分類器,採用這個**模型時,不管設定什麼閥值都能得出完美**。絕大數**的場合,不存在完美分類器;
auc = 0.5,跟隨機猜測一樣,模型沒有**價值;
0.5 < auc < 1,由於隨機猜測,妥善設定閥值,有**價值;
auc < 0.5,比隨機猜測還差,但只要總是反**而行,比隨機猜測好。
指標描述
scikit-learn函式
mean square error(mse, rmse)
平均誤差
from sklearn.metrics import mean_squared_error
absolute error(mae, rae)
絕對誤差
from sklearn.metrics import mean_absolute_error,median_absolute_error
r-squared
r平方值
from sklearn.metrics import r2_score 指標
描述scikit-learn函式
precision
精確度from sklearn.metrics import precision_score
recall
召回率from sklearn.metrics import recall_score
f1f1值
from sklearn.metrics import f1_score
confusion matrix
混淆矩陣
from sklearn.metrics import confusion_matrix
rocroc曲線
from sklearn.metrics import roc
aucroc曲線下的面積
from sklearn.metrics import auc
機器學習 機器學習目錄
注 後期有時間的話會對每乙個演算法進行講解。1 普通線性回歸 2 廣義線性模型 3 邏輯回歸 4 線性判定分析1 決策樹基本原理與構建 2 cart演算法 3 回歸決策樹 4 分類決策樹1 貝葉斯定理與樸素貝葉斯 2 高斯貝葉斯分類器 3 多項式貝葉斯分類器 4 伯努利貝葉斯分類器 5 遞增式學習1...
機器學習 機器學習概論
3 模型評估與模型選擇 4.具體應用 統計學習 是關於計算機基於 資料 構建概率統計模型並運用模型對資料進行 分析 統計學習的三要素 模型在監督學習中,模型就是所要學習的條件概率分布或決策函式。這在後面的章節中會重點介紹。策略 評價模型的標準 用損失函式和代價函式來度量 錯誤的程度。1 幾種損失函式...
機器學習 機器學習基礎
資料集劃分的api 返回值 訓練特徵,測試特徵,訓練目標,測試目標 方式1 獲取小規模的資料集 importsklearn.datasets as datasets iris datasets.load iris 提取樣本資料 feature iris data target iris target...