常用的機器學習模型評估和模型選擇方法

2022-05-07 02:03:06 字數 1251 閱讀 2059

目錄2、模型選擇

3、模型評估

機器學習的目的是通過對訓練資料的訓練,能夠對未知的資料有很好的應用效果。

訓練誤差是模型對訓練集的計算損失,測試誤差是模型對測試集的計算損失,聽起來好像是廢話。舉個栗子,乙個資料集有100條,其中80條用來做訓練集,20條用來做測試集,用模型對這80條資料進行訓練,得到最終模型,用這個最終模型對80條資料進行測試,其中60個正確,20個錯誤,假設損失函式是0-1損失,那麼訓練誤差就可以用20/80=0.25,對測試集進行測試,有10個正確,10個錯誤,則測試誤差就是10/20=0.5。

過擬合和欠擬合指示的是模型的泛化能力,過擬合是指模型由於過於複雜,經過訓練,導致其在訓練集效果上很好,但是在測試集效果很差。欠擬合就是指訓練集和測試集效果都很差。

正則化是指我們在損失函式的後面加入乙個調整項,這個調整項本質上是防止模型陷入過擬合。

\(\lambda\)表示調整兩者的引數。

簡單交叉驗證就是指我們暴力的將資料集分成訓練集和測試集,這裡的比例我們自己可以定。

s折交叉驗證表示我們將資料集分成s份,取其中s-1份進行訓練,用留出的那乙份進行測試,這樣進行多次,算出每個模型的平均誤差,選擇誤差最小的當作最終的模型。

這種方法是我們每次取出資料集中的一條資料並放回,這樣我們隨機的取m次,用這些取出來的資料當作訓練集,其餘的當作測試集。這樣某樣本不會被抽到的概率是

上面的資料集大小是m,一次沒抽到的概率是(1-(1/m))進行m次,所以就是m次方。

對於分類來講,準確率就是對100條資料進行測試,90條正確,10條錯誤,則準確率是90%,錯誤率就是10%。準確率+錯誤率=1

這兩個指標是針對二分類來說,同時,也可以將他們擴充套件到多分類,假設我們有正例60和負例40,其中有40個正例被**為正例,20個正例被**為負例,15個負例被**為負例,25個負例被**為正例,則查準率(p)=40/(40+25),查全率(r)=40/(40+20),由於這兩者一般情況下不會同時增大,所以我們用f1值來進行度量,f1 = (2 * p * r)/ (p + r)

roc曲線的橫座標是假正fp,縱座標是真正tp,兩者曲線的面積是auc值。

機器學習的模型評估

機器演算法有很多,各種模型的在不同的場景下各有優劣。所以需要一些方法來對機器學習的方法有乙個判斷。真實情況 正例反例 正例tp 真正例 fn 假反例 反例fp 假正例 tn 真反例 p tpt p fp r tptp fnroc reciever operating characteristic 是...

機器學習 機器學習常用的模型評估方法

目錄 混淆矩陣 正確率精確率 召回率靈敏度 偽陽性率 特異度p r曲線 f1 值 roc曲線 auc面積 均方誤差 均方根誤差 平均絕對誤差 實際值 值 值positive negative 實際值positive tpfn negative fptn tp 真陽性,即實際為陽性,為陽性 fp 假陽...

機器學習模型評估方法

分類模型評價度量 概率輸出型 這個有邏輯回歸 隨機森林 梯度提公升 adaboost等演算法,都是以概率作為輸出的。要想把概率型輸出變為分型別輸出,只要為其設立乙個閾值即可。positive predictive value 陽性 值 or precision 精度 陽性 值被 正確的比例。nega...