機器學習筆記 2 模型評估

2021-10-11 18:14:00 字數 1333 閱讀 4215

訓練資料分層

將總資料集劃分為:

訓練集:用來訓練模型,模型的迭代和優化

驗證集:調整超引數,優化模型【用來調參】

測試集:不參與訓練流程,監測模型效果

經驗誤差 vs 泛化誤差

經驗誤差:在訓練集上面的誤差——對應訓練集資料

泛化誤差:在「未來」樣本上的誤差——對應測試集資料

問題:驗證集是用來做什麼的?——驗證集用來調整超引數(模型本身是有引數的,但是訓練過程中可能會訓練不到,因此會產生超引數。模型的超引數就是用驗證集來調整的。)

⭐混淆矩陣

在乙個二分類資料集中,有兩種資料:正例和負例;

在將資料集使用模型進行分類之後,結果也有兩種:**的正例和**的負例

真實值和**值的交叉,就產生了四種資料集合

召回率:recall=tp/(tp+fn) 【**正確的正例/真正正例】

準確率:precision=tp/(tp+fp) 【**正確的正例/**的正例】

精確率:accuracy=(tp+tn)/total 【**正確的正例和負例/總的正例和負例】

f1=2recallprecision/(recall+precision)

auc動態的混淆矩陣計算得到:

○ y軸:真正例率 tpr=tp/(tp+fn)

○ x軸:假正例率 fpr=fp/(tn+fp)

得到座標(x,y),畫出曲線,這個曲線叫roc曲線,這個曲線下方的面積,叫做auc。

偏差和方差

偏差 bias:期望值和實際值的差值

方差 variance:模型**值的方差

實際的誤差 err(x)=bias^2+variance+irreducible error

過擬合與欠擬合

模型越複雜,模型擬合能力越強,偏差逐漸變小,容易過擬合;

模型越複雜,可能性就會越多,方差越大。

本節要求:深入理解——

過擬合與欠擬合

複雜模型與簡單模型

經驗誤差與泛化誤差

roc曲線的由來

機器學習筆記 2 模型評估與選擇之評估方法

理想 通過評估學習器的泛化誤差,選出泛化誤差最小的模型。實際 泛化誤差只能通過測試求得的測試誤差來近似。從總樣本集 d 中產生訓練集 s 和測試集 t,往往有以下三種常見方法 留出法 交叉驗證法 自助法。1.留出法 留出法 直接將資料集 d 劃分為兩個互斥的集合,即 d s 比如上圖,紅色部分為訓練...

機器學習 學習筆記 模型評估與選擇

了解錯誤率,精度,誤差,訓練誤差 經驗誤差 泛化誤差的概念 過擬合 過配 和欠擬合 欠配 過擬合就是過度擬合,即將樣本自身的一些特點當做了樣本的一般特性,使得泛化能力降低,注意,過擬合無法避免。欠擬合則與之相反。模型選擇時,選擇泛化誤差最小的,但是我們無法直接獲得泛化誤差,而訓練誤差因為過擬合的存在...

機器學習之模型評估指標學習筆記

前段時間工作中發現自己對模型評估指標中的auc有點忘了,因此打算重新看一下然後寫個部落格記錄一下。首先簡單介紹一下混淆矩陣,查全率 也叫做召回率,recall 和查準率 也叫做精確率,precesion 在進行模型評估的時候,單單使用準確率accuracy 正確樣本數 總樣本數 有時候並不能很好的對...