訓練資料分層
將總資料集劃分為:
訓練集:用來訓練模型,模型的迭代和優化
驗證集:調整超引數,優化模型【用來調參】
測試集:不參與訓練流程,監測模型效果
經驗誤差 vs 泛化誤差
經驗誤差:在訓練集上面的誤差——對應訓練集資料
泛化誤差:在「未來」樣本上的誤差——對應測試集資料
問題:驗證集是用來做什麼的?——驗證集用來調整超引數(模型本身是有引數的,但是訓練過程中可能會訓練不到,因此會產生超引數。模型的超引數就是用驗證集來調整的。)
⭐混淆矩陣
在乙個二分類資料集中,有兩種資料:正例和負例;
在將資料集使用模型進行分類之後,結果也有兩種:**的正例和**的負例
真實值和**值的交叉,就產生了四種資料集合
•召回率:recall=tp/(tp+fn) 【**正確的正例/真正正例】
•準確率:precision=tp/(tp+fp) 【**正確的正例/**的正例】
•精確率:accuracy=(tp+tn)/total 【**正確的正例和負例/總的正例和負例】
•f1=2recallprecision/(recall+precision)
•auc動態的混淆矩陣計算得到:
○ y軸:真正例率 tpr=tp/(tp+fn)
○ x軸:假正例率 fpr=fp/(tn+fp)
得到座標(x,y),畫出曲線,這個曲線叫roc曲線,這個曲線下方的面積,叫做auc。
偏差和方差
偏差 bias:期望值和實際值的差值
方差 variance:模型**值的方差
實際的誤差 err(x)=bias^2+variance+irreducible error
過擬合與欠擬合
模型越複雜,模型擬合能力越強,偏差逐漸變小,容易過擬合;
模型越複雜,可能性就會越多,方差越大。
本節要求:深入理解——
過擬合與欠擬合
複雜模型與簡單模型
經驗誤差與泛化誤差
roc曲線的由來
機器學習筆記 2 模型評估與選擇之評估方法
理想 通過評估學習器的泛化誤差,選出泛化誤差最小的模型。實際 泛化誤差只能通過測試求得的測試誤差來近似。從總樣本集 d 中產生訓練集 s 和測試集 t,往往有以下三種常見方法 留出法 交叉驗證法 自助法。1.留出法 留出法 直接將資料集 d 劃分為兩個互斥的集合,即 d s 比如上圖,紅色部分為訓練...
機器學習 學習筆記 模型評估與選擇
了解錯誤率,精度,誤差,訓練誤差 經驗誤差 泛化誤差的概念 過擬合 過配 和欠擬合 欠配 過擬合就是過度擬合,即將樣本自身的一些特點當做了樣本的一般特性,使得泛化能力降低,注意,過擬合無法避免。欠擬合則與之相反。模型選擇時,選擇泛化誤差最小的,但是我們無法直接獲得泛化誤差,而訓練誤差因為過擬合的存在...
機器學習之模型評估指標學習筆記
前段時間工作中發現自己對模型評估指標中的auc有點忘了,因此打算重新看一下然後寫個部落格記錄一下。首先簡單介紹一下混淆矩陣,查全率 也叫做召回率,recall 和查準率 也叫做精確率,precesion 在進行模型評估的時候,單單使用準確率accuracy 正確樣本數 總樣本數 有時候並不能很好的對...