開始找乙個題目來練手,這是乙個關於二手車交易****的題目,首先看一下這個題目。
該資料來自某交易平台的二手車交易記錄,總資料量超過40w,包含31列變數資訊,其中15列為匿名變數。從中抽取15萬條作為訓練集,5萬條作為測試集,同時會對name、model、brand和regioncode等資訊進行脫敏(資料脫敏是指對某些敏感資訊通過脫敏規則進行資料的變形,實現敏感隱私資料的可靠保護。)下面是它的乙個字段介紹
然後是它的評判標準:
這裡擴充套件一下:
mse:均方誤差
rmse:均方根誤差,可以消除量綱的影響,因為mse它對數值進行了乙個平方操作,在回歸型別的問題中較為常用。
mae:平均絕對誤差
機器學習分類問題常用評判指標
1.分類問題 1.混淆矩陣 tp fpfn tn begin tp fp fn tn end t pfn fptn 真正率 tpr tp tp fn 假正率 fpr fp fp tn 假負率 fnr fn fn tp 真負率 tnr tn tn fp from sklearn.metrics imp...
優達(Udacity) 機器學習基礎 誤差原因
資料足夠,模型不夠複雜 過度簡化 欠擬合 結果對於任何給定的測試樣本會出現多大的變化 對訓練集高度敏感 過擬合 overfitting 可以利用sklearn中的學習曲線來辨別模型表現的好壞。引入模組 from sklearn.model selection import learning curv...
吳恩達機器學習筆記4 誤差分析
推薦的方法 1.開始乙個簡單的演算法,然後快速實現,在交叉驗證集上進行驗證 2.畫出學習曲線,嘗試不同的方案 3.誤差分析,手動檢查演算法錯誤的例子,看看是否存在系統性錯誤 最好有一種數值化評估演算法的方法,以便分析演算法的優劣 偏斜類 資料中乙個類別的量遠比另乙個的多,會導致學習器直接全部猜測為資...