問題:訓練資料訓練的很好啊,誤差也不大,為什麼在測試集上面有問題呢?
當演算法在某個資料集當**現這種情況,可能就出現了過擬合現象。
那麼是什麼原因導致模型複雜?線性回歸進行訓練學習的時候變成模型會變得複雜,這裡就對應前面再說的線性回歸的兩種關係,非線性關係的資料,也就是存在很多無用的特徵或者現實中的事物特徵跟目標值的關係並不是簡單的線性關係。
過擬合原因以及解決辦法
在這裡針對回歸,我們選擇了正則化。但是對於其他機器學習演算法如分類演算法來說也會出現這樣的問題,除了一些演算法本身作用之外(決策樹、神經網路),我們更多的也是去自己做特徵選擇,包括之前說的刪除、合併一些特徵
如何解決?
在學習的時候,資料提供的特徵有些影響模型複雜度或者這個特徵的資料點異常較多,所以演算法在學習的時候儘量減少這個特徵的影響(甚至刪除某個特徵的影響),這就是正則化
注:調整時候,演算法並不知道某個特徵影響,而是去調整引數得出優化的結果
l1正則化
拓展-原理(了解)線性回歸的損失函式用最小二乘法,等價於當**值與真實值的誤差滿足正態分佈時的極大似然估計;嶺回歸的損失函式,是最小二乘法+l2範數,等價於當**值與真實值的誤差滿足正態分佈,且權重值也滿足正態分佈(先驗分布)時的最大後驗估計;lasso的損失函式,是最小二乘法+l1範數,等價於當**值與真實值的誤差滿足正態分佈,且權重值滿足拉普拉斯分布(先驗分布)時的最大後驗估計
機器學習(13)欠擬合與過擬合
應用 當演算法在某個資料集當 現這種情況,可能就出現了過擬合現象。那麼是什麼原因導致模型複雜?線性回歸進行訓練學習的時候變成模型會變得複雜,這裡就對應前面再說的線性回歸的兩種關係,非線性關係的資料,也就是存在很多無用的特徵或者現實中的事物特徵跟目標值的關係並不是簡單的線性關係。過擬合原因以及解決辦法...
機器學習基礎 過擬合,欠擬合
最左邊屬於欠擬合,最右邊過擬合。欠擬合是對資料擬合的不好,在訓練集和測試集上的表現都很差。過擬合在訓練集上表現得很好,在測試集上表現得不好 欠擬合原因 模型過於簡單 使用更複雜的模型,整合 訓練次數不夠 增加訓練次數 過擬合原因 模型過於複雜 訓練資料少 資料中雜訊多 解決過擬合方法 簡化模型 減少...
欠擬合與過擬合
在用機器學習搭建模型時,經常會碰到這樣一種情況,你的模型演算法在樣本資料中匹配的非常完美。但用新資料測試,發現模型結果和實際差距非常大。那麼恭喜你!你掉進了機器學習中常見的乙個大坑 過擬合。什麼是過擬合呢?機器學習本質上是通過建立資料模型,使其和現有資料相吻合,從而找到資料中內在的規律。如下面三張圖...