概念:
欠擬合:擬合的函式和訓練集誤差較大,我們稱這種情況為欠擬合
擬合:擬合的函式和訓練集誤差較小,我們稱這種情況為合適擬合
過擬合:擬合的函式和訓練集誤差完美匹配,我們稱這種情況為合適擬合
欠擬合原因:
欠擬合問題,根本的原因是特徵維度過少,導致擬合的函式無法滿足訓練,誤差大。
解決方法:
1.新增其他特徵項,有時候我們的模型出現欠擬合的時候是因為特徵不夠導致的,可以新增其他的
特徵項來很好的解決。
2.新增多項式特徵,這個在機器學習演算法裡面用的很普通,例如線性模型通過新增二次或者三次項使
模型泛化能力更強。
3.減少正則化引數,正則化是防止過擬合的,但是現在模型出現了欠擬合,則需要減少正則化引數。
過擬合:過擬合問題,根本的原因是特徵維度過多,導致擬合的函式完美的經過訓練集,但是對新資料的**結果
則較差。
解決方法:
1.重新清洗資料:導致過擬合的乙個原因也可能是資料不純導致的,如果出現過擬合就需要清洗資料
2.增大資料的訓練量,還有乙個原因是我們用於訓練的資料量太小導致的,訓練資料佔總資料的比例過小。
3.採用正則化方法。正則化方法包括l0正則,l1正則和l2正則,而正則一般是在目標函式之後加上對應的範數。
4.採用dropout方法。這個方法在神經網路裡面很常用。通俗點說就是dropout方法在訓練的時候讓神經元以一定的概率不工作。
正則化(標準化),歸一化(正規化):對資料進行預處理的兩種方式,目的是讓資料便於計算和獲得更加泛化的結果。
常用正則化:
l1正規化-所有引數w絕對值之和
l2正規化-所有引數w的平方和
資料的標準化和歸一化:
資料的標準化是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標中經常會用到,
去除資料的單位限制,將其轉化為無量綱的數值,便於不同單位或量級的指標能夠進行比較和加權。
其中最典型的就是資料歸一化處理,既將資料統一對映到[0,1]區間上。
目前資料標準化方法有多種,歸結起來可以分為直線型方法,折線型方法,曲線型方法。
歸一化的目標:
1.把數字變為(0,1)之間的小數
主要為了資料處理方便提出來的,把資料對映到0-1範圍之內處理,更加便捷快速,應該歸到數字訊號處理範疇之內。
2。把有量綱表示式變成無量綱表示式
歸一化是一種簡化計算的方式,及將有量綱的表示式,經過變換,化為無量綱的表示式,成為純量。
歸一化後的兩個好處
1.提公升模型收斂速度
2.提公升模型的精度
幾種梯度下降
bgd:批梯度下降,每次用所有樣本計算梯度
mbgd,小批梯度下降,每次選一部分資料進行梯度計算
sgd:隨機梯度下降,每次只用乙個樣本計算梯度
常用梯度變種:momentum,nesterov,adagrad,adadelta,adam
過擬合 欠擬合 正則化
產生原因 緩解方法 合適的資料分布 合理的模型複雜性 合理的組合應該是 複雜的資料分布 簡單的模型 或者 簡單的資料分布 複雜的模型 神經網路中的過擬合 原理 或者說思考 從貝葉斯的角度來說,代價函式可以表示為p y w,x 的形式,而正則項則是對引數w做了乙個先驗分布的假設,使得代價函式變成p y...
什麼是欠擬合現象 過擬合 欠擬合與正則化
在機器學習模型的訓練過程中,經常會發生過擬合 overfitting 欠擬合 underfitting 的現象。那這二者究竟為何物呢?過擬合,通俗點說,就是我們的模型對資料模擬的太好了,訓練集中的資料幾乎都被完美 有人就說了,我 的完美也有錯嗎?是的,你有錯。因為我們的目標並不是看你訓練集中的資料 ...
過擬合,欠擬合,偏差,誤差,正則化
欠擬合 過擬合與偏差 方差關係 過擬合 在訓練資料上表現良好,在未知資料上表現差。高方差 模型把資料學習的太徹底,以至於把雜訊資料的特徵也學習到了,使得測試的時候不能夠很好地識別資料,即不能正確的分類,模型泛化能力太差 解決方法 1 重新清洗資料 2 增大資料的訓練量 3 採用正則化方法,正則化方法...