理論上n個n次項係數可以完全擬合乙個通過n+1個點的曲線,當引數無限時,我們甚至可以將訓練集的代價函式變為0。
但此時,會產生過度擬合現象,使其無法generalize(泛化)到新的樣本中。此時,我們就需要正則化。
options:
1.reduce number of features
2.regularization(reduce the magnitute of the parameters)
對引數進行懲罰。
為了讓正則化取到好的效果,我們需要取盡量合適的引數π
正則化在liner regression中的運用:
正規方程:
正則化在logistic regression中的運用:
Andrew機器學習課程 章節15 降維
作用 1壓縮資料 來減少儲存資料所需要的空間 儲存方差保留的百分比 99 2.視覺化 特徵高度相關 data visualization pca找到乙個面,使點到線段的長度平方和最小。1.先進性均值歸零化。找到乙個向量,使其表示能夠最小化投影誤差的方向。將n維降為k維,故我們要尋找k個向量來對資料進...
Andrew機器學習課程 章節2 單變數線性回歸
在surpervised question中 x,y 表示乙個訓練樣本。x為features 特徵 y為target 目標 xi,yi 表示訓練集。上標i just an index into the training set hypothesis function h x 0 1x.hypothe...
機器學習之特徵選擇章節 《機器學習 周志華》
所謂的特徵選擇實際是屬性選擇,在進行機器學習任務時,往往給定的屬性中有個別屬性是十分重要的,這些屬性被稱為 相關特徵 而另外一些屬性對當前學習任務的最後結果沒什麼影響,這些屬性被稱為 無關特徵 特徵選擇就是從給定的所有特徵 屬性 中選擇出 相關特徵 子集。特徵選擇的目的一方面是在遇到維數災難問題時,...