機器學習筆記(三) 正則化最小二乘法

2021-07-10 07:43:02 字數 1124 閱讀 8252

f(

x;ω)

=ωtx

其中, x=

[x1]

,ω=[

ω1ω0

] 上述稱為線性模型,我們也可以將

x 擴充套件為: x=

⎡⎣⎢⎢

⎢⎢⎢⎢

⎢xn⋮

x2x1

⎤⎦⎥⎥

⎥⎥⎥⎥

⎥,ω=

⎡⎣⎢⎢

⎢⎢⎢⎢

⎢ωn⋮

ω2ω1

ω0⎤⎦

⎥⎥⎥⎥

⎥⎥⎥那麼**函式f(

x;w)

就變為乙個非線性函式。**函式的次數越高,越能準確地擬合訓練資料。在某些情況下,高次**函式會擬合大部分或全部訓練資料,這時,我們就說這個模型過擬合。因為這種過度擬合訓練資料的模型對未知資料的**就不是那麼準確了,它對訓練資料外的其它資料是相當敏感的,也就是說它不夠泛化。所以我們需要乙個最好的模型,也就是說我們需要的模型誤差要最小,而且還有一定的泛化能力。

要避免模型過擬合,我們可以選擇部分資料進行模型的訓練,也可以利用正則化方法。一般來講,正則化,有l1正則和l2正則,它們都是基於lp

範數的: lp

=(∑i

n|xi

|p)1

p 這裡我們選擇模型的複雜度為l2正則:∑n

iω2i

,寫為向量形式為:ωt

ω。關於正則化的詳細內容,可以參考:

那麼我們新的損失函式可以寫為: l′

=l+λ

ωtω=

1n(ω

txtx

ω−2ω

txty

+yty

)+λω

tω同樣的對上式求偏導數: ∂l

∂ω=1

n(2x

txω−

2xty

)+2λ

ω=0⇒

(xtx

+nλi

)ω=x

ty⇒ω

=(xt

x+nλ

i)−1

xty

選擇λ的值就是選擇多項式擬合函式時,折中過擬合/泛化的過程。值太小,過擬合;值太大,不利於資料的逼近。至於

λ 的選擇,可以採用交叉驗證獲得最好**效能的λ 。

機器學習(八)最小二乘法

文章將從線性代數和概率論統計兩個角度去分析和解釋最小二乘法 在定義了內積的n維向量空間rn 成為歐式空間或內積空間 中,定義兩個向量 和 的距離等於 的長度,記為d 而且這樣的距離滿足三條基本性質 d d d 0,當且僅當 時等號成立 d d d 設w是rn的乙個子空間,它是由 1,2,s生成的,設...

機器學習系列之最小二乘法

最小二乘法,又稱最小平方法,是機器學習中基礎的演算法之一,它是一種優化演算法,通過最小化誤差的平方來尋找資料的最佳函式匹配。利用最小二乘法可以簡便地求得未知的資料,並使得這些求得的資料與實際資料之間誤差的平方和為最小。在機器學習中,還可以使用最小二乘法來進行曲線擬合。上圖介紹的上海市長寧區部分房價的...

機器學習經典演算法之 最小二乘法

一.背景 通過這段描述可以看出來,最小二乘法也是一種優化方法,求得目標函式的最優值。並且也可以用於曲線擬合,來解決回歸問題。難怪 統計學習方法 中提到,回歸學習最常用的損失函式是平方損失函式,在此情況下,回歸問題可以著名的最小二乘法來解決。看來最小二乘法果然是機器學習領域做有名和有效的演算法之一。二...