example:
f (x
)=12
∥ax−
b∥22
f(x) = \frac\parallel ax - b \parallel_2^2
f(x)=2
1∥a
x−b∥
22最小化下式時x的值。首先計算:
▽ xf
(x)=
at(a
x−b)
=ata
x−at
b\big********down_xf(x) = a^t(ax - b) =a^tax - a^tb
▽xf(x
)=at
(ax−
b)=a
tax−
atb可以選擇採用小的步長,並按照上述梯度下降:
algorithm: 從任意點x開始,使用梯度下降關於x做小化f(x
)=12
∥ax−
b∥22
f(x) = \frac\parallel ax - b \parallel_2^2
f(x)=2
1∥a
x−b∥
22的演算法
將步長(ϵ
\epsilon
ϵ和容差(α
\alpha
α)設定為小的正數)。
w hi
le∥a
tax−
atb∥
2>αd
o:x←
x−ϵ(
atax
−atb
)end
whil
ewhile \parallel a^tax-a^tb\parallel_2>\alpha do: \\ x \leftarrow x - \epsilon(a^tax-a^tb) \\ end while
while∥
atax
−atb
∥2>αd
o:x←
x−ϵ(
atax
−atb
)end
whil
e使用牛頓法解決這個問題
現在假設我們希望最小化同樣的函式,但受xtx
<=1
x^tx <= 1
xtx<=1
的約束,要做到這一點,我們引入lagrangin
l (x
,λ)=
f(x)
+λ(x
tx−1
)l(x, \lambda) = f(x) + \lambda(x^tx - 1)
l(x,λ)
=f(x
)+λ(
xtx−
1)將問題轉化為:
m in
xmax
λ,
λ>=0
l(x,
λ)
min_x max_l(x, \lambda)
minxm
axλ,
λ>=0
l(x
,λ)我們可以使用moore-penrose偽逆:x=a
+b
x = a^+b
x=a+
b找到無約束最小二乘問題的最小範數解關於x對lagrangian微分,我們得到方程:
a ta
x−at
b+2λ
x=
0a^tax - a^tb +2\lambda x= 0
atax−a
tb+2
λx=0
方程的解為:
x =(
ata+
2λi)
−1at
bx = (a^ta + 2\lambda i)^a^tb
x=(ata
+2λi
)−1a
tbλ
\lambda
λ的選擇必須使結果服從約束,我們可以關於λ
\lambda
λ上公升找到這個值,為了做到這一點,觀察∂l(
x,λ)
∂λ=x
tx−1
\frac = x^tx - 1
∂λ∂l(x
,λ)
=xtx
−1當x的範數超過1時,該導數是正的,所以為了跟導數上坡並相對λ
\lambda
λ增加largnian,我們需要增加λ
\lambda
λ,因為xtx
x^tx
xtx的懲罰係數增加了,求解關於x的線性方程現在將得到具有較小範數的解,求解線性方程和調整λ
\lambda
λ的過程一直持續x具有正確的範數,並且關於λ
\lambda
λ的導數是0.
線性回歸,最小二乘法
回歸的定義 對於乙個點集,使用乙個函式去擬合該點集,使點集與擬合函式間的誤差最小,如果這個函式曲線是一條直線,則是線性回歸,如果曲線是二次曲線,則是二次回歸。廣義線性回歸 廣義線性模型是線性模型的擴充套件,其特點是不強行改變資料的自然度量,資料可以具有非線性和非恆定方差結構 59 主要是通過聯結函式...
線性最小二乘法推導
最小二乘法在中學時講過。有一些散點有線性的趨勢,用乙個一次函式去擬合,使得差距最小化。對於 x i 採用上述函式計算出的結果記為 hat 即 hat w 1 x i w 0 定義差距為 sum m y i hat 2 現需要最小化這個差距。顯然,上式為關於 w 0 和 w 1 的函式 損失函式 為了...
線性回歸 最小二乘法(二)
上篇文章中介紹了單變數線性回歸,為什麼說時單變數呢,因為它只有單個特徵,其實在很多場景中只有單各特徵時遠遠不夠的,當存在多個特徵時,我們再使用之前的方法來求特徵係數時是非常麻煩的,需要乙個特徵係數乙個偏導式,而卻最要命的時特性的增長時及其迅猛的,幾 十 幾百 幾千 單變數線性回歸 多變數線性回歸 所...