cost functionj
(θ)=
12m∑
i=1m
(hθ(
x(i)
)−y(
i))
hypothesish
θ(x)
=θtx
梯度下降求解
為了最小化j(
θ) ∂
j(θ)
∂θj=
1m∑i
=1m(
hθ(x
(i))
−y(i
))x(
i)j
每一次迭代更新 θj
:=θj−
α1m∑
i=1m
(hθ(
x(i)
)−y(
i))x
(i)j
正規方程求解
最小二乘法 θ=
(xtx
)−1x
ty⃗
hypothesish
θ(x)
=g(θ
tx)
這裡的g 是s
igmo
id函式 g(z
)=11
+e−z
cost functionc
ost(
hθ(x
(i))
,y(i
))={
−log
(hθ(
x))−
log(
1−hθ
(x))
if y=1
if y=0
j(θ)=1m
∑i=1
mcos
t(hθ
(x(i
)),y
(i))
=1m∑
i=1m
−y(i
)log
(hθ(
x(i)
))−(
1−y(
i))l
og(1
−hθ(
x(i)
))梯度下降求解∂
j(θ)
∂θj=
1m∑i
=1m(
hθ(x
(i))
−y(i
))x(
i)j
這個公式與線性回歸的公式類似,區別是二者的hθ
(x) 不同
過擬合模型過於複雜,波動大
欠擬合模型過於簡單,不能很好的你和資料
當特徵過多時,容易發生過擬合。這時候可以減少不必要的特徵,也可以用正則化來降低特徵的影響的數量級。 在j
(θ) 中引入懲罰項λ∑
nj=1
θ2j ,又稱為l2
正則化項。
由於引數
θ 越小,模型越簡單,因此在正則化裡,通過懲罰項縮小了所有的引數。
注意在實際中,正則化不包括常數項θ0
。 λ 稱為正則化引數,當
λ 過大時,不能很好的擬合訓練集;當
λ 過小時,不能很好的縮小引數。
蒸發箱對於l2
正則化的線性回歸,co
stfu
ncti
on定義為 j(
θ)=1
2m∑i
=1m(
hθ(x
(i))
−y(i
))+λ
2m∑j
=1nθ
2j梯度下降求解
求偏導 ∂j
(θ)∂
θ0∂j
(θ)∂
θj=1
m∑i=
1m(h
θ(x(
i))−
y(i)
)x(i
)j=(
1m∑i
=1m(
hθ(x
(i))
−y(i
))x(
i)j)
+λmθ
jfor j=
0for j≥
1 每一次迭代 θ0
θj:=θ
0−α1
m∑i=
1m(h
θ(x(
i))−
y(i)
)x(i
)j:=θ
j−α1
m∑i=
1m(h
θ(x(
i))−
y(i)
)x(i
)j−λ
mθj
正規方程求解θ
=⎛⎝⎜
⎜⎜⎜⎜
⎜⎜xt
x+λ⎡
⎣⎢⎢⎢
⎢⎢⎢⎢
011⋱
1⎤⎦⎥
⎥⎥⎥⎥
⎥⎥⎞⎠
⎟⎟⎟⎟
⎟⎟⎟−
1xty
如果忽略θ0
的話,公式可以看作 θ=
(xtx
+λi)
−1xt
y 正則化項l
2 正則化的線性回歸又稱為嶺回歸
除此之外還有
正則化項為λ∑
nj=1
∣∣θj
∣∣的l
1 正則化 l1
正則化的線性回歸又稱為lasso回歸l1
正則化有稀疏性,會趨向於產生少量的特徵,而其他的特徵都是0。l2
正則化會選擇更多的特徵,這些特徵都會接近於0。因此lasso回歸可以用來選擇特徵。
邏輯回歸的正則化與線性回歸類似。
線性回歸以高斯分布為誤差分析模型,而邏輯回歸是伯努利分布。
線性回歸採用的是平方損失函式,而邏輯回歸採用的是對數損失函式。
01 線性模型 線性回歸與邏輯回歸
線性模型 試圖學得乙個屬性的線性組合來進行 的函式 f x w 1x 1 w 2x 2 w dx d b 向量模式 f x w tx b 簡單 基本 可解釋性好 可看出每部分屬性所做的貢獻 可用於分類和回歸 多個特徵 h x sum theta ix i theta tx 損失函式mse j the...
線性回歸與邏輯回歸的區別
以經典的 房價為例,假設樣本為 x,y ix,y i x,yi 其中x是多維變數 x x1,x 2.xn x x 1,x 2.x n x x1 x2 x n 屬性包括房子大小,使用年限等,y是對應該樣本的房價。那麼我們就可以得到乙個 房價的假設模型,h x txh theta x theta t x...
線性回歸和邏輯回歸
最近開始學習機器學習,有點心得體會,記錄一下,希望大家批評指正 監督學習 supervised learning 根據已有的資料集,知道輸入和輸出結果之間的關係。根據這種已知的關係,訓練得到乙個最優的模型。也就是說,在監督學習中訓練資料既有特徵 feature 又有標籤 label 通過訓練,讓機器...