n 代表特徵的數量
x (i
)x^
x(i)
代表第i個訓練例項,是特徵矩陣中的第i行,是乙個向量。
x j(
i)
x_j^
xj(i)
代表特徵矩陣中第i行的第j個特徵。
支援多變數的假設h表示為:hθ(
x)=θ
0+θ1
x1+θ
2x2+
...+
θnxn
h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n
hθ(x)
=θ0
+θ1
x1+
θ2x
2+.
..+θ
nxn
這個公式中有n+1個引數和n個變數,為了使得公式能夠簡化一些,引入x0=
1x_0=1
x0=
1,則公式轉化為:hθ(
x)=θ
0x0+
θ1x1
+θ2x
2+..
.+θn
xn
h_\theta(x)=\theta_0x_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n
hθ(x)
=θ0
x0+
θ1x
1+θ
2x2
+..
.+θn
xn
此時模型中的引數是乙個n+1維的向量,任何乙個訓練例項也都是n+1維的向量,特徵矩陣x的維度是m*(n+1)。因此公式可以簡化為:hθ(
x)=θ
tx
h_\theta(x)=\theta^tx
hθ(x)
=θtx
,其中上標t代表矩陣轉置。
j (θ
0,θ1
...θ
n)=1
2m∑i
=1m(
hθ(x
(i)−
y(i)
))
2j(\theta_0,\theta_1...\theta_n)=\frac \sum_^m(h_\theta(x^-y^))^2
j(θ0,
θ1.
..θn
)=2
m1∑
i=1m
(hθ
(x(
i)−y
(i))
)2其中h θ(
x)=θ
tx=θ
0x0+
θ1x1
+θ2x
2+..
.+θn
xn
h_\theta(x)=\theta^tx=\theta_0x_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n
hθ(x)
=θtx
=θ0
x0+
θ1x
1+θ
2x2
+..
.+θn
xn
我們的目標和單變數線性回歸問題中的一樣,是要找出使得代價函式最小的一系列引數。
多變數線性回歸的批量梯度下降演算法為:
repeatj(\theta_0,\theta_1...\theta_n)
θj:=θ
j−α
∂θj
∂j(
θ0,
θ1.
..θn
)}即:
repeat\frac \sum_^m(h_\theta(x^-y^))^2
θj:=θ
j−α
∂θj
∂2m
1∑i
=1m
(hθ
(x(i
)−y(
i)))
2}求導數後得到:
repeat\sum_^m(h_\theta(x^-y^)\cdot x_j^)
θj:=θ
j−α
m1∑
i=1m
(hθ
(x(
i)−y
(i))
⋅xj(
i))
(for j=0,1,…,n)
}我們開始隨機選擇一系列的引數值,計算所有的**結果後,再給所有的引數乙個新的值,如此迴圈直到收斂。
梯度下降法實踐1-特徵縮放
當我們面對多維特徵問題的時候,我們要保證這些特徵都具有相近的尺度,這將幫助梯度下降演算法更塊地收斂。(嘗試將所有特徵的尺度都盡量縮放到-1與1之間,令:xn=
xn−μ
ns
nx_n=\frac
xn=sn
xn
−μn
,其中μ
n\mu_n
μn是平均值,s
ns_n
sn是標準差)
梯度下降法實踐2 -學習率
梯度下降演算法的每次迭代受到學習率的影響,如果學習率α
\alpha
α過小,則達到收斂所需的迭代次數會非常高;如果學習率α
\alpha
α過大,每次迭代可能不會減小代價函式,可能會越過區域性最小值導致無法收斂。通常可以考慮嘗試學習率:α
\alpha
α=0.01, 0.03, 0.1, 0.3, 1, 3, 10
正規方程是通過求解下面的方程來找出使得代價函式最小的引數的:∂∂θ
jj(θ
j)=0
\frac j(\theta_j)=0
∂θj∂
j(θj
)=0
。假設我們的訓練集特徵矩陣為x(包含了x0=
1x_0=1
x0=
1)並且我們的訓練集結果為向量y,則利用正規方程解出向量θ=(
xtx)
−1xt
y。
\theta=(x^x)^x^y。
θ=(xtx
)−1x
ty。對於那些不可逆的矩陣,正規方程方法是不能用的。
機器學習 多變數線性回歸
注 本系列部落格是博主學習stanford大學 andrew ng 教授的 機器學習 課程筆記。博主深感學過課程後,不進行總結非常easy遺忘,依據課程加上自己對不明確問題的補充遂有此系列部落格。本系列部落格包含線性回歸 邏輯回歸 神經網路 機器學習的應用和系統設計 支援向量機 聚類 將維 異常檢測...
機器學習 多變數線性回歸
1 說明 需要 房屋的 除了房屋面積還有其他的特徵量,比如層數,年齡,臥室數目等等,如下圖。因為有多個特徵值,所以稱為多變數線性回歸。2 假設函式 單變數只有乙個特徵值,所以之前的假設函式將不再適用,下面是多變數的假設函式。其中x0設定為1 3 特徵縮放 在所有特徵值中,size的範圍大概在0 20...
機器學習(三) 多變數線性回歸
目錄 一 前言 二 模型描述 1.hypothesis 2.cost function 三 多元梯度下降法 1.特徵放縮 2.學習率 的選擇 四 特徵與多項式回歸 五 正規方程 區別於梯度下降法 六 梯度下降法與正規方程法的比較 在所有公式中,n為特徵個數,m為樣本數量 與前面單變數線性回歸類似,只...