宣告:該文章翻譯自mit出版的《deep learning》,博主會定期更新文章內容。由於博主能力有限,中間有過錯之處希望大家給予批評指正,一起學習交流。
為了進一步分析,我們必須替換g(
c)的定義:c∗
=arg
minc
−2xt
dc+c
tdtd
c =a
rgmi
nc−2
xtdc
+cti
lc(對
d 施加正交和單位範數約束)=a
rgmi
nc−2
xtdc
+ctc
我們可以用向量微積分解決這個最優化問題(該部分內容參見4.3):∇(
−2xt
dc+c
tc)=
0 −2
dtx+
2c=0
c=dtx
(2.2)
這是乙個好訊息:我們可以只用乙個矩陣向量操作來最優化編碼
x 。為了編碼乙個向量,我們應用編碼函式:f(
x)=d
tx進一步使用矩陣乘法,我們也可以定義pca重構操作:r(
x)=g
(f(x
))=d
dtx
接下裡,我們需要選擇編碼矩陣
d 。要做到這一點,我們需要回顧最小化輸入和重構之間l2
距離的想法。然而,因為我們使用相同的矩陣來解碼所有點,我們就不能孤立考慮每個點。我們必須最小化誤差矩陣的frobenius範數:d∗
=arg
mind
∑i,j
(x(i
)j−r
(x(i
))j)
2‾‾‾
‾‾‾‾
‾‾‾‾
‾‾‾‾
‾‾√其
中dtd
=il(2.3)
為了匯出尋找d∗
的演算法,我們先考慮l=
1 的情況。在這種情況下,
d 只是乙個單一的向量
d 。將2.2代入2.3,並將
d 化為 d
d∗=a
rgmi
nd∑i
||x(
i)−d
dtx(
i)||
22其中
||d|
|2=1
上面是帶入之後最直接的化簡方式,但是對於寫等式來說風格不悅目。它把標量放在了向量的右邊。而更方便的方式是將標量洗漱放在向量的左邊。因此,我們通常將等式寫成下面的形式:d∗
=arg
min∑
i||x
(i)−
dtx(
i)d|
|22其
中||d
||2=
1 或者,根據標量的轉置等於本身d∗
=arg
min∑
i||x
(i)−
x(i)
dd||
22其中
||d|
|2=1
上面的方式使得我們能夠用更緊湊的符號來表示。讓x∈
rm×n
表示所有用來描述點的向量所定義的矩陣,這樣的話xi
,:=x
(i) 。我們現在將問題重寫為:d∗
=arg
min|
|x−x
ddt|
|2f其
中||d
||2=
1 暫時忽略限制,我們可以將frobenius範數化為:ar
gmin
||x−
xddt
=argmin
tr((
x−xd
dt)t
(x−x
ddt)
) (frobenius範數的另一種定義)=a
rgmi
ntr(
xtx−
xtxd
dt−d
dtxt
x+dd
txtx
ddt)
=argmin
tr(x
t−tr
(xtx
ddt)
−tr(
ddtx
tx+t
r(dd
txtx
ddt)
=argmin
−tr(
xtxd
dt)−
tr(d
dtxt
x+tr
(ddt
xtxd
dt)
(因為第一項與
d 無關,不會影響最小化)=a
rgmi
n−2t
r(xt
xddt
)+tr
(ddt
xtxd
dt)
(因為在跡中我們可以迴圈矩陣的順序)=a
rgmi
n−2t
r(xt
xddt
)+tr
(xtx
ddtd
dt)
(同樣利用上面的性質)。現在,加上限制:=a
rgmi
n−2t
r(xt
xddt
)+tr
(xtx
ddtd
dt)其
中||d
||2=
1 =a
rgmi
n−2t
r(xt
xddt
)+tr
(xtx
ddt)
其中||
d||2
=1(由於限制條件)=a
rgmi
n−tr
(xtx
ddt)
其中||
d||2
=1 =
argm
axtr
(xtx
ddt)
其中||
d||2
=1 =
argm
axtr
(dtx
txd)
其中||
d||2
=1這個最優化問題可以用特徵分解解決。特別地,最優解d 由
xtx 對應於最大特徵值的特徵向量給出。
對於一般情況
l>
1 ,
d 由對應於最大特徵值的
l 特徵向量給出。這個可以用歸納法證明。
主成分分析
主成分分析 pca 分析乙個隨機向量的中的主成分 主成分一般不是隨機向量中的某乙個分量,而是不同分量的線性組合,根據資訊理論的觀點,資訊的多少與方差有關,所以 主成分是方差最大的幾個成分 主成分分析的方法是求隨機向量的協方差矩陣 用樣本協方差矩陣代替 對於差異較大的資料,可採用相關矩陣代替協方差矩陣...
主成分分析
理論要點 1 主成分分析是一種無監督學習,因此不能用交叉驗證來檢驗誤差 2 在處理資料之前,要對資料做中心化處理 3 p太大的話,做特徵分解用svd 4 一共有min n 1,p 個主成分,因為中心化以後,rank要降一維 5 主成分的載荷向量就是協方差矩陣的特徵向量,對應特徵值最大的是第一主成分,...
主成分分析
1.概念 將一組可能存在相關性的隨機變數轉變成互不相關的隨機變數。這個概念裡有三個地方需要理解清楚。1 隨機變數的指代 在資料集中,每乙個樣本,即將資料集理解成乙個 的話,乙個樣本就是一行,則每一列就是乙個特徵,也就是乙個隨機變數,一列的所有取值就是隨機變數的所有可能取值 說的所有可能取值只針對訓練...