2 12 主成分分析(下)

2021-07-07 06:11:56 字數 3218 閱讀 8134

宣告:該文章翻譯自mit出版的《deep learning》,博主會定期更新文章內容。由於博主能力有限,中間有過錯之處希望大家給予批評指正,一起學習交流。

為了進一步分析,我們必須替換g(

c)的定義:c∗

=arg

minc

−2xt

dc+c

tdtd

c =a

rgmi

nc−2

xtdc

+cti

lc(對

d 施加正交和單位範數約束)=a

rgmi

nc−2

xtdc

+ctc

我們可以用向量微積分解決這個最優化問題(該部分內容參見4.3):∇(

−2xt

dc+c

tc)=

0 −2

dtx+

2c=0

c=dtx

(2.2)

這是乙個好訊息:我們可以只用乙個矩陣向量操作來最優化編碼

x 。為了編碼乙個向量,我們應用編碼函式:f(

x)=d

tx進一步使用矩陣乘法,我們也可以定義pca重構操作:r(

x)=g

(f(x

))=d

dtx

接下裡,我們需要選擇編碼矩陣

d 。要做到這一點,我們需要回顧最小化輸入和重構之間l2

距離的想法。然而,因為我們使用相同的矩陣來解碼所有點,我們就不能孤立考慮每個點。我們必須最小化誤差矩陣的frobenius範數:d∗

=arg

mind

∑i,j

(x(i

)j−r

(x(i

))j)

2‾‾‾

‾‾‾‾

‾‾‾‾

‾‾‾‾

‾‾√其

中dtd

=il(2.3)

為了匯出尋找d∗

的演算法,我們先考慮l=

1 的情況。在這種情況下,

d 只是乙個單一的向量

d 。將2.2代入2.3,並將

d 化為 d

d∗=a

rgmi

nd∑i

||x(

i)−d

dtx(

i)||

22其中

||d|

|2=1

上面是帶入之後最直接的化簡方式,但是對於寫等式來說風格不悅目。它把標量放在了向量的右邊。而更方便的方式是將標量洗漱放在向量的左邊。因此,我們通常將等式寫成下面的形式:d∗

=arg

min∑

i||x

(i)−

dtx(

i)d|

|22其

中||d

||2=

1 或者,根據標量的轉置等於本身d∗

=arg

min∑

i||x

(i)−

x(i)

dd||

22其中

||d|

|2=1

上面的方式使得我們能夠用更緊湊的符號來表示。讓x∈

rm×n

表示所有用來描述點的向量所定義的矩陣,這樣的話xi

,:=x

(i) 。我們現在將問題重寫為:d∗

=arg

min|

|x−x

ddt|

|2f其

中||d

||2=

1 暫時忽略限制,我們可以將frobenius範數化為:ar

gmin

||x−

xddt

=argmin

tr((

x−xd

dt)t

(x−x

ddt)

) (frobenius範數的另一種定義)=a

rgmi

ntr(

xtx−

xtxd

dt−d

dtxt

x+dd

txtx

ddt)

=argmin

tr(x

t−tr

(xtx

ddt)

−tr(

ddtx

tx+t

r(dd

txtx

ddt)

=argmin

−tr(

xtxd

dt)−

tr(d

dtxt

x+tr

(ddt

xtxd

dt)

(因為第一項與

d 無關,不會影響最小化)=a

rgmi

n−2t

r(xt

xddt

)+tr

(ddt

xtxd

dt)

(因為在跡中我們可以迴圈矩陣的順序)=a

rgmi

n−2t

r(xt

xddt

)+tr

(xtx

ddtd

dt)

(同樣利用上面的性質)。現在,加上限制:=a

rgmi

n−2t

r(xt

xddt

)+tr

(xtx

ddtd

dt)其

中||d

||2=

1 =a

rgmi

n−2t

r(xt

xddt

)+tr

(xtx

ddt)

其中||

d||2

=1(由於限制條件)=a

rgmi

n−tr

(xtx

ddt)

其中||

d||2

=1 =

argm

axtr

(xtx

ddt)

其中||

d||2

=1 =

argm

axtr

(dtx

txd)

其中||

d||2

=1這個最優化問題可以用特徵分解解決。特別地,最優解d 由

xtx 對應於最大特徵值的特徵向量給出。

對於一般情況

l>

1 ,

d 由對應於最大特徵值的

l 特徵向量給出。這個可以用歸納法證明。

主成分分析

主成分分析 pca 分析乙個隨機向量的中的主成分 主成分一般不是隨機向量中的某乙個分量,而是不同分量的線性組合,根據資訊理論的觀點,資訊的多少與方差有關,所以 主成分是方差最大的幾個成分 主成分分析的方法是求隨機向量的協方差矩陣 用樣本協方差矩陣代替 對於差異較大的資料,可採用相關矩陣代替協方差矩陣...

主成分分析

理論要點 1 主成分分析是一種無監督學習,因此不能用交叉驗證來檢驗誤差 2 在處理資料之前,要對資料做中心化處理 3 p太大的話,做特徵分解用svd 4 一共有min n 1,p 個主成分,因為中心化以後,rank要降一維 5 主成分的載荷向量就是協方差矩陣的特徵向量,對應特徵值最大的是第一主成分,...

主成分分析

1.概念 將一組可能存在相關性的隨機變數轉變成互不相關的隨機變數。這個概念裡有三個地方需要理解清楚。1 隨機變數的指代 在資料集中,每乙個樣本,即將資料集理解成乙個 的話,乙個樣本就是一行,則每一列就是乙個特徵,也就是乙個隨機變數,一列的所有取值就是隨機變數的所有可能取值 說的所有可能取值只針對訓練...