PCA主成分分析

2021-09-26 14:13:14 字數 2614 閱讀 3438

pca主成分分析

給定一組資料 

將每一維特徵的均值中心化,方差歸一化

u =1

n∑i=

1nxi

u = \frac \sum_^nx_i

u=n1​∑

i=1n

​xi​

// u

uu就是資料中心

=    //資料中心化:將座標原點移到資料的中心點:            其中:u=t

u=\lbrace u_1,u_2,...,u_m\rbrace^t

u=t,是乙個n

nn維列向量。

σ j2

=1m∑

j(xi

j)\sigma_j^2=\frac\sum_(x_i^j)

σj2​=m

1​∑j

​(xi

j​)xij

=xij

/σjx_i^j= x_i^j/\sigma_j

xij​=x

ij​/

σj​

特徵的主方向,就是特徵幅度變化最大的方向。為了找到特徵變化最大的方向,假設單位方向向量u

uu,則特徵點x

xx在u

uu方向上的投影點x

』x^』

x』距離原點的距離d=x

tud=x^tu

d=xt

u。所有的樣本點都在乙個方向上投影後,它們就都在同一直線上了。

要比較它們之間變化的程度,只要比較d

dd的方差就行了。方差最大的u

uu對應的方向就是要找的主方向。

注:方差計算:

因此,目標函式就成了:

m ax

u1n∑

i=1n

(xit

u)2=

maxu

1n∑i

=1nu

txix

itu=

maxu

ut(1

n∑i=

1nxi

xit)

umax_u\frac\sum_^n(x_i^tu)^2 \\=max_u\frac \sum_^nu^tx_ix_i^tu\\=max_uu^t(\frac\sum_^nx_ix_i^t)u

maxu​n

1​i=

1∑n​

(xit

​u)2

=max

u​n1

​i=1

∑n​u

txi​

xit​

u=ma

xu​u

t(n1

​i=1

∑n​x

i​xi

t​)u

其中x

ix_i

xi​表示第i

ii個樣本,n

nn表示樣本總數。(因為x

xx已中心化,所以xit

ux_i^tu

xit​

u的均值也是0,因此xit

ux_i^tu

xit​

u的平方之和就是方差)

上式括號中的一項非常熟悉,就是協方差矩陣∑

\sum

∑,再看上面的式子,協方差矩陣與投影的方向無關,只與樣本有關。因此協方差矩陣完全決定了資料的分布情況。

所以目標函式如下:

m ax

uut∑

us.t

.utu

=1max_uu^t\sum u \\ s.t.u^tu=1

maxu​u

t∑us

.t.u

tu=1

利用拉格朗日乘子法可求解上面的最大化問題:

∑ u=

λu\sum u=\lambda u

∑u=λ

u由上,u

uu就是∑

\sum

∑的特徵向量,λ

\lambda

λ就是特徵值。帶入目標函式得:

m ax

uut∑

u=ma

xuut

λu=m

axuλ

utu=

maxu

λmax_uu^t\sum u =max_uu^t\lambda u=max_u\lambda u^tu=max_u\lambda

maxu​u

t∑u=

maxu

​utλ

u=ma

xu​λ

utu=

maxu

​λ所以,可以通過協方差矩陣的跡來衡量方差的大小。最大的特徵值λ

\lambda

λ對應的特徵向量u

uu決定了資料變化最大的方向。u

uu就是要求的單位向量。

因此,pca的求解過程就是對協方差矩陣進行特徵值分解,並且找到最大的幾個特徵值的過程。

pca主成分分析 PCA主成分分析(中)

矩陣 matrix,很容易讓人們想到那部著名的科幻電影 駭客帝國 事實上,我們又何嘗不是真的生活在matrix中。機器學習處理的大多數資料,都是以 矩陣 形式儲存的。矩陣是向量的組合,而乙個向量代表一組資料,資料又是多維度的。比如每個人的都具有身高 體重 長相 性情等多個維度的資訊資料,而這些多維度...

主成分分析PCA

主要參考這篇文章 個人總結 pca是一種對取樣資料提取主要成分,從而達到降維的目的。相比於上篇文章介紹到的svd降維不同,svd降維是指減少資料的儲存空間,資料的實際資訊沒有缺少。個人感覺pca更類似與svd的去噪的過程。pca求解過程中,涉及到了svd的使用。針對資料集d 假設di 的維度為 w ...

PCA 主成分分析

在進行影象的特徵提取的過程中,提取的特徵維數太多經常會導致特徵匹配時過於複雜,消耗系統資源,不得不採用特徵降維的方法。所謂特徵降維,即採用乙個低緯度的特徵來表示高緯度。將高緯度的特徵經過某個函式對映至低緯度作為新的特徵。pca和lda區別 pca是從特徵的角度協方差角度 求出協方差矩陣的特徵值和特徵...