我們所說的向量其實是向量座標和向量空間的基構成的線性組合。
要準確的描述向量,首先需要確定向量空間的一組基,然後
在通常的二維座標系中,我們選中基為(1
,0)t
和(0,
1)t ,那麼對於向量(3
,2) ,其實它是3∗
(1,0
)t+2
∗(0,
1)t 。
通常基為列向量,在進行座標變換時,通常將基作為行向量,與原空間的座標(列向量)做點乘。
一般地,我們設定基向量為單位向量,因為這樣可以直接用向量點乘基向量獲取基上的座標表示,否則需要除以基向量的模長。[1
001]
∗[32
]=[3
2]上式的意義是,將右邊矩陣每一列的列向量,變換到左邊矩陣每一行的行向量為基所表示的空間中去。
pca是一種常用的降維方法。其思想是希望用乙個低維超平面對正交屬性空間中的樣本點進行恰當的表達。
這樣的超平面具有以下性質
假定樣本進行了中心化處理,即∑i
xi=0
,假定投影變換後得到的新座標係為[w
1,w2
,...
,wd]
,其中wi
是標準正交基向量,||
wi||
2=1 ,wt
iwj=
0(i≠
j)設新座標系的維度為d′
<
d ,則樣本點在低維座標系中的投影是zi
,其中zi
j=wt
jxi 是xi
在低維座標系下第j維的座標。若基於zi
來重構xi
,則會得到x^
i=∑d
′j=1
zijw
j 。
現在考慮整個資料集上原樣本點xi
與投影籌夠的樣本點x^
i 之間的距離 lo
ss=∑
i=1m
||∑j
=1d′
zijw
j−xi
||22
=∑i=
1m[(
∑j=1
d′zi
jwj−
xi)t
(∑k=
1d′z
ijwj
−xi)
]=∑i
=1m[
(∑j=
1d′z
ijwj
)t(∑
k=1d
′zij
wj)−
(∑j=
1d′z
ijwj
)txi
−xti
(∑k=
1d′z
ijwj
)+xt
ixi]
=∑i=
1m[(
∑j=1
d′wt
jzti
jzij
wj)−
2xti
(∑k=
1d′z
ijwj
)+xt
ixi]
=∑i=
1m[(
∑j=1
d′wt
jxix
tiwj
)−2(
∑k=1
d′xt
iwtj
xiwj
)+xt
ixi]
=−∑j
=1d′
(wtj
(∑i=
1mxi
xti)
wj)+
∑i=1
mxti
xi=−
tr(w
txxt
w)+c
onst
其中∑i
xixt
i 是協方差矩陣,為xx
t 所以,優化目標為
minws.
t.−t
r(wt
xxtw
)wtw
=i樣本點xi
在新空間中超平面上的投影是wt
xi,若所有投影能盡可能分開,則應該使投影後樣本點的方差最大化,投影後樣本點的方差是∑i
wtxi
xtiw
優化目標可寫為
maxws.
t.tr
(wtx
xtw)
wtw=
i minwwt
xxtw
+λ(w
tw−i
) 解得 xxt
w=λw
於是,只需要對協方差矩陣xx
t 進行特徵值分解(實踐中通常對x進行奇異值分解來代替協方差矩陣的特徵值分解),將求得的特徵值排序;取前d′
個特徵值對應得特徵向量構成w=
[w1,
w2,.
..,w
d′] 就求出了投影矩陣。
pca也存在一些限制,例如它可以很好的解除線性相關,但是對於高階相關性就沒有辦法了,對於存在高階相關性的資料,可以考慮kernel pca,通過kernel函式將非線性相關轉為線性相關。另外,pca假設資料各主特徵是分布在正交方向上,如果在非正交方向上存在幾個方差較大的方向,pca的效果就大打折扣了。—**知乎參考資料
《機器學習》第10章向量的表示及協方差矩陣
pca數學原理
pca主成分分析 PCA主成分分析(中)
矩陣 matrix,很容易讓人們想到那部著名的科幻電影 駭客帝國 事實上,我們又何嘗不是真的生活在matrix中。機器學習處理的大多數資料,都是以 矩陣 形式儲存的。矩陣是向量的組合,而乙個向量代表一組資料,資料又是多維度的。比如每個人的都具有身高 體重 長相 性情等多個維度的資訊資料,而這些多維度...
主成分分析PCA
主要參考這篇文章 個人總結 pca是一種對取樣資料提取主要成分,從而達到降維的目的。相比於上篇文章介紹到的svd降維不同,svd降維是指減少資料的儲存空間,資料的實際資訊沒有缺少。個人感覺pca更類似與svd的去噪的過程。pca求解過程中,涉及到了svd的使用。針對資料集d 假設di 的維度為 w ...
PCA 主成分分析
在進行影象的特徵提取的過程中,提取的特徵維數太多經常會導致特徵匹配時過於複雜,消耗系統資源,不得不採用特徵降維的方法。所謂特徵降維,即採用乙個低緯度的特徵來表示高緯度。將高緯度的特徵經過某個函式對映至低緯度作為新的特徵。pca和lda區別 pca是從特徵的角度協方差角度 求出協方差矩陣的特徵值和特徵...