kNN的維數災難與PCA降維

2022-03-05 09:45:01 字數 1050 閱讀 5414

假設我們有

\[x = \beginx_1\\x_2\\\vdots\\x_m\end\in\mathbb^

\]那麼協方差矩陣

\[c_x= \dfracxx^t = \dfrac\beginx_1x_1^t & x_1x_2^t & \cdots & x_1x_m^t\\x_2x_1^t & x_2x_2^t&\cdots & x_2x_m^t\\\vdots&\vdots&\ddots&\vdots\\x_mx_1^t&x_mx_2^t&\cdots&x_mx_m^t\end\in\mathbb^

\]可以發現主對角線上全部是方差,其餘位置是協方差。其實可以把方差看成特別的協方差。方差衡量了一組資料時離散程度,而協方差則度量了兩個變數之間的關聯性。協方差表示的是兩個變數的總體的誤差,這與只表示乙個變數誤差的方差不同。 如果兩個變數的變化趨勢一致,也就是說如果其中乙個大於自身的期望值,另外乙個也大於自身的期望值,那麼兩個變數之間的協方差就是正值。 如果兩個變數的變化趨勢相反,即其中乙個大於自身的期望值,另外乙個卻小於自身的期望值,那麼兩個變數之間的協方差就是負值。

主成分分析主要用於降維,降維需要減少資訊冗餘,但是也要保證重要的資訊不丟失。主成分分析採用線性變換來達到獲取各成分的目的。可想而知,我們需要各成分之間獨立不相關,而內部盡可能的分散。這分別對應的協方差和方差。更加形式化的表達為,需要找到乙個矩陣\(p\),使得

\[c_x= \dfrac(px)(px)^t = \dfracp(xx^t)p^t

\]的主對角線上的元素盡可能的大,而其餘的元素為0。現在問題來了,怎麼找到這樣的p。好在我們的\(c_x\)是乙個對稱矩陣,其有著很好的性質,可以進行分解:

\[s = ede^t

\]其中s是乙個對稱矩陣,d是由s的特徵值構成的對角陣,e是由s的特徵向量構成的矩陣。說了這麼多,我們怎麼去找到p?

我們令\[s = xx^t

\]那麼有

\[c_x= \dfracpsp^t=\dfracp(ede^t)p^t

\]當\(p = e^t\)時,\(c_x\)不就恰好為我們想要的對角陣麼。我們可以選擇\(d\)最大的前k個特徵向量,組成\(p\),即可達到降維的目的了。

pca降維的基本思想 PCA降維以及維數的確定

概述 pca principal components analysis 即主成分分析技術,又稱為主分量分析,旨在利用降維的思想,把多個指標轉換為少數的幾個綜合指標。主成分分析是一種簡化資料集的技術,它是乙個線性變換。這個線性變化把資料變換到乙個新的座標系統中,使得任何資料投影的第一大方差在第乙個座...

PCA降維演算法

文章由兩部分構成,第一部分主要講解pca演算法的步驟,第二部分講解pca演算法的原理。那麼首先進入第一部分 pca演算法的步驟 樣本矩陣x的構成 假設待觀察變數有m個,其實相當於乙個資料在m維各維度上的座標,我們的目標是在保證比較資料之間相似性不失真的前提下,將描述資料的維度盡量減小至l維 l樣本矩...

PCA降維原理

在之前的介紹中,一幅影象只能表示乙個物件。那麼對於w x h的灰度影象,只能表示為w x h位的向量,那麼乙個有100 100的影象就需要10000維的向量空間。對於一幅人臉而言,是否所有維的資料都是有用的呢?在矩陣論當中我們知道,矩陣可以近似的表示為乙個特徵值與特徵向量的乘積。根據這個原理,如果我...