主成分分析(PCA)學習筆記

2021-10-01 03:49:33 字數 1623 閱讀 9795

pca 主要用於對資料降維,消除冗餘,以較少的資訊最大限度地保留有用的資訊。

協方差:利用協方差,我們可以知道資料內部不同特徵之間的相關性以及特徵自身的方差。求得的協方差矩陣其對角元素表示的是該特徵自身的方差,而非對角線元素則表示特徵之間的協方差,也即相關性。比如對於矩陣【1,2;2,5】其中第一行的2表示第乙個特徵與第二個特徵之間的協方差,第二行的2表示第二個特徵與第乙個特徵之間的協方差,所以協方差矩陣是乙個對稱矩陣。

想要對資料降維,就得去除冗餘,即使特徵與特徵之間的相關性盡量小,達到0。這樣每乙個維度的資訊是壓榨過後的,正交的。而要做到這一步,就需要是各特徵之間的協方差為0,各不相關。那麼怎樣才能讓協方差矩陣變成除對角線元素全為0呢,這就需要矩陣對角化了。通過矩陣對角化,把協方差矩陣變成只有對角線有值。而變換後的矩陣,就是協方差矩陣的特徵值所組成的矩陣,即變換後的矩陣的對角線是協方差矩陣的特徵值。因此他也表示變換後協方差矩陣的新方差,即變換後的矩陣的各特徵的方差。可以看出,變換後的新資料是兩兩正交的(協方差非對角元素為0)

首先回顧一下pca,即主成分分析法的步驟

對資料計算協方差矩陣s

求出矩陣的特徵值和特徵向量

選擇主成分

得到降維後的新資料

1. 計算樣本均值

2. 對資料進行零均值化

3. 計算協方差矩陣

協方差矩陣為對稱矩陣

4.求協方差矩陣的特徵值λ_m及其相應的正交化單位特徵向量a_i

求出的特徵值λ_i按大小依次排列,而前m個特徵值就是前m個主成分對應的方差,特徵值對應的特徵向量a_i則是主成分p_i關於原變數的係數,即

p_i = a_i』 * x

從上個式子可以知道,通過特徵向量,我們可以得到原資料中的主成分

5. 選擇主成分

選擇主成分一般是按照該主成分對應的特徵值來決定的。特徵值大小對應著該主成分的重要性,當主成分方差(即特徵值)的累計貢獻率達到一定值時,就可以認為這些資訊可以反映原資料的情況了

6. 計算主成分荷載

主成分荷載是反映主成分p_i與原變數x_j之間的相互關聯程度,原變數x_j在主成分p_i上的荷載l_ij為:(其中i=1…m,j=1…n)

7. 計算主成分得分

計算原資料在m個主成分上的得分:

p_i = a_1i * x1 + a_2i * x2 +…+ a_ni * xn (i = 1…m)

pca是對資料進行降維處理,特徵值越大,其含有的資訊就越多。從本質上來說,pca是將方差最大的方向作為主要特徵,主成分之間是正交的。

那麼什麼樣的資料才能使用pca降維呢?一般是訊雜比比較高的資料,因為這樣,所以把具有較大方差的方向作為主成分,方差較小的一般被當做雜訊(一般認為訊號具有較大的方差,雜訊具有較小的方差)

pca主成分分析 PCA主成分分析(中)

矩陣 matrix,很容易讓人們想到那部著名的科幻電影 駭客帝國 事實上,我們又何嘗不是真的生活在matrix中。機器學習處理的大多數資料,都是以 矩陣 形式儲存的。矩陣是向量的組合,而乙個向量代表一組資料,資料又是多維度的。比如每個人的都具有身高 體重 長相 性情等多個維度的資訊資料,而這些多維度...

PCA主成分分析學習筆記

dl書上這一節公式很多,相關的符號有點不習慣,借鑑相關部落格 主要是協方差計算和pca具體原理和python實現部分的講解 希望研究例項能更好幫助大家理解公式和計算過程的具體意義 基礎知識回顧 首先是會看到一些熟悉的公式 均值 方差 以下假設我們有二維資料 借用網上常用的資料好驗證結果正確性 第一步...

主成分分析PCA

主要參考這篇文章 個人總結 pca是一種對取樣資料提取主要成分,從而達到降維的目的。相比於上篇文章介紹到的svd降維不同,svd降維是指減少資料的儲存空間,資料的實際資訊沒有缺少。個人感覺pca更類似與svd的去噪的過程。pca求解過程中,涉及到了svd的使用。針對資料集d 假設di 的維度為 w ...