PCA主成分分析

2021-09-18 06:14:20 字數 2046 閱讀 3598

主成分分析(principal component analysis,pca)是一種旋轉資料集的方法,旋轉後的特 徵在統計上不相關。在做完這種旋轉之後,通常是根據新特徵對解釋資料的重要性來選擇它的乙個子集。

協方差:

協方差在概率論和統計學中用於衡量兩個變數的總體誤差。而方差是協方差的一種特殊情況,即當兩個變數是相同的情況。協方差表示的是兩個變數的總體的誤差,這與只表示乙個變數誤差的方差不同。 如果兩個變數的變化趨勢一致,也就是說如果其中乙個大於自身的期望值,另外乙個也大於自身的期望值,那麼兩個變數之間的協方差就是正值。 如果兩個變數的變化趨勢相反,即其中乙個大於自身的期望值,另外乙個卻小於自身的期望值,那麼兩個變數之間的協方差就是負值。

在數理統計中,協方差通常被用於度量資料和其數學期望之間的額偏離程度。這個偏離程度反映了資料結構。在降維的要求中,需要盡可能地將資料向協方差最大的方向進行投影,使得資料蘊含的主要資訊沒有丟失。

主成分分析的思想史將n維特徵資料的對映到l維空間。將原始資料向資料方差最大的方向進行投影,一旦發現了方差最大的投影方向,就繼續尋找保持方差第二的方向進行投影。所得到的資料每一維的樣本方差都盡可能地大,使得在每一維度都有識別的明顯特徵。

這裡我們會用到協方差矩陣

舉個簡單的例子:

第一張圖(左上)顯示的是原始資料點,用不同顏色加以區分。演算法首先找到方差最大的 方向,將其標記為「成分 1」,這是資料中包含最多資訊的方向(或向量), 換句話說,沿著這個方向的特徵之間最為相關。然後,演算法找到與第乙個方向正交(成直 角)且包含最多資訊的方向。在二維空間中,只有乙個成直角的方向,但在更高維的空間 中會有(無窮)多的正交方向。雖然這兩個成分都畫成箭頭,但其頭尾的位置並不重要。 我們也可以將第乙個成分畫成從中心指向左上,而不是指向右下。利用這一過程找到的方 向被稱為主成分,因為它們是資料方差的主要方向。一般來說,主 成分的個數與原始特徵相同。

第二張圖(右上)顯示的是同樣的資料,但現在將其旋轉,使得第一主成分與 x 軸平行且 第二主成分與 y 軸平行。在旋轉之前,從資料中減去平均值,使得變換後的資料以零為中 心。在 pca 找到的旋轉表示中,兩個座標軸是不相關的,也就是說,對於這種資料表示, 除了對角線,相關矩陣全部為零。

我們可以通過僅保留一部分主成分來使用 pca 進行降維。在這個例子中,我們可以僅保 留第乙個主成分,正如第三張圖所示(左下)。這將資料從二維資料集降為一維數 據集。但要注意,我們沒有保留原始特徵之一,而是找到了最有趣的方向(第一張圖中從 左上到右下)並保留這一方向,即第一主成分。

最後,我們可以反向旋轉並將平均值重新加到資料中。這樣會得到 最後一張圖中的 資料。這些資料點位於原始特徵空間中,但我們僅保留了第一主成分中包含的資訊。這種 變換有時用於去除資料中的雜訊影響,或者將主成分中保留的那部分資訊視覺化。

pca主成分分析 PCA主成分分析(中)

矩陣 matrix,很容易讓人們想到那部著名的科幻電影 駭客帝國 事實上,我們又何嘗不是真的生活在matrix中。機器學習處理的大多數資料,都是以 矩陣 形式儲存的。矩陣是向量的組合,而乙個向量代表一組資料,資料又是多維度的。比如每個人的都具有身高 體重 長相 性情等多個維度的資訊資料,而這些多維度...

主成分分析PCA

主要參考這篇文章 個人總結 pca是一種對取樣資料提取主要成分,從而達到降維的目的。相比於上篇文章介紹到的svd降維不同,svd降維是指減少資料的儲存空間,資料的實際資訊沒有缺少。個人感覺pca更類似與svd的去噪的過程。pca求解過程中,涉及到了svd的使用。針對資料集d 假設di 的維度為 w ...

PCA 主成分分析

在進行影象的特徵提取的過程中,提取的特徵維數太多經常會導致特徵匹配時過於複雜,消耗系統資源,不得不採用特徵降維的方法。所謂特徵降維,即採用乙個低緯度的特徵來表示高緯度。將高緯度的特徵經過某個函式對映至低緯度作為新的特徵。pca和lda區別 pca是從特徵的角度協方差角度 求出協方差矩陣的特徵值和特徵...