主成分分析 PCA

2021-09-11 10:17:21 字數 1066 閱讀 2073

主成分分析是一種統計學方法,它主要通過降維來簡化資料結構,將多個變數轉化成少數的幾個綜合變數,而綜合變數能很好地表達原來多個變數的大部分資訊,變數之間需要要具備相關性,而經過分析後的變數之間沒有相關性。

簡單從感性角度來了解它的原理就是,比如有兩個變數,如下圖,看起來它倆的資訊量差不多,這時不能忽略某個變數進行降維。

建立乙個新的座標體系pc1和pc2,此時pc1包含的資訊量遠遠大於pc2的,可以忽略掉pc2,於是可以用pc1來表示原來兩個維度的資訊,達到降維效果。類推到多維情況也是類似如此。

對於有n個變數的m個樣本,構成m*n階的資料矩陣,

如果變數個數個n較大時,對於我們來說,直接觀察這些變數很難看出一些指標,為方便我們觀察指標,需要將其降維處理,而且降維後要盡可能多地反應原來包含的資訊量。

設有p個主成分,p

其中pc 之間互相無關。若令 則

此時向量$a1$稱為第一主成分的載荷,計算出來的值為第一主成分的得分。同理其他成分也類似。我們進行主成分分析其實本質就是確定原來變數在p個主成分上的載荷,即$a$,其中i=1,2,...,p且 j=1,2,...,n。數學上證明$a_$是相關矩陣的p個較大特徵值對應的特徵向量。

相關係數用於描述變數之間相關關係的密切程度,對於p個變數,相關矩陣為,

左上到右下對角線上半部分和下半部分是對稱的,$r$表示兩個變數的相關,其中(i,j = 1,2,...,p),且有$r = r_$。計算公式如下,

將原始資料按行排列組成矩陣。

將資料進行標準差標準化處理。

計算相關係數矩陣。

根據相關矩陣計算特徵值,並由大到小排列。

計算各特徵值的特徵向量,並且要求

。計算各主成分的貢獻率及累計貢獻率,一般選擇累計貢獻率大於85%的p個主成分。

得到p個主成分對應的特徵向量,得到各個主成分的載荷。

以下是廣告

*****===廣告時間*****===

鄙人的新書《tomcat核心設計剖析》已經在京東銷售了,有需要的朋友可以到 item.jd.com/12185360.ht… 進行預定。感謝各位朋友。

為什麼寫《tomcat核心設計剖析》

pca主成分分析 PCA主成分分析(中)

矩陣 matrix,很容易讓人們想到那部著名的科幻電影 駭客帝國 事實上,我們又何嘗不是真的生活在matrix中。機器學習處理的大多數資料,都是以 矩陣 形式儲存的。矩陣是向量的組合,而乙個向量代表一組資料,資料又是多維度的。比如每個人的都具有身高 體重 長相 性情等多個維度的資訊資料,而這些多維度...

主成分分析PCA

主要參考這篇文章 個人總結 pca是一種對取樣資料提取主要成分,從而達到降維的目的。相比於上篇文章介紹到的svd降維不同,svd降維是指減少資料的儲存空間,資料的實際資訊沒有缺少。個人感覺pca更類似與svd的去噪的過程。pca求解過程中,涉及到了svd的使用。針對資料集d 假設di 的維度為 w ...

PCA 主成分分析

在進行影象的特徵提取的過程中,提取的特徵維數太多經常會導致特徵匹配時過於複雜,消耗系統資源,不得不採用特徵降維的方法。所謂特徵降維,即採用乙個低緯度的特徵來表示高緯度。將高緯度的特徵經過某個函式對映至低緯度作為新的特徵。pca和lda區別 pca是從特徵的角度協方差角度 求出協方差矩陣的特徵值和特徵...