《統計學習方法》筆記 主成分分析

2022-07-17 04:57:09 字數 1203 閱讀 7931

主成分分析(principle component analysis,pca),用正交變換將由線性相關變數表示的觀測資料轉換為少數幾個由線性無關變數(稱主成分)表示的資料的方法,即對資料進行降維處理。

這種方法的幾何解釋即是將樣本對映到幾個相互正交的向量上,並使得樣本在所對映的向量上方差最大,

圖1-1 樣本在單個向量上的對映

可以定義n個樣本在所對映的單個向量上方差var

其中x'為樣本在所對映向量上的座標,

為n個樣本在所對映向量上的座標均值。

而主成分分析方法主要有兩種,可以通過樣本矩陣的奇異值分解或對相關矩陣的特徵值分解進行。

(設樣本x為

矩陣,m為特徵維度數,n為樣本的個數)

(1)因為樣本的各個維度的度量尺度可能不同,需要對樣本進行規範化處理,處理如下:

其中,為n個樣本在第i個特徵維度上的均值

(2)對規範化後的資料矩陣,計算樣本相關矩陣r(樣本的相關矩陣為樣本各分量之間的線性相關關係的一種度量)

(3)求解相關矩陣r的前k個值最大的特徵值和對應的單位特徵向量,求得特徵值

,對應特徵向量

,並將這些特徵向量構造成正交矩陣

這樣,v矩陣的每一列對應乙個主成分,得到

樣本主成分分析矩陣

奇異值分解演算法步驟:

(設樣本x為

矩陣,m為特徵維度數,n為樣本的個數)

(1)同樣對樣本進行規範化處理,並返回到x上

(2)對規範化後的資料矩陣x,設

對矩陣x'進行截斷奇異值分解,保留k個奇異值和其對應的奇異向量,得到

這樣,v矩陣的每一列對應乙個主成分,得到

樣本主成分分析矩陣

統計學習 PCA主成分分析

資訊的表示與降維 通常情況下,資料被表示成一組記錄的組合,在機器學習領域通常用一維列向量表示一組特徵。而當資料需要的特徵過多時,在面對成百上千的維度情況下,演算法的開銷顯著增大,因為資料的降維顯得非常有必要,降維意味著部分資料的丟失,不過由於資料本身之間具備一定的相關性,因為採用合理的方法使得損失降...

主成分分析(學習筆記)

主成分分析 principal component analysis pca 由卡爾皮爾遜於1901年提出,是一種分析,簡化資料的技術,主要用於降低資料的維數,並且在這個過程中,保持資料集中的對方差貢獻最大的特徵。具體操作 首先對資料集的協方差矩陣進行特徵分解,得到資料集的主成分 特徵向量 和相對應...

主成分分析筆記

主成分分析不可用於綜合評價 主成分分析可用於聚類 主成分分析可用於回歸 變數的降維 主成分的解釋 在主成分有意義的情況下 當普通多元線性回歸存在多重共線性問題時 當研究的問題涉及到多變數且變數之間存在很強的相關性時 一 題目有n nn個樣本,p pp個指標,則可構建大小為n p n pn p的樣本矩...