主成分分析是一種降維方法,主要用於資料壓縮,資料視覺化以及特徵提取等方面。 現實中我們經常可以遇到維數很高的資料,如一張28*28的,可以看作維度為784。類似這樣的高維資料,實際上各個維度之間具有高度的關聯性, 即維度之間並非完全獨立的。通過進行主成分分析,可以將資料的主要特徵提取出來,忽略非 重要特徵,從而對資料進行壓縮。這裡的主成分代表一組規範正交基,每個基用
表示,並且滿足
。假設x表示我們的觀測資料矩陣,大小為n*d, 我們希望將其壓縮到 n*m的矩陣z。主成分分析有兩種直觀上的理解,並且可以 證明這兩種直觀理解是等價的。
第一種方式,我們希望找到這樣一組正交基,使得對映後的資料方差最大。這樣的目標函式符合我們的直觀認識,因為方差表示了資料的差異性,方差大表示 資料的差異性大, 即資訊量大。如果在某個方向上的方差太小,或者等於 0,那麼該方向的資訊量小,因此在要求不高的情況下,可以忽略這樣的方向。主成分分析正是基於這樣的直觀認識進行處理的。為了書寫簡單,我們假設**資料 的均值是0,如果不是0,讓每個資料減去均值。乙個資料
對映到方向u後的座標可以記為
。 因此對映後在該方向上的方差為
(1)其中
(2)為了使對映方差最大,使用拉格朗日乘子法最大化以下目標函式
(3)對u進行求導,然後令其等於零,可以得到如下解,
(4)因此,u是資料協方差矩陣s的特徵向量,進一步得到
(5)即λ是乙個極值點。因此u對應的是最大特徵值的 特徵向量,並且方差的最大值是s的最大特徵值。換句話
說, s的各個特徵值是資料在各個方向上對映方差的極值點。 另外計算乙個矩陣a在某個方向u上的方差可
以如下計算
(6)即它表示u在各個正交基上的方差的加權和,權重就是相應方向的 特徵值,如果u恰好是乙個特徵向量,那
麼該結果就變成了
。 這說明了特徵值和方差之間的內在關係。
主成分分析的另一種解釋是找到一組正交基使得對映後的誤差 最小。同樣我們用
表示我們的正次基,並且假設我們的主成分空間大小為m,資料空間大小為d,那麼對於每個點
我們可以有如下近似,
(7)上面的近似理解為,對 於前m個向量,我們為每個資料每給出精確的對映座標,而對於非主成分,所有資料的值都用乙個常數表示。於是我們得到如下的損失函式,
(8)對損失函式求導後,得到以下解,
(9)(10)
(11)
然後將式(11)代入式(8)得到如下
(12)
從上面的形式可以看出,它與最大化方差的形式相同,即
的形式, 只不過現在是最小化。通過簡單求導即可匯出,當u是特徵向量,可以取得 極值λ, 因此為了使得上式最小可以選擇特徵值最小的特徵向量作為非主成分,相應的特徵值最大的特徵向量作為主成分。
上面給出了主成分分析的兩種直觀上的理解,一種是最大化方差,一種是最小化損失函式,無論用哪種方法,得到的結果是相同的。通過主成分分析我們發現,乙個矩陣的特徵值實際上是該矩陣在各個方向上方差的極值,並且在特徵向量處取得。
主成分分析
主成分分析 pca 分析乙個隨機向量的中的主成分 主成分一般不是隨機向量中的某乙個分量,而是不同分量的線性組合,根據資訊理論的觀點,資訊的多少與方差有關,所以 主成分是方差最大的幾個成分 主成分分析的方法是求隨機向量的協方差矩陣 用樣本協方差矩陣代替 對於差異較大的資料,可採用相關矩陣代替協方差矩陣...
主成分分析
理論要點 1 主成分分析是一種無監督學習,因此不能用交叉驗證來檢驗誤差 2 在處理資料之前,要對資料做中心化處理 3 p太大的話,做特徵分解用svd 4 一共有min n 1,p 個主成分,因為中心化以後,rank要降一維 5 主成分的載荷向量就是協方差矩陣的特徵向量,對應特徵值最大的是第一主成分,...
主成分分析
1.概念 將一組可能存在相關性的隨機變數轉變成互不相關的隨機變數。這個概念裡有三個地方需要理解清楚。1 隨機變數的指代 在資料集中,每乙個樣本,即將資料集理解成乙個 的話,乙個樣本就是一行,則每一列就是乙個特徵,也就是乙個隨機變數,一列的所有取值就是隨機變數的所有可能取值 說的所有可能取值只針對訓練...