網上資料非常多,大部分都是講先求協方差,協方差怎麼求的,但是沒有講為什麼要求協方差,為什麼要選特徵值最大的特徵,特徵值最大到底代表了什麼含義。
簡單回憶:
計算協方差到底是選行還是選列呢,記住協方差矩陣是計算不同維度間的協方差,不是兩個樣本間的,所以我們求協方差的目的就是計算不同緯度之間的相關性,並選出特徵值最大的前多少個緯度,把特徵值小的緯度去掉,起到乙個降維的作用
pca定義:
假設剛開始有一堆如下所示的資料
這堆資料的協方差矩陣就是乙個單位矩陣
如果我們想把這樣一堆資料變成如下所示,此時協方差矩陣已經變成
從另乙個角度來看n個特徵向量就是n個標準正交基,而特徵值的模則代表矩陣在每個基上的投影長度。特徵值越大,說明矩陣在對應的特徵向量上的方差越大,功率越大,資訊量越多。
最大特徵值對應的特徵向量,總是指向資料最大方差的方向,並由此確定其方位。次特徵向量總是正交於最大特徵向量
深入理解PCA
了解一些pca的都知道,裡面使用了協方差矩陣的特徵分解.先介紹一些協方差與統計相關性,接著再引入具體的pca方法.方差 在概率論和統計學中,乙個隨機變數的方差描述的是它的離散程度,也就是該變數離其期望值的距離。乙個實隨機變數的方差也稱為它的二階矩或二階中心動差,恰巧也是它的二階累積量。某個變數的反差...
對PCA降維的理解
這幾天要參加數學建模了,突然想起在建模中可能會遇到從大量的特徵指標中選出關鍵特徵的這個工作,有可能會用到pca降維的知識,所以在比賽前又對這個知識點做一番整理。這篇部落格的首要目的是說明pca的降維原理。示例方面的話在之後有時間就進行補充。我的敘述會以以下順序進行。1.向量空間 2.線性對映 3.減...
PCA降維演算法
文章由兩部分構成,第一部分主要講解pca演算法的步驟,第二部分講解pca演算法的原理。那麼首先進入第一部分 pca演算法的步驟 樣本矩陣x的構成 假設待觀察變數有m個,其實相當於乙個資料在m維各維度上的座標,我們的目標是在保證比較資料之間相似性不失真的前提下,將描述資料的維度盡量減小至l維 l樣本矩...