深入理解PCA

2021-06-19 01:38:43 字數 3590 閱讀 6312

了解一些pca的都知道,裡面使用了協方差矩陣的特徵分解.先介紹一些協方差與統計相關性,接著再引入具體的pca方法.

方差:

在概率論和統計學中,乙個隨機變數的方差描述的是它的離散程度,也就是該變數離其期望值的距離。乙個實隨機變數的方差也稱為它的二階矩或二階中心動差,恰巧也是它的二階累積量。

某個變數的反差越大,不確定度越大,就資訊理論而言,其包含的資訊越大.

協方差:

協方差(covariance)在概率論統計學中用於衡量兩個變數的總體誤差。

期望值分別為

乙個線性相關性度量指標:皮爾森相關係數,與協方差有很大關係(為其分子).

而皮爾森相關係數,又是自身標準化後的余弦距離

(具體可見另一篇blog:

回憶一下餘弦定理:

也就是兩個向量的夾角,夾角越大,方向相差越大,線性相關性越小.平行向量的夾角為0或180.

簡單得做如下歸納,有不對的地方望指正:

協方差->皮爾森相關係數->余弦夾角.

簡單用余弦夾角來解釋協方差,就是說,協方差表徵了兩個向量的線性相關性.

如果兩個變數線性相關,他們的夾角為0,余弦係數與協方差係數都為1,乙個變數可以由另乙個變數完全表示.用資訊理論的說法,就是其中乙個的資訊量為0,即冗餘資訊.

如果他們線性相關性很低,也就是夾角很大,協方差為0,兩者沒有相似資訊,也就很少冗餘資訊.

具體到實踐中,我們希望樣本的每一維都是有用資訊,都與其他維線性無關,也就少了冗餘資訊,也就是兩兩的協方差為0;那麼就要用到下面的協方差矩陣.

協方差矩陣

在統計學概率論中,協方差矩陣是乙個矩陣,其每個元素是各個向量元素之間的協方差。

假設x是以n個隨機變數組成的列向量

並且ui是其第i個元素的期望值,即

上面需要注意的是

協方差矩陣中的每乙個元素是表示的隨機向量x的不同分量之間的協方差,而不是不同樣本之間的協方差,如元素(i,j)就是反映的隨機變數xi,xj的協方差。

(這點在剛學習pca的時候容易弄混了,以為是樣本之間的協方差,其實是每一維之間的協方差)

協方差矩陣的對角元素是變數x自身的方差.

根據我們上面關於協方差,方差的知識,我們可以得出如下結論:

如果兩個元素xi,xj的協方差項(i,j)=0,那麼這兩個變數線性無關.

如果對角元素(ii)為所有對角元素最大,那麼對應的變數xi所蘊含的資訊最大.

那麼,如果n個變數矩陣的協方差矩陣為對角矩陣,那麼其所有變數兩兩間線性無關(沒有冗餘資訊);並且,對角元素最大項的資訊量最大.

ok,利用上面的知識,我們開始討論pca.

pca的n個隨機變數構成的的矩陣如下:

(注意,這裡的n表示維數,不是樣本數);

直觀的目標:

我們想要尋找乙個線性變換,使得變換後變數兩兩線性無關,能量集中到較少的幾個變數中,並且按照大小重新排列.,變換後,我們可以相應地捨去後面幾個能量小的分量,達到降維的目的.

(關於pca的其他直觀的目標,我們再後面討論)

上面的目標,我們用協方差矩陣來表徵,就是尋找乙個線性變換,使得其協方差矩陣為對角陣.

現在問題變為,如何尋找乙個線性變換,使得投影後的協方差矩陣為對角陣.

關於線性變換與特徵向量的進一步知識,可參考另一篇相關日誌(

回憶矩陣的對角化方法,

求出其所有特徵向量,組成線性變換矩陣即可.

對角化協方差矩陣,用到協方差矩陣e的特徵向量矩陣,記為p.我們再用這個p變換x,得到y

則有

在簡單歸納上面推導:變換p使得協方差矩陣變為對角,也使得原矩陣x變換為y後,y的新協方差矩陣是對角陣

進一步的,我們通過構造p的特徵向量的順序,使得特徵值大的排在前面.通過這種方法變換後,能量大的變數總在最前面.

當我們降維時,直接去掉排在後面的特徵向量,生成低維的p即可.

1.      斯坦福公開課上的理解:

上圖我們可以看出,二維樣本在u1方向上的方差最大(也就是能量最大,資訊量最大),u2方向上的能量最少;

通過線性變換,我們可以用正交的u1,u2來重建座標系,從而使方差集中在第乙個分量上(u1方向)

如果要從二維降到一維,很明顯的,投影到u1方向能夠保留最多的資訊,我們可捨去u2上的分量.

如下圖,下面五個點要從二維投影到一維,選擇兩個不同的方向,得到不同的方差.依據我們上面闡述的方差與資訊量的關係,第乙個投影後更分散,也就是方差更大,也就是pca的投影.

於是,這裡的pca直觀理解歸納為:最大散度方向(方差)投影

2.      某篇文獻上的理解:

三颱攝像機記錄彈簧小球的運動.三颱相機為三個維度,並且這三個維度不是正交的.

我們以這三颱相機的方向建立x1,x2,x3三個座標軸,然後得到三維的資料.

依照物理學的知識我們知道,這個小球的運動用乙個維度x就能記錄.但是現在我們用了三個維度的相機.有許多雜訊以及重複的,無用的資訊在裡面.

再次根據物理知識,小球在其原來的方向上,方差應該是最大的(資訊量最大).極端的,假設乙個相機沿著x軸,那麼小球是靜止的.

我們首先通過座標變換,得到相互正交的三個方法(其中有乙個是x),再選擇方差最大的那個,降到一維,就得到了x軸,也就是pca的效果.

這裡的pca概括為:資訊的主方向投影去噪.

如下面這幅圖:

如果我們想對這兩塊資料分類,那麼1方向應該是最好的方向;但是pca會選擇2方向.

也就是pca不具有鑑別特性.

針對pca的非鑑別特性,相應地有lda等,這裡不再贅述.

PCA降維深入理解

網上資料非常多,大部分都是講先求協方差,協方差怎麼求的,但是沒有講為什麼要求協方差,為什麼要選特徵值最大的特徵,特徵值最大到底代表了什麼含義。簡單回憶 計算協方差到底是選行還是選列呢,記住協方差矩陣是計算不同維度間的協方差,不是兩個樣本間的,所以我們求協方差的目的就是計算不同緯度之間的相關性,並選出...

深入理解C語言 深入理解指標

關於指標,其是c語言的重點,c語言學的好壞,其實就是指標學的好壞。其實指標並不複雜,學習指標,要正確的理解指標。指標也是一種變數,占有記憶體空間,用來儲存記憶體位址 指標就是告訴編譯器,開闢4個位元組的儲存空間 32位系統 無論是幾級指標都是一樣的 p操作記憶體 在指標宣告時,號表示所宣告的變數為指...

mysql 索引深入理解 深入理解MySql的索引

為什麼索引能提高查詢速度 先從 mysql的基本儲存結構說起 mysql的基本儲存結構是頁 記錄都存在頁裡邊 各個資料頁可以組成乙個雙向鍊錶每個資料頁中的記錄又可以組成乙個單向鍊錶 每個資料頁都會為儲存在它裡邊兒的記錄生成乙個頁目錄,在通過主鍵查詢某條記錄的時候可以在頁目錄中使用二分法快速定位到對應...