主成分分析

2021-09-10 01:31:29 字數 1458 閱讀 9304

1.概念

將一組可能存在相關性的隨機變數轉變成互不相關的隨機變數。

這個概念裡有三個地方需要理解清楚。

(1)隨機變數的指代

在資料集中,每乙個樣本,即將資料集理解成乙個**的話,乙個樣本就是一行,則每一列就是乙個特徵,也就是乙個隨機變數,一列的所有取值就是隨機變數的所有可能取值(說的所有可能取值只針對訓練集,並不是實際生活中所有可能的取值)。

(2)相關性的意義

(3)轉化為互不相關的變數組的意義

在用統計分析方法研究多變數的課題時,變數個數太多就會增加課題的複雜性。人們自然希望變數個數較少而得到的資訊較多。所以簡單來說這個轉化是為了特徵降維而存在。

2.方法

(1)什麼是主成分

轉化後的互不相關的向量組成為主成分。

(2)協方差矩陣的意義

協方差是用來衡量變數相關性的工具。

協方差矩陣的求法:

當特徵的取值範圍相近,量綱一樣時,可以直接對兩個變數求協方差。當兩個特徵的量綱不一致時,需要經過標準化(歸一化)。即xi = (xi-mean)/方差。資料標準化後計算的協方差矩陣即 相關係數矩陣。需要注意的是,協方差矩陣對角線元素就是此時兩個變數的方差。

當一組資料有n個特徵時,則這組資料的協方差矩陣為n*n,協方差矩陣始終是方陣。

(3)正交變換

正交變換是主成分分析的思想核心。它的作用在幾何圖形上可看做是不改變原始變數形狀和大小的前提下,進行座標旋轉 。所謂的正交變換,實際上就是座標旋轉,通過逆時針旋轉135度,使得第一主成分的方差達到最大,因此這種方法叫 方差最大化旋轉。通過方差最大化旋轉使得主成分按照方差由大到小的順序排列,選擇方差較大的前幾個主成分,剔除方差較小的主成分,以達到削減變數的目的,即降維 。若需完全理解主成分分析,還需深入學習和理解線性代數的基本知識。

(4)步驟

1)求相關係數矩陣。

即先標準化,再求協方差矩陣。

2)求協方差矩陣的特徵值和對應的特徵向量。

假設特徵值為(a1,a2,...,an),對應的特徵向量為(a1,a2,...,an)

3)將特徵值按照從大到小的順序排序,選擇其中最大的k個,然後將其對應的k個特徵向量分別作為列向量組成特徵向量矩陣。

3)將正交矩陣a右乘原始資料標準化後的data_scale的過程稱為正交變換 。

4)正交矩陣a右乘原始資料data_raw產生的兩個新變數,稱為 主成分 ,主成分資料集我們用data_new資料集表示。至此我們從原始資料 data_raw 通過正交變換產生了新的資料集 data_new 。

4)將樣本點投影到選取的特徵向量上。假設樣例數為m,特徵數為n,減去均值後的樣本矩陣為dataadjust(m*n),協方差矩陣是n*n,選取的k個特徵向量組成的矩陣為eigenvectors(n*k)。那麼投影後的資料finaldata為

finaldata(10*1) = dataadjust(10*2矩陣) x 特徵向量(-0.677873399, -0.735178656)t

然後就算完成降維了。

主成分分析

主成分分析 pca 分析乙個隨機向量的中的主成分 主成分一般不是隨機向量中的某乙個分量,而是不同分量的線性組合,根據資訊理論的觀點,資訊的多少與方差有關,所以 主成分是方差最大的幾個成分 主成分分析的方法是求隨機向量的協方差矩陣 用樣本協方差矩陣代替 對於差異較大的資料,可採用相關矩陣代替協方差矩陣...

主成分分析

理論要點 1 主成分分析是一種無監督學習,因此不能用交叉驗證來檢驗誤差 2 在處理資料之前,要對資料做中心化處理 3 p太大的話,做特徵分解用svd 4 一共有min n 1,p 個主成分,因為中心化以後,rank要降一維 5 主成分的載荷向量就是協方差矩陣的特徵向量,對應特徵值最大的是第一主成分,...

主成分分析

一。概述 定義 高維資料轉化成低維資料的過程,在此過程中可能會捨棄原有資料。創造新的變數。作用 是資料維數壓縮,盡可能降低原資料的維數 複雜度 缺失少量資訊。應用 回歸分析或者聚類分析 pca降維 1.例項化乙個轉化器類 data 1,3,4,4 2,2,4,5 2,3,4,5 transfor p...