**維基百科,部分擷取
在多元統計分析中,主成分分析(英語:principal components analysis,pca)是一種分析、簡化資料集的技術。
主成分分析經常用於減少資料集的維數,同時保持資料集中的對方差貢獻最大的特徵。
這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住資料的最重要方面。但是,這也不是一定的,要視具體應用而定。由於主成分分析依賴所給資料,所以資料的準確性對分析結果影響很大。
主成分分析由卡爾·皮爾遜於2023年發明[1]
,用於分析資料及建立數理模型。
其方法主要是通過對協方差矩陣進行特徵分解[2]
,以得出資料的主成分(即特徵向量)與它們的權值(即特徵值
[3])
。pca是最簡單的以特徵量分析多元統計分布的方法。其結果可以理解為對原資料中的
方差做出解釋
:哪乙個方向上的資料值對方差的影響最大
?換而言之,pca提供了一種降低資料
維度的有效辦法;如果分析者在原資料中除掉最小的
特徵值所對應的成分,那麼所得的低維度資料必定是最優化的(也即,這樣降低維度必定是失去訊息最少的方法)。主成分分析在分析複雜資料時尤為有用,比如
人臉識別。
pca是最簡單的以特徵量分析多元統計分布的方法。通常情況下,
這種運算可以被看作是揭露資料的內部結構
,從而更好的解釋資料的變數的方法。如果乙個多元資料集能夠在乙個高維資料空間座標系中被顯現出來,那麼pca就能夠提供一幅比較低維度的影象,這幅影象即為在訊息最多的點上原物件的乙個『投影』。這樣就可以利用少量的主成分使得資料的維度降低了。
pca跟因子分析密切相關,並且已經有很多混合這兩種分析的統計包。而真實要素分析則是假定底層結構,求得微小差異矩陣的特徵向量。
PCA主成分分析原理
一 步驟 1.去除平均值 對特徵中心化處理 2.計算協方差矩陣 3.計算協方差矩陣的特徵值和特徵向量 4.將特徵值排序 5.保留前n個最大的特徵值對應的特徵向量 6.將原始特徵轉換到上面得到的n個特徵向量構建的新空間中 最後兩步,實現了特徵壓縮 二 原理 1 pca的主要思想是將n維特徵對映到k維上...
主成分分析
主成分分析 pca 分析乙個隨機向量的中的主成分 主成分一般不是隨機向量中的某乙個分量,而是不同分量的線性組合,根據資訊理論的觀點,資訊的多少與方差有關,所以 主成分是方差最大的幾個成分 主成分分析的方法是求隨機向量的協方差矩陣 用樣本協方差矩陣代替 對於差異較大的資料,可採用相關矩陣代替協方差矩陣...
主成分分析
理論要點 1 主成分分析是一種無監督學習,因此不能用交叉驗證來檢驗誤差 2 在處理資料之前,要對資料做中心化處理 3 p太大的話,做特徵分解用svd 4 一共有min n 1,p 個主成分,因為中心化以後,rank要降一維 5 主成分的載荷向量就是協方差矩陣的特徵向量,對應特徵值最大的是第一主成分,...