主成分分析(PCA)原理及過程

2021-10-08 05:05:10 字數 443 閱讀 1302

在機器學習中,對於資料維度過多問題,提出了一種降維演算法叫做pca演算法。具體的降維:例如評估乙個國家的gdp水平,需要考量到人口、收入、人均工資等等成千上萬個因素。這每乙個因素,我們叫做乙個feature。如果feature過多,對於我們編寫機器學習演算法會有很大影響。而feature過多就是我們所說的維度災難,為了解決這一問題,就提出了眾多的降維演算法,而今天所說的pca只是其中一種。降維就是將原本過多的feature,對映到數量更少的feature組成的空間。當然了,對映也是隨意對映就可以。需要按照一定的方法來進行資料的降維,下面就是pca的主要過程:

在說演算法流程之前需要知道協方差的概念,cov(x,y)表示的意思就是x和y的相關性,可以想象當cov(x,y)為0時,就表示這兩個x,y之間不相關,對於我們的降維來說就是這兩個維度要留下。

其次是樣本的方差概念,方差表示的是維度的差異性大小,對於降維來說要選取差異大的,也就是方差大的。

PCA主成分分析原理

一 步驟 1.去除平均值 對特徵中心化處理 2.計算協方差矩陣 3.計算協方差矩陣的特徵值和特徵向量 4.將特徵值排序 5.保留前n個最大的特徵值對應的特徵向量 6.將原始特徵轉換到上面得到的n個特徵向量構建的新空間中 最後兩步,實現了特徵壓縮 二 原理 1 pca的主要思想是將n維特徵對映到k維上...

pca主成分分析 PCA主成分分析(中)

矩陣 matrix,很容易讓人們想到那部著名的科幻電影 駭客帝國 事實上,我們又何嘗不是真的生活在matrix中。機器學習處理的大多數資料,都是以 矩陣 形式儲存的。矩陣是向量的組合,而乙個向量代表一組資料,資料又是多維度的。比如每個人的都具有身高 體重 長相 性情等多個維度的資訊資料,而這些多維度...

主成分分析PCA

主要參考這篇文章 個人總結 pca是一種對取樣資料提取主要成分,從而達到降維的目的。相比於上篇文章介紹到的svd降維不同,svd降維是指減少資料的儲存空間,資料的實際資訊沒有缺少。個人感覺pca更類似與svd的去噪的過程。pca求解過程中,涉及到了svd的使用。針對資料集d 假設di 的維度為 w ...