pca(principal components analysis),是一種降維和去除相關性的方法,它通過方差來評價特徵的價值,認為方差大的特徵包含資訊多,應予以保留。
首先對每一維特徵0均值處理,求得特徵的協方差矩陣a,那麼
在分析方差時,所以通過協方差矩陣特徵值大小來看方差大小。所以將協方差矩陣相似對角化,協方差矩陣相似也就是對樣本空間進行座標變換。特徵值就是變換後空間中特徵的方差,因為變換後協方差矩陣變成對角形式,所以去除了相關性。
這樣我們可以對特徵值從大到下排序,選擇前k個,然後把後面小的特徵值設定為0,相應的特徵向量也就是0了,我們得到變換後的資料
這樣通過座標變換和挑選特徵值就實現了去相關和降維。
白化是將pca去相關之後將每一特徵的方差歸一化到1,也就是吧變換後的特徵都除以各自的標準差,
當然如果在這過程中還想實現降維效果,可以設定保留方差的比例,如93%,篩除特徵值即可。
PCA數學原理及程式設計實現
一.乙個場景 已知一家超市,銷售a,b,c,d四種產品,現對每種產品的一周之內每天的銷售情況記錄如下 a b c d 周一 2 0 8 9 周二 4 0 11 13 週三 3 1 10 12 周四 2 3 11 10 周五 1 0 12 9 週六10 11 1 2 週日11 12 2 1 我們將a,...
PCA的數學原理
pca的數學原理 pca principal component analysis 是一種常用的資料分析方法。pca通過線性變換將原始資料變換為一組各維度線性無關的表示,可用於提取資料的主要特徵分量,常用於高維資料的降維。網上關於pca的文章有很多,但是大多數只描述了pca的分析過程,而沒有講述其中...
PCA的個人理解
接觸pca很久很久,pca可以說是每個機器學習愛好者的都會很快接觸到的降維演算法,經過這幾年對pca有了更深入的理解 pca是什麼?英文名稱 principal components analysis,顧名思義,用於分析資料中的主要成分,同時捨棄 忽略 不重要的成分,實現資訊的提取和精煉,降低資料的...