pca資料降維
一、pca
相關理論
pca演算法又稱主成分分析,是一種分析、簡化資料集的技術。主成分分析經常用於減少資料集的
維數,同時保持資料集中的對方差貢獻最大的特徵。pca
的數學定義是:乙個
正交化線性變換,把資料變換到乙個新的座標系統中,使得這一資料的任何投影的第一大方差在第乙個座標(稱為第一主成分)上,第二大方差在第二個座標(第二主成分)上,依次類推。
pca不僅僅是對高維資料進行降維,更重要的是經過降維去除了雜訊,發現了資料中的模式。
pca把原先的
n個特徵用數目更少的
m個特徵取代,新特徵是舊特徵的線性組合,這些線性組合最大化樣本方差,盡量使新的
m個特徵互不相關。從舊特徵到新特徵的對映捕獲資料中的固有變異性。
二、pca
演算法實現
對於pca
資料降維演算法一開始經常和
svd奇異分解搞混了,其實這兩個可以說扯不上關係,
svd分解是一種矩陣分解的解法,可以用於求取乙個非方陣矩陣的特徵值和特徵向量。下面先從
pca演算法流程講起:
(1)對於給定的二維資料點集p(x,y),求取這些散亂點的重心座標
(2)把散亂點的重心座標平移到原點,同時構造新資料矩陣:
注意上面每個點,需要寫成列向量的形式,這樣構造的m矩陣是乙個2行,n列的矩陣
(3)構造協方差矩陣,協方差矩陣為:
由於m矩陣是
(4)求解a矩陣的特徵值,特徵向量,那麼特徵值最大對應的特徵向量,為資料點位置方差變化最快的方向,如下圖,直線的方向向量即為a矩陣的最大特徵向量的方向,而a矩陣的另外乙個特徵向量,即為垂直於該直線的方向向量。
(5)設求解出的a矩陣的特徵向量為
即可轉換到特徵空間的投影座標b,也就是相當於轉換到相對以特徵向量為座標軸方向的相對座標系下。
那麼同理,如果要把資料從相對座標系轉換到世界座標系下就要用公式:
這就是pca演算法,資料重建的公式。
(6)資料降維,說的簡單一點就是丟棄掉一些特徵向量,然後進行重建資料,比如所我現在要把上面的二維資料降為1維,那麼我重建資料的公式就要由:
也就是說
當然對於真正的資料,往往不僅僅是2維的,可以有更高維的向量,比如在機器學習領域,對於一張的
機器學習之PCA降維
1.前言 如果學習分類演算法,最好從線性的入手,線性分類器最簡單的就是lda,它可以看做是簡化版的svm,如果想理解svm這種分類器,那理解lda就是很有必要的了。2.線性判別分析 lda 1 lda思想 lda是一種監督學習的降維技術,也就是說它的資料集的每個樣本是有類別輸出的。這點和pca不同。...
資料降維 PCA
模型原型 class sklearn.decomposition.pca n components none,copy true,whiten false 引數 copy 如果為false,則直接使用原始資料來訓練,結果會覆蓋原始資料所在的陣列 whiten 如果為true,則會將特徵向量除以n s...
資料降維PCA 學習筆記
pca降維。基於方差降維,屬於無監督學習。無需資料標籤。使方差 資料離散量 最大,變換後資料分開。更易於分類。可以對隱私資料pca,資料加密。基變換投影 內積 正交的基,兩個向量垂直 內積為0,線性無關 先將基化成各維度下的單位向量。一般把資料寫成列向量的形式,新的基寫成矩陣的形式。基 向量 基要在...