機器學習(五)PCA資料降維

2021-06-30 16:52:53 字數 1195 閱讀 8691

pca資料降維

一、pca

相關理論

pca演算法又稱主成分分析,是一種分析、簡化資料集的技術。主成分分析經常用於減少資料集的

維數,同時保持資料集中的對方差貢獻最大的特徵。pca

的數學定義是:乙個

正交化線性變換,把資料變換到乙個新的座標系統中,使得這一資料的任何投影的第一大方差在第乙個座標(稱為第一主成分)上,第二大方差在第二個座標(第二主成分)上,依次類推。

pca不僅僅是對高維資料進行降維,更重要的是經過降維去除了雜訊,發現了資料中的模式。

pca把原先的

n個特徵用數目更少的

m個特徵取代,新特徵是舊特徵的線性組合,這些線性組合最大化樣本方差,盡量使新的

m個特徵互不相關。從舊特徵到新特徵的對映捕獲資料中的固有變異性。

二、pca

演算法實現

對於pca

資料降維演算法一開始經常和

svd奇異分解搞混了,其實這兩個可以說扯不上關係,

svd分解是一種矩陣分解的解法,可以用於求取乙個非方陣矩陣的特徵值和特徵向量。下面先從

pca演算法流程講起:

(1)對於給定的二維資料點集p(x,y),求取這些散亂點的重心座標

(2)把散亂點的重心座標平移到原點,同時構造新資料矩陣:

注意上面每個點,需要寫成列向量的形式,這樣構造的m矩陣是乙個2行,n列的矩陣

(3)構造協方差矩陣,協方差矩陣為:

由於m矩陣是

(4)求解a矩陣的特徵值,特徵向量,那麼特徵值最大對應的特徵向量,為資料點位置方差變化最快的方向,如下圖,直線的方向向量即為a矩陣的最大特徵向量的方向,而a矩陣的另外乙個特徵向量,即為垂直於該直線的方向向量。

(5)設求解出的a矩陣的特徵向量為

即可轉換到特徵空間的投影座標b,也就是相當於轉換到相對以特徵向量為座標軸方向的相對座標系下。

那麼同理,如果要把資料從相對座標系轉換到世界座標系下就要用公式:

這就是pca演算法,資料重建的公式。

(6)資料降維,說的簡單一點就是丟棄掉一些特徵向量,然後進行重建資料,比如所我現在要把上面的二維資料降為1維,那麼我重建資料的公式就要由:

也就是說

當然對於真正的資料,往往不僅僅是2維的,可以有更高維的向量,比如在機器學習領域,對於一張的

機器學習之PCA降維

1.前言 如果學習分類演算法,最好從線性的入手,線性分類器最簡單的就是lda,它可以看做是簡化版的svm,如果想理解svm這種分類器,那理解lda就是很有必要的了。2.線性判別分析 lda 1 lda思想 lda是一種監督學習的降維技術,也就是說它的資料集的每個樣本是有類別輸出的。這點和pca不同。...

資料降維 PCA

模型原型 class sklearn.decomposition.pca n components none,copy true,whiten false 引數 copy 如果為false,則直接使用原始資料來訓練,結果會覆蓋原始資料所在的陣列 whiten 如果為true,則會將特徵向量除以n s...

資料降維PCA 學習筆記

pca降維。基於方差降維,屬於無監督學習。無需資料標籤。使方差 資料離散量 最大,變換後資料分開。更易於分類。可以對隱私資料pca,資料加密。基變換投影 內積 正交的基,兩個向量垂直 內積為0,線性無關 先將基化成各維度下的單位向量。一般把資料寫成列向量的形式,新的基寫成矩陣的形式。基 向量 基要在...