pca降維的基本思想 大資料培訓 PCA降維

2021-10-12 20:24:40 字數 1073 閱讀 8023

pca(principal component analysis,主成分分析)

在高維向量空間中,隨著維度的增加,資料呈現出越來越稀疏的分布特點,增加後續演算法的複雜度,而很多時候雖然資料維度較高,但是很多維度之間存在相關性,他們表達的資訊有重疊。

pca的思想是將n維特徵對映到k維上(k這k維特徵稱為主成分,是重新構造出來的k維特徵,而不是簡單地從n維特徵中去除其餘n-k維特徵(這也是與特徵選擇特徵子集的方法的區別)。

pca的目的是在高維資料中找到最大方差的方向,接著對映它到比最初維數小或相等的新的子空間。

pca演算法流程

輸入:訓練樣本集 d=x(1),x(2),...,x(m)d=x(1),x(2),...,x(m) ,低維空間維數 d′d′ ;

過程:.

1:對所有樣本進行中心化(去均值操作): x(i)j←x(i)j?1m∑mi=1x(i)jxj(i)←xj(i)?1m∑i=1mxj(i) ;

2:計算樣本的協方差矩陣 xxtxxt ;

3:對協方差矩陣 xxtxxt 做特徵值分解 ;

4:取最大的 d′d′ 個特徵值所對應的特徵向量 w1,w2,...,wd′w1,w2,...,wd′

5:將原樣本矩陣與投影矩陣相乘: x?wx?w 即為降維後資料集 x′x′ 。其中 xx 為 m×nm×n 維, w=[w1,w2,...,wd′]w=[w1,w2,...,wd′] 為 n×d′n×d′ 維。

6:輸出:降維後的資料集 x′

pca演算法分析

優點:使得資料更易使用,並且可以去除資料中的雜訊,使得其他機器學習任務更加精確。該演算法往往作為預處理步驟,在資料應用到其他演算法之前清洗資料。

缺點:資料維度降低並不代表特徵的減少,因為降維仍舊保留了較大的資訊量,對結果過擬合問題並沒有幫助。不能將降維演算法當做解決過擬合問題方法。如果原始資料特徵維度並不是很大,也並不需要進行降維。

pca降維的基本思想 PCA降維以及維數的確定

概述 pca principal components analysis 即主成分分析技術,又稱為主分量分析,旨在利用降維的思想,把多個指標轉換為少數的幾個綜合指標。主成分分析是一種簡化資料集的技術,它是乙個線性變換。這個線性變化把資料變換到乙個新的座標系統中,使得任何資料投影的第一大方差在第乙個座...

pca降維的基本思想 你還知道哪些降維方法?

當然pca是眾所周知的降維方法,svd也是一種,除此之外,還有如lda lle以及le。1 pca pca也就是主成份分析,principal component analysis pca 是現如今最流行的無監督線性降維方法之一了,其主要思想是資料經過某種投影,或者說乘以乙個矩陣之後,得到的新的矩陣...

基於PCA模型的資料降維 複習13

本文是個人學習筆記,內容主要基於pca降維模型對手寫體資料影象集進行降維,把原始64維度的數字影象壓縮對映到二維空間,實驗結果表明絕大多數數字之間仍然具有區分性。在資料表現方面,無法用肉眼觀測超過三個維度的特徵。對於資料維度非常高的資料樣本,通過無監督學習可以對資料進行降維,保留最具有區分性的低維度...