通過PCA選擇合適降維維度

2021-10-23 06:58:02 字數 1363 閱讀 2791

pca的作用有:降低特徵值維度,提高了計算效率,但丟失了資訊。資訊在pca中我們用方差來表示。

一、pca引數、屬性簡介

1.介紹pca方法中引數:

n_components:

預設值為保留所有特徵值維度,即不進行主成分降維

取大於等於1的整數時,即指定我們希望降維後的維數;

取0-1的浮點數時,即指定降維後的方差和佔比,比例越大,保留的資訊越多。系統會自行計算保留的維度個數

2.介紹pca中的屬性:

components_:降維後,保留的成分。每一行代表乙個主成分,各成分按方差大小排序。

explained_variance_:降維後 ,各成分的方差

explained_variance_ratio_:降維後,各成分的方差佔比

二、觀察 在保留不同的維度個數時的方差和

橫座標:表示保留的維度個數

縱座標:降維後的所有成分的方差和

通過下圖,我們可以發現隨著降維個數的增加,方差和佔比是先快速增長,然後就平穩增長了。

當降維後的維度個數為20時,所有成分的方差和為90%,即約10%的資訊被丟失了。

下面顯示上圖的繪製**:

if __name__ == '__main__':

#獲得資料,x為特徵值,y為標記值

digits=datasets.load_digits()

x=digits.data

y=digits.target

pca=pca( )

#pca=pca(n_components=0.9)

pca.fit(x,y)

ratio=pca.explained_variance_ratio_

print("pca.components_",pca.components_.shape)

print("pca_var_ratio",pca.explained_variance_ratio_.shape)

#繪製圖形

plt.plot([i for i in range(x.shape[1])],

[np.sum(ratio[:i+1]) for i in range(x.shape[1])])

plt.xticks(np.arange(x.shape[1],step=5))

plt.yticks(np.arange(0,1.01,0.05))

plt.grid()

plt.show()

三、觀察驗證結果的正確性

將上文中的**

pca=pca( )替換為pca=pca(n_components=0.9)

觀察列印結果:由64維降維至21維

PCA降維演算法

文章由兩部分構成,第一部分主要講解pca演算法的步驟,第二部分講解pca演算法的原理。那麼首先進入第一部分 pca演算法的步驟 樣本矩陣x的構成 假設待觀察變數有m個,其實相當於乙個資料在m維各維度上的座標,我們的目標是在保證比較資料之間相似性不失真的前提下,將描述資料的維度盡量減小至l維 l樣本矩...

PCA降維原理

在之前的介紹中,一幅影象只能表示乙個物件。那麼對於w x h的灰度影象,只能表示為w x h位的向量,那麼乙個有100 100的影象就需要10000維的向量空間。對於一幅人臉而言,是否所有維的資料都是有用的呢?在矩陣論當中我們知道,矩陣可以近似的表示為乙個特徵值與特徵向量的乘積。根據這個原理,如果我...

資料降維 PCA

模型原型 class sklearn.decomposition.pca n components none,copy true,whiten false 引數 copy 如果為false,則直接使用原始資料來訓練,結果會覆蓋原始資料所在的陣列 whiten 如果為true,則會將特徵向量除以n s...