完整**:
import numpy as np
import pandas as pd
data = pd.read_csv(
"c:\\users\\administrator\\desktop\\iris.csv"
,header=
none
)#data=np.array(data)
data=data[[0
,1,2
,3]]
mean_data=np.mean(data,axis=0)
meanremoved = data - mean_data #去中心
covdata = np.cov(meanremoved, rowvar=0)
#求協方差矩陣
ei**als,ei**ets=np.linalg.eig(np.mat(covdata)
)#求解特徵值和特徵矩陣
ei**alind = np.argsort(ei**als)
#排序ei**alind = ei**alind[:-
(3+1
):-1
]#保留最大的前2個特徵值
redei**ects = ei**ets[
:,ei**alind]
#獲得對應的特徵向量
lowddata = np.mat(meanremoved)
* redei**ects #獲得獲得降維後的特徵
print
("原資料集"
,meanremoved)
print
("降維後的資料集"
,lowddata)
print
("累計方差貢獻率為95%"
)tot=
sum(ei**als)
varexp=
[(redei**ects/tot)*95
for redei**ects in
sorted
(ei**als,reverse=
true)]
print
(varexp)
cum_var_exp=np.cumsum(varexp)
print
(cum_var_exp)
主成分分析 PCA 應用例項 鳶尾花資料集
對鳶尾花資料集採用主成分分析方法,使資料降維。如下圖所示為資料集的格式 資料集中前4列資料分別代表花萼長度,花萼寬度,花瓣長度,花瓣寬度,最後一列為標籤。共有150條資料。我們對此資料集利用主成分分析方法,取出資料集的前4列特徵組成矩陣x,矩陣x的維度為150 4,對其進行轉置後變為4 150.第二...
pca主成分分析 PCA主成分分析(中)
矩陣 matrix,很容易讓人們想到那部著名的科幻電影 駭客帝國 事實上,我們又何嘗不是真的生活在matrix中。機器學習處理的大多數資料,都是以 矩陣 形式儲存的。矩陣是向量的組合,而乙個向量代表一組資料,資料又是多維度的。比如每個人的都具有身高 體重 長相 性情等多個維度的資訊資料,而這些多維度...
主成分分析PCA
主要參考這篇文章 個人總結 pca是一種對取樣資料提取主要成分,從而達到降維的目的。相比於上篇文章介紹到的svd降維不同,svd降維是指減少資料的儲存空間,資料的實際資訊沒有缺少。個人感覺pca更類似與svd的去噪的過程。pca求解過程中,涉及到了svd的使用。針對資料集d 假設di 的維度為 w ...