主成分分析 PCA 應用例項 鳶尾花資料集

2022-07-20 02:00:11 字數 983 閱讀 3215

對鳶尾花資料集採用主成分分析方法,使資料降維。

如下圖所示為資料集的格式:

資料集中前4列資料分別代表花萼長度,花萼寬度,花瓣長度,花瓣寬度,最後一列為標籤。共有150條資料。

我們對此資料集利用主成分分析方法,取出資料集的前4列特徵組成矩陣x, 矩陣x的維度為150*4,對其進行轉置後變為4*150.

第二步用x.t*x得到4*4維度的對稱矩陣,我們就可以求這個對稱矩陣的特徵值lambda1,lambda2,lambda3,lambda4和對應的特徵向量u1,u2,u3,u4。特徵值一定是實數,特徵向量之間是相互正交的。每個特徵向量都是4*1的向量。

第三步把特徵值做乙個從大到小的排列,取出前兩個最大的特徵值和對應的特徵向量。如果說lambda1最大,也就是說u1是最主要的方向,是最主要的主成分。次大的特徵值對應的特徵向量是第二主成分,依次往下排列。

假如說u1,u2是排列前2的主成分,那麼就把樣本資料都投影到u1和u2這個方向上,這是只有兩維的資料了,並且u1,u2還是垂直的。可以把他看成新的特徵選擇或組合。效果如下:

由上圖可知,投影後的資料可以很容易的對其進行分類。如下圖所示:

PCA主成分分析處理鳶尾花資料 python

完整 import numpy as np import pandas as pd data pd.read csv c users administrator desktop iris.csv header none data np.array data data data 0 1,2 3 mea...

pca主成分分析 PCA主成分分析(中)

矩陣 matrix,很容易讓人們想到那部著名的科幻電影 駭客帝國 事實上,我們又何嘗不是真的生活在matrix中。機器學習處理的大多數資料,都是以 矩陣 形式儲存的。矩陣是向量的組合,而乙個向量代表一組資料,資料又是多維度的。比如每個人的都具有身高 體重 長相 性情等多個維度的資訊資料,而這些多維度...

主成分分析PCA

主要參考這篇文章 個人總結 pca是一種對取樣資料提取主要成分,從而達到降維的目的。相比於上篇文章介紹到的svd降維不同,svd降維是指減少資料的儲存空間,資料的實際資訊沒有缺少。個人感覺pca更類似與svd的去噪的過程。pca求解過程中,涉及到了svd的使用。針對資料集d 假設di 的維度為 w ...