python 實現主成分分析
主成分分析(principal component analysis,pca)是最常用的一種降維方法,通常用於高維資料集的探索與視覺化,還可以用作資料壓縮和預處理等。
矩陣的主成分就是其協方差矩陣對應的特徵向量,按照對應的特徵值大小進行排序,最大的特徵值就是第一主成分,其次是第二主成分,以此類推。
上**:
#把降維後的資料聚類、視覺化,來看降維的效果:-*- coding:utf-8 -*-
import
sysimport
matplotlib.pyplot as plt
from sklearn.decomposition import
pcafrom sklearn.datasets import
load_iris
reload(sys)
sys.setdefaultencoding(
"utf8")
#載入資料
data =load_iris()
y =data.target
x =data.data
#載入pca演算法,設定降維後主成分數目為2
pca = pca(n_components=2)
#對樣本進行降維
reduced_x =pca.fit_transform(x)
red_x, red_y =,
blue_x, blue_y =,
green_x, green_y =,
for i in
range(len(reduced_x)):
if y[i] ==0:
elif y[i] == 1:
else:#
視覺化plt.scatter(red_x, red_y, c='
r', marker='x'
)plt.scatter(blue_x, blue_y, c='
b', marker='d'
)plt.scatter(green_x, green_y, c='
g', marker='.'
)plt.show()
python實現主成分分析(PCA)
前言 主成分分析主要是用於降維,減少樣本的特徵量,其核心思想是將樣本資料對映到最重要的方向,而最重要的方向就是方差最大的方向。關於主成分分析詳細的理論知識,請至我的這篇博文中檢視 一 pca的簡單實現示例 import numpy as np import matplotlib.pyplot as ...
主成分分析
主成分分析 pca 分析乙個隨機向量的中的主成分 主成分一般不是隨機向量中的某乙個分量,而是不同分量的線性組合,根據資訊理論的觀點,資訊的多少與方差有關,所以 主成分是方差最大的幾個成分 主成分分析的方法是求隨機向量的協方差矩陣 用樣本協方差矩陣代替 對於差異較大的資料,可採用相關矩陣代替協方差矩陣...
主成分分析
理論要點 1 主成分分析是一種無監督學習,因此不能用交叉驗證來檢驗誤差 2 在處理資料之前,要對資料做中心化處理 3 p太大的話,做特徵分解用svd 4 一共有min n 1,p 個主成分,因為中心化以後,rank要降一維 5 主成分的載荷向量就是協方差矩陣的特徵向量,對應特徵值最大的是第一主成分,...