主成分分析

2021-06-28 06:50:20 字數 495 閱讀 7126

主成分分析(pca):分析乙個隨機向量的中的主成分(主成分一般不是隨機向量中的某乙個分量,而是不同分量的線性組合,根據資訊理論的觀點,

資訊的多少與方差有關, 所以 主成分是方差最大的幾個成分)。

主成分分析的方法是求隨機向量的協方差矩陣(用樣本協方差矩陣代替)(對於差異較大的資料,可採用相關矩陣代替協方差矩陣),樣本協方差矩陣是乙個非負定矩陣,計算矩陣的特徵值和對應的單位特徵向量。則,特徵值最大的幾個特徵向量與各分量的乘積就是主分量。(一般主分量要取到能代表所有資訊的80%以上)   

進行主成分分析前要進行整體相關性檢驗(如kmo檢驗)

計算主成分分析的協方差矩陣或相關矩陣時,若向量維數過大可採用奇異值分解。

注:主成分分析是基於方差最大排序的,所以pca只是找出一種組合使方差最大,得到的結果不一定能反應資料的主成分。

注:用主成分分析的結果進行分類,聚類,回歸與逐步分類,逐步聚類,逐步回歸的區別是:逐步計算最後個分量的係數是0或1,而pca的係數則是[0,1]之間連續的。

主成分分析

理論要點 1 主成分分析是一種無監督學習,因此不能用交叉驗證來檢驗誤差 2 在處理資料之前,要對資料做中心化處理 3 p太大的話,做特徵分解用svd 4 一共有min n 1,p 個主成分,因為中心化以後,rank要降一維 5 主成分的載荷向量就是協方差矩陣的特徵向量,對應特徵值最大的是第一主成分,...

主成分分析

1.概念 將一組可能存在相關性的隨機變數轉變成互不相關的隨機變數。這個概念裡有三個地方需要理解清楚。1 隨機變數的指代 在資料集中,每乙個樣本,即將資料集理解成乙個 的話,乙個樣本就是一行,則每一列就是乙個特徵,也就是乙個隨機變數,一列的所有取值就是隨機變數的所有可能取值 說的所有可能取值只針對訓練...

主成分分析

一。概述 定義 高維資料轉化成低維資料的過程,在此過程中可能會捨棄原有資料。創造新的變數。作用 是資料維數壓縮,盡可能降低原資料的維數 複雜度 缺失少量資訊。應用 回歸分析或者聚類分析 pca降維 1.例項化乙個轉化器類 data 1,3,4,4 2,2,4,5 2,3,4,5 transfor p...