主成分分析:principal component analysis(pca)由卡爾皮爾遜於2023年提出,是一種分析,簡化資料的技術,主要用於降低資料的維數,並且在這個過程中,
保持資料集中的對方差貢獻最大的特徵。
具體操作:首先對資料集的協方差矩陣進行特徵分解,得到資料集的主成分(特徵向量)和相對應的權值(特徵值)。我們要在降低資料維數的過程中,使資料集的資訊丟失盡可能的小,這等價於在原資料集中除掉最小的特徵值所對應的成分,從而對方差的影響盡可能的小。
接下來,閒言少敘,直接上簡明的數學過程:
假設我們有乙個資料集:x1, x2, ………xk, 每乙個樣本為n維的列向量(a,b,c,d,....,n),每一行(維度)都代表了乙個特徵。
現在利用pca的方法使其降低到m個維度。
1. 去中心化
即資料集的每乙個樣本都減去樣本均值,這樣做之後資料每乙個維度的均值都變為了0。
2. 計算去中心化後的資料集的協方差矩陣
3. 計算矩陣c的特徵值以及特徵向量
其中s為對角線矩陣,對角線上所對應的元素為特徵值;v矩陣每一列為對應特徵值的特徵向量。
注意!!!
因為c是對稱矩陣,所以得到的不同的特徵值所對應的特徵向量都是相互正交的。
4. 挑選主導的特徵值,完成資料降維
從n個特徵值中挑選最大的m個,將對應的特徵向量組成矩陣m(n×m維),有
其中原資料集a為n×k矩陣,得到的降低維度後的新資料集a』為m×k矩陣。
總結
從我個人理解來看,pca的本質就是通過計算特徵值來去除多維資料內部相關性的過程。
在實際當中我們面對的資料可以達到成千上萬維,有些資料相關性很高,直接處理他們會產生大量的重複性計算。首先計算協方差,了解資料不同特徵之間的相關性;再通過計算協方差矩陣的特徵值並選取m
1. 2. (一篇關於特徵值分解的部落格)
主成分分析筆記
主成分分析不可用於綜合評價 主成分分析可用於聚類 主成分分析可用於回歸 變數的降維 主成分的解釋 在主成分有意義的情況下 當普通多元線性回歸存在多重共線性問題時 當研究的問題涉及到多變數且變數之間存在很強的相關性時 一 題目有n nn個樣本,p pp個指標,則可構建大小為n p n pn p的樣本矩...
PCA主成分分析學習筆記
dl書上這一節公式很多,相關的符號有點不習慣,借鑑相關部落格 主要是協方差計算和pca具體原理和python實現部分的講解 希望研究例項能更好幫助大家理解公式和計算過程的具體意義 基礎知識回顧 首先是會看到一些熟悉的公式 均值 方差 以下假設我們有二維資料 借用網上常用的資料好驗證結果正確性 第一步...
機器學習筆記 主成分分析
在介紹因子分析時,我們把資料 x rn 建模在 k 維子空間上,k 本文介紹主成分分析方法,即 pca,嘗試找出資料依賴的子空間。但 pca 會做得更直接,只需要用到向量計算,不需要使用 em。設有 m 種不同汽車的屬性資料 如最大速度 轉彎半徑等,其中 x i rn n舉乙個自然點的例子,有無線電...