一、數學基礎
1.方差:用來計算每乙個變數(觀察值)與總體均數之間的差異。
總體方差計算公式:
為總體方差, 為變數, 為總體均值, 為總體例數。
)2.協方差:
在概率論
和統計學中,協方差用於衡量兩個變數的總體誤差。而方差是
協方差的一種特殊情況,即當兩個變數是相同的情況。
期望值分別為
e[ x]與
e[ y]的兩個實隨機變數
x與 y之間的
協方差cov(x,y)定義為:
從直觀上來看,協方差表示的是兩個變數總體誤差的期望。
3.正交化:正交化是指將線性無關向量系轉化為正交系的過程。
4.協方差矩陣:
設 為n維隨機變數,稱矩陣
例如,二維隨機變數
的協方差矩陣為
其中
由於 ,所以協方差矩陣為對稱非負定矩陣
5.協方差矩陣的特徵值及其特徵向量
設 a 是n階方陣,如果存在數m和非零n維列向量 x,使得 ax=mx 成立,則稱 m 是a的乙個特徵值(characteristic value)或本徵值(eigenvalue)。非零n維列向量x稱為矩陣a的屬於(對應於)特徵值m的特徵向量或本徵向量,簡稱a的特徵向量或a的本徵向量。
設 a為n階矩陣,若存在
常數λ及n維
非零向量x,使得
ax=λx,則稱λ是矩陣
a的特徵值,x是
a屬於特徵值λ的
特徵向量。
a的所有特徵值的全體,叫做a的譜,記為
.matlab中利用eig函式求解特徵值和特徵向量
matlab中的eig函式參考
二、主成分分析法
1.簡介
主成分分析法是一種數學變換的方法, 它把給定的一組相關變數通過線性變換轉成另一組不相關的變數,這些新的變數按照方差依次遞減的順序排列。在數學變換中保持變數的總
方差不變,使第一變數具有最大的方差,稱為第一主成分,第二變數的方差次大,並且和第一變數不相關,稱為第二主成分。依次類推,i個變數就有i個主成分。
2.基本思想
pca的基本原理就是將乙個矩陣中的樣本資料投影到乙個新的空間中去。對於乙個矩陣來說,將其對角化即產生特徵根及特徵向量的過程,也是將其在標準正交基上投影的過程,而特徵值對應的即為該特徵向量方向上的投影長度,因此該方向上攜帶的原有資料的資訊越多。
3.分析步驟
1)將原始資料按行排列組成矩陣x
2)對x進行
資料標準化
,使其均值變為零
3)求x的協方差矩陣c
4)將特徵向量按特徵值由大到小排列,取前k個按行組成矩陣p
5)通過計算y = px,得到降維後資料y
6)用下式計算每個特徵根的貢獻率vi;vi=xi/(x1+x2+........)
7)根據特徵根及其特徵向量解釋主成分
物理意義
。三、主成分分析應用舉例
2.協方差計算舉例
3.spss軟體進行主成分分析例子
主成分分析應用
主成分分析例項和因子分析
綜合因子得分計算
主成分分析法 PCA 答疑
問 為什麼要去均值?1 我認為歸一化的表述並不太準確,按統計的一般說法,叫標準化。資料的標準化過程是減去均值並除以標準差。而歸一化僅包含除以標準差的意思或者類似做法。2 做標準化的原因是 減去均值等同於座標的移動,把原始資料點的重心移到和原點重合,這樣利於很多表達,比如資料的協方差矩陣可以寫成xx ...
主成分分析法(PCA) 降維
主成分分析是一種降維演算法,它能將多個指標轉換為少數幾 個主成分,這些主成分是原始變數的線性組合,且彼此之間 互不相關,其能反映出原始資料的大部分資訊。一般來說,當研究的問題涉及到多變數且變數之間存在很強的相關性時,我們可考慮使用主成分分析的方法來對資料進行簡化。樣本標準化 計算標準化樣本協方差矩陣...
主成分分析法
相關係數 矩陣 相當於消除量綱的表示變數間相關性的乙個矩陣 協方差矩陣 它是沒有消除 量綱的表示變數間相關性的矩陣。對比下它們的等式變換關係 r cov x,y d x d y 1 求相關係數矩陣或者協方差矩陣r 2 計算r的特徵值 3 求特徵根對應的單位特徵向量 4 主成分選取,含 釋及計算 主成...