主成分分析(principal component analysis,pca), 是一種統計方法。通過正交變換將一組可能存在相關性的變數轉換為一組線性不相關的變數,轉換後的這組變數叫主成分。
###原理:
在用統計分析方法研究多變數的課題時,變數個數太多就會增加課題的複雜性。人們自然希望變數個數較少而得到的資訊較多。在很多情形,變數之間是有一定的相關關係的,當兩個變數之間有一定相關關係時,可以解釋為這兩個變數反映此課題的資訊有一定的重疊。主成分分析是對於原先提出的所有變數,將重複的變數(關係緊密的變數)刪去多餘,建立盡可能少的新變數,使得這些新變數是兩兩不相關的,而且這些新變數在反映課題的資訊方面盡可能保持原有的資訊。
####協方差
協方差(covariance)在概率論和統計學中用於衡量兩個變數的總體誤差。而方差是協方差的一種特殊情況,即當兩個變數是相同的情況。總的來說,協方差是一種用來度量兩個隨機變數關係的統計量。
協方差表示方式:
如果兩個變數的變化趨勢一致,也就是說如果其中乙個大於自身的期望值,另外乙個也大於自身的期望值,那麼兩個變數之間的協方差就是正值。 如果兩個變數的變化趨勢相反,即其中乙個大於自身的期望值,另外乙個卻小於自身的期望值,那麼兩個變數之間的協方差就是負值。如果x與y是統計獨立的,那麼二者之間的協方差就是0。
換句話說,協方差為正時說明x和y是正相關關係,協方差為負時x和y是負相關關係,協方差為0時x和y相互獨立。
當樣本是n維資料時,它們的協方差實際上是協方差矩陣(對稱方陣),方陣的邊長是c2n。比如對於3維資料(x,y,z),計算它的協方差就是:
####pca計算過程
整個過程,就是將原始樣例的n維特徵變成了k維,這k維就是原始特徵在k維上的投影。
進行主成分分析主要步驟如下:
1. 指標資料標準化
2. 指標之間的相關性判定;
3. 確定主成分個數m;
4. 主成分fi表示式;
5. 主成分fi命名;
主成分分析(principal component analysis,pca)是一種降維技術,把多個變數化為能夠反映原始變數大部分資訊的少數幾個主成分。
設x有p個變數,為n*p階矩陣,即n個樣本的p維向量。首先對x的p個變數尋找正規化線性組合,使它的方差達到最大,這個新的變數稱為第一主成分,抽取第一主成分後,第二主成分的抽取方法與第一主成分一樣,依次類推,直到各主成分累積方差達到總方差的一定比例。
主成分分析例項
p=princomp(usarrests,cor=true)
summary(p,loadings=true)
----standard deviation 標準差 其平方為方差=特徵值
----proportion of variance 方差貢獻率
----cumulative proportion 方差累計貢獻率
圖中的點在第三個成分的下降已經變得非常平穩了,因而選擇前兩個變數就能獲得較好的資訊解釋,這也就意味著後兩個變數可以捨棄。
也可以利用loadings引數中反映的系數值對主成分進行構建方程
對個主成分的值進行**的結果
R語言主成分分析
head swiss 檢視資料 cor swiss 檢視相關性矩陣 方陣中絕對值最小的是0.06085861,比0.05大,因此swiss中變數相互之間均有或強或弱的相關關係,這份資料適合做主成份分析。由於變數的量綱不同會使主成份得分係數的可解釋性變差,使結果受到量綱大的變數影響,而忽略量綱較小的變...
R 主成分分析
一 實驗內容 基本思想 通過降維技術把多個變數化為幾個少數主成分的方法,即將原來眾多具有一定相關性的指標,重新組合成一組新的相互無關的綜合指標。表示形式 結論 1 uij為第i個成分yi和第j個原先的變數xj之間的線性係數 2 y1,y2,yp分別叫做第1主成分,第2主成分,第p主成分,y1得到最大...
R語言 PCA 主成分分析)
1 關鍵點 綜述 主成分分析 因子分析 典型相關分析,三種方法的共同點主要是用來對資料降維處理的從資料中提取某些公共部分,然後對這些公共部分進行分析和處理。主成分分析 是將多指標化為少數幾個綜合指標的一種統計分析方法 主成分分析是一種通過降維技術把多個變數化成少數幾個主成分的方法,這些主成分能夠反映...