主成分分析(pca)是一種無監督學習方法,通過對資料做正交旋轉變換,使變換後的變數都是正交的。目的是對多變數資料資訊進行調整組合,提取較少的綜合變數特徵去解釋原來資料資料的大部分資訊。也就是在力保資料資訊損失最少的原則下,對高維資料空間進行降維。
pca降維之後得到的特徵變數通常是原始變數特徵的線性組合(kpca通過核函式的方法得到非線性特徵),主成分之間相互正交,消除了變數之間的多重共線性。但是在pca降維過程中,因變數(響應變數)並沒有參與指導主成分的構造,所以pca有乙個弊端:無法保證很好地解釋**變數的方向同時可以很好地**因變數。
偏最小二乘回歸(pls)是一種監督式方法,包含了主成分分析、典型相關分析的思想。利用pls降維的目的是使提取後得到的特徵變數不僅能很好的概括原始變數的資訊,而且對因變數有很強的解釋能力。
具體過程為分別從自變數和因變數中提取成分t,u(偏最小二乘因子),保證t,u能盡可能多的提取所在變數組的變異資訊,同時保證二者之間的相關性最大。pls把m個主成分作為新的變數集,在此基礎上進行最小二乘回歸,所以響應變數起到了調整各主成分引數的作用。偏最小二乘回歸可以較好的解決樣本個數少於變數個數的問題,並且除了考慮自變數矩陣外,還考慮了相應矩陣。
PCA與SVD的區別和聯絡
因為之前在做pca的時候,就直接用的svd求解,以為svd屬於pca的一部分,看了一下兩篇博文,有一定收穫。注意,左奇異向量和右奇異向量是針對資料x而言的 注意到協方差矩陣的特點 實對稱,且大小為 d d,d為資料x的維度。因此,當x每一行為乙個樣本,對應協方差矩陣為,x.t x,需要求左奇異向量u...
學習筆記一LDA降維與PCA的區別
1 pca無需樣本標籤,屬於無監督學習降維 lda需要樣本標籤,屬於有監督學習降維。二者均是尋找一定的特徵向量w來降維的,其中,lda抓住樣本的判別特徵,pca則側重描敘特徵。概括來說,pca選擇樣本點投影具有最大方差的方向,lda選擇分類效能最好的方向。2 pca降維是直接和特徵維度相關的,比如原...
PCA 和 SVD 的區別和聯絡
兩者的基礎都是 求解特徵值 特徵向量 矩陣對向量的乘法,其實是矩陣對此向量的旋轉和拉伸。如果矩陣對某個向量v只拉伸而不旋轉,那麼v就是該矩陣的eigenvector,拉伸比就是eigenvalue.是對乙個維度的分析,比如對features分析,可以實現特徵降維。a u vta u sigma v ...