資料降維基本原理是將樣本點從輸入空間通過線性或非線性變換對映到乙個低維空間,從而獲得乙個關於原資料集緊致的低維表示。
資料降維工具箱drtoolbox中眾多演算法,這裡簡單做個分類。
因為很多並沒有仔細了解,在此次只對八種方法做分類:主成分分析(principal component analysis,pca)、線性判別分析(linear discriminant analysis,lda)、等距對映(isomap)、區域性線性嵌入(locally linear embedding,lle)、laplacian 特徵對映(laplacian eigenmaps)、區域性保留投影(local preserving projection,lpp)、區域性切空間排列(local tangent space alignment,ltsa)、最大方差展開( maximum variance unfolding,mvu)
線性降維是指通過降維所得到的低維資料能保持高維資料點之間的線性關係。線性降維方法主要包括pca、lda、lpp(lpp其實是laplacian eigenmaps的線性表示);非線性降維一類是基於核的,如kpca,此處暫不討論;另一類就是通常所說的流形學習:從高維取樣資料中恢復出低維流形結構(假設資料是均勻取樣於乙個高維歐式空間中的低維流形),即找到高維空間中的低維流形,並求出相應的嵌入對映。非線性流形學習方法有:isomap、lle、laplacian eigenmaps、ltsa、mvu
整體來說,線性方法計算塊,複雜度低,但對複雜的資料降維效果較差。
監督式和非監督式學習的主要區別在於資料樣本是否存在類別資訊。非監督降維方法的目標是在降維時使得資訊的損失最小,如pca、lpp、isomap、lle、laplacian eigenmaps、ltsa、mvu;監督式降維方法的目標是最大化類別間的辨別信,如lda。事實上,對於非監督式降維演算法,都有相應的監督式或半監督式方法的研究。
區域性方法僅考慮樣品集合的區域性資訊,即資料點與臨近點之間的關係。區域性方法以lle為代表,還包括laplacian eigenmaps、lpp、ltsa。
全域性方法不僅考慮樣本幾何的區域性資訊,和考慮樣本集合的全域性資訊,及樣本點與非臨近點之間的關係。全域性演算法有pca、lda、isomap、mvu。
由於區域性方法並不考慮資料流形上相距較遠的樣本之間的關係,因此,區域性方法無法達到「使在資料流形上相距較遠的樣本的特徵也相距較遠」的目的。
以下是對一組三維資料(900樣本)降到一維,應用八種演算法的時間對比:
謝謝原博主的分享!!!
資料降維方法總結
經過這幾天面試後,我發現資料降維這一塊在工業界用的很多或者說必不可少,因此,這方面需要重點關注。今天,我將資料降維總結於此,包括他人成果,這裡對他們的內容表示感謝。主成分分析 pca 和判別分析方法 lda 關於pca的理解 1 pca可以理解為高維資料投影到低維,並使得投影誤差最小。是一種無監督將...
常用降維方法
降維方法分為線性核非線性降維,非線性降維又分為基於核函式和基於特徵值的方法。線性降維方法 pca ica lda lfa lpp le的線性表示 基於核函式的非線性降維方法 kpca kica kda 基於特徵值的非線性降維方法 流型學習 isomap lle le lpp ltsa mvu lle...
降維方法總結
對降維效果的評價 比較降維前後學習器的效能 低維可以通過視覺化技術來判斷降維的效果 分類 一 低維嵌入 代表 mds演算法 基本思想 降維的乙個基本思想是,降維前後 保證樣本點的距離相等,即 原始空間中的距離在低維空間得以保持 mds演算法 1 通過距離不變的原理,推導出由高維空間距離矩陣d計算低維...