資料降維的主要方法:
投影和流形學習
投影:
高維空間的所有訓練例項實際上(或近似於)受乙個低得多的低維子空間所影響
投影並不是降維的最佳方法。許多情況下,許多情況下,子空間可能會彎曲或轉動,比如
著名的瑞士卷玩具資料集
簡單地進行平面投影會直接將瑞士卷的不同層壓扁在一起。
d維流形就是n維空間的一部分,區域性類似於乙個d維超平面。在瑞士卷的例子中,d=2,n=3:它區域性類似於乙個2d平面,但是在第三個維度捲起。
流形學習:
許多降維演算法是通過對訓練例項進行流形建模來實現的,這被稱為流形學習。
pca
主成分分析(pca)是迄今為止最流行的降維演算法。
將訓練集投影到低維超平面之前,需要選擇正確的超平面。選擇保留最大差異性的看起來比較合理,比其他方式丟失的資訊更少。
或者,比較原始資料集與其軸上的投影之間的均方距離,使這個均方距離最小的軸是最合理的選擇。
pca流程:
例:
主成分軸的數量與資料集維度數量相同
定義第i條軸的單位向量就叫作第i個主成分。第乙個主成分是c1,第二個主成分是c2.
標準矩陣分解技術,奇異值分解
它可以將訓練集矩陣x分解成三個矩陣的點積usv,其中v包含我們想要的所有主成分
主成分矩陣:
下面的python**使用numpy的svd()函式來獲取訓練集中所有的主成分,並提取前兩個
x_centered = x - x.mean(axis=0)
u,s,v = np.linalg.svd(x_centered)
c1 = v.t[:, 0]
c2 = v.t[:, 1]
機器學習 降維
資料壓縮 視覺化 pca principal component analysis 即主成分分析方法,是一種使用最廣泛的資料降維演算法。pca的主要思想是將n維特徵對映到k維上,這k維是全新的正交特徵也被稱為主成分,是在原有n維特徵的基礎上重新構造出來的k維特徵。pca的工作就是從原始的空間中順序地...
機器學習 降維
1 什麼是降維?數學知識 特徵值分解 設a是n階方陣,如果有常數 和n維非零列向量 的關係式 a 成立,則稱 為方陣a的特徵值,非零向量 稱為方陣a的對應於特徵值入的特徵向量 降維 將資料的特徵數量從高維轉換到低維 實際中很多資料是高維的,但資料 內在的維度 可能更低 例如 通訊資料原始有7維 入網...
機器學習降維方法
特徵降維方法包括 lasso,pca,小波分析,lda,奇異值分解svd,拉普拉斯特徵對映,sparseautoencoder,區域性線性嵌入lle,等距對映isomap,embedding。lasso least absolute shrinkage and selection operator,...