降維方法總結

2021-08-20 14:50:07 字數 4154 閱讀 3732

對降維效果的評價:

比較降維前後學習器的效能

低維可以通過視覺化技術來判斷降維的效果

分類

一、低維嵌入

代表:mds演算法

基本思想:降維的乙個基本思想是,降維前後 保證樣本點的距離相等,即:原始空間中的距離在低維空間得以保持

mds演算法

1)通過距離不變的原理,推導出由高維空間距離矩陣d計算低維空間樣本的內積矩陣b,

2)對b做特徵值分解

3)根據特徵值分解的結果,計算出樣本的低維空間座標

——可以理解為,這種演算法,對高維和低維空間的對映關係沒有關注,只是關注了樣本點的距離;新的樣本點和高維樣本點沒有關係,只是計算的距離是相等的

——現實中,一般只要求降維後的距離盡可能的接近,不必嚴格相等

另外這種演算法要求先計算原始空間中所有樣本間的距離,獲得距離矩陣,如果樣本很多,是不是就不適用了?

另外的方法:

一般來說,欲獲得低維子空間,最簡單的方法是對原始空間做線性變換(矩陣變換的本質就是空間變換)

z=w*x    w是變換矩陣

——線性降維方法

二、主成分分析(pca)

如何用乙個超平面對所有樣本進行恰當的表達?兩種思路:

最近重構性

——樣本點到這個超平面的距離都足夠近

轉換矩陣是w,由標準正交基構成,構建乙個距離公式,做優化,求w

最大可分性

——樣本點到這個超平面上的投影盡可能分開

方法:——方差最大化

二者最後得到的優化方程是等價的

pca演算法流程:

輸入:樣本集d,低維空間維度d

1)對所有樣本中心化

2)計算協方差矩陣

3)對協方差矩陣做特徵值分解

4)取最大的d個特徵值所對應的特徵向量

輸出:投影矩陣

理解:

最近重構性:可以理解為去除平面上小維度的抖動,保留大的變化維度的一種方式,比如一條直線,我們加上了微小的抖動,變成了曲線;再將其對映到最近的低維的超平面上,那肯定是會去除抖動,對映到了直線上,所以最近重構性也是乙個理解思路

最大可分性:對映到盡可能分開的超平面,主要成分的含義

pca就是按照最近重構性和最大可分性,求出的優化公式,按照拉格朗日乘子法進行推到,得到的解,然後進行矩陣變換

參考簡而言之:pca演算法其表現形式是降維,同時也是一種特徵融合演算法

三、核化線性降維

處理非線性對映的問題——核主成分分析

使用核技巧,思路與pca一樣,只是引入了核函式

參考之前對核函式的學習,關鍵還是在選擇合適的核函式

四、流形學習

1)等度量對映—isomap

借鑑拓撲流形的概念

資料在高維空間的分布雖然極為複雜,但是在區域性上,仍然具有歐式空間的性質

——理解參考書中的例子,在乙個三維空間計算距離雖然和二維空間相差很大,但是在三維空間中,計算距離很近的兩點的距離,就和在二維空間中很相似

等度量對映——isomap思想:

——高維空間中的距離是不可達的——所以在高維空間中計算的距離是不恰當的

高維空間的距離可以使用近鄰連線的方式來計算

距離則轉換為計算近鄰連線圖中兩點之間的最短路徑的問題(參考dijkstra演算法和floyd演算法)

然後求出距離後,就可以用這個新的距離使用mds演算法來降維

isomap演算法過程:

輸入:樣本d,近鄰引數k,低維空間維度d

過程:1)確定x的k近鄰,x與k個近鄰的距離設定為歐氏距離,其他點的距離設定為無窮大

2)用最短路徑演算法計算任意兩點樣本之前的距離

3)將距離作為mds演算法的輸入

4)輸出mds演算法的結果

問題:

對於新的樣本,無法再通過訓練集的近鄰法計算鄰域距離,如何將其對映到低維空間?

方法:訓練乙個回歸學習器對新樣本的低維空間座標進行**——權宜之計

——這應該是這個方法的主要缺點,導致新樣本的巨大差距

近鄰的計算有兩種方式

k近鄰,指定距離最近的k個點作為近鄰——問題:出現短路,即距離很遠的點也是近鄰

e鄰域近鄰,指定距離在e範圍內的點做近鄰——問題:出現斷路,很多點會沒有近鄰

2)區域性線性嵌入—lle

思想:保持鄰域內,樣本之間的線性關係(等度量對映保持的是區域性的距離關係)

(關係只限定在鄰域內)

計算思路:

1)確定x的鄰域

2)確定x用其鄰域的下標表示w(使w的和為1,且每個分量上最小化)

3)根據w,計算地位空間的座標z(通過中間矩陣m,m前d個特徵向量組成的矩陣及為z)

五、度量學習

思想

降維的目的是在乙個低維的空間,尋找到乙個合適的距離度量

尋找合適的空間維度,就是在尋找合適的度量

——直接尋找度量,不尋找空間——度量學習

馬氏距離

構造乙個加權的距離函式,不同的維度上的距離權重不同

合理設定乙個目標函式,通過優化得到這些權重,即得到了目標度量,可以取前d維權重高的維度作為降維的維度

六、線性判別分析——lda

lda是一種監督學習的降維技術,也就是說它的資料集的每個樣本是有類別輸出的。這點和pca不同。pca是不考慮樣本類別輸出的無監督降維技術。lda的思想可以用一句話概括,就是「投影後類內方差最小,類間方差最大」。什麼意思呢?我們要將資料在低維度上進行投影,投影後希望每一種類別資料的投影點盡可能的接近,而不同類別的資料的類別中心之間的距離盡可能的大。

參考:

mds較於pca和聚類的特點

pca主要是找到最能體現資料特點的特徵,而mds更看重的是原始資料之間的相對關係,通過視覺化的方式將他們之間的相對關係盡可能準確的展現出來。

mds和聚類都可以檢驗樣品之間的近似性或距離,但聚類分析中樣品通常是按質分組的,mds並不是把分組作為最終結果,而是以樣品集的空間構圖作為最終結果。

資料降維方法總結

經過這幾天面試後,我發現資料降維這一塊在工業界用的很多或者說必不可少,因此,這方面需要重點關注。今天,我將資料降維總結於此,包括他人成果,這裡對他們的內容表示感謝。主成分分析 pca 和判別分析方法 lda 關於pca的理解 1 pca可以理解為高維資料投影到低維,並使得投影誤差最小。是一種無監督將...

降維演算法總結

1.降維簡介 1 相關背景 1 在許多領域的研究與應用中,通常需要對含有多個變數的資料進行觀測,收集大量資料後進行分析尋找規律。2 因此需要找到一種合理的方法,在減少需要分析的指標同時,儘量減少原指標包含資訊的損失,以達到對所收集資料進行全面分析的目的。3 由於各變數之間存在一定的相關關係,因此可以...

資料降維方法

資料降維基本原理是將樣本點從輸入空間通過線性或非線性變換對映到乙個低維空間,從而獲得乙個關於原資料集緊致的低維表示。資料降維工具箱drtoolbox中眾多演算法,這裡簡單做個分類。因為很多並沒有仔細了解,在此次只對八種方法做分類 主成分分析 principal component analysis,...