減少冗餘資訊造成的誤差,提高資料資訊的精度。
pca 主成分分析
principal component analysis(pca)主成分分析,是最常用的線性降維方法,無監督的,它通過某種線性對映,將高維的向量轉化為低維空間表示,並且希望在所投影的低維空間上資料方差盡可能的大(實際表現為資料點盡可能的分散,而不是聚作一團)
通俗的理解,如果把所有的點都對映到一起,那麼幾乎所有的資訊(如點和點之間的距離關係)都丟失了,而如果對映後方差盡可能的大,那麼資料點則會分散開來,以此來保留更多的資訊。可以證明,pca是丟失原始資料資訊最少的一種線性降維方式。(實際上就是最接近原始資料,但是pca並不試圖去探索數 據內在結構)
pca達到的目的: 使用較少的資料維度,保留盡可能多的原資料的資訊。
pca追求的是在降維之後能夠最大化保持資料的內在資訊,並通過衡量在投影方向上的資料方差的大小來衡量該方向的重要性。但是這樣投影以後對資料 的區分作用並不大,反而可能使得資料點揉雜在一起無法區分。這也是pca存在的最大乙個問題,這導致使用pca在很多情況下的分類效果並不好。具體可以看 下圖所示,若使用pca將資料點投影至一維空間上時,pca會選擇2軸,這使得原本很容易區分的兩簇點被揉雜在一起變得無法區分;而這時若選擇1軸將會得 到很好的區分結果。
lda線性判別分析
linear discriminant analysis(也有叫做fisher linear discriminant)是一種有監督的(supervised)線性降維演算法。與pca保持資料資訊不同,lda是為了使得降維後的資料點盡可能地容易被區分!
lda達到的目的: 減少資料維度,盡可能使資料被區分。
還是這張圖,如果是pca方法的話,會對映到 2軸,但是如果是lda方法那麼,會使資料盡可能的區分開來,所以會對映到1軸。
lda最後也是轉化成為乙個求矩陣特徵向量的問題,和pca很像,事實上很多其他的演算法也是歸結於這一類,一般稱之為譜(spectral)方法。
首先,pca與lda的監督方式不同。
第二,他們的目的也不同。pca是為了去除原始資料中冗餘的維度,讓投影子空間的各維度的方差盡可能的大,即熵盡可能的大。lda是通過資料降維找到那些具有判別性的維度,使得原始資料在這些維度上投影,不同類別盡可能的分隔開。
【深度學習】資料降維方法總結
特徵降緯PCA,LDA
參考 當特徵選擇完成後,可以直接訓練模型了,但是可能由於特徵矩陣過大,導致計算量大,訓練時間長的問題,因此降低特徵矩陣維度也是必不可少的。但不要盲目降維,當你在原資料上跑到了乙個比較好的結果,又嫌它太慢的時候才進行降維,不然降了半天白降了。常見的降維方法有主成分分析法 pca 和線性判別分析 lda...
資料降維方法
資料降維基本原理是將樣本點從輸入空間通過線性或非線性變換對映到乙個低維空間,從而獲得乙個關於原資料集緊致的低維表示。資料降維工具箱drtoolbox中眾多演算法,這裡簡單做個分類。因為很多並沒有仔細了解,在此次只對八種方法做分類 主成分分析 principal component analysis,...
常用降維方法
降維方法分為線性核非線性降維,非線性降維又分為基於核函式和基於特徵值的方法。線性降維方法 pca ica lda lfa lpp le的線性表示 基於核函式的非線性降維方法 kpca kica kda 基於特徵值的非線性降維方法 流型學習 isomap lle le lpp ltsa mvu lle...