在原始的空間中,包含冗餘資訊以及噪音資訊,在實際應用中總會產生誤差,降低了準確率,我們希望減少冗餘資訊所造成的誤差,提公升識別精度。又或者希望通過降維演算法尋找內部的本質結構特徵。
資料降維的目的:維度降低便於視覺化和計算,深層次的含義在於有效資訊的特徵提取以及無用資訊的拋棄。
線性對映:
pca以及lda:
pca:通過某種線性投影,將高維資料對映到低維空間中,並希望在所投影後的維度資料方差最大,以此使用較少的資料維度,同時保留較多的原始資料點的特性。
得到的最優的w是資料協方差矩陣前k個最大的特徵值對應的特徵向量作為列向量構成的。
pca追求的是在降維之後能夠最大化保持資料的內在資訊,並通過衡量在投影方向上的資料方差大小來衡量該方向的重要性。
我們希望在每乙個維度上的投影點盡可能的分散,這種分散程度可以使用方差進行衡量。
降維的目標是希望在資訊不丟失的前提下盡可能的去除一些相關性的字段,方差最大已經保證了盡可能保留更多的原始資訊。我們希望降維後的字段能夠都不存在相關性,而協方差就是用來度量兩個隨機變數相關性的引數,協方差為0的兩個隨機變數稱為不相關。
pca實現目標:將一組n維向量降為k維,其目標是選擇k個單位正交基,使得原始資料在變換到這組基上,各字段的兩兩方差維0,而各字段的方差盡可能大。
優點以及缺點:
優點:最小誤差以及提取主要資訊
缺點:pca降所有的樣本作為乙個整體進行看待,去尋找乙個均方誤差最小意義下的最優線性投影,而忽略了類別屬性,而它忽略了投影方向可能剛好包含重要的可分資訊。
lda與pca的區別:
前者是有監督的演算法,lda是有監督的演算法,pca是無監督的。因為pca演算法沒有考慮到資料的標籤問題,只是把原始資料對映到一些方差比較大的方向上去,而lda演算法則考慮了資料的標籤。所以一般來說,如果我們的資料是有類別標籤的,那麼優先選擇lda去降維,當然也可以使用pca做很小幅度的降維消去雜訊,然後再使用lda降維。如果沒有類別標籤,那麼肯定pca是最先考慮的乙個選擇了。
降維演算法總結
1.降維簡介 1 相關背景 1 在許多領域的研究與應用中,通常需要對含有多個變數的資料進行觀測,收集大量資料後進行分析尋找規律。2 因此需要找到一種合理的方法,在減少需要分析的指標同時,儘量減少原指標包含資訊的損失,以達到對所收集資料進行全面分析的目的。3 由於各變數之間存在一定的相關關係,因此可以...
資料降維方法總結
經過這幾天面試後,我發現資料降維這一塊在工業界用的很多或者說必不可少,因此,這方面需要重點關注。今天,我將資料降維總結於此,包括他人成果,這裡對他們的內容表示感謝。主成分分析 pca 和判別分析方法 lda 關於pca的理解 1 pca可以理解為高維資料投影到低維,並使得投影誤差最小。是一種無監督將...
降維方法總結
對降維效果的評價 比較降維前後學習器的效能 低維可以通過視覺化技術來判斷降維的效果 分類 一 低維嵌入 代表 mds演算法 基本思想 降維的乙個基本思想是,降維前後 保證樣本點的距離相等,即 原始空間中的距離在低維空間得以保持 mds演算法 1 通過距離不變的原理,推導出由高維空間距離矩陣d計算低維...