經過這幾天面試後,我發現資料降維這一塊在工業界用的很多或者說必不可少,因此,這方面需要重點關注。今天,我將資料降維總結於此,包括他人成果,這裡對他們的內容表示感謝。
主成分分析(pca)和判別分析方法(lda)
關於pca的理解:
1、pca可以理解為高維資料投影到低維,並使得投影誤差最小。是一種無監督將為方法。
2、還可以理解為對座標旋轉和平移(對應著座標變換和去中心化),從而使得n維空間能在n-1維分析,同時去掉方差小的特徵(方差小,不確定度小,資訊量小)
3、pca的推導
4、pca與svd的聯絡
(從矩陣分解角度理解pca)
5、pca降維的應用
6、pca 的缺點:
(1)pca是線性降維方法,有時候資料之間的非線性關係是很重要的,這時候我們用pca會得到很差的結果。所有接下來我們引入核方法的pca。
(2)主成分分析法只在樣本點服從高斯分布的時候比較有效。
(3) 存在不平衡資料的降維可以採用代價敏感pca(cspca)
(4)特徵根的大小決定了我們感興趣資訊的多少。即小特徵根往往代表了雜訊,但實際上,向小一點的特徵根方向投影也有可能包括我們感興趣的資料;
(5)特徵向量的方向是互相正交(orthogonal)的,這種正交性使得pca容易受到outlier的影響
(6)難於解釋結果。例如在建立線性回歸模型(linear regression model)分析因變數(response)和第乙個主成份的關係時,我們得到的回歸係數(coefficiency)不是某乙個自變數(covariate)的貢獻,而是對所有自變數的某個線性組合(linear combination)的貢獻。
(7)原始的pca演算法會把所有的資料一次性的放入記憶體中,這在大資料集的情況下有可能會遇到問題,所以有人提出了增量式的pca,這在sklearn中是有實現
關於lda的理解:
1、判別分析:discriminant analysis就是根據研究物件的各種特徵值判別其型別歸屬問題的一種多變數統計分析方法。
根據判別標準不同,可以分為距離判別、fisher判別、bayes判別法等。比如在knn中用的就是距離判別,當然這裡的「距離」又有好幾種:歐氏距離、街區距離、甚至可以用皮爾森相關係數等。樸素貝葉斯分類用的就是bayes判別法。本文要講的線性判別分析就是用是fisher判別式。
根據判別函式的形式,可以分為線性判別和非線性判別。
2、優化目標是類間距離盡量大,類內距離盡量小,最終使得可區分度大。
3、是一種有監督的降維方法
4、類間距離和類內距離的理解
5、lda推導:從二類到多類
6、lda的應用:主題模型
兩個方法是最主要的線性降維方法,共同點都是以投影的方式,低維表示高維,都是轉化成求特徵向量問題(譜(spectral)方法)
兩者區別可以參考:
圖的左邊是pca,它所作的只是將整組資料整體對映到最方便表示這組資料的座標軸上,對映時沒有利用任何資料內部的分類資訊。因此,雖然做了pca後,整組資料在表示上更加方便(降低了維數並將資訊損失降到最低),但在分類上也許會變得更加困難;圖的右邊是lda,可以明顯看出,在增加了分類資訊之後,兩組輸入對映到了另外乙個座標軸上,有了這樣乙個對映,兩組資料之間的就變得更易區分了(在低維上就可以區分,減少了很大的運算量)。
線性降維方法,有時候資料之間的非線性關係是很重要的,這時候我們用線性降維會得到很差的結果。對於影象、文字、金融等高維資料,特徵之間存在著極為複雜的非線性關係,簡單的線性分析無法挖掘出特徵之間的蘊含的關聯,因此,有必要對內蘊特徵進行**!
基於核函式的非線性降維方法:kpca kica kda
基於特徵值的非線性降維方法(流型學習):isomap lle le lpp ltsa mvu
基於神經網路的非線性降維:自編碼器、降噪自編碼、cnn(卷積池化法)等
具體原理待續。。。
降維方法總結
對降維效果的評價 比較降維前後學習器的效能 低維可以通過視覺化技術來判斷降維的效果 分類 一 低維嵌入 代表 mds演算法 基本思想 降維的乙個基本思想是,降維前後 保證樣本點的距離相等,即 原始空間中的距離在低維空間得以保持 mds演算法 1 通過距離不變的原理,推導出由高維空間距離矩陣d計算低維...
資料降維方法
資料降維基本原理是將樣本點從輸入空間通過線性或非線性變換對映到乙個低維空間,從而獲得乙個關於原資料集緊致的低維表示。資料降維工具箱drtoolbox中眾多演算法,這裡簡單做個分類。因為很多並沒有仔細了解,在此次只對八種方法做分類 主成分分析 principal component analysis,...
資料降維演算法總結
在原始的空間中,包含冗餘資訊以及噪音資訊,在實際應用中總會產生誤差,降低了準確率,我們希望減少冗餘資訊所造成的誤差,提公升識別精度。又或者希望通過降維演算法尋找內部的本質結構特徵。資料降維的目的 維度降低便於視覺化和計算,深層次的含義在於有效資訊的特徵提取以及無用資訊的拋棄。線性對映 pca以及ld...