1.降維方法:特徵降維方法包括:lasso,pca,小波分析,lda,奇異值分解svd,拉普拉斯特徵對映,sparseautoencoder,區域性線性嵌入lle,等距對映isomap。然而t-sne方法是目前最好的降維方法。
1.1現在降維方法分為線性方法和非線性方法如圖
2.t-sne簡介和原理:
t-sne(t-distributedstochastic neighbor embedding)
是用於降維的一種機器學習演算法,是由
laurens van der maaten
和geoffrey hinton在08
年提出來。此外,
t-sne
是一種非線性降維演算法,非常適用於高維資料降維到
2維或者
3維,進行視覺化。
t-sne
是由sne(stochasticneighbor embedding, sne; hinton and roweis, 2002)
發展而來。我們先介紹
sne的基本原理,之後再擴充套件到
t-sne
。最後再看一下
t-sne
的實現以及一些優化。
sne是通過仿射
(affinitie)
變換將資料點對映到概率分布上,主要包括兩個步驟: ·
sne構建乙個高維物件之間的概率分布,使得相似的物件有更高的概率被選擇,而不相似的物件有較低的概率被選擇。
·sne
在低維空間裡在構建這些點的概率分布,使得這兩個概率分布之間盡可能的相似。
3.基於matlab完成t-sne演算法實現
3.1資源獲取 檢視matlab的官方**學習和教程
3.2 將高維資料降到二維並用以下**實現,本資料是60000*60000,我是從資料裡面隨機抽取5000*5000
3.4 結果
資料降維視覺化工具 openTSNE
references t sne全稱是 t distributed stochastic neighbor embedding,一種資料降維和視覺化的方法,文章最先發表於 1 我們在做一些無監督學習時,如何去評估學到的表徵向量的效果,最直觀的方法就是判斷同類之間是不是形成乙個簇,不同類之間相隔較遠。...
tSNE 高維資料降維視覺化(理論部分)
t sne是一種降維方法,pca主成分分析 lda等屬於線性降維,t sne屬於非線性降維,是一種流形學習方法 manifold learning 如圖所示的曲面上,兩點之間的歐式距離為紅色虛線所示,藍色實線為兩點之間的測地線距離,第二張圖為knn圖,展開後如第三張圖所示。兩點之間的最短距離為藍色實...
資料視覺化工具選型指南
引自 it168.com tableau 點評 從產品的使用功能來看,tableau desktop產品應用最豐富,能通過簡便的拖拽來實現資料視覺化,且能支援gis地理資訊 多資料 等功能。qlik 點評 從效能來看,qlikviw通過aql構架提供靈活 強大的分析能力時,aql構架改變了需要ola...