t sne資料降維與視覺化工具使用

2021-08-19 19:22:19 字數 1132 閱讀 7895

1.降維方法:特徵降維方法包括:lasso,pca,小波分析,lda,奇異值分解svd,拉普拉斯特徵對映,sparseautoencoder,區域性線性嵌入lle,等距對映isomap。然而t-sne方法是目前最好的降維方法。

1.1現在降維方法分為線性方法和非線性方法如圖

2.t-sne簡介和原理

t-sne(t-distributedstochastic neighbor embedding)

是用於降維的一種機器學習演算法,是由

laurens van der maaten

和geoffrey hinton在08

年提出來。此外,

t-sne

是一種非線性降維演算法,非常適用於高維資料降維到

2維或者

3維,進行視覺化。

t-sne

是由sne(stochasticneighbor embedding, sne; hinton and roweis, 2002)

發展而來。我們先介紹

sne的基本原理,之後再擴充套件到

t-sne

。最後再看一下

t-sne

的實現以及一些優化。

sne是通過仿射

(affinitie)

變換將資料點對映到概率分布上,主要包括兩個步驟: ·

sne構建乙個高維物件之間的概率分布,使得相似的物件有更高的概率被選擇,而不相似的物件有較低的概率被選擇。

·sne

在低維空間裡在構建這些點的概率分布,使得這兩個概率分布之間盡可能的相似。

3.基於matlab完成t-sne演算法實現

3.1資源獲取     檢視matlab的官方**學習和教程

3.2 將高維資料降到二維並用以下**實現,本資料是60000*60000,我是從資料裡面隨機抽取5000*5000

3.4 結果

資料降維視覺化工具 openTSNE

references t sne全稱是 t distributed stochastic neighbor embedding,一種資料降維和視覺化的方法,文章最先發表於 1 我們在做一些無監督學習時,如何去評估學到的表徵向量的效果,最直觀的方法就是判斷同類之間是不是形成乙個簇,不同類之間相隔較遠。...

tSNE 高維資料降維視覺化(理論部分)

t sne是一種降維方法,pca主成分分析 lda等屬於線性降維,t sne屬於非線性降維,是一種流形學習方法 manifold learning 如圖所示的曲面上,兩點之間的歐式距離為紅色虛線所示,藍色實線為兩點之間的測地線距離,第二張圖為knn圖,展開後如第三張圖所示。兩點之間的最短距離為藍色實...

資料視覺化工具選型指南

引自 it168.com tableau 點評 從產品的使用功能來看,tableau desktop產品應用最豐富,能通過簡便的拖拽來實現資料視覺化,且能支援gis地理資訊 多資料 等功能。qlik 點評 從效能來看,qlikviw通過aql構架提供靈活 強大的分析能力時,aql構架改變了需要ola...