大家一般想到降維,就自然想到一種方法pca,其實還有一種方法mds(multidimensional scaling),可以獲得樣本間的相似性的空間表達。
先說說這兩種方法的相似處,pca是把觀察的資料用較少的維數來表達,這點上兩種方法的相似的;兩種方法的不太之處在於,mds利用的是成對樣本間相似性,目的是利用這個資訊去構建合適的低維空間,是的樣本在此空間的距離和在高維空間中的樣本間的相似性盡可能的保持一致。
根據樣本是否可計量,又分為計量多元尺度法(metric mds)和非計量多元尺度法(nonmetric mds)。古典mds,又稱為torgerson scaling or torgerson–gower scaling,不得不先介紹一下最早提出這個思想的大牛,他的文章torgerson, w.s. (1958). theory & methods of scaling. new york: wiley。對於metric mds,這個方法以樣本間相似度作為實際輸入,需要樣本是等距(interval)比例(ratio)尺度,優點是精確,可以根據多個準則評估樣本間差異,缺點是計算成本高,耗時。對於很多應用問題,樣本不費可計量,需要使用nonmetric mds,這種方法接受樣本的順序尺度作為輸入,並以此自動計算相似值。樣本尺度要求是順序的(ordinal),較簡便,直觀,從非計量的樣本匯出計量的分析結果,應用範圍更廣,但沒法知道評估準則,效果較差。
mds方法有5個關鍵的要素,分別為主體、客體、準則、準則權重、主體權重。具體定義為:
1)客體:被評估的物件。可以認為是待分類的幾種類別,數量m。
2)主體:評估客體的單位。就是訓練資料。n個
3)準則:根據研究目的自行定義,用以評估客體優劣的標準。k個
4)準則權重:主體衡量準則重要性後,對每個準則分別賦予權重值。p個
5)主體權重:研究者權衡準則重要性後,對主體賦予權重值。n個
對於要分析的資料報括i個物體,定義乙個距離函式的集合,其中δ
i,j是第i個和第j個物件之間的距離。於是有
mds演算法的目的就是根據這個δ,尋找i個向量
也就是說,mds試圖找到乙個子空間rn,i個物體嵌入在這個子空間中,而彼此的相似度被盡可能的保留。如果這個子空間的維數n選擇為2或者3,可以畫出向量xj獲得乙個i個物體相似性的乙個視覺化的結果。注意向量xj不是唯一的:對於歐式距離,可以被任意旋轉和變換,因為這些變換不會改變樣本間的距離。
有很多途徑可以得到向量xj。通常mds可以被看做是乙個優化問題,尋找(x1,...xi)被看成是最小化目標函式,例如
可以利用一些數值優化的方法得到這個最優解。
最後附帶乙個很簡單很簡單的示例,希望對您理解演算法有些幫助
資料視覺化 什麼是資料視覺化
資料對應的英文單詞是data,從資訊獲取的角度看,資料是對目標觀察和記錄的結果,是現實世界中的時間 地點 事件 其他物件或概念的描述。不同學者對資料的作用也給出不同的定義,大致分為以下3類 視覺化對應的兩個英文單詞 visualize和visualization。visualize是動詞,描述 生成...
資料視覺化
資料視覺化主要旨在借助於圖形化手段,清晰有效地傳達與溝通資訊。但是,這並不就意味著資料視覺化就一定因為要實現其功能用途而令人感到枯燥乏味,或者是為了看上去絢麗多彩而顯得極端複雜。為了有效地傳達思想概念,美學形式與功能需要齊頭並進,通過直觀地傳達關鍵的方面與特徵,從而實現對於相當稀疏而又複雜的 資料集...
資料視覺化
畫餅圖 def print pie input data res for each in input data res each res.get each,0 1 label x for j in res fig plt.figure plt.pie x,labels label,autopct 1...