流形學習的基本思想是將高維特徵空間中的樣本分佈群「平鋪」至乙個低維空間,同時能儲存原高維空間中樣本點之間的區域性位置相關資訊。原空間中的樣本分佈可能及其扭曲,平鋪之後將更有利於樣本之間的距離度量,其距離將能更好地反映兩個樣本之間的相似性。原空間中相鄰比較近的點可能不是同一類點,而相鄰較遠的點還有可能是同一類,「平鋪」至低維空間後就能解決這一問題。
遍歷每乙個樣本點,計算與k個最臨近點的距離,無視其他點的距離。
使用最短路徑法(dijkstra法或floyd法)計算兩點之間的距離dist(x1,x2),得到的距離即為低維空間中的兩點距離。
對待新的帶**樣本:根據高維空間的座標作為輸入、低維空間的座標作為輸出,訓練乙個回歸學習器,來將新的樣本點的座標轉換至低維空間中(該方法僅是權宜之計)。
基本思想是在低維空間中保留領域內樣本點的線性關係,即高維空間中有x=w1*x1+w2*x2+w3*x3,在低維空間中也相應的有x=w1*x1+w2*x2+w3*x3。
(其區域性線性關係是一樣的,保持了下來)
向量w通過最小二乘法來求:
低維空間中的新座標也通過最小二乘法來還原,不過尋優參變數又w變成了座標x
其本質為學習出一種新的距離計算方法。
距離計算式為(xi-xj)』m(xi-xj),其中m為正定陣,如果m為單位對角陣,則該距離計算式為歐氏距離。
演算法的本質是對m的尋優。
流形學習(一)
1 什麼是流形?經常會在 裡看到 嵌入在高維空間中的低維流形 高維的資料對於我們總是難以想像,所以最直觀的例子通常都會是嵌入在三維空間中的二維或者一維流形。比如說一塊布,可以把它看成乙個二維平面,這是乙個二維的歐氏空間,現在我們 在三維 中把它扭一扭,它就變成了乙個流形 當然,不扭的時候,它也是乙個...
流形學習t SNE,LLE,Isomap
作者 andre ye 編譯 vk analytics indiamag 主成分分析是一種強大的方法,但它往往失敗,因為它假設資料可以線性建模。pca將新的特徵表示為現有特徵的線性組合,將每個特徵乘以乙個係數。為了解決主成分分析的侷限性,人們通過對具有不同結構的資料進行應用而產生了各種各樣的技術。然...
幾種流形學習演算法
區域性線性嵌入 lle 前提假設 取樣資料所在的低維流形在區域性是線性的,即每個取樣點可以用它的近鄰點線性表示。求解方法 特徵值分解。lle演算法 計算每乙個點xi的近鄰點,一般採用k近鄰或者 領域。計算權值wij,使得把xi用它的k個近鄰點線性表示的誤差最小,即通過最小化 xi wijxj 來求出...