維數災難:高維資料情形下出現的資料樣本稀疏,距離計算困難等問題是所有機器學習方法共同面臨的嚴重障礙,被稱為維數災難。
降維:亦稱維數約簡,即通過某種數學變換將原始高維屬性空間轉變為乙個低維「子空間」,在這個子空間樣本密度大幅提高,距離計算也變得更為容易。
多維縮放(mds):要求原始空間樣本之間的距離在低維空間中得以保持。
線性降維方法:z = w』x
主成分分析(pca):是最常用的一種降維方法。1,樣本中心化;2.計算協方差矩陣;3,對協方差矩陣做特徵值分解;4;取最大的d』個特徵值所對應的特徵向量,得到投影矩陣w。
核化線性降維:核主成分分析(kpca):
流形學習:借鑑了拓撲流形概念的降維方法。「流形」是在區域性與歐氏空間同胚的空間,換言之,它在區域性具有歐式空間的性質,能用歐氏空間來進行距離計算。
等度量對映(isomap ):mds 是一種降維方法,它的目的就是使得降維之後的點兩兩之間的距離盡量不變(也就是和在原始空間中對應的兩個點之間的距離要差不多)。只是 mds 是針對歐氏空間設計的,對於距離的計算也是使用歐氏距離來完成的。如果資料分布在乙個流形上的話,歐氏距離就不適用了。isomap ,它主要做了一件事情,就是把 mds 中原始空間中距離的計算從歐氏距離換為了流形上的測地距離。當然,如果流形的結構事先不知道的話,這個距離是沒法算的,於是 isomap 通過將資料點連線起來構成乙個鄰接 graph 來離散地近似原來的流形,而測地距離也相應地通過 graph 上的最短路徑來近似了。
區域性線性嵌入:假設資料中每個點可以由其近鄰的幾個點重構出來。降到低維,使樣本仍能保持原來的重構關係,且重構係數也一樣。乙個流形在很小的區域性鄰域上可以近似看成歐式的,就是區域性線性的。那麼,在小的區域性鄰域上,乙個點就可以用它周圍的點在最小二乘意義下最優的線性表示。區域性線性嵌入把這個線性擬合的係數當成這個流形區域性幾何性質的刻畫。那麼乙個好的低維表示,就應該也具有同樣的區域性幾何,所以利用同樣的線性表示的表示式。
度量學習:在機器學習中,對高維資料進行降維的主要目的是希望找到乙個合適的低維空間,在此空間中進行學習能比原始空間效能更好。事實上,每個空間對應了樣本屬性上定義的乙個距離度量,而尋找合適的空間,實際上就是尋找乙個合適的度量距離。直接學習出乙個「距離度量」,這就是度量學習的基本動機。
降維與度量學習
這是我第一次看這一章節,所以我的理解應該都是比較淺顯的,寫這篇部落格一是寫一下自己學習的感受,好記性不如爛筆頭。二是為了與大家交流,希望大家給我指正。k近鄰學習是一種簡單的學習方法,就是採用一種監督的學習方法,給定測試樣本,基於某種距離找到距離樣本最近的k個訓練樣本。可以採用投票法 選擇樣本中出現最...
機器學習基礎 之 降維與度量學習
其原理是,對於給定的待測試樣本,基於某種距離找出訓練集中與其最靠近的k個訓練樣本,然後基於這k個鄰居的屬性來進行計算,使用k個鄰居的 均值 作為待測試樣本的最終分類值。當前分類方法受距離計算原理影響,可能不同的距離會得到不同的分類結果 也收到k的取值影響,可能也會由於k的範圍不同得到不同的分類區間。...
聚類 降維與度量學習
聚類 簇內相似度高,簇間相似度低。下式為閔可夫斯基距離 di st x i,xj u 1n xiu xju p 1 p dis t xi xj u 1n xiu xju p 1p 當p 1 p 1 時為曼哈頓距離 當p 2 p 2時為歐氏距離。但這樣的計算方式只適合有序屬性 1與2 比 1與3 更進...