降維與度量學習

2021-09-02 14:59:56 字數 1694 閱讀 8884

這是我第一次看這一章節,所以我的理解應該都是比較淺顯的,寫這篇部落格一是寫一下自己學習的感受,好記性不如爛筆頭。二是為了與大家交流,希望大家給我指正。

k近鄰學習是一種簡單的學習方法,就是採用一種監督的學習方法,給定測試樣本,基於某種距離找到距離樣本最近的k個訓練樣本。可以採用投票法(選擇樣本中出現最多的類別作為最終的**結果),或者採用平均法(就是採用樣本中平均值作為**結果)但是k近鄰有個不好的地方,沒有訓練的過程,整個過程都是乙個懶惰的學習過程。

影響k近鄰分類結果的因素主要有倆個:

1是k值的選取不同,取得的結果會有乙個顯著的差距

2是採用不同的距離計算方式,找出的「近鄰」也有很大的差距。

得出乙個結論:

最近鄰分類器雖然簡單,但是他的泛化錯誤率不超過貝葉斯最優分類器的兩倍。

重點來了,為什麼要降維呢?

因為高維空間會出現資料樣本稀疏,距離計算困難等問題,面臨這維數災難。化解維數災難最好的方法就是降維,就是將原始高維空間轉變為乙個低維的空間,這個空間樣本的密度就會增大,距離計算就會變得容易起來。

mds通過乙個變換矩陣,對於原始的高維空間進行線性變換。因為原始空間的距離都可以在更低維的空間通過歐式距離進行計算。這是演算法過程。

主成分分析

存在乙個超平面:

1,最近重構性(樣本點到這個超平面的距離都足夠近)

2,最大可分性(樣本點在這個超平面上的投影都盡可能的分開)

例如某個樣本x在低維空間的投影是z,zij是樣本在低維空間的第j維的坐 標,就用z 來重構x,得到x,這時候就是那x和x之間的距離。得到主成分分析的優化目標。為了使得樣本點之間的投影盡可能的分開就得使得投影後樣本之間的方差最大化。

pca捨棄了部分空間是有必要的因為這樣的話,一方面捨棄這些資訊可以捨得樣本密度變大,方便計算樣本點之間的距離。另一方面,就是最小特徵值對應的特徵向量一般與雜訊有關,捨棄他們可以達到一定的去燥作用。

核化線性降維

為什麼進行核化線性降維呢,因為,原來的高維空間的低維結構與變換後的低維結構是不一樣的。這樣就會丟失原本的低維結構,這個時候就會進行核變換

流行學習

流行具有乙個結構,就是他可以在區域性使用歐式距離計算距離,如果低維空間巢狀到高維就有乙個很好的性質,這個低維對映到高維可以仍可以在區域性使用歐式距離進行計算。另一面就是可以進行視覺化。

等度量對映

測地線距離就是指的曲面上兩點之間的本真距離。因為直接在高維空間上計算本真距離是不適當的。這個測地線距離很好的轉換成了計算近鄰接圖的兩點之間的最近距離,可以使用dijkstra』計算,

近鄰圖的構建有兩種方法

1,指定近鄰點的距離

2,指定緊鄰點的距離

區域性線性嵌入

假定樣本xi的座標可以通過它的鄰域樣本線性表出:

機器學習 降維與度量學習

維數災難 高維資料情形下出現的資料樣本稀疏,距離計算困難等問題是所有機器學習方法共同面臨的嚴重障礙,被稱為維數災難。降維 亦稱維數約簡,即通過某種數學變換將原始高維屬性空間轉變為乙個低維 子空間 在這個子空間樣本密度大幅提高,距離計算也變得更為容易。多維縮放 mds 要求原始空間樣本之間的距離在低維...

聚類 降維與度量學習

聚類 簇內相似度高,簇間相似度低。下式為閔可夫斯基距離 di st x i,xj u 1n xiu xju p 1 p dis t xi xj u 1n xiu xju p 1p 當p 1 p 1 時為曼哈頓距離 當p 2 p 2時為歐氏距離。但這樣的計算方式只適合有序屬性 1與2 比 1與3 更進...

機器學習基礎 之 降維與度量學習

其原理是,對於給定的待測試樣本,基於某種距離找出訓練集中與其最靠近的k個訓練樣本,然後基於這k個鄰居的屬性來進行計算,使用k個鄰居的 均值 作為待測試樣本的最終分類值。當前分類方法受距離計算原理影響,可能不同的距離會得到不同的分類結果 也收到k的取值影響,可能也會由於k的範圍不同得到不同的分類區間。...