西瓜書 第10章 降維與度量學習

2021-09-23 10:27:18 字數 1707 閱讀 2861

knn在訓練集中通過某種距離度量找到靠近測試樣本的k個訓練樣本,再根據投票法或是平均法輸出**結果

knn是懶惰學習(還有懶惰決策樹)的著名代表,訓練時間為0,即不需要訓練。

knn雖然簡單,但泛化錯誤率不超過貝葉斯最優分類器的錯誤率的兩倍。

屬性越多,維度越高,很多情況下高維度帶來了維數災難,這將帶來資料樣本稀疏、距離計算困難等問題,因此,我們需要通過降維來緩解維數災難。

pca通過簡單的向量減法矩陣-向量乘法將新樣本投影低維空間中。

pca最小的幾個特徵值的特徵向量捨棄了,這是降維導致的結果,但是捨棄這些資訊能使樣本的取樣密度增大,這也正是降維的重要動機,另一方面最小的特徵值所對應的特徵向量往往與雜訊有關,捨棄它們也在一定程度上起到去噪的效果。

優勢:實現快速簡單,變種有kpca和稀疏pca等

缺點:新特徵列不易解釋

詳見:優勢:lda受到監督,可以(但不總是)提高提取特徵的**效能。 此外,lda提供變化(即二次lda)來解決特定的障礙。

缺點:與pca一樣,新特徵列不易解釋,您仍必須手動設定或調整要保留的元件數量。lda還需要標記資料,這使其更具情境性。

核主成分分析(kpca)

引入了核函式

需對所有樣本求和,計算開銷大

優勢:1)假設流形的存在,部分解決了高維資料分布的問題。

缺點:1)假設流形的存在,不能總是適合資料特點。

等度量對映(isomap)

流形在區域性上與歐式空間同胚,對每個點基於歐式距離找出近鄰點,然後就能建立乙個近鄰連線圖

k近鄰圖:指定近鄰點個數例如歐式距離最近的k個點作為近鄰點,從而得到乙個k近鄰圖

e近鄰圖:指定距離閾值e,距離小於e的點被認為是近鄰點,從而得到乙個k近鄰圖

區域性線性嵌入(lle)

isomap試圖保持近鄰樣本之間的距離不同,lle試圖保持鄰域內樣本之間的線性關係

度量學習的目標:學習出乙個合適的距離度量

不同的度量學習方法針對不同目標獲得「好」的半正定對稱距離度量矩陣m

關於乙個歐幾里德空間v的乙個基,我們把內積函式在基向量上的值寫成的乙個矩陣稱為關於該基的度量矩陣。

最終就可以將原始空間通過度量矩陣m降維

《西瓜書》筆記10 降維與度量學習 PCA(二)

principal component analysis,pca。最常用的降維方法。正交屬性空間中,如何用乙個超平面,對所有樣本進行恰當表達?基於這兩個性質,可推導出主成分分析的2種等價推導。假定資料樣本進行了中心化 每個值減去均值 從最近重構性出發,考慮整個訓練集中,原樣本點與基於投影重構的樣本點...

降維與度量學習

這是我第一次看這一章節,所以我的理解應該都是比較淺顯的,寫這篇部落格一是寫一下自己學習的感受,好記性不如爛筆頭。二是為了與大家交流,希望大家給我指正。k近鄰學習是一種簡單的學習方法,就是採用一種監督的學習方法,給定測試樣本,基於某種距離找到距離樣本最近的k個訓練樣本。可以採用投票法 選擇樣本中出現最...

機器學習 降維與度量學習

維數災難 高維資料情形下出現的資料樣本稀疏,距離計算困難等問題是所有機器學習方法共同面臨的嚴重障礙,被稱為維數災難。降維 亦稱維數約簡,即通過某種數學變換將原始高維屬性空間轉變為乙個低維 子空間 在這個子空間樣本密度大幅提高,距離計算也變得更為容易。多維縮放 mds 要求原始空間樣本之間的距離在低維...