principal component analysis,pca。最常用的降維方法。
正交屬性空間中,如何用乙個超平面,對所有樣本進行恰當表達?
基於這兩個性質,可推導出主成分分析的2種等價推導。
假定資料樣本進行了中心化(每個值減去均值)。
從最近重構性出發,考慮整個訓練集中,原樣本點與基於投影重構的樣本點之間的距離,對其距離最小化,則可得到:
這就是主成分分析的優化目標。
從最大可分性出發,樣本點在新空間中超平面內上的投影是wt
xi,若所有樣本點的投影能盡可能分開,則應該使投影後的樣本點的方差最大化。
而投影後點的方差是∑i
wtxi
xtiw
,於是優化目標為
兩種推導等價。
舉例如下圖:
二維空間的一堆點,投影到一維座標系上。樣本點投影後分得越開,方差越大,可分性越好,我們更喜歡。降維效果體現出來。
對上式使用拉格朗日乘子法得有:xx
tw=λ
w 只需要對協方差矩陣xx
t 進行特徵值分解。將求得的特徵值排序,取前d`個特徵值對應的特徵向量構成w即可,這就是主成分分析的解。
實際中通常對x進行奇異值分解,代替協方差矩陣的特徵值分解。
過程第1步的中心化,x是d行m列,每一列是個樣本。中心化的結果,是對每一行(d個特徵)中心化了,每一行(某個特徵)的所有值之和為0。則按列再加其值也是0。
過程第2、3步在實踐中通常用對x對進行svd來代替。
第4步,取最大的d*個特徵值,並取對應的特徵向量w1
,w2,
...,
wd∗ 。即得到w(d行d*維,w1是d行1列的基向量)。進行w
txi ,將d維原始向量,降維到d*維的新向量。
pca過程也可這樣理解:逐一選取樣本點在高維上的方差的最大方向,即先對協方差矩陣做特徵值分解,取出最大特徵值對應的特徵向量;再對差值(投影第一次後的空間)繼續做特徵值分解,取最大特徵值對應的特徵向量,迭代來做。因為w各分量正交,上述逐一選取方差最大方向的做法(序列),與直接選取最大d*個特徵值(並行)等價。
d*通常由使用者指定。可從重構角度設定乙個重構閾值t,例如t=0.95,然後選取下式成立的最小d*值:
pca僅需保留w與樣本的均值向量,即可通過簡單的向量減法和矩陣-向量乘法將新樣本投影至低維空間。
降維導致若干特徵向量被捨棄。這時必要的:
(1)捨棄該資訊可使得樣本的取樣密度增大,降維的重要動機。
(2)資料受到雜訊影響時,最小的特徵值對應的特徵向量往往與雜訊有關,捨棄其可一定程度上起到去噪效果。
即我們可以只使用基向量矩陣coeff中的前2列對新向量降維(1*3 * 3*2 = 1*2)。其對應score矩陣中的前兩列(4*3 * 3*1 = 4*1,第1列),再來一組基向量(4*3 * 3*2 = 4*2,第1、2列),每列增量式增加,不影響。
西瓜書 第10章 降維與度量學習
knn在訓練集中通過某種距離度量找到靠近測試樣本的k個訓練樣本,再根據投票法或是平均法輸出 結果 knn是懶惰學習 還有懶惰決策樹 的著名代表,訓練時間為0,即不需要訓練。knn雖然簡單,但泛化錯誤率不超過貝葉斯最優分類器的錯誤率的兩倍。屬性越多,維度越高,很多情況下高維度帶來了維數災難,這將帶來資...
降維與度量學習
這是我第一次看這一章節,所以我的理解應該都是比較淺顯的,寫這篇部落格一是寫一下自己學習的感受,好記性不如爛筆頭。二是為了與大家交流,希望大家給我指正。k近鄰學習是一種簡單的學習方法,就是採用一種監督的學習方法,給定測試樣本,基於某種距離找到距離樣本最近的k個訓練樣本。可以採用投票法 選擇樣本中出現最...
機器學習 降維與度量學習
維數災難 高維資料情形下出現的資料樣本稀疏,距離計算困難等問題是所有機器學習方法共同面臨的嚴重障礙,被稱為維數災難。降維 亦稱維數約簡,即通過某種數學變換將原始高維屬性空間轉變為乙個低維 子空間 在這個子空間樣本密度大幅提高,距離計算也變得更為容易。多維縮放 mds 要求原始空間樣本之間的距離在低維...