通過這幾天的學習,對主成分分析(pca)的基本原理有所了解,博文主成分分析(pca)原理總結寫得非常棒,大家可以去與博主一起交流學習。
可能是我基礎薄弱,對於「pca的推導:基於最大投影方差」這部分的理解並不那麼直觀。我們知道「基於最小投影距離」就是樣本點到這個超平面的距離足夠近,也就是盡可能保留原資料的資訊;而「基於最大投影方差」就是讓樣本點在這個超平面上的投影能盡可能的分開,也就是盡可能保留原資料之間的差異性。
上述博文中沒有提及這個差異性的衡量方式,即為啥w'xx'w可以度量樣本的差異性。在另一篇博文向量表示,投影,協方差矩陣,pca中,先介紹了向量內積的意義,基的概念等,然後推出了差異性的度量方式,最後得出結論:xx'就是x的協方差矩陣,其中對角線元素為各個欄位的方差,而非對角線元素表示變數i和變數j兩個欄位的協方差(具體論述,請參閱原博文)。有了這個了解,下面的推導也就很容易理解了。
為了加深對pca演算法的理解,下面給出第一篇博文中總結的演算法流程。
輸入:n維樣本集d=(x1,x2,...,xm)
輸出:n'維樣本集d'=(z1,z2,...,zm), 其中n'≤n
1. 對所有樣本進行中心化(均值為0):
2. 計算樣本的協方差矩陣xx'
3. 對協方差矩陣xx'進行特徵分解
4. 取出最大的n'個特徵值對應的特徵向量(w1,w2,...,wn'),對其進行標準化,組成特徵向量矩陣w
5. 對於訓練集中的每乙個樣本,進行相應轉換:
6. 得到輸出樣本集d'=(z1,z2,...,zm)
備註:有時候,我們不指定降維後的n'的值,而是換種方式,指定乙個降維到的主成分比重閾值t。這個閾值t在(0,1]之間。假如我們的n個特徵值為λ1≥λ2≥...≥λn,則n'可以通過下式得到:
pca主成分分析 PCA主成分分析(中)
矩陣 matrix,很容易讓人們想到那部著名的科幻電影 駭客帝國 事實上,我們又何嘗不是真的生活在matrix中。機器學習處理的大多數資料,都是以 矩陣 形式儲存的。矩陣是向量的組合,而乙個向量代表一組資料,資料又是多維度的。比如每個人的都具有身高 體重 長相 性情等多個維度的資訊資料,而這些多維度...
主成分分析PCA
主要參考這篇文章 個人總結 pca是一種對取樣資料提取主要成分,從而達到降維的目的。相比於上篇文章介紹到的svd降維不同,svd降維是指減少資料的儲存空間,資料的實際資訊沒有缺少。個人感覺pca更類似與svd的去噪的過程。pca求解過程中,涉及到了svd的使用。針對資料集d 假設di 的維度為 w ...
PCA 主成分分析
在進行影象的特徵提取的過程中,提取的特徵維數太多經常會導致特徵匹配時過於複雜,消耗系統資源,不得不採用特徵降維的方法。所謂特徵降維,即採用乙個低緯度的特徵來表示高緯度。將高緯度的特徵經過某個函式對映至低緯度作為新的特徵。pca和lda區別 pca是從特徵的角度協方差角度 求出協方差矩陣的特徵值和特徵...