主成分分析(pca)的主要作用是降低資料的維度,提取其主要特徵,因為現實中很多資料都是很稀疏的,通過提取主要特徵過濾噪音發現其潛在的規律;核函式表示了兩個資料之間的相似性。那麼這兩者之間存在什麼樣的關係?直觀上理解,pca和核側重的是兩個相反的方向,下面給出解釋。
考慮下面的高斯核,
此時協方差矩陣
由以上可知,如果
另一方面,從pca的角度考慮,如果
從以上分析可以看出,pca關注的是區分度,差異性,而kernel關注的是相似度,pca最希望保留的特徵恰恰是kernel可以忽略的,而kernel保留的,很可能被pca忽略掉了。
需要注意的是,我們上面考慮的是一種極端的情況,方差是無窮大,真實資料方差不會是無窮大,我們降維以後,資料的相似性也不會是0,被忽略掉的特徵的相似性也不完全相同。上面的極端例子只是為了說明pca和核函式側重的是資料的兩個方面,乙個側重差異性,另乙個側重相似性。
主成分分析
主成分分析 pca 分析乙個隨機向量的中的主成分 主成分一般不是隨機向量中的某乙個分量,而是不同分量的線性組合,根據資訊理論的觀點,資訊的多少與方差有關,所以 主成分是方差最大的幾個成分 主成分分析的方法是求隨機向量的協方差矩陣 用樣本協方差矩陣代替 對於差異較大的資料,可採用相關矩陣代替協方差矩陣...
主成分分析
理論要點 1 主成分分析是一種無監督學習,因此不能用交叉驗證來檢驗誤差 2 在處理資料之前,要對資料做中心化處理 3 p太大的話,做特徵分解用svd 4 一共有min n 1,p 個主成分,因為中心化以後,rank要降一維 5 主成分的載荷向量就是協方差矩陣的特徵向量,對應特徵值最大的是第一主成分,...
主成分分析
1.概念 將一組可能存在相關性的隨機變數轉變成互不相關的隨機變數。這個概念裡有三個地方需要理解清楚。1 隨機變數的指代 在資料集中,每乙個樣本,即將資料集理解成乙個 的話,乙個樣本就是一行,則每一列就是乙個特徵,也就是乙個隨機變數,一列的所有取值就是隨機變數的所有可能取值 說的所有可能取值只針對訓練...