顧名思義,主成分分析方法是找出原始資料中的主要成分,用原始資料的主要成分代替原始資料達到降維的效果。
那麼我們如果尋找主成分呢?我們可以試圖在樣本空間中找到乙個超平面,使得樣本點到這個超平面的距離足夠近,或者說樣本點在這個超平面上的投影能盡可能的分開,這個超平面的方向即為主成分。
經過推導可知(推導過程省略),假如我們需要將n維樣本資料對映為
輸入:n維樣本集d=(
輸出:降維後的樣本集d′
1) 對所有的樣本進行中心化:
2) 計算樣本的協方差矩陣
3) 對矩陣進行特徵值分解
4)取出最大的n'個特徵值對應的特徵向量(
5)對樣本集中的每乙個樣本轉化為新的樣本
6) 得到輸出樣本集d′=(
1)僅僅需要以方差衡量資訊量,不受資料集以外的因素影響。
2)各主成分之間正交,可消除原始資料成分間的相互影響的因素。
3)計算方法簡單,主要運算是特徵值分解,易於實現。
1)主成分各個特徵維度的含義具有一定的模糊性,不如原始樣本特徵的解釋性強。
2)方差小的非主成分也可能含有對樣本差異的重要資訊,因降維丟棄可能對後續資料處理有影響。
引用《主成分分析(pca)原理總結》
機器學習 主成分分析
那麼更好的理解這個過程呢?我們來看一張圖 假設對於給定5個點,資料如下 要求 將這個二維的資料簡化成一維?並且損失少量的資訊 這個過程如何計算的呢?找到乙個合適的直線,通過乙個矩陣運算得出主成分分析的結果 不需要理解 pca.fit transform x x numpy array格式的資料 n ...
《統計學習方法》筆記 主成分分析
主成分分析 principle component analysis,pca 用正交變換將由線性相關變數表示的觀測資料轉換為少數幾個由線性無關變數 稱主成分 表示的資料的方法,即對資料進行降維處理。這種方法的幾何解釋即是將樣本對映到幾個相互正交的向量上,並使得樣本在所對映的向量上方差最大,圖1 1 ...
機器學習筆記 主成分分析
在介紹因子分析時,我們把資料 x rn 建模在 k 維子空間上,k 本文介紹主成分分析方法,即 pca,嘗試找出資料依賴的子空間。但 pca 會做得更直接,只需要用到向量計算,不需要使用 em。設有 m 種不同汽車的屬性資料 如最大速度 轉彎半徑等,其中 x i rn n舉乙個自然點的例子,有無線電...