什麼叫做主成分分析法,我們先看一張圖橢圓的圖,如果讓你找一條線,使得橢圓上所有點在該線上對映的點最分散,保留下來的資訊最多,你會怎麼選擇這條線?若是下圖,會選擇水平線,這是用一維的方式去盡可能多的表示二維的資料,那麼多維的資料呢,是否可以用較低維的資料盡可能表示。
如何用二維的平面去盡可能表示乙個橢球面呢?
主成分分析法是一種統計方式,簡化資料的方式,是一種線性變換,把資料變換到新的座標系中,使得任意投影的第一大方差對映到第一主成分上,第二大方差對映到第二主成分上。如果捨棄高維的主成分,一般可以達到保留對方差貢獻最大的特徵,在一些方面上,可以保留資料的主要特徵,當然,為了資料更好看,我們會把座標軸的中心移到資料的中心,這可以讓資料處理起來更方便。
在數學上,我們用 \(l^2\) 範數的平方(\(l^2\)範數的平方與其本身在相同位置取得最小值,單調遞增,性質更好)來計算,x 為輸入,\(c^*\) 為最優編碼:
\[c^*=(l^2)^2=argmin_c||x-g(c)||_2^2
\\\\
=(x-g(c))^t(x-g(c))
\\\\
=x^tx-2x^tg(c)+g(c)^tg(c)
\\\\
=argmin_c-2x^tdc+c^ti_lc
\\\\
(其中c=f(x),g(c)=dc)
\\\\
\therefore\nabla_c(-2x^tdc+c^tc)=0
\\\\
c=f(x)=d^tx
\]由上可知,若要得到c只需要乙個矩陣乘法。定義重構操作:
\[r(x)=g(f(x))=dd^tx
\\\\
d^*=argmin_d\sqrt(x_j^-r(x^)_j)^2}
\\\\
其中d^td=i_l
\]經過複雜的 推導,用數學歸納法可以證明,矩陣 d 可以由前 \(x^tx\) 的前 \(l\) 個最大的特徵值對應的特徵向量組成。
主成分分析法主要用於資料降維,目標為儘量減少原資料的損失的情況下,盡可能減少資料量。
主成分分析法(PCA) 降維
主成分分析是一種降維演算法,它能將多個指標轉換為少數幾 個主成分,這些主成分是原始變數的線性組合,且彼此之間 互不相關,其能反映出原始資料的大部分資訊。一般來說,當研究的問題涉及到多變數且變數之間存在很強的相關性時,我們可考慮使用主成分分析的方法來對資料進行簡化。樣本標準化 計算標準化樣本協方差矩陣...
降維之PCA主成分分析法
如圖所示,尋找藍色的點到直線的垂直距離的和最小的直線 向量 pca 與 linear regression 的區別 pca衡量的是點到直線的垂直距離,而linear regression是所有x點對應的真實值y g x 與估計值f x 之間的vertical distance距離,如下圖所示 二 p...
主成分分析法
相關係數 矩陣 相當於消除量綱的表示變數間相關性的乙個矩陣 協方差矩陣 它是沒有消除 量綱的表示變數間相關性的矩陣。對比下它們的等式變換關係 r cov x,y d x d y 1 求相關係數矩陣或者協方差矩陣r 2 計算r的特徵值 3 求特徵根對應的單位特徵向量 4 主成分選取,含 釋及計算 主成...