pca求解其實是尋找最佳投影方向,即多個方向的標準正交基構成乙個超平面。
理論思想:在高維空間中,我們實際上是要找到乙個d維超平面,使得資料點到這個超平面的距離平方和最小
假設\(x_k\)表示p維空間的k個點,\(z_k\)表示\(x_k\)在超平面d上的投影向量,\(w = \)為d維空間的標準正交基,即pca最小平方誤差理論轉換為如下優化問題$$z_k = \sum_^d (w_i^t x_k)w_i---(1)$$
\[argmin \sum_^k||x_k - z_k||_2^2
\]\[s.t. w_i^tw_j = p(當i==j時p=1,否則p=0)
\]注:\(w_i^tx_k\)為x_k在w_i基向量的投影長度,\(w_i^tx_kw_i\)為w_i基向量的座標值
求解:\(l = (x_k - z_k)^t(x_k-z_k)\)
\(l= x_k^tx_k - x_k^tz_k - z_k^tx_k + z_k^tz_k\)
由於向量內積性質\(x_k^tz_k = z_k^tx_k\)
\(l = x_k^tx_k - 2x_k^tz_k + z_k^tz_k\)
將(1)帶入得$$x_k^tz_k = \sum_dw_itx_kx_k^tw_i$$
\[z_k^tz_k = \sum_^d\sum_^d(w_i^tx_kw_i)^t(w_j^tx_kw_j)
\]根據約束條件s.t.得$$z_k^tz_k = \sum_dw_itx_k^tx_kw_i$$
\[l =x_k^tx_k - \sum_^dw_i^tx_kx_k^tw_i
\]根據奇異值分解$$\sum_dw_itx_kx_k^tw_i = tr(wtx_ktx_kw)$$
\[l =argmin\sum_^kx_k^tx_k - tr(w^tx_k^tx_kw) = argmin\sum_^k- tr(w^tx_k^tx_kw) + c
\]等價於帶約束得優化問題:$$argmaxtr(wtxxtw)$$
\[s.t. w^tw = i
\]最佳超平面w與最大方差法求解的最佳投影方向一致,即協方差矩陣的最大特徵值所對應的特徵向量,差別僅是協方差矩陣\(\xi\)的乙個倍數
\[argmin\phi(w,z|x) = tr((x-w^tz)^t(x-w^tz)) = ||x-w^tz||_f^2
\]\[s.t.w^tw=i_q
\]注:x為(n,p),z為(n,q),q < p,w為(p,q)
該定理表達的意思也就是平方差理論,將降維後的矩陣通過w^t投影回去,再與x計算最小平方差,值越**明資訊損失越少
\(\phi\)目標函式最小時,w為x的前q個特徵向量矩陣且\(z=w^tx\)
以上優化可以通過拉格朗日對偶問題求得,最終也會得到$$argmaxtr(wtxxtw)$$
\[s.t. w^tw = i
\]
平房誤差函式 PCA最小平方誤差理論推導
pca最小平方誤差理論推導 pca求解其實是尋找最佳投影方向,即多個方向的標準正交基構成乙個超平面。理論思想 在高維空間中,我們實際上是要找到乙個d維超平面,使得資料點到這個超平面的距離平方和最小 假設 x k 表示p維空間的k個點,z k 表示 x k 在超平面d上的投影向量,w 為d維空間的標準...
機器學習最基礎演算法之最小二乘法(最小平方法)
最小二乘法 least squares method,簡稱lse,又稱最小平方法 是一種數學優化技術。它通過最小化誤差的平方和尋找資料的最佳函式匹配。利用最小二乘法可以簡便地求得未知的資料,並使得這些求得的資料與實際資料之間誤差的平方和為最小。最小二乘法還可用於曲線擬合。其他一些優化問題也可通過最小...
線性儲存 最小平均檢索時間
如果有n段資訊資料要線性儲存在某種儲存介質上,它們的長度分別是l1,l2,ln,儲存介質能夠儲存下所有這些資訊,假設它們的使用 查詢檢索 的頻率分別是f1,f2,fn,要如何儲存這些資訊資料才能使平均檢索時間最短。正整數n n 10000 資訊的長度 1到10000之間 和使用的頻率 萬分比,在0到...