pca最小平方誤差理論推導
pca求解其實是尋找最佳投影方向,即多個方向的標準正交基構成乙個超平面。
理論思想:在高維空間中,我們實際上是要找到乙個d維超平面,使得資料點到這個超平面的距離平方和最小
假設\(x_k\)表示p維空間的k個點,\(z_k\)表示\(x_k\)在超平面d上的投影向量,\(w = \)為d維空間的標準正交基,即pca最小平方誤差理論轉換為如下優化問題$$z_k = \sum_^d (w_i^t x_k)w_i---(1)$$
\[argmin \sum_^k||x_k - z_k||_2^2
\[s.t. w_i^tw_j = p(當i==j時p=1,否則p=0)
注:\(w_i^tx_k\)為x_k在w_i基向量的投影長度,\(w_i^tx_kw_i\)為w_i基向量的座標值
求解:\(l = (x_k - z_k)^t(x_k-z_k)\)
\(l= x_k^tx_k - x_k^tz_k - z_k^tx_k + z_k^tz_k\)
由於向量內積性質\(x_k^tz_k = z_k^tx_k\)
\(l = x_k^tx_k - 2x_k^tz_k + z_k^tz_k\)
將(1)帶入得$$x_k^tz_k = \sum_dw_itx_kx_k^tw_i$$
\[z_k^tz_k = \sum_^d\sum_^d(w_i^tx_kw_i)^t(w_j^tx_kw_j)
根據約束條件s.t.得$$z_k^tz_k = \sum_dw_itx_k^tx_kw_i$$
\[l =x_k^tx_k - \sum_^dw_i^tx_kx_k^tw_i
根據奇異值分解$$\sum_dw_itx_kx_k^tw_i = tr(wtx_ktx_kw)$$
\[l =argmin\sum_^kx_k^tx_k - tr(w^tx_k^tx_kw) = argmin\sum_^k- tr(w^tx_k^tx_kw) + c
等價於帶約束得優化問題:$$argmaxtr(wtxxtw)$$
\[s.t. w^tw = i
最佳超平面w與最大方差法求解的最佳投影方向一致,即協方差矩陣的最大特徵值所對應的特徵向量,差別僅是協方差矩陣\(\xi\)的乙個倍數
定理\[argmin\phi(w,z|x) = tr((x-w^tz)^t(x-w^tz)) = ||x-w^tz||_f^2
\[s.t.w^tw=i_q
注:x為(n,p),z為(n,q),q < p,w為(p,q)
該定理表達的意思也就是平方差理論,將降維後的矩陣通過w^t投影回去,再與x計算最小平方差,值越**明資訊損失越少
\(\phi\)目標函式最小時,w為x的前q個特徵向量矩陣且\(z=w^tx\)
以上優化可以通過拉格朗日對偶問題求得,最終也會得到$$argmaxtr(wtxxtw)$$
\[s.t. w^tw = i
PCA最小平方誤差理論推導
pca求解其實是尋找最佳投影方向,即多個方向的標準正交基構成乙個超平面。理論思想 在高維空間中,我們實際上是要找到乙個d維超平面,使得資料點到這個超平面的距離平方和最小 假設 x k 表示p維空間的k個點,z k 表示 x k 在超平面d上的投影向量,w 為d維空間的標準正交基,即pca最小平方誤差...
交叉熵誤差函式
概率分布p和q的交叉熵定義為 p,q operatorname log q mathrm p d p parallel q 可以看到,交叉熵可以拆解為兩部分的和,也就是p的熵加上p與q之間的kl距離,對於乙個已知的分布p,它的熵 是乙個已知的常數,所以在這種情況下,使用交叉熵等價於使用kl距離,而且...
均方誤差損失函式
假設我們的模型是二維平面的線性回歸模型 對於這個模型,我們定義損失函式為mse,將得到如下的表示式 下面我們試著通過概率的角度,推導出上述的mse損失函式表示式。為了使模型更合理,我們假設 服從均值為0,方差為1的高斯分布,即 所以有 所以,y服從均值為 方差為1的高斯分布,則樣本點的 概率為 有了...