PAC為什麼要提前進行標準化

2021-09-25 13:01:38 字數 561 閱讀 8354

pca(主成分分析)所對應的數學理論是svd(矩陣的奇異值分解)。而奇異值分解本身是完全不需要對矩陣中的元素做標準化或者去中心化的。

但是對於機器學習,我們通常會對矩陣(也就是資料)的每一列先進行標準化。

pca通常是用於高維資料的降維,它可以將原來高維的資料投影到某個低維的空間上並使得其方差盡量大。如果資料其中某一特徵(矩陣的某一列)的數值特別大,那麼它在整個誤差計算的比重上就很大,那麼可以想象在投影到低維空間之後,為了使低秩分解逼近原資料,整個投影會去努力逼近最大的那乙個特徵,而忽略數值比較小的特徵。因為在建模前我們並不知道每個特徵的重要性,這很可能導致了大量的資訊缺失。為了「公平」起見,防止過分捕捉某些數值大的特徵,我們會對每個特徵先進行標準化處理,使得它們的大小都在相同的範圍內,然後再進行pca。

此外,從計算的角度講,pca前對資料標準化還有另外乙個好處。因為pca通常是數值近似分解,而非求特徵值、奇異值得到解析解,所以當我們使用梯度下降等演算法進行pca的時候,我們最好先要對資料進行標準化,這是有利於梯度下降法的收斂。

可以通過pac 的explained_variance_ratio_來觀察使用標準化和沒有使用標準化的影響。

為什麼要進行資料標準化?

在現實生活中,乙個目標變數 y 可以認為是由多個特徵變數 x 影響和控制的,那麼這些特徵變數的量綱和數值的量級就會不一樣,比如x1 10000,x2 1,x3 0.5 可以很明顯的看出特徵x1和x2 x3存在量綱的差距 x1對目標變數的影響程度將會比x2 x3對目標變數的影響程度要大 可以這樣認為目...

為什麼要特徵標準化及特徵標準化方法

歸一化化就是要把你需要處理的資料經過處理後 通過某種演算法 限制在你需要的一定範圍內。歸一化的原因是什麼那?一是,為了後面資料處理的方便,把不同量綱的東西放在同一量綱下比較,即 把不同 的資料統一到乙個參考係下,這樣比較起來才有意義。簡單的舉個例子 一張表有兩個變數,乙個是體重kg,乙個是身高cm。...

PCA降維之前為什麼要先標準化?

pca降維之前為什麼要先標準化?統計 機器學習 資料預處理 資料降維 瀏覽次數 18547 分享 10當資料維數很高的時候,我們可以用pca降維,但是降維前通常我們要對資料進行標準化,為什麼要這樣做?這有什麼好處?機器小白 2017 03 21 13 25 4個回答 30pca 主成分分析 所對應的...