白化的目的是去除輸入資料的冗餘資訊。
例如:訓練資料是影象,由於影象中相鄰畫素之間具有很強的相關性,因此輸入是冗餘的。白化的目的就是降低輸入的冗餘性。
輸入資料集,經過白化處理後,生成的新資料集滿足兩個條件:一是特徵相關性較低;二是特徵具有相同的方差。
白化演算法的實現過程:第一步操作是pca,求出新特徵空間中的新座標,第二步是對新的座標進行方差歸一化操作。
白化分為pca白化、zca白化,演算法實現步驟如下:
pca預處理:
左圖表示原始資料x,然後我們通過協方差矩陣可以求得特徵向量u1、u2,然後把每個資料點,投影到這兩個新的特徵向量(這兩個特徵向量是不變且正交的),得到進行座標如下:
這就是pca處理。
pca白化
pca白化是指對上面的pca的新座標x』,每一維的特徵做乙個標準差歸一化處理。從上面我們看到在新的座標空間中,(x1,x2)兩個座標軸方向的資料明顯標準差不同,因此我們接著要對新的每一維座標做乙個標註差歸一化處理。
zca白化
zca白虎是在pca白化的基礎上,把上面pca白化的結果,又變換到原來座標系下的座標。
深度學習中的白化預處理
資料的白化是在資料歸一化之後進行的。在對資料進行白化前要求先對資料進行特徵零均值化,不過一般只要做了特徵標準化,那麼這個條件就滿足了。在資料白化過程中,最主要的還是引數epsilon的選擇,因為這個引數的選擇對deep learning的結果起著至關重要的作用。在基於重構的模型中 比如說常見的rbm...
機器學習(七)白化whitening
白化whitening 一 相關理論 白化這個詞,可能在深度學習領域比較常遇到,挺起來就是高大上的名詞,然而其實白化是乙個比pca稍微高階一點的演算法而已,所以如果熟悉pca,那麼其實會發現這是乙個非常簡單的演算法。白化的目的是去除輸入資料的冗餘資訊。假設訓練資料是影象,由於影象中相鄰畫素之間具有很...
深度學習訓練技巧 資料標準化 歸一化 白化操作
資料標準化的幾種方法 1.標準化 資料標準化是指資料的各維度減均值除以標準差,這是最常用的標準化方法。公式 xi xi 其中 指的是樣本的均值,指的是樣本的標準差。xi 2.歸一化 xi 資料歸一化是指資料減去對應維度的最小值除以維度最大值減去維度最小值,這樣做可以將數值壓縮到 0,1 的區間。xi...