資料的白化是在資料歸一化之後進行的。在對資料進行白化前要求先對資料進行特徵零均值化,不過一般只要做了特徵標準化,那麼這個條件就滿足了。在資料白化過程中,最主要的還是引數epsilon的選擇,因為這個引數的選擇對deep learning的結果起著至關重要的作用。
在基於重構的模型中(比如說常見的rbm,sparse coding, autoencoder都屬於這一類,因為他們基本上都是重構輸入資料),通常是選擇乙個適當的epsilon值使得能夠對輸入資料進行低通濾波。但是何謂適當的epsilon呢?這還是很難掌握的,因為epsilon太小,則起不到過濾效果,會引入很多雜訊,而且基於重構的模型又要去擬合這些雜訊;epsilon太大,則又對元素資料有過大的模糊。因此一般的方法是畫出變化後資料的特徵值分布圖,如果那些小的特徵值基本都接近0,則此時的epsilon是比較合理的。如下圖所示,讓那個長長的尾巴接近於x軸。該圖的橫座標表示的是第幾個特徵值,因為已經將資料集的特徵值從大到小排序過。
如果資料已被縮放到合理範圍(如[0,1]),可以從epsilon = 0.01或epsilon = 0.1開始調節epsilon。
基於正交化的ica模型中,應該保持引數epsilon盡量小,因為這類模型需要對學習到的特徵做正交化,以解除不同維度之間的相關性。
深度學習 白化
白化的目的是去除輸入資料的冗餘資訊。例如 訓練資料是影象,由於影象中相鄰畫素之間具有很強的相關性,因此輸入是冗餘的。白化的目的就是降低輸入的冗餘性。輸入資料集,經過白化處理後,生成的新資料集滿足兩個條件 一是特徵相關性較低 二是特徵具有相同的方差。白化演算法的實現過程 第一步操作是pca,求出新特徵...
資料的預處理是深度學習的關鍵
傳統量化投資的主要工具方法是統計分析。當進入數學公式的堆砌 推導章節時,放棄了繼續。最終的選擇是 deep learning。深度學習 神經網路的最大優點是 處理資料的演算法由模型自動進行,你無需製造計算方法。但是,你提供的資料必須適合模型的要求。從github上找了些現成 系統 觀摩學習。直覺的第...
C 中的深度學習(二) 預處理識別硬幣的資料集
在文章中,我們將對輸入到機器學習模型中的資料集進行預處理。這裡我們將對乙個硬幣資料集進行預處理,以便以後在監督學習模型中進行訓練。在機器學習中預處理資料集通常涉及以下任務 清理資料 通過對周圍資料的平均值或使用其他策略來填補資料缺失或損壞造成的漏洞。規範資料 將資料縮放值標準化到乙個標準範圍,通常是...