1. 中心化
資料預處理中乙個最常見的處理辦法就是每個特徵維度減去相應的均值實現中心化,這樣可以使得資料變成0均值,特別對於一些影象資料,為了方便我們將所有的資料都減去乙個相同的值。
2.標準化
使得資料都變成0均值之後,還需要使用標準化的做法讓資料不同的特徵維度都有著相同的規模。有兩種常用的方法:一種是除以標準差,這樣可以使得新資料的分布接近標準高斯分布:還有一種常用的做法就是讓每個特徵維度的最大值和最小值按照比例縮小到-1~1之間。
如果知道輸入不同特徵有著不同的規模,那就需要使用標準化的方法讓他們處於同乙個規模下,這對於機器學習而言非常重要。
pca是一種處理資料的方法,在進行這一步之前,首先要將資料中心化,然後計算資料的協方差矩陣,這一步非常簡單。協方差矩陣是半正定的,可以通過這個協方差矩陣來進行奇異值分解(svd),然後對資料進行去相關性,將其投影到乙個特徵空間,我們能夠取一些較大的,主要特徵向量來減低資料的維度,去掉一些沒有方差的維度。
4.白雜訊
白雜訊也是一種處理資料的方式,首先會跟pca一樣將資料投影到乙個特徵空間,然後每個維度除以特徵值來標準化這些資料,直觀上就是乙個多元高斯分布轉化到了乙個0均值,協方差為1的多元高斯分布
上圖形象的展示了pca白雜訊處理之後的效果,但是白雜訊的處理會增強資料中的雜訊,因為其增強了資料的所有維度,包括了一些方差較小的不相關的維度。
在實際處理資料中,中心化和標準化都特別重要。我們計算訓練集的統計量比如均值,然後將這些統計量應用到測試集和驗證集當中。但是pca和白雜訊在卷積中基本不用,因為卷積網路可以自動學習如何提取這些特徵而不需要人工干預。
資料預處理
現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法 資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。一 資料清...
資料預處理
常見的資料預處理方法,以下通過sklearn的preprocessing模組來介紹 變換後各維特徵有0均值,單位方差。也叫z score規範化 零均值規範化 計算方式是將特徵值減去均值,除以標準差。sklearn.preprocessing scale x 一般會把train和test集放在一起做標...
資料預處理
用cut函式分箱 有時把數值聚集在一起更有意義。例如,如果我們要為交通狀況 路上的汽車數量 根據時間 分鐘資料 建模。具體的分鐘可能不重要,而時段如 上午 下午 傍晚 夜間 深夜 更有利於 如此建模更直觀,也能避免過度擬合。這裡我們定義乙個簡單的 可復用的函式,輕鬆為任意變數分箱。def binni...