資料預處理

2021-08-14 08:36:10 字數 612 閱讀 3277

零中心化指的是令處理後的資料均值為0的過程。從數學上說就是令每乙個維度的資料減去該維度上資料的均值。如果在影象領域,一般有兩種處理方法,1)可以將三通道的畫素值減去整幅影象的均值.2)也可以三通道的畫素值分別減去各自通道的均值。零中心化無論在機器學習領域還是卷積神經網路方面都非常重要。

歸一化指的是令資料的所有維度的取值範圍近似相等的過程。從數學上說,就是將零中心化的資料再除以標準差的過程。這一點在機器學習領域很重要,但是在影象處理領域沒必要,因為所有畫素的取值範圍都是[0

,255]

關於這部分的理解,可以模擬將普通正態分佈的資料 n~(μ,σ^2)轉換為標準正態分佈n~(0,1)的過程

pca又叫主成分分析,顧名思義,將資料中重要維度的特徵留下,不重要的特徵去掉。它主要是通過對協方差矩陣的奇異值分解實現,將原始資料與經過奇異值分解後的列特徵向量相乘就可以得到原始資料的主成分。可以通過控制列特徵向量u的維數m來決定提取前m個重要的特徵。

白化是指對提取了主成分的資料,進行歸一化操作。用數學表示為將提取了主成分的資料除以特徵值,而這裡特徵值可以表示為奇異值分解協方差矩陣中的特徵值s的開方

在實際中,所有的預處理操作的取均值等只能由訓練資料得到,這點必須注意,因為測試資料是不可知的,當然無法拿到均值等資訊。

資料預處理

現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法 資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。一 資料清...

資料預處理

常見的資料預處理方法,以下通過sklearn的preprocessing模組來介紹 變換後各維特徵有0均值,單位方差。也叫z score規範化 零均值規範化 計算方式是將特徵值減去均值,除以標準差。sklearn.preprocessing scale x 一般會把train和test集放在一起做標...

資料預處理

用cut函式分箱 有時把數值聚集在一起更有意義。例如,如果我們要為交通狀況 路上的汽車數量 根據時間 分鐘資料 建模。具體的分鐘可能不重要,而時段如 上午 下午 傍晚 夜間 深夜 更有利於 如此建模更直觀,也能避免過度擬合。這裡我們定義乙個簡單的 可復用的函式,輕鬆為任意變數分箱。def binni...