資料擴充和資料預處理

2021-09-07 07:25:44 字數 1330 閱讀 2055

參考:《解析深度學習——卷積神經網路原理與視覺實踐》

**:

資料擴充

有效的資料擴充不僅能擴充訓練樣本數量,還能增加訓練樣本的多樣性,一方面可避免過擬合,另一方面又會帶來模型效能的提公升,但實際使用時需要「量體裁衣」。

注:如果是 影象檢測任務 或者是 影象分割任務 ,記得 將 影象資料 和 標記資料 進行 同步擴充(比如影象翻轉時,對應的標記座標跟著做相應翻轉)

一、常用的資料擴充方法:

水平翻轉、隨機摳圖、尺度變換、旋轉、色彩抖動

色彩抖動是在rgb顏色空間對原有rgb色彩分布進行輕微的擾動,也可在hsv顏色空間嘗試隨機改變影象原有的飽和度和明度(即,改變 s和v通道的值)或對色調進行微調(小範圍改變該通道的值)。

二、特殊的資料擴充方法:

監督式資料擴充(海康威視研究院提出)——利用高層語義資訊

gan資料擴充

gan根據隨機向量通過生成對抗形式可以生成不同的資料型別,可以作為資料擴充的一種方法。

資料預處理

中心式歸一化

先對資料集進行劃分,訓練集、驗證集、測試集,影象減均值只對訓練集操作。

減均值操作的原理是,我們預設自然影象是一類平穩的資料分布(即資料每乙個維度的統計都服從相同分布),此時,在每個樣本上減去資料的統計平均值(逐樣本計算)可以移除共同部分,凸顯個體差異。

資料預處理06 資料變換和資料離散化

光滑 去掉資料中的雜訊,包括分箱 回歸和聚類。屬性構造 特徵構造 可以由給定的屬性構造新的屬性並新增到屬性集中。聚集 把資料進行彙總或聚集。例如 可以聚集日銷售資料,計算月和年銷售量。規範化 把屬性資料按比例縮放,使之落入指定區間。離散化 數值屬性 例如 年齡 的原始值用區間標籤或者概念標籤替換。這...

資料預處理

現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法 資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。一 資料清...

資料預處理

常見的資料預處理方法,以下通過sklearn的preprocessing模組來介紹 變換後各維特徵有0均值,單位方差。也叫z score規範化 零均值規範化 計算方式是將特徵值減去均值,除以標準差。sklearn.preprocessing scale x 一般會把train和test集放在一起做標...