光滑:去掉資料中的雜訊,包括分箱、回歸和聚類。規範化就是標準化屬性構造(特徵構造):可以由給定的屬性構造新的屬性並新增到屬性集中。
聚集:把資料進行彙總或聚集。例如:可以聚集日銷售資料,計算月和年銷售量。
規範化:把屬性資料按比例縮放,使之落入指定區間。
離散化:數值屬性(例如:年齡)的原始值用區間標籤或者概念標籤替換。這些標籤可以遞迴的組織成更高層概念,導致數值屬性的概念分層。
由標稱資料產生的概念分層:屬性,如street,可以泛化到較高的概念層,如city或者country.許多標稱屬性的概念分層都蘊含在資料庫的模式中。
分箱是一種基於指定的箱個數的自頂而下的**技術。分箱並不使用類資訊,因此是一種非監督的離散化技術。
資料擴充和資料預處理
參考 解析深度學習 卷積神經網路原理與視覺實踐 資料擴充 有效的資料擴充不僅能擴充訓練樣本數量,還能增加訓練樣本的多樣性,一方面可避免過擬合,另一方面又會帶來模型效能的提公升,但實際使用時需要 量體裁衣 注 如果是 影象檢測任務 或者是 影象分割任務 記得 將 影象資料 和 標記資料 進行 同步擴充...
資料探勘 資料預處理之資料整合與變換
在資料預處理的過程當中往往需要將多個資料集合中的資料整合到乙個資料倉儲中,即 需要對資料庫進行整合。與此同時,為了更好地對資料倉儲中的資料進行挖掘,對資料倉儲中的資料進行變換也在所難免。本文主要針對資料整合以及資料變化兩個問題展開論述。資料整合在將多個資料庫集成為乙個資料庫過程中存在需要著重解決三個...
目標檢測資料預處理 尺寸變換
目錄 1.比例縮放 2.使用letterbox 目標檢測訓練中,我們的資料集尺寸大部分時侯都是不符合網路輸入的,需要對尺寸進行修改,下面我介紹兩種常用尺寸變換方法 這種方法就是簡單的對尺寸進行比例縮放,一般使用cv2.resize 對進行縮放,然後計算長寬縮放比例,再通過比例來縮放標註的目標框尺寸。...