03 資料的特徵預處理

2022-02-20 08:54:24 字數 1427 閱讀 1157

定義:通過特定的統計方法(數學方法),將資料轉換成演算法要求的資料。

數值型資料:標準縮放

類別性資料: one-hot編碼

時間型別: 時間的切分

定義: 通過對原始資料的變化把資料對映到 [0,1] 之間

定義: 將原始資料變換為均值為0標準差為1的範圍內

from sklearn.preprocessing import minmaxscaler, standardscaler

def mm():

"""歸一化預處理

:return:none

"""mm = minmaxscaler()

data = mm.fit_transform([[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]])

print(data)

def stand():

"""標準化預處理

:return: none

"""st = standardscaler()

data = st.fit_transform([[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]])

print(data)

if __name__ == '__main__':

mm()

print('*' * 50)

stand()

缺失值的處理方法

sklearn缺失值api: sklearn.preprocessing.imputer # impute 歸咎於

import numpy as np

from sklearn.preprocessing import imputer

def im():

"""缺失值處理

:return: none

"""# nan, nan都可以

im = imputer(missing_values='nan', strategy='mean', axis=0) # axis=0 列,可以記憶0是豎著圈

data = im.fit_transform([[1, 2], [np.nan, 3], [7, 6]])

print(data)

return none

if __name__ == '__main__':

im()

關於np.nan(np.nan)

03資料預處理

資料預處理 1.為什麼資料預處理 2.資料為什麼髒 3.為什麼資料預處理是重要的 4.資料質量 5.資料預處理的主要任務 6.資料預處理的形式 資料清理 1.如何處理缺失資料 2.如何處理噪音資料 資料整合 1.模式整合 衝突資料值 冗餘資料 資料變換 規範化資料的方法 最小 最大規範化 z sco...

特徵預處理

一 定義 通過特定的統計方法 數學方法 將資料轉換成演算法要求的資料。二 方法 一 數值型資料 標準縮放 1 歸一化 2 標準化 3 缺失值 二 類別型資料 one hot編碼 三 時間型別 時間的切分 三 sklearn特徵處理api sklearn.preprocessing 四 歸一化 一 原...

資料預處理 資料歸約03

概述 資料歸約 data reduction 技術可以用來得到資料集的歸約表示,它小得多,但是保持原始資料的完整性。也就是說,在歸約後的資料集上挖掘更有效果,仍然產生相同 或幾乎形同 的分析結果。注意 用於資料歸約的時間不應當超過或 抵消 在歸約後的資料探勘上挖掘節省的時間。資料探勘策略包括維歸約 ...