定義:通過特定的統計方法(數學方法),將資料轉換成演算法要求的資料。
數值型資料:標準縮放
類別性資料: one-hot編碼
時間型別: 時間的切分
定義: 通過對原始資料的變化把資料對映到 [0,1] 之間
定義: 將原始資料變換為均值為0,標準差為1的範圍內
from sklearn.preprocessing import minmaxscaler, standardscaler
def mm():
"""歸一化預處理
:return:none
"""mm = minmaxscaler()
data = mm.fit_transform([[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]])
print(data)
def stand():
"""標準化預處理
:return: none
"""st = standardscaler()
data = st.fit_transform([[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]])
print(data)
if __name__ == '__main__':
mm()
print('*' * 50)
stand()
缺失值的處理方法
sklearn缺失值api: sklearn.preprocessing.imputer # impute 歸咎於
import numpy as np
from sklearn.preprocessing import imputer
def im():
"""缺失值處理
:return: none
"""# nan, nan都可以
im = imputer(missing_values='nan', strategy='mean', axis=0) # axis=0 列,可以記憶0是豎著圈
data = im.fit_transform([[1, 2], [np.nan, 3], [7, 6]])
print(data)
return none
if __name__ == '__main__':
im()
關於np.nan(np.nan) 03資料預處理
資料預處理 1.為什麼資料預處理 2.資料為什麼髒 3.為什麼資料預處理是重要的 4.資料質量 5.資料預處理的主要任務 6.資料預處理的形式 資料清理 1.如何處理缺失資料 2.如何處理噪音資料 資料整合 1.模式整合 衝突資料值 冗餘資料 資料變換 規範化資料的方法 最小 最大規範化 z sco...
特徵預處理
一 定義 通過特定的統計方法 數學方法 將資料轉換成演算法要求的資料。二 方法 一 數值型資料 標準縮放 1 歸一化 2 標準化 3 缺失值 二 類別型資料 one hot編碼 三 時間型別 時間的切分 三 sklearn特徵處理api sklearn.preprocessing 四 歸一化 一 原...
資料預處理 資料歸約03
概述 資料歸約 data reduction 技術可以用來得到資料集的歸約表示,它小得多,但是保持原始資料的完整性。也就是說,在歸約後的資料集上挖掘更有效果,仍然產生相同 或幾乎形同 的分析結果。注意 用於資料歸約的時間不應當超過或 抵消 在歸約後的資料探勘上挖掘節省的時間。資料探勘策略包括維歸約 ...