03 資料的特徵預處理

定義：通過特定的統計方法（數學方法），將資料轉換成演算法要求的資料。

數值型資料：標準縮放

類別性資料： one-hot編碼

時間型別：時間的切分

定義: 通過對原始資料的變化把資料對映到 [0,1] 之間

定義：將原始資料變換為均值為0，標準差為1的範圍內

from sklearn.preprocessing import minmaxscaler, standardscaler
def mm():
"""歸一化預處理
:return:none
"""mm = minmaxscaler()
data = mm.fit_transform([[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]])
print(data)
def stand():
"""標準化預處理
:return: none
"""st = standardscaler()
data = st.fit_transform([[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]])
print(data)
if __name__ == '__main__':
mm()
print('*' * 50)
stand()

缺失值的處理方法

sklearn缺失值api: sklearn.preprocessing.imputer # impute 歸咎於

import numpy as np
from sklearn.preprocessing import imputer
def im():
"""缺失值處理
:return: none
"""# nan, nan都可以
im = imputer(missing_values='nan', strategy='mean', axis=0)  # axis=0 列，可以記憶0是豎著圈
data = im.fit_transform([[1, 2], [np.nan, 3], [7, 6]])
print(data)
return none
if __name__ == '__main__':
im()

關於np.nan(np.nan)

03資料預處理

資料預處理 1.為什麼資料預處理 2.資料為什麼髒 3.為什麼資料預處理是重要的 4.資料質量 5.資料預處理的主要任務 6.資料預處理的形式資料清理 1.如何處理缺失資料 2.如何處理噪音資料資料整合 1.模式整合衝突資料值冗餘資料資料變換規範化資料的方法最小最大規範化 z sco...

特徵預處理

一定義通過特定的統計方法數學方法將資料轉換成演算法要求的資料。二方法一數值型資料標準縮放 1 歸一化 2 標準化 3 缺失值二類別型資料 one hot編碼三時間型別時間的切分三 sklearn特徵處理api sklearn.preprocessing 四歸一化一原...

資料預處理資料歸約03

概述資料歸約 data reduction 技術可以用來得到資料集的歸約表示，它小得多，但是保持原始資料的完整性。也就是說，在歸約後的資料集上挖掘更有效果，仍然產生相同或幾乎形同的分析結果。注意用於資料歸約的時間不應當超過或抵消在歸約後的資料探勘上挖掘節省的時間。資料探勘策略包括維歸約 ...

03 資料的特徵預處理

03資料預處理

特徵預處理

資料預處理 資料歸約03

相關推薦

資料預處理資料歸約03