機器學習 資料特徵預處理缺失值處理

2021-09-09 01:47:48 字數 522 閱讀 8163

刪除:如果行或列資料缺失值達到一定比例,建議放棄整行或列

插補:填補列的平均值,中位數

numpy陣列中的缺失值 nan/nan 屬於float型別

from sklearn.preprocessing import imputer

import numpy as np

# 缺失值處理

data =[[

1,1,

3],[np.nan,4,

6],[

7,3,

5]]im = imputer(missing_values=

"nan"

, strategy=

"mean"

, axis=0)

result = im.fit_transform(data)

print

(result)

"""[[1. 1. 3.]

[4. 4. 6.]

[7. 3. 5.]]

"""

機器學習 資料特徵預處理

資料的特徵預處理 數值型資料 標準縮放 歸一化 標準化 缺失值 類別型資料 one hot編碼 時間型別 時間的切分 歸一化處理 統計人覺得幾個特徵同等重要時,要用歸一化 目的 使得乙個特徵不會對最終結果不會造成更大影響 特點 通過對原始資料進行變換,把資料對映到 預設 0,1 之間 公式 x x ...

機器學習 資料特徵預處理

通過特定的統計方法 數學方法 將資料轉換成演算法要求的資料 數值型資料 標準縮放 1 歸一化 2 標準化 3 缺失值 類別型資料 one hot編碼 時間型別 時間的切分 sklearn特徵處理api sklean.preprocessing 特點 通過對原始資料進行變化把資料對映到 預設為 0,1...

資料預處理 缺失值處理

資料中的缺失值是個非常棘手的問題,有很多文獻都致力於解決這個問題。資料缺失的含義是 假設有 n n 個樣本,每個樣本20個特徵。但在一些樣本中出於某種原因某個特徵無效,則就構不成乙個完整的樣本。對於這樣的問題,有些情況下是不能直接將其拋棄的,對其進行挽救就是缺失值處理 1 使用可用特徵的均值來填補缺...