刪除:如果行或列資料缺失值達到一定比例,建議放棄整行或列
插補:填補列的平均值,中位數
numpy陣列中的缺失值 nan/nan 屬於float型別
from sklearn.preprocessing import imputer
import numpy as np
# 缺失值處理
data =[[
1,1,
3],[np.nan,4,
6],[
7,3,
5]]im = imputer(missing_values=
"nan"
, strategy=
"mean"
, axis=0)
result = im.fit_transform(data)
print
(result)
"""[[1. 1. 3.]
[4. 4. 6.]
[7. 3. 5.]]
"""
機器學習 資料特徵預處理
資料的特徵預處理 數值型資料 標準縮放 歸一化 標準化 缺失值 類別型資料 one hot編碼 時間型別 時間的切分 歸一化處理 統計人覺得幾個特徵同等重要時,要用歸一化 目的 使得乙個特徵不會對最終結果不會造成更大影響 特點 通過對原始資料進行變換,把資料對映到 預設 0,1 之間 公式 x x ...
機器學習 資料特徵預處理
通過特定的統計方法 數學方法 將資料轉換成演算法要求的資料 數值型資料 標準縮放 1 歸一化 2 標準化 3 缺失值 類別型資料 one hot編碼 時間型別 時間的切分 sklearn特徵處理api sklean.preprocessing 特點 通過對原始資料進行變化把資料對映到 預設為 0,1...
資料預處理 缺失值處理
資料中的缺失值是個非常棘手的問題,有很多文獻都致力於解決這個問題。資料缺失的含義是 假設有 n n 個樣本,每個樣本20個特徵。但在一些樣本中出於某種原因某個特徵無效,則就構不成乙個完整的樣本。對於這樣的問題,有些情況下是不能直接將其拋棄的,對其進行挽救就是缺失值處理 1 使用可用特徵的均值來填補缺...