今天小萌新複習資料探勘課程的知識點,當看到缺失值填充(imputation of missing values)部分,被sklearn庫中的transform函式搞暈了。看了幾篇前輩們的部落格,來這裡總結一下。請大家指正。
原始資料中會有一些缺失的屬性值,一般人都會選擇自動填充。
import numpy as np
from sklearn.impute import ******imputer
imp = ******imputer(missing_values=np.nan, strategy=
'mean'
)imp.fit([[
1,2]
,[np.nan,3]
,[7,
6]])
#使用train set訓練出乙個缺失值處理模型
******imputer類用來單一屬性缺失值填充。這裡的二維矩陣[[1, 2], [np.nan, 3], [7, 6]]是train set,學習完成之後就可以把學習到的填充規則應用到test set上面即可。
x =
[[np.nan,2]
,[6, np.nan],[
7,6]
]print
(imp.transform(x)
)
此時,x是test set。
transform函式是資料標準化函式。它保證每個維度的特徵資料方差為1,均值為0(正態分佈),使得**結果不會被某些維度過大的特徵值而主導。
[1][2]
[3]
python sklearn庫實現簡單邏輯回歸
import xlrd import matplotlib.pyplot as plt import numpy as np from sklearn import model selection from sklearn.linear model import logisticregression...
Python sklearn庫 資料預處理
python sklearn庫 資料預處理 資料集轉換之預處理資料 將輸入的資料轉化成機器學習演算法可以使用的資料。包含特徵提取和標準化。原因 資料集的標準化 服從均值為0方差為1的標準正態分佈 高斯分布 是大多數機器學習演算法的常見要求。如果原始資料不服從高斯分布,在 時表現可能不好。在實踐中,我...
Python sklearn 中的SVM示例
coding utf 8 import pandas as pd from numpy.random import shuffle from sklearn import svm import joblib from sklearn import metrics inputfile data mom...