如圖所示,通過6步完成資料預處理。
此例用到的資料,**。
import numpy as npimport pandas as pd
dataset = pd.read_csv('data.csv')//讀取csv檔案x = dataset.iloc[ : , :-1].values//.iloc[行,列]
y = dataset.iloc[ : , 3].values // : 全部行 or 列;[a]第a行 or 列
// [a,b,c]第 a,b,c 行 or 列
from sklearn.preprocessing import imputerimputer = imputer(missing_values = "nan", strategy = "mean", axis = 0)
imputer = imputer.fit(x[ : , 1:3])
x[ : , 1:3] = imputer.transform(x[ : , 1:3])
from sklearn.preprocessing import labelencoder, onehotencoderlabelencoder_x = labelencoder()
x[ : , 0] = labelencoder_x.fit_transform(x[ : , 0])
onehotencoder = onehotencoder(categorical_features = [0])x = onehotencoder.fit_transform(x).toarray()
labelencoder_y = labelencoder()
y = labelencoder_y.fit_transform(y)
from sklearn.model_selection import train_test_splitx_train, x_test, y_train, y_test = train_test_split( x , y , test_size = 0.2, random_state = 0)
from sklearn.preprocessing import standardscalersc_x = standardscaler()
x_train = sc_x.fit_transform(x_train)
x_test = sc_x.transform(x_test)
機器學習 資料預處理
均值為0,標準差為1 from sklearn import preprocessing scaler preprocessing.standardscaler scaler.fit transform x 對原始資料進行線性變換,變換到 0,1 區間 也可以是其他固定最小最大值的區間 from s...
機器學習 資料預處理
1 連續資料特徵離散化的方法 由於lr 中模型表達能力有限,可以通過特徵離散化來提高非線性學習能力。主要方法 1 等距離散 取值範圍均勻劃分成n 等分,每份的間距相等。2 等頻離散 均勻分為n 等分,每份內包含的觀察點數相同 3 優化離散 3 1 卡方檢驗方法 統計樣本的實際觀測值與理論判斷值之間的...
機器學習python資料預處理
from pandas import read csv from sklearn.preprocessing import standardscaler from numpy import set printoptions from sklearn.preprocessing import minm...