機器學習(1) 資料預處理

2021-09-11 21:13:38 字數 1376 閱讀 1340

如圖所示,通過6步完成資料預處理。

此例用到的資料,**。

import numpy as np

import pandas as pd

dataset = pd.read_csv('data.csv')//讀取csv檔案

x = dataset.iloc[ : , :-1].values//.iloc[行,列]

y = dataset.iloc[ : , 3].values // : 全部行 or 列;[a]第a行 or 列

// [a,b,c]第 a,b,c 行 or 列

from sklearn.preprocessing import imputer

imputer = imputer(missing_values = "nan", strategy = "mean", axis = 0)

imputer = imputer.fit(x[ : , 1:3])

x[ : , 1:3] = imputer.transform(x[ : , 1:3])

from sklearn.preprocessing import labelencoder, onehotencoder

labelencoder_x = labelencoder()

x[ : , 0] = labelencoder_x.fit_transform(x[ : , 0])

onehotencoder = onehotencoder(categorical_features = [0])

x = onehotencoder.fit_transform(x).toarray()

labelencoder_y = labelencoder()

y = labelencoder_y.fit_transform(y)

from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split( x , y , test_size = 0.2, random_state = 0)

from sklearn.preprocessing import standardscaler

sc_x = standardscaler()

x_train = sc_x.fit_transform(x_train)

x_test = sc_x.transform(x_test)

機器學習 資料預處理

均值為0,標準差為1 from sklearn import preprocessing scaler preprocessing.standardscaler scaler.fit transform x 對原始資料進行線性變換,變換到 0,1 區間 也可以是其他固定最小最大值的區間 from s...

機器學習 資料預處理

1 連續資料特徵離散化的方法 由於lr 中模型表達能力有限,可以通過特徵離散化來提高非線性學習能力。主要方法 1 等距離散 取值範圍均勻劃分成n 等分,每份的間距相等。2 等頻離散 均勻分為n 等分,每份內包含的觀察點數相同 3 優化離散 3 1 卡方檢驗方法 統計樣本的實際觀測值與理論判斷值之間的...

機器學習python資料預處理

from pandas import read csv from sklearn.preprocessing import standardscaler from numpy import set printoptions from sklearn.preprocessing import minm...