機器學習 10 資料預處理

2021-09-25 15:13:13 字數 3068 閱讀 3643

01.調整資料尺度: minmaxscaler()類

#  01.調整資料尺度: minmaxscaler()類

from pandas import read_csv

from numpy import set_printoptions

from sklearn.preprocessing import minmaxscaler

# a.匯入資料

filename = 'pima_indians.csv'

names = ['preg','plas','pres','skin',

'test','mess','pedi','age','class']

data = read_csv(filename,names=names)

# b.將資料分為輸入資料和輸出結果

array = data.values

x = array[:,0:8]

y = array[:,8]

transformer = minmaxscaler(feature_range=(0,1))

# c。資料轉換

newx = transformer.fit_transform(x)

# 設定資料的列印格式

02.正態化資料處理正態分佈standardscaler().fit()

#  02.正態化資料處理正態分佈standardscaler().fit()

from pandas import read_csv

from numpy import set_printoptions

from sklearn.preprocessing import standardscaler

# a.匯入資料

filename = 'pima_indians.csv'

names = ['preg','plas','pres','skin',

'test','mess','pedi','age','class']

data = read_csv(filename,names=names)

# b.將資料分為輸入資料和輸出結果

array = data.values

x = array[:,0:8]

y = array[:,8]

transformer = standardscaler().fit(x)

# c。資料轉換

newx = transformer.fit_transform(x)

# 設定資料的列印格式

03.標準化資料處理稀疏資料 normalizer().fit(x)

#  03.標準化資料處理稀疏資料 normalizer().fit(x)

from pandas import read_csv

from numpy import set_printoptions

from sklearn.preprocessing import normalizer

# a.匯入資料

filename = 'pima_indians.csv'

names = ['preg','plas','pres','skin',

'test','mess','pedi','age','class']

data = read_csv(filename,names=names)

# b.將資料分為輸入資料和輸出結果

array = data.values

x = array[:,0:8]

y = array[:,8]

transformer = normalizer().fit(x)

# c。資料轉換

newx = transformer.fit_transform(x)

# 設定資料的列印格式

04.二值資料生成明確值或特徵工程增加屬性

#  04.二值資料生成明確值或特徵工程增加屬性

from pandas import read_csv

from numpy import set_printoptions

from sklearn.preprocessing import binarizer

# a.匯入資料

filename = 'pima_indians.csv'

names = ['preg','plas','pres','skin',

'test','mess','pedi','age','class']

data = read_csv(filename,names=names)

# b.將資料分為輸入資料和輸出結果

array = data.values

x = array[:,0:8]

y = array[:,8]

transformer = binarizer(threshold=0.0).fit(x)

# c。資料轉換

newx = transformer.fit_transform(x)

# 設定資料的列印格式

機器學習 資料預處理

均值為0,標準差為1 from sklearn import preprocessing scaler preprocessing.standardscaler scaler.fit transform x 對原始資料進行線性變換,變換到 0,1 區間 也可以是其他固定最小最大值的區間 from s...

機器學習 資料預處理

1 連續資料特徵離散化的方法 由於lr 中模型表達能力有限,可以通過特徵離散化來提高非線性學習能力。主要方法 1 等距離散 取值範圍均勻劃分成n 等分,每份的間距相等。2 等頻離散 均勻分為n 等分,每份內包含的觀察點數相同 3 優化離散 3 1 卡方檢驗方法 統計樣本的實際觀測值與理論判斷值之間的...

機器學習python資料預處理

from pandas import read csv from sklearn.preprocessing import standardscaler from numpy import set printoptions from sklearn.preprocessing import minm...