01.調整資料尺度: minmaxscaler()類
# 01.調整資料尺度: minmaxscaler()類
from pandas import read_csv
from numpy import set_printoptions
from sklearn.preprocessing import minmaxscaler
# a.匯入資料
filename = 'pima_indians.csv'
names = ['preg','plas','pres','skin',
'test','mess','pedi','age','class']
data = read_csv(filename,names=names)
# b.將資料分為輸入資料和輸出結果
array = data.values
x = array[:,0:8]
y = array[:,8]
transformer = minmaxscaler(feature_range=(0,1))
# c。資料轉換
newx = transformer.fit_transform(x)
# 設定資料的列印格式
02.正態化資料處理正態分佈standardscaler().fit()
# 02.正態化資料處理正態分佈standardscaler().fit()
from pandas import read_csv
from numpy import set_printoptions
from sklearn.preprocessing import standardscaler
# a.匯入資料
filename = 'pima_indians.csv'
names = ['preg','plas','pres','skin',
'test','mess','pedi','age','class']
data = read_csv(filename,names=names)
# b.將資料分為輸入資料和輸出結果
array = data.values
x = array[:,0:8]
y = array[:,8]
transformer = standardscaler().fit(x)
# c。資料轉換
newx = transformer.fit_transform(x)
# 設定資料的列印格式
03.標準化資料處理稀疏資料 normalizer().fit(x)
# 03.標準化資料處理稀疏資料 normalizer().fit(x)
from pandas import read_csv
from numpy import set_printoptions
from sklearn.preprocessing import normalizer
# a.匯入資料
filename = 'pima_indians.csv'
names = ['preg','plas','pres','skin',
'test','mess','pedi','age','class']
data = read_csv(filename,names=names)
# b.將資料分為輸入資料和輸出結果
array = data.values
x = array[:,0:8]
y = array[:,8]
transformer = normalizer().fit(x)
# c。資料轉換
newx = transformer.fit_transform(x)
# 設定資料的列印格式
04.二值資料生成明確值或特徵工程增加屬性
# 04.二值資料生成明確值或特徵工程增加屬性
from pandas import read_csv
from numpy import set_printoptions
from sklearn.preprocessing import binarizer
# a.匯入資料
filename = 'pima_indians.csv'
names = ['preg','plas','pres','skin',
'test','mess','pedi','age','class']
data = read_csv(filename,names=names)
# b.將資料分為輸入資料和輸出結果
array = data.values
x = array[:,0:8]
y = array[:,8]
transformer = binarizer(threshold=0.0).fit(x)
# c。資料轉換
newx = transformer.fit_transform(x)
# 設定資料的列印格式
機器學習 資料預處理
均值為0,標準差為1 from sklearn import preprocessing scaler preprocessing.standardscaler scaler.fit transform x 對原始資料進行線性變換,變換到 0,1 區間 也可以是其他固定最小最大值的區間 from s...
機器學習 資料預處理
1 連續資料特徵離散化的方法 由於lr 中模型表達能力有限,可以通過特徵離散化來提高非線性學習能力。主要方法 1 等距離散 取值範圍均勻劃分成n 等分,每份的間距相等。2 等頻離散 均勻分為n 等分,每份內包含的觀察點數相同 3 優化離散 3 1 卡方檢驗方法 統計樣本的實際觀測值與理論判斷值之間的...
機器學習python資料預處理
from pandas import read csv from sklearn.preprocessing import standardscaler from numpy import set printoptions from sklearn.preprocessing import minm...