from pandas import read_csv
from sklearn.preprocessing import standardscaler
from numpy import set_printoptions
from sklearn.preprocessing import minmaxscaler
from sklearn.preprocessing import normalizer
from sklearn.preprocessing import binarizer
filename = 'pima_data.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(filename,names = names)
array = data.values
x = array[:,0:8]
y = array[:,8]
#-----調整資料尺度-----
'''將資料縮放到乙個指定範圍,或者對資料進行標準化並將資料都聚集到0附近,方差為1'''
transformer = minmaxscaler(feature_range=(0,1))
#資料轉換
newx = transformer.fit_transform(x)
set_printoptions(precision=3)
#print(newx)
#-----正態化資料-------
'''處理符合高斯分布的資料的手段,輸出以0為中位數,方差為1'''
transformer = standardscaler().fit(x)
newx = transformer.transform(x)
set_printoptions(precision=3)
#print(newx)
#------標準化資料-------
'''將每一行的資料的距離處理為1,適合處理稀疏資料'''
transformer = normalizer().fit(x)
newx = transformer.transform(x)
set_printoptions(precision=3)
#print(newx)
#-------二值資料------
'''使用值將資料轉化為二值,大於閾值為1,小於閾值為0'''
transformer = binarizer(threshold=0.0).fit(x)
newx = transformer.transform(x)
set_printoptions(precision=3)
#print(newx)
Python機器學習 資料預處理
最小 最大規範化對原始資料進行線性變換,變換到 0,1 區間 也可以是其他固定最小最大值的區間 每個特徵中的最小值變成了0,最大值變成了1.m import numpy as np from sklearn.preprocessing import minmaxscaler x np.array 1...
Python機器學習之資料預處理
coding utf 8 created on sat sep 29 22 39 26 2018 author lxiao217 email lxiao217 163.com 資料預處理 csv comma srpared values,以逗號為分隔符的數值 如果資料以csv檔案的形式儲存在硬碟上,...
python 機器學習之資料預處理
資料預處理方法,主要是處理資料的量綱和同趨勢化問題。import numpy as np from sklearn import preprocessing 零均值規範 data np.random.rand 3,4 隨機生成3行4列的資料 data standardized preprocessi...