公式:
x′=公式:x−μσ
x'=\frac
x′=σx−
μ
x′=公式:x−xm
inxm
ax−x
mi
nx' = \frac}-x_}
x′=xma
x−x
min
x−xm
in
x′=公式:x∣xm
ax
∣x'=\frac|}
x′=∣xm
ax∣
x注:該方法用於稀疏資料。
x′=x−xm
edia
niqr
x'=\frac}
x′=iqr
x−xm
edia
n其中,iqr
iqriq
r為四分位數間距:是上四分位數qu和下四分衛數ql之差,之間包含了全部觀察值的一半。
i qr
=q3−
q1
iqr = q_3 − q_1
iqr=q3
−q1
注:該方法用於去除異常點(離群點)
percentile = np.percentile(df[
'length'
],[0,25,50,75,100]
)iqr = percentile[3] - percentile[1]
uplimit = percentile[3]+ageiqr*1.5
downlimit = percentile[1]-ageiqr*1.5
import numpy as np
from sklearn import preprocessing
import matplotlib.pyplot as plt
data = np.loadtxt(
'data6.txt', delimiter=
'\t'
)# 讀取資料
# z-score標準化
zscore_scaler = preprocessing.standardscaler(
)# 建立standardscaler物件
data_scale_1 = zscore_scaler.fit_transform(data)
# standardscaler標準化處理
# max-min標準化
minmax_scaler = preprocessing.minmaxscaler(
)# 建立minmaxscaler模型物件
data_scale_2 = minmax_scaler.fit_transform(data)
# minmaxscaler標準化處理
# maxabsscaler標準化
maxabsscaler_scaler = preprocessing.maxabsscaler(
)# 建立maxabsscaler物件
data_scale_3 = maxabsscaler_scaler.fit_transform(data)
# maxabsscaler標準化
處理# robustscaler標準化
robustscalerr_scaler = preprocessing.robustscaler(
)# 建立robustscaler標準化
物件data_scale_4 = robustscalerr_scaler.fit_transform(data)
# robustscaler標準
化標準化處理
# 展示多網格結果
data_list =
[data, data_scale_1, data_scale_2, data_scale_3, data_scale_4]
# 建立資料集列表
scalar_list =
[15, 10, 15, 10, 15, 10]
# 建立點尺寸列表
color_list =
['black', 'green', 'blue', 'yellow', 'red'
]# 建立顏色列表
merker_list =
['o', ',', '+', 's', 'p'
]# 建立樣式列表
title_list =
['source data', 'zscore_scaler', 'minmax_scaler', 'maxabsscaler_scaler', 'ro
建標題列表
for i, data_single in enumerate(data_list): # 迴圈得到索引和每個數值
plt.subplot(2, 3, i + 1)
# 確定子網格
plt.scatter(data_single[:, :-1], data_single[:, -1], s=scalar_list[i], marker= merker_
網格展示散點圖
plt.title(title_list[i]
)# 設定自網格標題
plt.suptitle(
"raw data and standardized data"
)# 設定總標題
plt.show(
)# 展示圖形
資料標準化(歸一化)
資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...
資料標準化 歸一化
資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...
資料標準化 歸一化normalization
常見的資料歸一化方法 def z score x axis x np.array x astype float xr np.rollaxis x axis axis xr np.mean x axis axis xr np.std x axis axis print x return x原因是使用第...