一、資料標準化(歸一化)
首先,資料標準化處理主要包括資料同趨化處理(中心化處理)和無量綱化處理。
同趨化處理主要解決不同性質資料問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標資料性質,使所有指針對測評方案的作用力同趨化,再加總才能得出正確結果。
無量綱化處理主要為了消除不同指標量綱的影響,解決資料的可比性,防止原始特徵中量綱差異影響距離運算(比如歐氏距離的運算)。它是縮放單個樣本以具有單位範數的過程,這與標準化有著明顯的不同。簡單來說,標準化是針對特徵矩陣的列資料進行無量綱化處理,而歸一化是針對資料集的行記錄進行處理,使得一行樣本所有的特徵資料具有統一的標準,是一種單位化的過程。
即標準化會改變資料的分布情況,歸一化不會,標準化的主要作用是提高迭代速度,降低不同維度之間影響權重不一致的問題。
資料標準化(歸一化)的方法有很多種,常用的有"最小-最大標準化"、"z-score標準化"和"按小數定標標準化"等等。經過標準化處理後,原始資料均轉換為無量綱化指標測評值,即各指標值都處於同乙個數量級別上,可以進行綜合測評分析。
把原始資料對映到0到1的區間內,預設
# -*- encoding: utf- 8 -*-
# 匯入模組
import pandas as pd
from sklearn.preprocessing import minmaxscaler
data = pd.read_table(
"datingtestset2.txt"
)data
milage
liters
consumtime
target
040920
8.326976
0.95395231
14488
7.153469
1.67390422
26052
1.441871
0.80512413
75136
13.147394
0.42896414
38344
1.669788
0.134296
1...
......
......
99511145
3.410627
0.631838
2996
68846
9.974715
0.669787
1997
26575
10.650102
0.866627
3998
48111
9.134528
0.728045
3999
43757
7.882601
1.3324463
1000 rows × 4 columns
data = data[
['milage'
,'liters'
,'consumtime']]
data
milage
liters
consumtime
040920
8.326976
0.953952
114488
7.153469
1.673904
226052
1.441871
0.805124
375136
13.147394
0.428964
438344
1.669788
0.134296
......
......
99511145
3.410627
0.631838
99668846
9.974715
0.669787
99726575
10.650102
0.866627
99848111
9.134528
0.728045
99943757
7.882601
1.332446
1000 rows × 3 columns
transfer = minmaxscaler(
)data_new = transfer.fit_transform(data)
print
(data_new)
[[0.44832535 0.39805139 0.56233353]
[0.15873259 0.34195467 0.98724416]
[0.28542943 0.06892523 0.47449629]
...[0.29115949 0.50910294 0.51079493]
[0.52711097 0.43665451 0.4290048 ]
[0.47940793 0.3768091 0.78571804]]
資料預處理 歸一化
歸一化是一種資料預處理方法,就是要把你需要處理的資料經過處理後 通過某種演算法 限制在你需要的一定範圍內,為了後面資料處理的方便,其次是保正程式執行時 收斂加快 歸一化的三種方法 1 線性函式轉換 表示式如下 y x minvalue maxvalue minvalue 說明 x y分別為轉換前 後...
資料預處理 歸一化
由於進行分類器或模型的建立與訓練時,輸入的資料範圍可能比較大,同時樣本中各資料可能量綱不一致,這樣的資料容易對模型訓練或分類器的構建結果產生影響,因此需要對其進行歸一化處理。那就是將該樣本 樣本集中第i行資料 歸一到範圍 0,1 之間。一種簡單而快速的標準歸一化處理演算法是線性轉換演算法,最為常見的...
資料預處理 歸一化
1 公式 x numpy array格式的資料 n samples,n features n samples 樣本數 n features 特徵數 列 返回值 形狀相同的array 3 缺點 由於歸一化使用最大值最小值進行計算,若最大值 最小值缺失或錯誤,歸一化結果的準確性就會大大降低,為此可採用標...