python資料標準化處理資料標準化處理

正態分佈跟標準分數之間的關係

python版本：3.5

標準分數

標準分數(standard score，又稱z-score、z分數或標準化值)，是將集合中的單個數與集合的均值相減的結果除以集合的標準差得到標準化的結果，該方法類似於正態分佈的標準化轉換，轉換函式為：

式中x為需要被標準化的原始值，μ為均值，σ為標準差，σ≠0。

z分數標準化處理後的值代表原始值與集合均值之間的距離，以標準差為單位計算。該值存在正負值，低於均值則為負數，反之則正數，其範圍為[-∞,+∞]，資料均值為0，方差為1。

極差標準化

又稱離差標準化，是將集合中的單個數與該集合最小值相減得到的距離再去除以集合最大值與最小值相減得到極差或全距，結果落在區間[0,1]，轉換函式為：

另外還有以集合的均值作為基準的極差標準化方法，將集合中的單個數與集合的均值相減再除以極差即得到標準化的結果，標準化後的資料落在區間[-1,1]，且均值為0，極差為1，轉換函式為：

log函式標準化

通過以10為底數的log函式將原始值轉換為其對數值，轉換後的值區間並不在[0,1]之間，故還要除以最大值的對數，轉換函式為：

python實現標準化處理

使用pandas和numpy的庫先建立5個數的隨機數組，並儲存在pandas的dataframe資料結構裡便於後期處理。

未標準化前的原始值

建立好陣列後先逐一計算陣列的均值、最大值、最小值、標準差和最大值的對數，在這裡先計算並放置於全域性變數可以避免後面呼叫的時候重複計算，對大量資料而言能減少計算時間。編寫標準化函式後將標準化的結果存到新的列中，標準化後的結果如下：

標準化後的結果

原始碼如下：

import pandas as pd

import numpy as np

random_seed = 100

np.random.seed(random_seed) # # 設定隨機種子，確保每次隨機數一致

df = pd.dataframe(np.random.randint(1, 100, 5), columns=['value']) # 建立5個數的陣列

v_mean = df['value'].mean() # 均值

v_max = df['value'].max() # 最大值

v_min = df['value'].min() # 最小值

v_std = df['value'].std() # 標準差

v_log_max = np.log10(v_max) # 最大值的對數

df['z_score'] = df['value'].map(lambda x: (x - v_mean) / v_std) # z分數標準化

df['min_max'] = df['value'].map(lambda x: (x - v_min) / (v_max - v_min)) # 極差標準化，以最小值為基準

df['min_max_mean'] = df['value'].map(lambda x: (x - v_mean) / (v_max - v_min)) # 極差標準化，以均值為基準

df['log_max'] = df['value'].map(lambda x: np.log10(x) / v_log_max) # log函式標準化

python資料標準化處理 資料標準化處理