資料標準化 歸一化normalization

2021-08-21 08:02:29 字數 931 閱讀 1827

]。]

]常見的資料歸一化方法

def 

z_score(x

, axis

):x = np.array(x

).astype(float)

xr = np.rollaxis(x

, axis

=axis

) xr -= np.mean(x

, axis

=axis

) xr /= np.std(x

, axis

=axis

) # print(x)

return

x

原因是使用第一種方法(線性變換後),其協方差產生了倍數值的縮放,因此這種方式無法消除量綱對方差、協方差的影響,對pca分析影響巨大;同時,由於量綱的存在,使用不同的量綱、距離的計算結果會不同。

而在第二種歸一化方式中,新的資料由於對方差進行了歸一化,這時候每個維度的量綱其實已經等價了,每個維度都服從均值為0、方差1的正態分佈,在計算距離的時候,每個維度都是去量綱化的,避免了不同量綱的選取對距離計算產生的巨大影響。 [

再談機器學習中的歸一化方法(normalization method) ]

皮皮blog

通過以10為底的log函式轉換的方法同樣可以實現歸一下,具體方法如下:

看了下網上很多介紹都是x*=log10(x),其實是有問題的,這個結果並非一定落到[0,1]區間上,應該還要除以log10(max),max為樣本資料最大值,並且所有的資料都要大於等於1。

用反正切函式也可以實現資料的歸一化。

使用這個方法需要注意的是如果想對映的區間為[0,1],則資料都應該大於等於0,小於0的資料將被對映到[-1,0]區間上,而並非所有資料標準化的結果都對映到[0,1]區間上。

]資料標準化/歸一化的程式設計實現

]

資料標準化(歸一化)

資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...

資料標準化 歸一化

資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...

資料標準化 歸一化

公式 x x x frac x x 公式 x x xm inxm ax x mi nx frac x x xma x x min x xm in 公式 x x xm ax x frac x xm ax x 注 該方法用於稀疏資料。公式 x x xm edia niqr x frac x iqr x ...