原資料:
一、歸一化
1 df['b']=(df['
a']-1)/(6-1)
2 sns.kdeplot(df['b'
])3 plt.xlim(-2,10)
4plt.show()
5 df['
b'].describe()
1 count 9.0000001)畫圖的時候限制xlim(-2,10)2)畫圖的時候去掉xlim的限制2 mean 0.422222
3 std 0.323179
4 min 0.000000
5 25% 0.200000
6 50% 0.400000
7 75% 0.600000
8 max 1.000000
9 name: b, dtype: float64
二、標準化
標準化後均值為0,方差為1.
df['b']=(df['
a']-3.1111)/1.615893sns.kdeplot(df['b
'])plt.xlim(-6,10)
plt.show()
df['
b'].describe()
1 count 9.0000001)限制xlim(-6,10)2)去掉xlim限制2 mean 0.000007
3 std 1.000000
4 min -1.306460
5 25% -0.687607
6 50% -0.068755
7 75% 0.550098
8 max 1.787804
9 name: b, dtype: float64
三、總結
從上述歸一化和標準化可以看出來,轉換後資料的均值和方差都發生了改變:
1)均值發生改變可以理解為資料的座標都進行了平移轉換,均值其實也是隨之一樣轉換。
2)方差的改變是因為資料都壓縮在了更小的範圍內了,所以方差都變小了。
3)通過畫圖去掉xlim的限制,我們可以看出轉換後的圖的形狀跟原圖的形狀是一樣的,也就是圖的形狀本質上沒變,只是壓縮在更小的空間範圍內,從同一xlim範圍看是變瘦了。
資料標準化(歸一化)
資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...
資料標準化 歸一化
資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...
資料標準化 歸一化
公式 x x x frac x x 公式 x x xm inxm ax x mi nx frac x x xma x x min x xm in 公式 x x xm ax x frac x xm ax x 注 該方法用於稀疏資料。公式 x x xm edia niqr x frac x iqr x ...