資料標準化(歸一化)處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和 量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準 化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一化方法:
一、min-max標準化(min-max normalization)
也稱為離差標準化,是對原始資料的線性變換,使結果值對映到[0 - 1]之間。轉換函式如下:
其中max為樣本資料的最大值,min為樣本資料的最小值。這種方法有個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義。
二、z-score標準化方法
這種方法給予原始資料的均值(mean)和標準差(standard deviation)進行資料的標準化。經過處理的資料符合標準正態分佈,即均值為0,標準差為1,轉化函式為:
其中一、 歸一化的作用是:將資料去掉量綱的影響。簡單的講,由於資料單位不一致,故需將不同的資料進行格式化,使之在指定的範圍內 (比如在0~1之間)。
二、歸一化方法:
1、線性函式轉換:y=(x-minvalue)/(maxvalue-minvalue)
說明:x、y分別為轉換前、後的值,maxvalue、minvalue分別為樣本的最大值和最小值。
2、對數函式轉換:y=lg(x)
說明:以10為底的對數函式轉換。
3、反餘切函式轉換:y=atan(x)*2/pi
_score * (1d / (1d + exp(-log(doc['salecount'].value+1d)/10)))
資料歸一化和兩種常用的歸一化方法
資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...
資料歸一化和兩種常用的歸一化方法
資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...
資料歸一化和兩種常用的歸一化方法
資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...