機器學習中特徵歸一化的方法

2021-08-15 01:31:12 字數 955 閱讀 6573

資料標準化(歸一化)處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一化方法:

一、min-max標準化(min-max normalization)

也稱為離差標準化、線性函式歸一化,是對原始資料的線性變換,使結果值對映到[0 - 1]之間。轉換函式如下:

其中max為樣本資料的最大值,min為樣本資料的最小值。這種方法有個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義。

二、z-score標準化方法

這種方法給予原始資料的均值(mean)和標準差(standard deviation)進行資料的標準化。經過處理的資料符合標準正態分佈,即均值為0,標準差為1,轉化函式為:

其中μ為所有樣本資料的均值,σ為所有樣本資料的標準差。

1、在分類、聚類演算法中,需要使用距離來度量相似性的時候、或者使用pca技術進行降維的時候,z-score standardization表現更好。

2、在不涉及距離度量、協方差計算、資料不符合正太分布的時候,可以使用第一種方法或其他歸一化方法。比如影象處理中,將rgb影象轉換為灰度影象後將其值限定在[0 255]的範圍。

參考:

機器學習中的歸一化方法

在這裡主要討論兩種歸一化方法 線性函式將原始資料線性化的方法轉換到 0 1 的範圍,歸一化公式如下 該方法實現對原始資料的等比例縮放,其中xnorm為歸一化後的資料,x為原始資料,xmax xmin分別為原始資料集的最大值和最小值。python實現 preprocessing.minmaxscale...

機器學習中數值型特徵做特徵歸一化

今天去某外賣平台面試機器學習演算法工程師,二面時面試官問到數值型特徵工程,提到歸一化,按常規想法就是minmaxscaler或zscore。本以為回答完美,但被面試官追問,為什麼做歸一化,做與不做,有什麼區別?這讓我猝不及防,就按自己的理解說,某些特徵的數值相較其他特徵數值範圍差異大,在演算法的訓練...

機器學習之特徵歸一化(normalization)

一 引子 對房屋售價進行 時,我們的特徵僅有房屋面積一項,但是,在實際生活中,臥室數目也一定程度上影響了房屋售價。下面,我們有這樣一組訓練樣本 房屋面積 英呎 臥室數量 間 售價 美元 2104 3 399900 1600 3 329900 2400 3 369000 1416 2 232000 3...