在使用knn(k-nearest neighbours)根據特徵值進行分類的時候,如果所有變數位於同一值域範圍內,利用這些變數一次性算出距離值是有意義的。不過,假設我們引入乙個對最終的分類結果產生影響的新變數(不同型別的變數 heterogenous varibales)。與我們目前使用過的變數不同(假設之前的變數的取值均介於0和100之間),這些變數可能會達到1000。很顯然,和原先的變數相比,這個新的變數對距離計算所產生的影響更為顯著——其影響將超過任何其他變數對距離計算所構成的影響,這意味著,在計算距離的過程中其他變數根本就未被考慮在內。 (摘自《programming collective intelligence》)
所以在使用knn之前需要對所有的變數進行歸一化處理。下面介紹幾種歸一化的方法:
1、線性函式轉換,表示式如下:
y=(x-minvalue)/(maxvalue-minvalue)
2、對數函式轉換,表示式如下:
y=log10 (x)
3、反餘切函式轉換 ,表示式如下:
y=arctan(x)*2/pi
4、減去均值,乘以方差:
y=(x-means)/ variance
特徵歸一化
我們在衡量一些事物時,我們總是不能同等程度的看待各個特徵,無法對這個事物做出準確的衡量,即我們沒有將各個特徵量化到統一的區間。為了解決這樣的問題,我們引出了特徵歸一化 目錄 特徵歸一化的概念 特徵歸一化必要性 資料標準化的意義 資料標準化的方法 資料的標準化 normalization 是將資料按比...
特徵歸一化的方法 線性歸一化 零均值歸一化
常用歸一化方法 1 線性歸一化,線性歸一化會把輸入資料都轉換到 0 1 的範圍,公式如下 該方法實現對原始資料的等比例縮放,其中xnorm為歸一化後的資料,x為原始資料,xmax xmin分別為原始資料集的最大值和最小值。優點 通過利用變數取值的最大值和最小值將原始資料轉換為界於某一特定範圍的資料,...
特徵工程 特徵歸一化
為了消除資料特徵之間的量綱影響,需要對特徵進行歸一化 normalization 處理,使得不同特徵處於同乙個數量級,具有可比性 2.1 線性函式歸一化 min max scaling 對原始資料進行線性變換,使結果對映到 0,1 的範圍內,實現對原始資料的等比縮放。歸一化公式 其中,x為原始資料,...