一、定義
歸一化方法有兩種形式,一種是把數變為(0,1)之間的小數,一種是把有量綱表示式變為無量綱表示式。主要是為了資料處理方便提出來的,把資料對映到0~1範圍之內處理,更加便捷快速。
二、目的
不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。其具體針對的是奇異樣本資料,奇異樣本資料指的是相對於其他輸入樣本特別大或特別小的樣本向量,如[0.34,0.51,0.44,222][0.34,0.51,0.44,128]中最後一列元素就是奇異樣本資料。
三、常見標準化方法
1.最大-最小標準化對映到區間[0,1]
2.z-score標準化結果聚集在0附近方差為1
四、矩陣的歸一化
矩陣的列歸一化,就是將矩陣每一列的值,除以每一列所有元素平方和的絕對值,這樣做的結果就是,矩陣每一列元素的平方和為1了。
五、python歸一化
其中引數axis=0表示列也是跨行的意思axis=1表示行也是跨列的意思
fromsklearn.preprocessingimportnormalize
data=np.array([
[1000,10,0.5],
[765,5,0.35],
[800,7,0.09],])
data=normalize(data,axis=0,norm='max')
print(data)
>>[[1.1.1.]
[0.7650.50.7]
[0.80.70.18]]
參考:
歸一化處理資料 python
源自 machine learning in action 1.原因 例如在用 knn 演算法處理資料時,比如有兩個特徵,乙個特徵的取值範圍為0 1,另乙個取值範圍為1w 以上,那麼用歐式距離計算的話第乙個特徵的影響幾乎就會微不足道,為了解決這個問題,在處理資料的時候對資料進行歸一化處理。2.def...
資料歸一化處理 特徵歸一化
1 定義 資料的歸一化處理,即將資料統一對映到 0,1 區間上。2 方法 1 最大最小標準化 min max normalization 本歸一化方法又稱為離差標準化,使結果值對映到 0 1 之間,轉換函式如下 應用場景 在不涉及距離度量 協方差計算 資料不符合正太分布的時候,可以使用第一種方法或其...
Sklearn 資料歸一化處理
中心化的本質是讓所有記錄減去乙個固定值,即讓資料樣本資料平移到 某個位置。縮放的本質是通過除以乙個固定值,將資料固定在某個範圍之中,取對數也算是一種縮放處理。minmaxscaler有乙個重要引數,feature range,控制我們希望把資料壓縮到的範圍,預設是 0,1 pd.dataframe ...