資料歸一化的基本方法

2021-08-28 18:49:00 字數 2219 閱讀 1043

1.線性歸一化

簡單公式表達:y = (x-min value)/(max value-min value)

其中,x是歸一化之前的資料,y是歸一化之後的資料,max value 和 min value 分別對應這一組資料中的最大值和最小值。範圍:[0,1]。

適用於:把原來資料等比例縮放限定在某一範圍內,在不涉及距離度量和協方差計算的時候使用。

2.標準差歸一化

簡單公式表達:y = (x-μ)/σ

其中,x,y分別對應歸一化前後資料。μ代表這組資料的均差,σ代表這組資料的方差。

適用於:原來資料近似高斯分布。同時是距離度量的。

3.對數歸一化

簡單公示表達:y= log10(x)

其中,x,y分別對應歸一化前後資料。

4.反餘切歸一化

簡單公示表達:y = atan(x)*2/pi

其中,x,y分別對應歸一化前後資料。反餘切函式的範圍在[0,π/2],因此對反餘切得到的值乘2除π,把範圍控制在[0,1]

5.mapminmax

這是matlab中封裝好的方法,是線性歸一化的一種。

表示式為:y = (ymax-ymin)*(x-xmin)/(xmax-xmin) + ymin

其中,x,y分別對應歸一化前後資料。xmax,xmin分別對應處理前資料的最大值和最小值,而ymax,ymin則是處理後的資料的最大值最小值,換言之,就是我們希望我們處理後的資料的範圍。matlab中使用方式是,[matlab_minmax_data,s1] = mapminmax(minmax_data);

matlab_minmax_data是處理後的矩陣,s1為mapminmax操作的索引,可以輸出檢視。minmax_data是處理前的資料。

簡單matlab**實現

%% 初始的資料部分

% 未經處理的資料data

data = [1,3,9,20,2,6; ];

% 獲取資料的個數,也就是矩陣的列數。

data_l=size(data,2);

%% 進行線性函式歸一化

%分配記憶體空間

minmax_data = zeros(1,data_l);

for n=1:data_l

%當前的值減去最小值,再除以最大值最小值之差

minmax_data(:,n)=(data(:,n)-min(data))/(max(data)-min(data));

end%輸出結果

disp('線性歸一化');

disp(minmax_data);

%% 進行標準差歸一化化

%分配記憶體空間

zscore_data = zeros(1,data_l);

for m=1:data_l

%當前值減去均值,再除以標準差

zscore_data(:,m)=(data(:,m)-mean(data))/std(data);

end%輸出結果

disp('標準差歸一化');

disp(zscore_data);

%% 進行對數歸一化

% 分配記憶體空間

log_data = zeros(1,data_l);

for n=1:data_l

log_data(:,n)=log10(data(:,n));

end% 輸出結果

disp('對數歸一化');

disp(log_data);

%% 進行反餘切歸一化

% 分配記憶體空間

atan_data = zeros(1,data_l);

for n=1:data_l

%反餘切函式的範圍在[0,π/2],因此對反餘切得到的值乘2除π,把範圍控制在[0,1]

atan_data(:,n)=atan(data(:,n))*2/pi;

end%輸出結果

disp('反餘切歸一化');

disp(atan_data);

%% 進行mapminmax歸一化

[matlab_minmax_data,s1] = mapminmax(minmax_data);

%輸出結果

disp('mapminmax歸一化');

disp(matlab_minmax_data);

%輸出歸一化的索引

disp('mapminmax歸一化索引');

disp(s1);

資料歸一化方法

本文主要介紹兩種基本的資料歸一化方法。歸一化方法有兩種形式,一種是把數變為 0,1 之間的小數,一種是把有量綱表示式變為無量綱表示式。資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料...

資料歸一化方法

1 min max標準化 也叫做離差標準化,是一種對原始資料樣本的 線性變換處理,讓樣本從原本的值通過對映轉化為0 1之間的值。norsample sample min max min 其中,min為樣本中的最小值,max為樣本中的最大值。優點是 簡單易行,容易理解實現 缺點是 資料樣本不能頻繁的變...

資料歸一化的方法

資料特徵之間往往有著不同的分布區間,差異較大的情況下會很大程度的影響資料分析的結果。為了消除這種現象的影響需要對原始資料進行歸一化處理,使得各個指標處於同一數量級。1 max min歸一化 也叫離差標準化,是對原始資料的線性變換,使結果值對映到 0 1 之間。公式為 x x min max min ...