1.線性歸一化
簡單公式表達:y = (x-min value)/(max value-min value)
其中,x是歸一化之前的資料,y是歸一化之後的資料,max value 和 min value 分別對應這一組資料中的最大值和最小值。範圍:[0,1]。
適用於:把原來資料等比例縮放限定在某一範圍內,在不涉及距離度量和協方差計算的時候使用。
2.標準差歸一化
簡單公式表達:y = (x-μ)/σ
其中,x,y分別對應歸一化前後資料。μ代表這組資料的均差,σ代表這組資料的方差。
適用於:原來資料近似高斯分布。同時是距離度量的。
3.對數歸一化
簡單公示表達:y= log10(x)
其中,x,y分別對應歸一化前後資料。
4.反餘切歸一化
簡單公示表達:y = atan(x)*2/pi
其中,x,y分別對應歸一化前後資料。反餘切函式的範圍在[0,π/2],因此對反餘切得到的值乘2除π,把範圍控制在[0,1]
5.mapminmax
這是matlab中封裝好的方法,是線性歸一化的一種。
表示式為:y = (ymax-ymin)*(x-xmin)/(xmax-xmin) + ymin
其中,x,y分別對應歸一化前後資料。xmax,xmin分別對應處理前資料的最大值和最小值,而ymax,ymin則是處理後的資料的最大值最小值,換言之,就是我們希望我們處理後的資料的範圍。matlab中使用方式是,[matlab_minmax_data,s1] = mapminmax(minmax_data);
matlab_minmax_data是處理後的矩陣,s1為mapminmax操作的索引,可以輸出檢視。minmax_data是處理前的資料。
簡單matlab**實現
%% 初始的資料部分
% 未經處理的資料data
data = [1,3,9,20,2,6; ];
% 獲取資料的個數,也就是矩陣的列數。
data_l=size(data,2);
%% 進行線性函式歸一化
%分配記憶體空間
minmax_data = zeros(1,data_l);
for n=1:data_l
%當前的值減去最小值,再除以最大值最小值之差
minmax_data(:,n)=(data(:,n)-min(data))/(max(data)-min(data));
end%輸出結果
disp('線性歸一化');
disp(minmax_data);
%% 進行標準差歸一化化
%分配記憶體空間
zscore_data = zeros(1,data_l);
for m=1:data_l
%當前值減去均值,再除以標準差
zscore_data(:,m)=(data(:,m)-mean(data))/std(data);
end%輸出結果
disp('標準差歸一化');
disp(zscore_data);
%% 進行對數歸一化
% 分配記憶體空間
log_data = zeros(1,data_l);
for n=1:data_l
log_data(:,n)=log10(data(:,n));
end% 輸出結果
disp('對數歸一化');
disp(log_data);
%% 進行反餘切歸一化
% 分配記憶體空間
atan_data = zeros(1,data_l);
for n=1:data_l
%反餘切函式的範圍在[0,π/2],因此對反餘切得到的值乘2除π,把範圍控制在[0,1]
atan_data(:,n)=atan(data(:,n))*2/pi;
end%輸出結果
disp('反餘切歸一化');
disp(atan_data);
%% 進行mapminmax歸一化
[matlab_minmax_data,s1] = mapminmax(minmax_data);
%輸出結果
disp('mapminmax歸一化');
disp(matlab_minmax_data);
%輸出歸一化的索引
disp('mapminmax歸一化索引');
disp(s1);
資料歸一化方法
本文主要介紹兩種基本的資料歸一化方法。歸一化方法有兩種形式,一種是把數變為 0,1 之間的小數,一種是把有量綱表示式變為無量綱表示式。資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料...
資料歸一化方法
1 min max標準化 也叫做離差標準化,是一種對原始資料樣本的 線性變換處理,讓樣本從原本的值通過對映轉化為0 1之間的值。norsample sample min max min 其中,min為樣本中的最小值,max為樣本中的最大值。優點是 簡單易行,容易理解實現 缺點是 資料樣本不能頻繁的變...
資料歸一化的方法
資料特徵之間往往有著不同的分布區間,差異較大的情況下會很大程度的影響資料分析的結果。為了消除這種現象的影響需要對原始資料進行歸一化處理,使得各個指標處於同一數量級。1 max min歸一化 也叫離差標準化,是對原始資料的線性變換,使結果值對映到 0 1 之間。公式為 x x min max min ...