資料規範中的歸一化與標準化:
a.歸一化 vs. 標準化
歸一化:要把你需要處理的資料經過處理後(通過某種演算法)限制在你需要的一定範圍內。首先歸一化是為了後面資料處理的方便,其次是保正程式執行時收斂加快。一般指將資料限制在[0 1]之間。
》把數變為(0,1)之間的數,主要是為了資料處理方便提出來的,把資料對映到0-1之間處理,更便攜快速;
》把有量綱表示式變為無量綱表示式,成為純量;
》一般採用最大-最小規範化對原始資料進行線性變換:x*=(x-xmin)/(xmax-xmin)
標準化:對原始資料進行縮放處理,限制在一定的範圍內。一般指正態化,即均值為0,方差為1。即使資料不符合正態分佈,也可以採用這種方式方法,標準化後的資料有正有負。
由於信用指標體系的各個指標度量單位是不同的,為了能夠將指標參與評價計算,需要對指標進行規範化處理,通過函式變換將其數值對映到某個數值區間
》資料同趨化處理:解決不同性質資料問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標資料性質,使所有指針對測評方案的作用力同趨化,再加總才能得出正確結果;
》無量綱化處理:要解決資料的可比性;
》一般採用z-score規範化:即均值為0,方差為1的正態分佈;
在matlab裡面,用於歸一化的方法共有三種:
(1)premnmx、postmnmx、tramnmx。premnmx指的是歸一到[-1 1],tramnmx是變化測試集輸入結果,postmnmx是轉化測試集輸出結果。
(2)prestd、poststd、trastd。 prestd 歸一到單位方差和零均值。
(3)自己程式設計。 關於自己程式設計一般是歸一到[0.1 0.9]
b. 為什麼要用歸一化呢?奇異樣本資料資料指的是相對於其他輸入樣本特別大或特別小的樣本向量。奇異樣本資料存在所引起的網路訓練時間增加,並可能引起網路無法收斂,所以對於訓練樣本存在奇異樣本資料的資料集在訓練之前,最好先進形歸一化,若不存在奇異樣本資料,則不需要事先歸一化。
c. 歸一還可以用 mapminmax。
這個函式可以把矩陣的每一行歸一到[a b].預設為[-1 1].
[y1,ps] = mapminmax(x1,a,b). 其中x1是需要歸一的矩陣,y1是結果
當需要把歸一的資料還原時,可以用以下命令: x1_again = mapminmax('reverse',y1,ps)
d.matlab命令說明
1. mean:計算向量均值。mean(x,1)列向量均值,mean(x,2)行向量均值。 mean2(x)矩陣均值.
2. std:計算向量均方差,std(x,0,1)列向量均方差,std(x,0,2)行向量均方差。 std2(x)矩陣均方差
3. var:計算向量方差,var(x)
4. sse:誤差平方和,sse(x)。越接近於0,說明擬合的越好,資料**越成功。
5. mse:均方差平方和,mse(x)=sse(x)/n。意義同sse
6. r-square:確定係數。確定係數是通過資料的變化來表徵乙個擬合的好壞。由上面的表
達式可以知道「確定係數」的正常取值範圍為[0 1],越接近1,表明方程的
變數對y的解釋能力越強,這個模型對資料擬合的也較好。
歸一化與標準化
特點 對不同特徵維度的伸縮錶換的目的是使各個特徵維度對目標函式的影響權重是一致的,即使得那些扁平分布的資料伸縮變換成類圓形。這也就改變了原始資料的乙個分布。好處 1 提高迭代求解的收斂速度 2 提高迭代求解的精度 方法 1 min max標準化 也成為離差標準化,對原始資料的的線性變換,結果值對映到...
歸一化與標準化
1 提公升訓練的速度 2 提公升模型的精度 3 深度模型中能夠防止梯度 min max 歸一化 x x x min x max x min 將x 對映到 0,1 之間的乙個數 z score 標準化 均值為0 標準差為1 當有新的樣本加入時,min max 計算量小,z score 需要重新計算均值...
資料標準化(歸一化)
資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...