標準化 歸一化(二)

2021-08-09 08:57:53 字數 2037 閱讀 2488

答一:

歸一化方法:

1、把數變為(0,1)之間的小數

主要是為了資料處理方便提出來的,把資料對映到0~1範圍之內處理,更加便捷快速。

2、把有量綱表示式變為無量綱表示式

歸一化是一種簡化計算的方式,即將有量綱的表示式,經過變換,化為無量綱的表示式,成為純量。

標準化方法:

資料的標準化是將資料按比例縮放,使之落入乙個小的特定區間。由於信用指標體系的各個指標度量單位是不同的,為了能夠將指標參與評價計算,需要對指標進行規範化處理,通過函式變換將其數值對映到某個數值區間。

答二:

1歸一化

特點對不同特徵維度的伸縮變換的目的是使各個特徵維度對目標函式的影響權重是一致的,即使得那些扁平分布的資料伸縮變換成類圓形。這也就改變了原始資料的乙個分布。

好處:1 提高迭代求解的收斂速度

2 提高迭代求解的精度

2標準化

特點對不同特徵維度的伸縮變換的目的是使得不同度量之間的特徵具有可比性。同時不改變原始資料的分布。

好處1 使得不同度量之間的特徵具有可比性,對目標函式的影響體現在幾何分布上,而不是數值上

2 不改變原始資料的分布

資料標準化/歸一化

處理資料時不進行歸一化會有什麼影響?歸一化的作用是什麼?什麼時候需要歸一化?有哪些歸一化的方法?

在進行資料分析的時候,什麼情況下需要對資料進行標準化處理? - 王贇 maigo 的回答

機器學習資料歸一化的的方法有哪些?適合於什麼樣的資料? - 王贇maigo 的回答

為什麼feature scaling會 使gradient descent的收斂更好?- 王贇 maigo 的回答

資料特徵的歸一化,是對整個矩陣還是對每一維特徵? - 王贇 maigo 的回答

舉例根據人的身高和體重**人的健康指數

假設有如下原始樣本資料是四維的(當然一般不會有這麼無聊的資料)

從上面兩個座標圖可以看出,樣本在資料值上的分布差距是不一樣的,但是其幾何距離是一致的。而標準化就是一種對樣本資料在不同維度上進行乙個伸縮變化(而不改變資料的幾何距離),也就是不改變原始資料的資訊(分布)。這樣的好處就是在進行特徵提取時,忽略掉不同特徵之間的乙個度量,而保留樣本在各個維度上的資訊(分布)。

從採用大單位的身高和體重這兩個特徵來看,如果採用標準化,不改變樣本在這兩個維度上的分布,則左圖還是會保持二維分布的乙個扁平性;而採用歸一化則會在不同維度上對資料進行不同的伸縮變化(歸一區間,會改變資料的原始距離,分布,資訊),使得其呈類圓形。雖然這樣樣本會失去原始的資訊,但這防止了歸一化前直接對原始資料進行梯度下降類似的優化演算法時最終解被數值大的特徵所主導。歸一化之後,各個特徵對目標函式的影響權重是一致的。這樣的好處是在提高迭代求解的精度。

答三:兩種不同的縮放方式,目的都是縮小範圍。

歸一化是一種簡化計算的方式,即將有量綱的表示式,經過變換,化為無量綱的表示式,成為標量。 在多種計算中都經常用到這種方法。

資料的標準化(normalization)是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權

進一步參考:

歸一化與標準化

本文摘錄自知乎

歸一化和標準化

主要是讀了這篇文章才深入理解這兩個的區別 歸一化 對原始資料進行線性轉換到 0,1 區間,如下 最小值和最大值特別容易受異常值影響,因此魯棒性不好,比較適合傳統的小資料場景 標準化 最常用的方法是z score標準化,即將資料轉化成均值為0,標準差為1,處理方法如下 其中理論解釋 歸一化的依據非常簡...

資料標準化(歸一化)

資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...

歸一化與標準化

特點 對不同特徵維度的伸縮錶換的目的是使各個特徵維度對目標函式的影響權重是一致的,即使得那些扁平分布的資料伸縮變換成類圓形。這也就改變了原始資料的乙個分布。好處 1 提高迭代求解的收斂速度 2 提高迭代求解的精度 方法 1 min max標準化 也成為離差標準化,對原始資料的的線性變換,結果值對映到...