機器學習總結之標準化與歸一化的區別

簡單來說，標準化是依照特徵矩陣的列處理資料，其通過求z-score的方法，將樣本的特徵值轉換到同一量綱下。標準化的前提是特徵值服從正態分佈，標準化後，其轉換成標準正態分佈。公式如下：

x ′=

x−xs

（其中x

代表樣本

均值，s

代表樣本

方差

）x'=\frac（其中x代表樣本均值，s代表樣本方差）

x′=sx−

x（其

中x代表

樣本均值

，s代表

樣本方差

）矩陣的列處理資料的理解，在特徵矩陣中對列進行處理一般代表同時對乙個樣本各個特徵進行同樣的處理。（此處不能理解，為什麼標準化是要對矩陣列進行相同的處理，是因為樣本中各個屬性對於樣本的分布進行標準化嗎，查詢了很多資料沒有找到相關的說明）

歸一化是依照特徵矩陣的行處理資料，其目的在於樣本向量在點乘運算或其他核函式計算相似性時，擁有統一的標準，也就是說都轉化為「單位向量」。歸一化利用了邊界值資訊，將特徵的取值區間縮放到[0, 1]範圍內。公式如下：

x ′=

x−mi

nmax

−min

（其中m

in代表

樣本最小

值，ma

x代表樣

本最大值

）x'=\frac（其中min代表樣本最小值，max代表樣本最大值）

x′=max

−min

x−mi

n（其

中min

代表樣本

最小值，

max代

表樣本最

大值）矩陣的行處理資料的理解，在特徵矩陣中對行行進行處理一般代表同時對樣本集中某個特徵屬性內的所有資料進行處理，因為歸一化是將資料進行縮放，使資料某個特徵向量（即該屬性集內資料）的資料關係保持不變，即需要對整行內資料同時進行操作。

3.1缺失值較多的情況

直接將該特徵捨棄掉，否則可能反倒會帶入較大的noise（噪音），對結果造成不良影響。

3.2缺失值較少的情況

如果特徵缺失值在10%以內，我們可以採取很多的方式來處理:

機器學習總結之標準化與歸一化的區別

標準化與歸一化機器學習

歸一化與標準化

歸一化與標準化

機器學習總結之 標準化與歸一化的區別

標準化與歸一化 機器學習

歸一化與標準化

歸一化與標準化

相關推薦

機器學習總結之標準化與歸一化的區別

標準化與歸一化機器學習