簡單來說,標準化是依照特徵矩陣的列處理資料,其通過求z-score的方法,將樣本的特徵值轉換到同一量綱下。標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈。公式如下:
x ′=
x−xs
(其中x
代表樣本
均值,s
代表樣本
方差
)x'=\frac(其中x代表樣本均值,s代表樣本方差)
x′=sx−
x(其
中x代表
樣本均值
,s代表
樣本方差
)矩陣的列處理資料的理解,在特徵矩陣中對列進行處理一般代表同時對乙個樣本各個特徵進行同樣的處理。(此處不能理解,為什麼標準化是要對矩陣列進行相同的處理,是因為樣本中各個屬性對於樣本的分布進行標準化嗎,查詢了很多資料沒有找到相關的說明)
歸一化是依照特徵矩陣的行處理資料,其目的在於樣本向量在點乘運算或其他核函式計算相似性時,擁有統一的標準,也就是說都轉化為「單位向量」。 歸一化利用了邊界值資訊,將特徵的取值區間縮放到[0, 1]範圍內。公式如下:
x ′=
x−mi
nmax
−min
(其中m
in代表
樣本最小
值,ma
x代表樣
本最大值
)x'=\frac(其中min代表樣本最小值,max代表樣本最大值)
x′=max
−min
x−mi
n(其
中min
代表樣本
最小值,
max代
表樣本最
大值)矩陣的行處理資料的理解,在特徵矩陣中對行行進行處理一般代表同時對樣本集中某個特徵屬性內的所有資料進行處理,因為歸一化是將資料進行縮放,使資料某個特徵向量(即該屬性集內資料)的資料關係保持不變,即需要對整行內資料同時進行操作。
3.1缺失值較多的情況
直接將該特徵捨棄掉,否則可能反倒會帶入較大的noise(噪音),對結果造成不良影響。
3.2缺失值較少的情況
如果特徵缺失值在10%以內,我們可以採取很多的方式來處理:
標準化與歸一化 機器學習
歸一化和標準化經常被搞混,程度還比較嚴重,非常干擾大家的理解。為了方便後續的討論,必須先明確二者的定義。如果要把輸入資料轉換到 0,1 的範圍,可以用如下公式進行計算 按以上方式進行歸一化以後,輸入資料轉換到 0,1 的範圍。有時候我們希望將輸入轉換到 1,1 的範圍,可以使用以下的公式 以上兩種方...
歸一化與標準化
特點 對不同特徵維度的伸縮錶換的目的是使各個特徵維度對目標函式的影響權重是一致的,即使得那些扁平分布的資料伸縮變換成類圓形。這也就改變了原始資料的乙個分布。好處 1 提高迭代求解的收斂速度 2 提高迭代求解的精度 方法 1 min max標準化 也成為離差標準化,對原始資料的的線性變換,結果值對映到...
歸一化與標準化
1 提公升訓練的速度 2 提公升模型的精度 3 深度模型中能夠防止梯度 min max 歸一化 x x x min x max x min 將x 對映到 0,1 之間的乙個數 z score 標準化 均值為0 標準差為1 當有新的樣本加入時,min max 計算量小,z score 需要重新計算均值...