資料標準化和歸一化的異同

2021-08-18 05:42:30 字數 912 閱讀 8188

對不同特徵維度的伸縮變換的目的是使各個特徵維度對目標函式的影響權重是一致的,即使得那些扁平分布的資料伸縮變換成類圓形。這也就改變了原始資料的乙個分布。好處:

1 提高迭代求解的收斂速度

2 提高迭代求解的精度

對不同特徵維度的伸縮變換的目的是使得不同度量之間的特徵具有可比性。同時不改變原始資料的分布。好處:

1 使得不同度量之間的特徵具有可比性,對目標函式的影響體現在幾何分布上,而不是數值上

2 不改變原始資料的分布

根據人的身高和體重**人的健康指數

假設有如下原始樣本資料是四維的

從上面兩個座標圖可以看出,樣本在資料值上的分布差距是不一樣的,但是其幾何距離是一致的。而標準化就是一種對樣本資料在不同維度上進行乙個伸縮變化(而不改變資料的幾何距離),也就是不改變原始資料的資訊(分布)。這樣的好處就是在進行特徵提取時,忽略掉不同特徵之間的乙個度量,而保留樣本在各個維度上的資訊(分布)。

從採用大單位的身高和體重這兩個特徵來看,如果採用標準化,不改變樣本在這兩個維度上的分布,則左圖還是會保持二維分布的乙個扁平性;而採用歸一化則會在不同維度上對資料進行不同的伸縮變化(歸一區間,會改變資料的原始距離,分布,資訊),使得其呈類圓形。雖然這樣樣本會失去原始的資訊,但這防止了歸一化前直接對原始資料進行梯度下降類似的優化演算法時最終解被數值大的特徵所主導。歸一化之後,各個特徵對目標函式的影響權重是一致的。這樣的好處是在提高迭代求解的精度。

資料標準化(歸一化)

資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...

資料標準化 歸一化

資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...

資料標準化 歸一化

公式 x x x frac x x 公式 x x xm inxm ax x mi nx frac x x xma x x min x xm in 公式 x x xm ax x frac x xm ax x 注 該方法用於稀疏資料。公式 x x xm edia niqr x frac x iqr x ...