資料歸一化Feature Scaling

2022-08-22 10:21:11 字數 643 閱讀 9854

當我們有如上樣本時,若採用常規算尤拉距離的方法sqrt((5-1)2+(200-100)2), 樣本間的距離被『發現時間』所主導。儘管5是1的5倍,200只是100的2倍。這是由於量綱不同,導致資料不在同乙個度量級上。

因此我們需要進行一些資料歸一化的處理,將所有的資料對映到同一尺度。

最值歸一化:把所有資料對映到0-1之間。

適用於分布有明顯邊界的情況,缺點是受outlier影響較大。如收入的分布,大多數人是一萬,而少部分人月收入是100萬。

解決方法出爐(一般都用這種)->

均值方差歸一化standardization: 把所有資料歸一到均值為0方差為1的分布中。

資料分布沒有明顯邊界,有可能存在極端資料值時,都可使用這種方法。

((特徵值 - 均值)/ 方差)

資料歸一化

近來,在網上搜了很多關於資料歸一化的帖子,看了太多,很雜,這裡整理總結一下 歸一化是一種資料預處理方法,就是要把你需要處理的資料經過處理後 通過某種演算法 限制在你需要的一定範圍內,為了後面資料處理的方便,其次是保正程式執行時 收斂加快。比如說,對於奇異樣本資料 所謂奇異樣本資料資料指的是相對於其他...

資料歸一化

如果對神經網路的 輸入和 輸出數 據進行 一定的 預處理 可以加快網路的訓練速 度 matlab 中 提供的預 處理方 法有歸一化處理 將每組資料都變為 1 至 1 之 間數 所涉及 的函式有 premnmx postmnmx tramnmx 標準化處理 將每組資料都為均 值為 0,方 差 為 1 ...

資料歸一化

資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...