數值歸一化

2021-09-01 09:12:44 字數 521 閱讀 1368

當資料報含不同量綱的多種變數時,數值間的差別可能很大,例如有些有機酸的離解常數(pka)數值大約為個位數或為負數,沸點資料則約為幾十攝氏度或數百攝氏度。再如所採用的單位不同,資料的大小也會有很大的差別,如毫摩爾濃度與摩爾濃度相差1000倍。如果將這種不同種類、不同量綱、數值大小差別很大的資料組合在一起進行模式識別,勢必會影響到正確的分類。常用的解決方法就是對資料進行數值歸一化。數值歸一化就是把各個變數的資料都線性地變換到乙個新的標尺上,在新標尺上,每個變數的最大值都為1。第i個變數數值歸一化公式為

資料預處理-歸一化

式中xi,old為原始資料;xi,new為變換後的新資料;xmax為原始資料中的最大值;n為資料中變數個數。該變換保證了各變數的資料都≤1。有時為了將資料規範為0~1之間的數值,即變換後資料的最小值為0,最大值為1,也常用下述公式進行預處理:

資料預處理-歸一化

式中,xmin為原始資料中的最小值。數值歸一化可以保證各變數的變化幅度處於同一水平上,從而消除了資料本身差別帶來的影響。但其缺點是,若數值集合中有乙個數值很大,則其餘各值都會相差不大。

機器學習 歸一化數值

在計算歐氏距離的過程中,數值較大的屬性對結果的貢獻大,如果認為不同屬性權重應該相同的話,就需要將數值歸一化處理。from numpy import def autonorm dataset minvals dataset.min 0 取每列的最小值,返回陣列 print minvals maxval...

機器學習 歸一化數值

1.為什麼要歸一化?表示乙個事物有不同的維度 即 屬性 每個屬性的取值範圍不同,導致計算時此屬性占用的權重不同,即資料的量綱不同,量綱小的資料容易受到量綱大的資料影響。如 兩個人的屬性對比 屬性a person b persion 身高1.75 1.81 年齡41 26收入 40000 10000 ...

機器學習演算法 歸一化數值

coding utf 8 author whf import numpy from knn import file2matrix from numpy import def autonorm dataset 將每列的最小值放在minvals中 minvals dataset.min 0 將每列的最大...