資料規範化(歸一化)處理是資料探勘的一項基礎工作。不同評價指標往往具有不同的量綱,數值見的差別可能很大,不進行處理可能會影響到資料分析的結果。為了消除指標之間的量綱和取值範圍差異的影響,需要進行標準化處理,將資料按照比例進行縮放,使之落入乙個特定的區域,便於進行綜合分析。如將工資收入屬性值對映到[-1, 1]或者[0, 1]內。
資料規範化對於基於距離的挖掘演算法尤為重要。
最小-最大規範化也稱為離散標準化,是對原始資料的線性變換,將資料值對映到[0, 1]之間。
轉換公式如下:
離差標準化保留了原來資料中存在的關係,是消除量綱和資料取值範圍影響的最簡單方法。這種處理方法的缺點是若數值集中且某個數值很大,則規範化後各值接近於0,並且將會相差不大。(如 1, 1.2, 1.3, 1.4, 1.5, 1.6,8.4)這組資料。若將來遇到超過目前屬性[min, max]取值範圍的時候,會引起系統報錯,需要重新確定min和max。
零-均值規範化也稱標準差標準化,經過處理的資料的均值為0,標準差為1。轉化公式為:
其中通過移動屬性值的小數字數,將屬性值對映到[-1, 1]之間,移動的小數字數取決於屬性值絕對值的最大值。轉化公式為:
資料規範化(歸一化)處理是資料探勘的一項基礎工作。不同評價指標往往具有不同的量綱,數值見的差別可能很大,不進行處理可能會影響到資料分析的結果。為了消除指標之間的量綱和取值範圍差異的影響,需要進行標準化處理,將資料按照比例進行縮放,使之落入乙個特定的區域,便於進行綜合分析。如將工資收入屬性值對映到[-1, 1]或者[0, 1]內。
資料規範化對於基於距離的挖掘演算法尤為重要。
最小-最大規範化也稱為離散標準化,是對原始資料的線性變換,將資料值對映到[0, 1]之間。
轉換公式如下:
離差標準化保留了原來資料中存在的關係,是消除量綱和資料取值範圍影響的最簡單方法。這種處理方法的缺點是若數值集中且某個數值很大,則規範化後各值接近於0,並且將會相差不大。(如 1, 1.2, 1.3, 1.4, 1.5, 1.6,8.4)這組資料。若將來遇到超過目前屬性[min, max]取值範圍的時候,會引起系統報錯,需要重新確定min和max。
零-均值規範化也稱標準差標準化,經過處理的資料的均值為0,標準差為1。轉化公式為:
其中通過移動屬性值的小數字數,將屬性值對映到[-1, 1]之間,移動的小數字數取決於屬性值絕對值的最大值。轉化公式為:
Z Score歸一化方法
hello,大家晚上好!z score方法基於原始資料的均值 mean 和標準差 standard deviation 來進行資料的標準化,處理後的資料均值為0,方差為1,符合標準正態分佈,且無量綱。其主要目的是將不同量級的資料統一化為同乙個量級,統一用計算出的z score值衡量,保證了資料間具有...
r語言歸一化 R語言 資料規範化 歸一化
筆者寄語 規範化主要是因為資料受著單位的影響較大,需要進行量綱化。大致有 最小 最大規範化 均值標準化 小數定標規範化 1 最小 最大規範化 也叫離差標準化,是對原始資料的線性變換,將資料對映到 0,1 之間,與功效係數法相同。最小 最大規範化 b1 data 1 min data 1 max da...
資料的規範化,歸一化,標準化,正則化
資料的規範化,歸一化,標準化,正則化 打濕井蓋 資料的規範化,歸一化,標準化,正則化,這幾個破詞整得我頭暈,首先這些詞就沒規範好,對資料做實驗更暈,網上狂搜一陣後,發現資料 歸一化,標準化,正則化,還是有差別 資料規範化 一種是針對資料庫的解釋 規範化理論把關係應滿足的規範要求分為幾級,滿足最低要求...