資料預處理之特徵標準化

2021-07-08 19:24:19 字數 1399 閱讀 2143

在資料分析之前,我們通常需要先將資料標準化(normalization),利用標準化後的資料進行資料分析。資料標準化也就是統計資料的指數化。

資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。資料同趨化處理主要解決不同性質資料問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標資料性質,使所有指針對測評方案的作用力同趨化,再加總才能得出正確結果。資料無量綱化處理主要解決資料的可比性。

資料標準化的方法有很多種,常用的有「最小—最大標準化」、「z-score標準化」和「按小數定標標準化」等。經過上述標準化處理,原始資料均轉換為無量綱化指標測評值,即各指標值都處於同乙個數量級別上,可以進行綜合測評分析。

min-max標準化方法是對原始資料進行線性變換。設mina和maxa分別為屬性a的最小值和最大值,將a的乙個原始值x通過min-max標準化對映成在區間[0,1]中的值x',其公式為:
新資料=(原資料-極小值)/(極大值-極小值)

用svm對資料進行訓練前一般採用此方法對資料進行標準化。

這種方法基於原始資料的均值(mean)和標準差(standard deviation)進行資料的標準化。將a的原始值x使用z-score標準化到x'。
z-score標準化方法適用於屬性a的最大值和最小值未知的情況,或有超出取值範圍的離群資料的情況。
新資料=(原資料-均值)/標準差
spss預設的標準化方法就是z-score標準化。

這種方法通過移動資料的小數點位置來進行標準化。小數點移動多少位取決於屬性a的取值中的最大絕對值。將屬性a的原始值x使用decimal scaling標準化到 x'的計算方法是:
x'=x/(10*j)
其中,j是滿足條件的最小整數。
例如 假定a的值由-986到917,a的最大絕對值為986,為使用小數定標標準化,我們用1000(即,j=3)除以每個值,這樣,-986被規範化為-0.986。
注意,標準化會對原始資料做出改變,因此需要儲存所使用的標準化方法的引數,以便對後續的資料進行統一的標準化。

對數logistic模式:新資料=1/(1+e^(-原資料))
模糊量化模式:新資料=1/2+1/2*sin[ pi /(極大值-極小值)*(原資料 -(極大值-極小值)/2)]

資料預處理方法 特徵標準化

普遍採用的最佳實踐是對每 個特徵做標準化,即對於輸入資料的每個特徵 輸入資料矩陣中的列 減去特徵平均值,再除 以標準差,這樣得到的特徵平均值為 0,標準差為 1。用 numpy 可以很容易實現標準化。from keras.datasets import boston housing train da...

資料預處理之標準化

近來趁專案間隔期,工作不是太多,也在利用空餘時間把資料分析的完整流程用python實現一遍,也恰好整理下這幾年手頭的一些資料,順序可能比較亂,後期再慢慢調整。資料的標準化 normalization 是將資料按照一定規則縮放,使之落入乙個小的特定區間。這樣去除資料的單位限制,將其轉化為無量綱的純數值...

資料預處理之資料標準化

在對資料集建模前,常常要對資料的某一特徵或幾個特徵進行規範化處理,其目的在於將特徵值歸一到同乙個維度,消除比重不平衡的問題。常用的標準化方法有最大 最小標準化 零 均值標準化和小數定標標準化。最大 最小標準化又稱為離差標準化,將原始資料進行線性變換,對映到 0,1 區間。轉換公式如下 其中,max為...