資料預處理之資料標準化

在對資料集建模前，常常要對資料的某一特徵或幾個特徵進行規範化處理，其目的在於將特徵值歸一到同乙個維度，消除比重不平衡的問題。

常用的標準化方法有最大-最小標準化、零-均值標準化和小數定標標準化。

最大-最小標準化又稱為離差標準化，將原始資料進行線性變換，對映到[0,1]區間。

轉換公式如下：

其中，max為特徵中最大的值，min為特徵中最小的值。max-min表示極差。

這種標準化的優點是實現簡單、保留了原始資料之間的關係。

缺點也很明顯，即：

1.當樣本中的max過大時，會使得標準化後各值之間相差不大，無法準確表示樣本間的差異；

2.當新加入的樣本的值大於max或小於min，會使標準化產生混亂，即每當有新樣本匯入時，必須重新計算max和min。

零-均值標準化也稱標準差標準化，經過該標準化處理後的資料的均值為0，標準差為1。轉化公式如下：

其中，x ?表示樣本的均值，σ表示樣本的標準差，是目前使用最多的標準化方法。

優點：1.將屬性值轉換為標準的正態分佈模型，便於某些演算法的實施

2.轉換後的屬性值離中心點的距離表示了它的概率值。

小數定標標準化即是通過移動屬性值的小數字數來將屬性值圈定在[0,1]之間，移動小數的位數決定於屬性值絕對值的最大值，轉化公式為：

其中，k為屬性值絕對值的最大值的位數。

資料預處理之標準化

近來趁專案間隔期，工作不是太多，也在利用空餘時間把資料分析的完整流程用python實現一遍，也恰好整理下這幾年手頭的一些資料，順序可能比較亂，後期再慢慢調整。資料的標準化 normalization 是將資料按照一定規則縮放，使之落入乙個小的特定區間。這樣去除資料的單位限制，將其轉化為無量綱的純數值...

資料預處理資料標準化

x train np.array 1,1,2 2,0,0 0,1,1 min max scaler preprocessing.minmaxscaler x train minmax min max scaler.fit transform x train print x train minmax ...

資料預處理之特徵標準化

在資料分析之前，我們通常需要先將資料標準化 normalization 利用標準化後的資料進行資料分析。資料標準化也就是統計資料的指數化。資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。資料同趨化處理主要解決不同性質資料問題，對不同性質指標直接加總不能正確反映不同作用力的綜合結果，須先考...

資料預處理之資料標準化

資料預處理之標準化

資料預處理 資料標準化

資料預處理之特徵標準化

相關推薦

資料預處理資料標準化