特徵工程之標準化

2021-09-25 23:09:12 字數 2506 閱讀 8321

資料和特徵決定了機器學習演算法的上限,而模型和演算法只是不斷逼近這個上限而已

資料標準化也就是統計資料的指數化。資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面:

資料同趨化處理主要解決不同性質資料問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標資料性質,使所有指針對測評方案的作用力同趨化,再加總才能得出正確結果。

資料無量綱化處理主要解決資料的可比性。

歸一化max-minmin-max標準化方法是對原始資料進行線性變換。設mina和maxa分別為屬性a的最小值和最大值,將a的乙個原始值x通過min-max標準化對映成在區間[0,1]中的值x』,其公式為:

新資料=(原資料-最小值)/(最大值-最小值)

這種方法能使資料歸一化到乙個區域內,同時不改變原來的資料結構。

實現中心化z-score

這種方法基於原始資料的均值(mean)和標準差(standard deviation)進行資料的標準化。將a的原始值x使用z-score標準化到x』。

z-score標準化方法適用於屬性a的最大值和最小值未知的情況,或有超出取值範圍的離群資料的情況。

新資料=(原資料-均值)/標準差

這種方法適合大多數型別資料,也是很多任務具的預設標準化方法。標準化之後的資料是以0為均值,方差為以的正太分布。但是z-score方法是一種中心化方法,會改變原有資料的分布結構,不適合用於對稀疏資料做處理。

很多時候資料集會存在稀疏特徵,表現為標準差小,很多元素值為0,最常見的稀疏資料集是用來做協同過濾的資料集,絕大部分資料都是0。對稀疏資料做標準化,不能採用中心化的方式,否則會破壞稀疏資料的結構。

用於稀疏資料的maxabs

最大值絕對值標準化(maxabs)即根據最大值的絕對值進行標準化,假設原轉換的資料為x,新資料為x』,那麼x』=x/|max|,其中max為x鎖在列的最大值。

該方法的資料區間為[-1, 1],也不破壞原資料結構的特點,因此也可以用於稀疏資料,一些稀疏矩陣。

針對離群點的robustscaler

有些時候,資料集中存在離群點,用z-score進行標準化,但是結果不理想,因為離群點在標準化後喪失了利群特性。robustscaler針對離群點做標準化處理,該方法對資料中心化的資料的縮放健壯性有更強的引數控制能力。

import numpy as np

import pandas as pd

from sklearn import preprocessing

import matplotlib.pyplot as plt

from sklearn.datasets import make_moons

import matplotlib.pyplot as plt

%matplotlib inline

# 匯入資料

data = make_moons(n_samples=200, noise=10)[0]

#z-score標準化

#建立standardscaler物件

zscore = preprocessing.standardscaler()

# 標準化處理

data_zs = zscore.fit_transform(data)

#max-min標準化

minmax = preprocessing.minmaxscaler()

data_minmax = minmax.fit_transform(data)

#maxabs標準化

maxabs = preprocessing.maxabsscaler()

data_maxabs = maxabs.fit_transform(data)

#robustscaler標準化

robust = preprocessing.robustscaler()

data_rob = robust.fit_transform(data)

例子:

為什麼要特徵標準化及特徵標準化方法

歸一化化就是要把你需要處理的資料經過處理後 通過某種演算法 限制在你需要的一定範圍內。歸一化的原因是什麼那?一是,為了後面資料處理的方便,把不同量綱的東西放在同一量綱下比較,即 把不同 的資料統一到乙個參考係下,這樣比較起來才有意義。簡單的舉個例子 一張表有兩個變數,乙個是體重kg,乙個是身高cm。...

特徵縮放和標準化

首先簡單講一下 其實我覺得這兩個本質上是一樣的 看了好多部落格和論壇 發現每個人講的都不一樣,我直接去英文維基百科 特徵縮放上查了feature scaling 和 英文維基百科 標準化 才基本上明白 部落格的最後 我會特別說一下 吳恩達老師在講解pca的時候 說的均值標準化和特徵縮放 這裡直接翻譯...

特徵提取 標準化

1 由於歸一化使用最大值最小值進行計算,若最大值或最小值缺失或錯誤,歸一化結果的準確性就會大大降低,為此可採用標準化 2 標準化公式 即 3 api sklearn.preprocessing.standardscaler standardscaler.fit transform x x numpy...