資料標準化應用在建模前期-資料預處理階段。
資料標準化的目的是使各指標處於同一量級。
要求資料標準化的模型有:線性回歸linear regression、邏輯回歸logistic regression、支援向量機svm、神經網路neutral network等。原因還沒太理解,後面再補充。
資料標準化的方法有:
線性函式歸一化(min-max scaling)
零均值歸一化(z-score normalization)
(1)線性函式歸一化(min-max scaling)
對原始資料進行線性變換,將值對映到[0,1]區間,等比例縮放原始資料。
公式:
(2)零均值標準化(z-score normalization)
將原始資料對映到均值μ 為0,標準差σ 為1的正態分佈即高斯分布上。
假設原始資料的均值為μ,標準差為σ。公式:
z-score標準化要求原始資料近似服從高斯分布,只有原始資料近似服從高斯分布,才能把原始資料對映到均值為0、標準差為1的z分布上。如果不服從高斯分布,不適合用z-score標準化。
python 資料標準化
def datastandard from sklearn import preprocessing import numpy as np x np.array 1.1.2.2.0.0.0.1.1.print 原始資料為 n x print method1 指定均值方差資料標準化 預設均值0 方差 ...
Python 資料標準化
定義 將資料按照一定的比例進行縮放,使其落入乙個特定的區間。好處 加快模型的收斂速度,提高模型 精度 常見的六種標準化方法 class datanorm def init self self.arr 1 2,3 4,5 6,7 8,9 self.x max max self.arr self.x m...
Python資料標準化
z score標準化 1.產生隨機數 import numpy as np 產生隨機數 data 1 np.random.randn 3,4 從標準正態分佈中返回乙個或多個樣本值.data 2 np.random.rand 3,4 產生 0,1 的數 print randn產生的隨機數 n data...