Python 演算法初級 資料標準化

2021-09-26 02:06:42 字數 790 閱讀 1438

資料標準化應用在建模前期-資料預處理階段。

資料標準化的目的是使各指標處於同一量級。

要求資料標準化的模型有:線性回歸linear regression、邏輯回歸logistic regression、支援向量機svm、神經網路neutral network等。原因還沒太理解,後面再補充。

資料標準化的方法有:

線性函式歸一化(min-max scaling)

零均值歸一化(z-score normalization)

(1)線性函式歸一化(min-max scaling)

對原始資料進行線性變換,將值對映到[0,1]區間,等比例縮放原始資料。

公式:

(2)零均值標準化(z-score normalization)

將原始資料對映到均值μ 為0,標準差σ 為1的正態分佈即高斯分布上。

假設原始資料的均值為μ,標準差為σ。公式:

z-score標準化要求原始資料近似服從高斯分布,只有原始資料近似服從高斯分布,才能把原始資料對映到均值為0、標準差為1的z分布上。如果不服從高斯分布,不適合用z-score標準化。

python 資料標準化

def datastandard from sklearn import preprocessing import numpy as np x np.array 1.1.2.2.0.0.0.1.1.print 原始資料為 n x print method1 指定均值方差資料標準化 預設均值0 方差 ...

Python 資料標準化

定義 將資料按照一定的比例進行縮放,使其落入乙個特定的區間。好處 加快模型的收斂速度,提高模型 精度 常見的六種標準化方法 class datanorm def init self self.arr 1 2,3 4,5 6,7 8,9 self.x max max self.arr self.x m...

Python資料標準化

z score標準化 1.產生隨機數 import numpy as np 產生隨機數 data 1 np.random.randn 3,4 從標準正態分佈中返回乙個或多個樣本值.data 2 np.random.rand 3,4 產生 0,1 的數 print randn產生的隨機數 n data...