02 歸一化 標準化

2021-09-26 07:37:29 字數 1736 閱讀 2853

特徵工程定義:是將原始資料轉化為更好的代表**模型的潛在問題的特徵的過程,從而提高了未知資料的**準確性。資料和特徵決定了機器學習的上限,而模型和演算法知識逼進這個上限而已

數值型別預處理:1:標準化縮放、歸一化

時間型別:時間的序列、切分

類別型別資料:one-hot編碼

pca進行主特徵分析 (過濾關聯性較弱的特徵,提公升高運算和學習的效率)

通過對原始資料進行變換,把資料對映到(0~1)之間。公式使用:作用於每一列,max為當前列最大值,min為當前列最小值,那麼x"為最終結果,公式中的mx和mi預設為1,0

)# 歸一化

data = mm.fit_transform([[

90,2,

10,40]

,[60,

4,15,

45],[

75,3,

13,46]

])print

('歸一化之後的資料\n'

,data)

data = mm.inverse_transform(data)

print

('原始資料\n'

,data)

print

('-'

*100

)std = standardscaler(

)歸一化缺點根據公式,當前待計算的x為當前列最大值時,最終歸一化為1,待計算的x為當前列最小值時,最終歸一化為0

對異常點的包容性差 (如果異常點影響了最大值或者最小值,則會造成整體數值計算偏差),因此這種方式穩定性較差,適合比較精確資料模型

第1步: 求出每列特徵值的標準差(方差開根號則為標準差), 而方差為各個資料與平均數之差的平方的和的平均數,公式作用於每一列,mean為平均數,var為方差,δ為標準差(方差開根號則為標準差)。

第2步: 每個特徵值的標準化公式為:(特徵值 - 平均值) / δ標準差。通過公式可以知特徵值越靠近平平均值則最後結果越趨於0,因此資料會在0左右進行分布,如果資料越趨於零則資料穩定性越好。

('每列特徵的平均值'

,std.mean_)

print

('歸一化之後的資料\n'

,data)

data = std.inverse_transform(data)

print

('原始資料\n'

,data)

歸一化和標準化

主要是讀了這篇文章才深入理解這兩個的區別 歸一化 對原始資料進行線性轉換到 0,1 區間,如下 最小值和最大值特別容易受異常值影響,因此魯棒性不好,比較適合傳統的小資料場景 標準化 最常用的方法是z score標準化,即將資料轉化成均值為0,標準差為1,處理方法如下 其中理論解釋 歸一化的依據非常簡...

資料標準化(歸一化)

資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...

標準化 歸一化(二)

答一 歸一化方法 1 把數變為 0,1 之間的小數 主要是為了資料處理方便提出來的,把資料對映到0 1範圍之內處理,更加便捷快速。2 把有量綱表示式變為無量綱表示式 歸一化是一種簡化計算的方式,即將有量綱的表示式,經過變換,化為無量綱的表示式,成為純量。標準化方法 資料的標準化是將資料按比例縮放,使...