資料變換:
1、資料變換在資料分析中的角色:
讓不同渠道的資料統一到乙個目標資料庫中;
2、資料變換所處環節:
3、資料變換的方法:
其中最常用的是資料規範化,包括最小—最大規範化、z—score 規範化、按小數定標規範化等;
1、min-max 規範化
min-max 規範化方法是將原始資料變換到[0,1]的空間中。
公式表示就是:新數值 =(原數值 - 極小值)/(極大值 - 極小值)。
#min-max規範化
#coding:utf-8
from sklearn import preprocessing
import numpy as np
#初始化資料,每一行表示乙個樣本,每一列表示乙個特徵
x=np.array([[
0.,-
3.,1
.],[
3.,1
.,2.
],[0
.,1.
,-1.
]])#將資料進行[0,1]規範化
min_max_scaler=preprocessing.minmaxscaler(
)minmax_x=min_max_scaler.fit_transform(x)
print
(minmax_x)
輸出:[[0
.0.0.66666667][
1.1.
1.][
0.1.
0.]]
應用:
#例如將收入進行規範化
from sklearn import preprocessing
import numpy as np
x=np.array([[
5000.]
,[16000.]
,[58000.]
])min_max_scaler=preprocessing.minmaxscaler(
)minmax_x=min_max_scaler.fit_transform(x)
print
(minmax_x)
輸出:[[0
.][0.20754717][
1.]]
2、 z-score 規範化
假設 a 與 b 的考試成績都為 80 分,a 的考卷滿分是 100 分(及格 60 分),b 的考卷滿分是 500 分(及格 300 分)。雖然兩個人都考了 80 分,但是 a 的 80 分與 b 的 80 分代表完全不同的含義。
那麼如何用相同的標準來比較 a 與 b 的成績呢?z-score 就是用來可以解決這一問題的。
我們定義:新數值 =(原數值 - 均值)/ 標準差。將資料規範到均值,1方差的標準正態分佈中
#z-score規範化
from sklearn import preprocessing
import numpy as np
#初始化資料
x=np.array([[
0.,-
3.,1
.],[
3.,1
.,2.
],[0
.,1.
,-1.
]])#將資料進行z-score規範化
scaled_x=preprocessing.scale(x)
print
(scaled_x)
輸出:[[-
0.70710678
-1.41421356
0.26726124][
1.41421356
0.70710678
1.06904497][
-0.70710678
0.70710678
-1.33630621
]]
3、小數定標規範化
小數定標規範化就是通過移動小數點的位置來進行規範化。將資料轉化到【-1,1】小數點移動多少位取決於屬性 a 的取值中的最大絕對值。舉個例子,比如屬性 a 的取值範圍是 -999 到 88,那麼最大絕對值為 999,小數點就會移動 3 位,即新數值 = 原數值 /1000。那麼 a 的取值範圍就被規範化為 -0.999 到 0.088。
#小數定標規範化
from sklearn import preprocessing
import numpy as np
#初始化資料
x=np.array([[
0.,-
3.,1
.],[
3.,1
.,2.
],[0
.,1.
,-1.
]])#小數定標規範化
j=np.ceil(np.log10(np.
max(
abs(x)))
)scaled_x=x/(10
**j)
print
(scaled_x)
輸出:[[0
.-0.30.1][
0.30.1
0.2][0
.0.1
-0.1
]]
資料探勘 資料預處理之資料整合與變換
在資料預處理的過程當中往往需要將多個資料集合中的資料整合到乙個資料倉儲中,即 需要對資料庫進行整合。與此同時,為了更好地對資料倉儲中的資料進行挖掘,對資料倉儲中的資料進行變換也在所難免。本文主要針對資料整合以及資料變化兩個問題展開論述。資料整合在將多個資料庫集成為乙個資料庫過程中存在需要著重解決三個...
資料探勘 資料
對關注的屬性,樣本與原始資料集有相同的性質,則用抽樣計算的結果與全集是一樣。1.1 抽樣的方法 1 簡單隨機抽樣 random sampling 放回 不放回 2 分層抽樣 stratified sampling 如果資料集不同型別的資料數量差異過大,則隨機抽樣會丟失數量少的樣本。可針對不同資料組,...
SPSS Modeler資料探勘 資料探勘概述
資料探勘 是一種通過數理模式來分析大量資料,以找出不同的客戶或市場劃分,分析出消費者喜好和行為的方法。可以描述為 是按企業既定業務目標,對大量的企業資料進行探索和分析,揭示隱藏的 未知的 或驗證已知的規律性,並進一步將其模型化的先進的有效的方法。資料探勘 data mining 在技術上的定義是從大...