1. 0-1標準化
(1)建立資料
# 資料標準化
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings(
'ignore'
)#0-1標準化:將資料的最大值最小值記錄下來,並通過max-min作為基數(即min=0,max=1)進行資料的歸一化處理
# 資料的歸一化處理:x=(x-min)/(max-min)
# step 1 建立資料
df=pd.dataframe(
)print
('*******原資料********\n'
,df.head(
))
(2)建立資料# step 2 建立函式,標準化資料
defdata_norm
(df,
*cols)
: df_n=df.copy(
)for col in cols:
ma=df_n[col]
.max()
mi=df_n[col]
.min()
df_n[col+
'_n']=
(df_n[col]
-mi)
/(ma-mi)
return
(df_n)
(3)標準化資料# step 3 標準化資料
df_n=data_norm(df,
'value1'
,'value2'
)print
('\n*******標準化資料********\n'
,df_n.head(
))
執行結果
2.z - score標準化
(1)建立資料
# 資料標準化(2)z-score標準化
import pandas as pd
import numpy as np
# import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings(
'ignore'
)# step 1 建立資料
df = pd.dataframe(
)print
('*****原資料*****\n'
,df.head(
))
(2)建立函式,標準化資料# step 2 建立函式,標準化資料
defdata_znorm
(df,
*cols)
: df_n=df.copy(
)for col in cols:
u=df_n[col]
.mean(
)#平均值
std=df_n[col]
.std(
)#標準差
df_n[col+
'_zn']=
(df_n[col]
-u)/std
return
(df_n)
(3)標準化資料# step 3 標準化資料
df_z=data_znorm(df,
'value1'
,'value2'
)u_z=df_z[
'value1_zn'
].mean(
)std_z=df_z[
'value1_zn'
].std(
)print
('\n*****標準化後資料*****\n'
,df_z)
print
('\n*****標準化後value1的均值為:%.2f, 標準差為:%.2f*****\n'
%(u_z, std_z)
)
執行結果
自學自用,希望可以和大家積極溝通交流,小夥伴們加油鴨,如有錯誤還請指正,不喜勿噴
資料分析之海量資料處理
bitmap 桶注意 1gb 210 3 230 2 3 2 210 3 230 1073741824b 11億b 1.有乙個1g大小的乙個檔案,裡面每一行是乙個詞,詞的大小不超過16位元組,記憶體限制大小是1m,要求 返回頻數最高的100個詞。1 分而治之 hash對映 順序讀檔案中對於每個詞x取...
資料分析時間資料處理
from datetime import datetime now datetime.now print now print 年 月 日 format now.year,now.month,now.day diff datetime 2019,4,4,21 datetime 2019,1,25,0 ...
利用SPSS做資料分析 之資料處理2
記錄合併也叫縱向合併,是將具有共同的資料字段 結構,不同的資料表記錄,合併到乙個新的資料表中。現在有兩張表,一張 使用者明細 男 一張 使用者明細 女 他們擁有相同的資料字段 結構,只是記錄資訊不一樣,為了能夠進行整體的分析,我們需要將這兩張表合併到一張資料表中。如果兩個資料集合並出現錯誤或失敗,請...