資料分析之資料處理(四)

2021-10-18 11:40:27 字數 2322 閱讀 9556

1. 0-1標準化

(1)建立資料

# 資料標準化

import pandas as pd

import numpy as np

import warnings

warnings.filterwarnings(

'ignore'

)#0-1標準化:將資料的最大值最小值記錄下來,並通過max-min作為基數(即min=0,max=1)進行資料的歸一化處理

# 資料的歸一化處理:x=(x-min)/(max-min)

# step 1 建立資料

df=pd.dataframe(

)print

('*******原資料********\n'

,df.head(

))

(2)建立資料
# step 2 建立函式,標準化資料

defdata_norm

(df,

*cols)

: df_n=df.copy(

)for col in cols:

ma=df_n[col]

.max()

mi=df_n[col]

.min()

df_n[col+

'_n']=

(df_n[col]

-mi)

/(ma-mi)

return

(df_n)

(3)標準化資料
# step 3 標準化資料

df_n=data_norm(df,

'value1'

,'value2'

)print

('\n*******標準化資料********\n'

,df_n.head(

))

執行結果

2.z - score標準化

(1)建立資料

# 資料標準化(2)z-score標準化

import pandas as pd

import numpy as np

# import matplotlib.pyplot as plt

import warnings

warnings.filterwarnings(

'ignore'

)# step 1 建立資料

df = pd.dataframe(

)print

('*****原資料*****\n'

,df.head(

))

(2)建立函式,標準化資料
# step 2 建立函式,標準化資料

defdata_znorm

(df,

*cols)

: df_n=df.copy(

)for col in cols:

u=df_n[col]

.mean(

)#平均值

std=df_n[col]

.std(

)#標準差

df_n[col+

'_zn']=

(df_n[col]

-u)/std

return

(df_n)

(3)標準化資料
# step 3 標準化資料

df_z=data_znorm(df,

'value1'

,'value2'

)u_z=df_z[

'value1_zn'

].mean(

)std_z=df_z[

'value1_zn'

].std(

)print

('\n*****標準化後資料*****\n'

,df_z)

print

('\n*****標準化後value1的均值為:%.2f, 標準差為:%.2f*****\n'

%(u_z, std_z)

)

執行結果

自學自用,希望可以和大家積極溝通交流,小夥伴們加油鴨,如有錯誤還請指正,不喜勿噴

資料分析之海量資料處理

bitmap 桶注意 1gb 210 3 230 2 3 2 210 3 230 1073741824b 11億b 1.有乙個1g大小的乙個檔案,裡面每一行是乙個詞,詞的大小不超過16位元組,記憶體限制大小是1m,要求 返回頻數最高的100個詞。1 分而治之 hash對映 順序讀檔案中對於每個詞x取...

資料分析時間資料處理

from datetime import datetime now datetime.now print now print 年 月 日 format now.year,now.month,now.day diff datetime 2019,4,4,21 datetime 2019,1,25,0 ...

利用SPSS做資料分析 之資料處理2

記錄合併也叫縱向合併,是將具有共同的資料字段 結構,不同的資料表記錄,合併到乙個新的資料表中。現在有兩張表,一張 使用者明細 男 一張 使用者明細 女 他們擁有相同的資料字段 結構,只是記錄資訊不一樣,為了能夠進行整體的分析,我們需要將這兩張表合併到一張資料表中。如果兩個資料集合並出現錯誤或失敗,請...