實戰1 資料清理

2022-04-09 20:33:59 字數 2264 閱讀 1368

#

1、import csv

import

pandas as pd

import

numpy as np

df = pd.read_csv('

e:/code/python/region/static/house_details_zz_2.csv

', encoding='

utf-8')

df.head(3)

#2、是否有缺失值

df.info()

#3、是否有重複值

df.duplicated().value_counts()

#4、指定部分列重複時去重

df.drop_duplicates(['

lj_number'])

#5、(正態分佈)

defoutrange(s):

blidx = (s.mean() - 3*s.std()>s)|(s.mean() + 3*s.std()idx =np.arange(s.shape[0])[blidx]

outrange =s.iloc[idx]

return

outrange

outier = outrange(df['

deal_price'])

outier

#6、region_1_name不重複值

df['

region_1_name

'].unique()

#7、檢測資料中的缺失值

df.isnull().sum()#8、

import

datetime

#字串->datetime64[ns]

df['

deal_time

'] = pd.to_datetime(df['

deal_time'])

#取出deal_time列

df['

deal_time']

#9、是否有缺失值

df.info()

#10、

for row in df['

through_nums']:

if row == "

暫無資料":

print

(row)

#11、"""刪除行"""

#df[df['through_nums'].isin(["暫無資料"])] # 選取出['through_nums']等於["暫無資料"] 的行

#df2 = df[~df['through_nums'].isin(["暫無資料"])] #取反,選取出['through_nums']不等於["暫無資料"] 的行

df.drop(df[df['

through_nums

'].isin(["

暫無資料

"])].index,inplace=true) #

根據 drop和index 刪除包含["暫無資料"] 的資料

#df.head(5)

df.head(3)

#12、object - > int

#to_numeric

df['

through_nums

'] = pd.to_numeric(df['

through_nums'])

#13、object - > float

#for row in df['finish_age']:

#if row == "未知":

#print(row)

#使用to_numeric()函式,告訴其將任何無效資料轉換為nan

df['

finish_age

'] = pd.to_numeric(df['

finish_age

'],errors='

coerce')

#有空缺的資料用平均值替換

df.fillna(data.mean(),inplace =true)

#df.isnull().sum()

df.info()

#14、刪除finish_age為空的行

#df.dropna(subset = ['finish_age'],inplace = true)

df.info()

#15、

df['

list_time

'] = pd.to_datetime(df['

list_time

'],errors='

coerce')

df.isnull().sum()

實戰 liunx定時清理日誌指令碼

參考 1 需求 我們在 var log下面有 emcsyn.log 和 emcsnw.log日誌,每天分割,現在我們只需要儲存一周的,其餘的每天15 20 00定時刪除 找到一周之前的日誌 2 在 usr local 目錄下 建立指令碼 資料夾 scripttask 以後所有指令碼丟在這裡 2 建立...

清理資料 資料預處理之「資料清理」

由於當今資料的數量龐大且來自於各種不同型別的 因此出現資料異常的可能性不斷增加。鑑於高質量資料可生成更好的模型和 資料預處理的重要性與日俱增,並且已經成為資料科學 機器學習 ai 管道中的基本步驟。在本文中,我們將 資料處理需求,並討論用於完成此流程中每個步驟的不同方法。在資料收集過程中,存在三個影...

業務資料清理心得

總部核心系統沒法支援電信的需求,只好地方發揮主觀能動性,專門為電信度身搞了乙個系統,半外掛程式在核銷系統上面。年底了,電信的客戶要我們出具年度明細與 報表,並以此評估公司的服務質量與專業程度,這下實在夠嗆,外掛程式的資料與財務與業務核心很多資料是人為修改過,根本對不上號,只好加班加點做資料清理,其 ...