#1、import csv
import
pandas as pd
import
numpy as np
df = pd.read_csv('
e:/code/python/region/static/house_details_zz_2.csv
', encoding='
utf-8')
df.head(3)
#2、是否有缺失值
df.info()
#3、是否有重複值
df.duplicated().value_counts()
#4、指定部分列重複時去重
df.drop_duplicates(['
lj_number'])
#5、(正態分佈)
defoutrange(s):
blidx = (s.mean() - 3*s.std()>s)|(s.mean() + 3*s.std()idx =np.arange(s.shape[0])[blidx]
outrange =s.iloc[idx]
return
outrange
outier = outrange(df['
deal_price'])
outier
#6、region_1_name不重複值
df['
region_1_name
'].unique()
#7、檢測資料中的缺失值
df.isnull().sum()#8、
import
datetime
#字串->datetime64[ns]
df['
deal_time
'] = pd.to_datetime(df['
deal_time'])
#取出deal_time列
df['
deal_time']
#9、是否有缺失值
df.info()
#10、
for row in df['
through_nums']:
if row == "
暫無資料":
(row)
#11、"""刪除行"""
#df[df['through_nums'].isin(["暫無資料"])] # 選取出['through_nums']等於["暫無資料"] 的行
#df2 = df[~df['through_nums'].isin(["暫無資料"])] #取反,選取出['through_nums']不等於["暫無資料"] 的行
df.drop(df[df['
through_nums
'].isin(["
暫無資料
"])].index,inplace=true) #
根據 drop和index 刪除包含["暫無資料"] 的資料
#df.head(5)
df.head(3)
#12、object - > int
#to_numeric
df['
through_nums
'] = pd.to_numeric(df['
through_nums'])
#13、object - > float
#for row in df['finish_age']:
#if row == "未知":
#print(row)
#使用to_numeric()函式,告訴其將任何無效資料轉換為nan
df['
finish_age
'] = pd.to_numeric(df['
finish_age
'],errors='
coerce')
#有空缺的資料用平均值替換
df.fillna(data.mean(),inplace =true)
#df.isnull().sum()
df.info()
#14、刪除finish_age為空的行
#df.dropna(subset = ['finish_age'],inplace = true)
df.info()
#15、
df['
list_time
'] = pd.to_datetime(df['
list_time
'],errors='
coerce')
df.isnull().sum()
實戰 liunx定時清理日誌指令碼
參考 1 需求 我們在 var log下面有 emcsyn.log 和 emcsnw.log日誌,每天分割,現在我們只需要儲存一周的,其餘的每天15 20 00定時刪除 找到一周之前的日誌 2 在 usr local 目錄下 建立指令碼 資料夾 scripttask 以後所有指令碼丟在這裡 2 建立...
清理資料 資料預處理之「資料清理」
由於當今資料的數量龐大且來自於各種不同型別的 因此出現資料異常的可能性不斷增加。鑑於高質量資料可生成更好的模型和 資料預處理的重要性與日俱增,並且已經成為資料科學 機器學習 ai 管道中的基本步驟。在本文中,我們將 資料處理需求,並討論用於完成此流程中每個步驟的不同方法。在資料收集過程中,存在三個影...
業務資料清理心得
總部核心系統沒法支援電信的需求,只好地方發揮主觀能動性,專門為電信度身搞了乙個系統,半外掛程式在核銷系統上面。年底了,電信的客戶要我們出具年度明細與 報表,並以此評估公司的服務質量與專業程度,這下實在夠嗆,外掛程式的資料與財務與業務核心很多資料是人為修改過,根本對不上號,只好加班加點做資料清理,其 ...