目錄
資料清洗資料預處理
資料提取
資料篩選
資料彙總
資料統計
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from datetime import datetime
from pandas import series, dataframe
讀取x.xlsx檔案
excel檔案
image.png
經紀人級別
級別為0 是因為對資料缺失值進行了填充
填充空值
用均值對空值進行填充
# 利用經紀人響應時長的均值對缺失值進行填充
df['經紀人響應時長'].fillna(df['經紀人響應時長'].mean())
填充均值
float64
第一次出現保留
最後一次出現的保留,其餘刪除
df['門店'].drop_duplicates(keep = 'last')
最後一次出現的保留
分組
對符合多個條件進行分組
# 符合經紀人級別為a1且經紀人響應時長》24的在sign列顯示為1
df.loc[(df['經紀人級別'] == 'a1') & (df['經紀人響應時長']>= 24.0), 'sign']=1
df
符合多個條件
image.png
標籤和位置
從合併的資料中提出指定的數值
# 提取鏈家網三個字
data = df['客戶註冊渠道']
pd.dataframe(data.str[:3])
提取指定數值
使用query函式
df.query('經紀人級別 == ["a4", "m4"]')
a4或m4
資料透視
pd.pivot_table(df,index=["經紀人當天傳送訊息數"],values=["經紀人響應時長"],
columns=["經紀人級別"],aggfunc[len,np.sum],fill_value=0,margins=true)
資料透視
描述統計 describe函式
自動生成資料的數量,均值,標準差等資料
#round(2),顯示小數點後面2位數,t轉置
df.describe().round(2).t
描述統計
協方差cov
#計算兩個字段之間的協方差
df['經紀人當天傳送訊息數'].cov(df['客戶當天傳送訊息數'])
81.036975520713398
相關性分析corr
相關係數在-1到1之間,接近1為正相關,接近-1為負相關,0為不相關
df['客戶當天傳送訊息數'].corr(df['經紀人當天傳送訊息數'])
0.734822293346692 利用Python處理Excel資料
資料清洗 資料預處理 資料提取 資料篩選 資料彙總 資料統計 import pandas as pd import numpy as np import matplotlib.pyplot as plt from datetime import datetime from pandas import...
乾貨 利用pandas處理Excel資料
新建乙個excel table1.csv 用於案例講解 df pd.read excel table1.xlsx 相對路徑 df pd.read excel r e anaconda hc datascience table1.csv 絕對路徑 顯示資料的行與列數 df.shape 6,5 顯示資料...
python統計excel利用pandans的分組
python統計excel利用pandans的分組,其中還用列表資料求差集 csv資料結構 有三個按照日期統計的csv 需要統計出這三張csv按照areaid缺少的type和bdtype 其中type 1,2,3,4 bdtype 1,3,4 原始碼如下 第一步資料初步處理刪除非必須列 coding...