利用Python處理Excel資料

2021-08-19 16:51:34 字數 1798 閱讀 5546

目錄

資料清洗

資料預處理

資料提取

資料篩選

資料彙總

資料統計

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

from datetime import datetime

from pandas import series, dataframe

讀取x.xlsx檔案

excel檔案

image.png

經紀人級別

級別為0 是因為對資料缺失值進行了填充

填充空值

用均值對空值進行填充

# 利用經紀人響應時長的均值對缺失值進行填充

df['經紀人響應時長'].fillna(df['經紀人響應時長'].mean())

填充均值

float64

第一次出現保留

最後一次出現的保留,其餘刪除

df['門店'].drop_duplicates(keep = 'last')
最後一次出現的保留

分組

對符合多個條件進行分組

# 符合經紀人級別為a1且經紀人響應時長》24的在sign列顯示為1

df.loc[(df['經紀人級別'] == 'a1') & (df['經紀人響應時長']>= 24.0), 'sign']=1

df

符合多個條件

image.png

標籤和位置

從合併的資料中提出指定的數值

# 提取鏈家網三個字

data = df['客戶註冊渠道']

pd.dataframe(data.str[:3])

提取指定數值

使用query函式

df.query('經紀人級別 == ["a4", "m4"]')
a4或m4

資料透視

pd.pivot_table(df,index=["經紀人當天傳送訊息數"],values=["經紀人響應時長"],

columns=["經紀人級別"],aggfunc[len,np.sum],fill_value=0,margins=true)

資料透視

描述統計 describe函式

自動生成資料的數量,均值,標準差等資料

#round(2),顯示小數點後面2位數,t轉置

df.describe().round(2).t

描述統計

協方差cov

#計算兩個字段之間的協方差

df['經紀人當天傳送訊息數'].cov(df['客戶當天傳送訊息數'])

81.036975520713398

相關性分析corr

相關係數在-1到1之間,接近1為正相關,接近-1為負相關,0為不相關

df['客戶當天傳送訊息數'].corr(df['經紀人當天傳送訊息數'])
0.734822293346692

利用Python處理Excel資料

資料清洗 資料預處理 資料提取 資料篩選 資料彙總 資料統計 import pandas as pd import numpy as np import matplotlib.pyplot as plt from datetime import datetime from pandas import...

乾貨 利用pandas處理Excel資料

新建乙個excel table1.csv 用於案例講解 df pd.read excel table1.xlsx 相對路徑 df pd.read excel r e anaconda hc datascience table1.csv 絕對路徑 顯示資料的行與列數 df.shape 6,5 顯示資料...

python統計excel利用pandans的分組

python統計excel利用pandans的分組,其中還用列表資料求差集 csv資料結構 有三個按照日期統計的csv 需要統計出這三張csv按照areaid缺少的type和bdtype 其中type 1,2,3,4 bdtype 1,3,4 原始碼如下 第一步資料初步處理刪除非必須列 coding...