資料分析案例 利用pandas清洗資料

2021-10-08 06:30:50 字數 2192 閱讀 3807

載入資料

資料清洗:位址列爬取的位址列是省+城市名,當然還有北京這種直轄市,這裡我們要把城市和省份分開,分成兩列,對於北京則讓城市和省份都顯示為北京。

def

get_province

(x):

iflen

(x)==2:

return x+

"市"else

: pro_list=x.split(

)return pro_list[0]

+"省"

defget_city

(x):

iflen

(x)==2:

return x+

"市"else

: pro_list=x.split(

)return pro_list[1]

+"市"

pro_data[

"省份"

]=pro_data[

"位址"].

map(get_province)

pro_data[

"城市"

]=pro_data[

"位址"].

#這裡還可以將函式寫成三元表示式

defget_province

(x):

return x.split()[

0]+"省"

iflen

(x)>

2else x+

"市"

pro_data[

"省份"

]=pro_data[

"位址"].

map(get_province)

pro_data

資料清洗:付款人數這裡只需要付款人數的數字,要把文字刪除掉。

#第一種方法用str介面和正規表示式

pro_data[

"付款人數"

]=pro_data[

"付款人數"].

str.findall(

"\d+").

str[0]

#第二種直接利用str介面

pro_data[

"付款人數"

]=pro_data[

"付款人數"].

str[:-

3]

pro_data[

]=pro_data[

].fillna(0)

pro_data[

]=pro_data[

].astype(

"int"

)pro_data

最後可以做一些基礎的資料分析,比如分省份計算銷售量等,銷售量的前五名:

turn_over=pro_data.groupby(

"省份")[

"付款人數"

].agg([(

"銷售量"

,"sum")]

)turn_over.sort_values(by=

"銷售量"

pandas資料分析案例

1 資料分析步驟 資料分析步驟 1 先載入資料 pandas.read cvs path 2 檢視資料詳情 df.info df.describe df.head 3 根據業務獲取資料 複雜在此 4 展現資料 2 案例 coding utf 8 911資料中不同月份不同型別的 的次數的變化情況 im...

利用Python資料分析 pandas入門(三)

obj series range 3 index a b c index obj.index index index 1 index 1 d index物件是不能被修改的 index does not support mutable operations index pd.index np.aran...

資料分析 pandas

pandas是乙個強大的python資料分析的工具包,它是基於numpy構建的,正因pandas的出現,讓python語言也成為使用最廣泛而且強大的資料分析環境之一。pandas的主要功能 具備對其功能的資料結構dataframe,series 整合時間序列功能 提供豐富的數 算和操作 靈活處理缺失...