載入資料
資料清洗:位址列爬取的位址列是省+城市名,當然還有北京這種直轄市,這裡我們要把城市和省份分開,分成兩列,對於北京則讓城市和省份都顯示為北京。
def
get_province
(x):
iflen
(x)==2:
return x+
"市"else
: pro_list=x.split(
)return pro_list[0]
+"省"
defget_city
(x):
iflen
(x)==2:
return x+
"市"else
: pro_list=x.split(
)return pro_list[1]
+"市"
pro_data[
"省份"
]=pro_data[
"位址"].
map(get_province)
pro_data[
"城市"
]=pro_data[
"位址"].
#這裡還可以將函式寫成三元表示式
defget_province
(x):
return x.split()[
0]+"省"
iflen
(x)>
2else x+
"市"
pro_data[
"省份"
]=pro_data[
"位址"].
map(get_province)
pro_data
資料清洗:付款人數這裡只需要付款人數的數字,要把文字刪除掉。
#第一種方法用str介面和正規表示式
pro_data[
"付款人數"
]=pro_data[
"付款人數"].
str.findall(
"\d+").
str[0]
#第二種直接利用str介面
pro_data[
"付款人數"
]=pro_data[
"付款人數"].
str[:-
3]
pro_data[
]=pro_data[
].fillna(0)
pro_data[
]=pro_data[
].astype(
"int"
)pro_data
最後可以做一些基礎的資料分析,比如分省份計算銷售量等,銷售量的前五名:
turn_over=pro_data.groupby(
"省份")[
"付款人數"
].agg([(
"銷售量"
,"sum")]
)turn_over.sort_values(by=
"銷售量"
pandas資料分析案例
1 資料分析步驟 資料分析步驟 1 先載入資料 pandas.read cvs path 2 檢視資料詳情 df.info df.describe df.head 3 根據業務獲取資料 複雜在此 4 展現資料 2 案例 coding utf 8 911資料中不同月份不同型別的 的次數的變化情況 im...
利用Python資料分析 pandas入門(三)
obj series range 3 index a b c index obj.index index index 1 index 1 d index物件是不能被修改的 index does not support mutable operations index pd.index np.aran...
資料分析 pandas
pandas是乙個強大的python資料分析的工具包,它是基於numpy構建的,正因pandas的出現,讓python語言也成為使用最廣泛而且強大的資料分析環境之一。pandas的主要功能 具備對其功能的資料結構dataframe,series 整合時間序列功能 提供豐富的數 算和操作 靈活處理缺失...