1、資料分析步驟
'''資料分析步驟:
1、先載入資料 pandas.read_cvs("path")
2、檢視資料詳情 df.info() ,df.describe() ,df.head()
3、根據業務獲取資料(複雜在此)
4、展現資料
'''
2、案例
#coding=utf-8
#911資料中不同月份不同型別的**的次數的變化情況
import
pandas as pd
import
numpy as np
from matplotlib import
pyplot as plt
#把時間字串轉為時間型別設定為索引
df = pd.read_csv("
./911.csv")
df["
timestamp
"] = pd.to_datetime(df["
timestamp"])
#新增列,表示分類
temp_list = df["
title
"].str.split(": "
).tolist()
cate_list = [i[0] for i in
temp_list]
#print(np.array(cate_list).reshape((df.shape[0],1)))
df["
cate
"] = pd.dataframe(np.array(cate_list).reshape((df.shape[0],1)))
df.set_index(
"timestamp
",inplace=true)
print(df.head(1))
plt.figure(figsize=(20, 8), dpi=80)#分組
for group_name,group_data in df.groupby(by="
cate"):
#對不同的分類都進行繪圖
count_by_month = group_data.resample("
m").count()["
title"]
#畫圖_x =count_by_month.index
(_x)
_y =count_by_month.values
_x = [i.strftime("
%y%m%d
") for i in
_x] plt.plot(range(len(_x)), _y, label=group_name)
plt.xticks(range(len(_x)), _x, rotation=45)
plt.legend(loc="
best")
plt.show()
資料分析案例 利用pandas清洗資料
載入資料 資料清洗 位址列爬取的位址列是省 城市名,當然還有北京這種直轄市,這裡我們要把城市和省份分開,分成兩列,對於北京則讓城市和省份都顯示為北京。def get province x iflen x 2 return x 市 else pro list x.split return pro li...
資料分析 pandas
pandas是乙個強大的python資料分析的工具包,它是基於numpy構建的,正因pandas的出現,讓python語言也成為使用最廣泛而且強大的資料分析環境之一。pandas的主要功能 具備對其功能的資料結構dataframe,series 整合時間序列功能 提供豐富的數 算和操作 靈活處理缺失...
python資料分析 Pandas
import pandas as pd series 可以看做乙個定長的有序字典。基本任意的一維資料都可以用來構造 series 物件 s pd.series 1,2,3.0,abc s1 pd.series data 1,3,5,7 index a b x y 通過下標獲取資料 s1 a seri...