今天分析統計一下上海農商行白金卡權益使用者航班理賠情況,簡單的用pandas去統計分析一下理賠客戶人群
import pandas as pd
filepath = 'f:\\realflight\\scdb.csv'
pd.set_option('display.width', 300)
pd.set_option('display.max_columns', 50)
pd.set_option('display.max_rows', 50)
df = pd.read_csv(filepath, sep='\t', header=none)
df.columns = [
'姓名', '身份證號', '手機號', '信用卡號', '航班號',
'出發地碼', '到達地碼', '出發地', '到達地', '航司',
'預計出發', '預計到達', '實際出發', '實際到達', '延誤時間',
'航班狀態', '票號狀態', '票號', '票價', '艙位'
]print('原始資料農商行理賠資料集中:申請理賠次數:', len(df))
df = df[(df['身份證號'].notnull())]
print('有效分析資料 :' + str(len(df)) + '次')
df.航班狀態.astype('category')
print('統計各個航班狀態的個數') # 分析為何理賠,理賠原因
gp = df.groupby(by=['航班狀態'])
print(gp.size())
df.身份證號.astype(str)
wanted = [
'姓名', '航班號', '航司', '延誤時間', '航班狀態',
'票價', '艙位', '性別', '真實年齡'
]result = df[wanted] # 構建新的結果資料集
ren = df.groupby(by=['姓名']).size().to_frame().reset_index()
print(len(ren[ren[0] == 4]), len(ren[ren[0] == 3]), len(ren[ren[0] == 2]), len(ren[ren[0] == 1]))
new = result.drop_duplicates('姓名', keep='first') # 將理賠人次資料轉變為理賠人數資料
print(new.describe())
new.groupby(by='航司').size()
print(new.groupby(by='航司').size().to_frame())
其中包含pandas從身份證號中提取年齡與性別,在處理資料過程中得知了資料介面類的東西。以後再研究一下
資料分析 pandas
pandas是乙個強大的python資料分析的工具包,它是基於numpy構建的,正因pandas的出現,讓python語言也成為使用最廣泛而且強大的資料分析環境之一。pandas的主要功能 具備對其功能的資料結構dataframe,series 整合時間序列功能 提供豐富的數 算和操作 靈活處理缺失...
python資料分析 Pandas
import pandas as pd series 可以看做乙個定長的有序字典。基本任意的一維資料都可以用來構造 series 物件 s pd.series 1,2,3.0,abc s1 pd.series data 1,3,5,7 index a b x y 通過下標獲取資料 s1 a seri...
資料分析之Pandas
from pandas import series,dataframe import pandas as pd import numpy as np states california ohio oregon texas year 2000,2001,2002,2003 value 35000,71...