Pandas資料分析 上海農商行資料分析案例

2021-09-26 19:53:27 字數 1467 閱讀 5491

今天分析統計一下上海農商行白金卡權益使用者航班理賠情況,簡單的用pandas去統計分析一下理賠客戶人群

import pandas as pd

filepath = 'f:\\realflight\\scdb.csv'

pd.set_option('display.width', 300)

pd.set_option('display.max_columns', 50)

pd.set_option('display.max_rows', 50)

df = pd.read_csv(filepath, sep='\t', header=none)

df.columns = [

'姓名', '身份證號', '手機號', '信用卡號', '航班號',

'出發地碼', '到達地碼', '出發地', '到達地', '航司',

'預計出發', '預計到達', '實際出發', '實際到達', '延誤時間',

'航班狀態', '票號狀態', '票號', '票價', '艙位'

]print('原始資料農商行理賠資料集中:申請理賠次數:', len(df))

df = df[(df['身份證號'].notnull())]

print('有效分析資料 :' + str(len(df)) + '次')

df.航班狀態.astype('category')

print('統計各個航班狀態的個數') # 分析為何理賠,理賠原因

gp = df.groupby(by=['航班狀態'])

print(gp.size())

df.身份證號.astype(str)

wanted = [

'姓名', '航班號', '航司', '延誤時間', '航班狀態',

'票價', '艙位', '性別', '真實年齡'

]result = df[wanted] # 構建新的結果資料集

ren = df.groupby(by=['姓名']).size().to_frame().reset_index()

print(len(ren[ren[0] == 4]), len(ren[ren[0] == 3]), len(ren[ren[0] == 2]), len(ren[ren[0] == 1]))

new = result.drop_duplicates('姓名', keep='first') # 將理賠人次資料轉變為理賠人數資料

print(new.describe())

new.groupby(by='航司').size()

print(new.groupby(by='航司').size().to_frame())

其中包含pandas從身份證號中提取年齡與性別,在處理資料過程中得知了資料介面類的東西。以後再研究一下

資料分析 pandas

pandas是乙個強大的python資料分析的工具包,它是基於numpy構建的,正因pandas的出現,讓python語言也成為使用最廣泛而且強大的資料分析環境之一。pandas的主要功能 具備對其功能的資料結構dataframe,series 整合時間序列功能 提供豐富的數 算和操作 靈活處理缺失...

python資料分析 Pandas

import pandas as pd series 可以看做乙個定長的有序字典。基本任意的一維資料都可以用來構造 series 物件 s pd.series 1,2,3.0,abc s1 pd.series data 1,3,5,7 index a b x y 通過下標獲取資料 s1 a seri...

資料分析之Pandas

from pandas import series,dataframe import pandas as pd import numpy as np states california ohio oregon texas year 2000,2001,2002,2003 value 35000,71...