pandas 資料分析部分

2021-09-24 04:01:44 字數 2374 閱讀 5053

pandas資料分析部分共8題

import pandas as pd

df =pd.read_csv("qiancheng.csv")

print(df.shape)

df = df[~df['work_name'].str.contains('-')]#~取反

df = df[~df['work_name'].str.contains('/')]

df = df[~df['work_name'].str.contains('\(')]

df = df[~df['work_name'].str.contains('(')]

df = df[~df['work_location'].str.contains('異地招聘')]

df=df.dropna(subset=['work_location'])

df = df[~df['work_location'].str.contains('空')]

df = df.reset_index().drop('index', axis=1)#清洗 鏈結起來去空的資料

salary_min=

salary_max=

for i in range(len(df)):

salary=df['salary'][i].split('-')

if '萬'in salary[1]:

salary1=salary[1].split('萬')[0]

else:

salary1 = salary[1].split('千')[0]

df['salary_min']=salary_min

df['salary_max']=salary_max

del df['salary']

#無 初中及以下 高中/中技/中專 大專 本科 碩士 博士

df1=df[df["edu_level"].str.contains("無")|df["edu_level"].str.contains("空")]

df1['edu_level']="無"

df2=df[df["edu_level"].str.contains("初中及以下")|df["edu_level"].str.contains("高中")|df["edu_level"].str.contains("中技")|df["edu_level"].str.contains("中專")]

df2['edu_level']="初中及以下 高中/中技/中專"

df3=df[df["edu_level"].str.contains("大專")]

df3['edu_level']="大專"

df4=df[df["edu_level"].str.contains("本科")]

df4['edu_level']="本科"

df5=df[df["edu_level"].str.contains("碩士")]

df5['edu_level']="碩士"

df6=df[df["edu_level"].str.contains("博士")]

df6['edu_level']="博士"

df=pd.concat([df1,df2,df2,df4,df5,df6],ignore_index=true)

people_list=

for i in range(len(df)):

people=df['work_require_people'][i].split('招')[1]

people=people.split('人')[0]

if '若干'in people:

else:

df['work_require_people']=people_list

exp_list=

for i in range(len(df)):

exp=df['work_exp'][i]

if '年' in exp:

exp=exp.split('年')[0]

exp=exp.split('-')

if len(exp)==2:

else:

else:

df['work_exp']=exp_list

company_industry_list=

for i in range(len(df)):

company_industry=df['company_industry'][i]

if '/' in company_industry:

company_industry=company_industry.split('/')[0]

else:

df['company_industry']=company_industry_list

print(df)

資料分析 pandas

pandas是乙個強大的python資料分析的工具包,它是基於numpy構建的,正因pandas的出現,讓python語言也成為使用最廣泛而且強大的資料分析環境之一。pandas的主要功能 具備對其功能的資料結構dataframe,series 整合時間序列功能 提供豐富的數 算和操作 靈活處理缺失...

python資料分析 Pandas

import pandas as pd series 可以看做乙個定長的有序字典。基本任意的一維資料都可以用來構造 series 物件 s pd.series 1,2,3.0,abc s1 pd.series data 1,3,5,7 index a b x y 通過下標獲取資料 s1 a seri...

資料分析之Pandas

from pandas import series,dataframe import pandas as pd import numpy as np states california ohio oregon texas year 2000,2001,2002,2003 value 35000,71...