pandas資料分析部分共8題
import pandas as pd
df =pd.read_csv("qiancheng.csv")
print(df.shape)
df = df[~df['work_name'].str.contains('-')]#~取反
df = df[~df['work_name'].str.contains('/')]
df = df[~df['work_name'].str.contains('\(')]
df = df[~df['work_name'].str.contains('(')]
df = df[~df['work_location'].str.contains('異地招聘')]
df=df.dropna(subset=['work_location'])
df = df[~df['work_location'].str.contains('空')]
df = df.reset_index().drop('index', axis=1)#清洗 鏈結起來去空的資料
salary_min=
salary_max=
for i in range(len(df)):
salary=df['salary'][i].split('-')
if '萬'in salary[1]:
salary1=salary[1].split('萬')[0]
else:
salary1 = salary[1].split('千')[0]
df['salary_min']=salary_min
df['salary_max']=salary_max
del df['salary']
#無 初中及以下 高中/中技/中專 大專 本科 碩士 博士
df1=df[df["edu_level"].str.contains("無")|df["edu_level"].str.contains("空")]
df1['edu_level']="無"
df2=df[df["edu_level"].str.contains("初中及以下")|df["edu_level"].str.contains("高中")|df["edu_level"].str.contains("中技")|df["edu_level"].str.contains("中專")]
df2['edu_level']="初中及以下 高中/中技/中專"
df3=df[df["edu_level"].str.contains("大專")]
df3['edu_level']="大專"
df4=df[df["edu_level"].str.contains("本科")]
df4['edu_level']="本科"
df5=df[df["edu_level"].str.contains("碩士")]
df5['edu_level']="碩士"
df6=df[df["edu_level"].str.contains("博士")]
df6['edu_level']="博士"
df=pd.concat([df1,df2,df2,df4,df5,df6],ignore_index=true)
people_list=
for i in range(len(df)):
people=df['work_require_people'][i].split('招')[1]
people=people.split('人')[0]
if '若干'in people:
else:
df['work_require_people']=people_list
exp_list=
for i in range(len(df)):
exp=df['work_exp'][i]
if '年' in exp:
exp=exp.split('年')[0]
exp=exp.split('-')
if len(exp)==2:
else:
else:
df['work_exp']=exp_list
company_industry_list=
for i in range(len(df)):
company_industry=df['company_industry'][i]
if '/' in company_industry:
company_industry=company_industry.split('/')[0]
else:
df['company_industry']=company_industry_list
print(df)
資料分析 pandas
pandas是乙個強大的python資料分析的工具包,它是基於numpy構建的,正因pandas的出現,讓python語言也成為使用最廣泛而且強大的資料分析環境之一。pandas的主要功能 具備對其功能的資料結構dataframe,series 整合時間序列功能 提供豐富的數 算和操作 靈活處理缺失...
python資料分析 Pandas
import pandas as pd series 可以看做乙個定長的有序字典。基本任意的一維資料都可以用來構造 series 物件 s pd.series 1,2,3.0,abc s1 pd.series data 1,3,5,7 index a b x y 通過下標獲取資料 s1 a seri...
資料分析之Pandas
from pandas import series,dataframe import pandas as pd import numpy as np states california ohio oregon texas year 2000,2001,2002,2003 value 35000,71...