資料分析職位爬蟲與分析

2021-08-06 07:56:23 字數 2814 閱讀 7877

簡單介紹一下,rvest包支援xpath,是我目前接觸到的r語言爬蟲最好的包。首先觀察一下網頁翻頁的變化,發現第二頁是在**後面加了乙個』&curpage=1』,嘗試讓最後是』0』,發現又回到了第一頁,這個**的頁數是從』0』開始的,而r中的索引是從1開始的(沒什麼影響,只是感慨一下),最多只能到100頁,也就是這次的迴圈是for (i in 0:99) #r中沒有pass,理解這麼個意思就行了。先分析乙個頁面:

黃色的就是我要獲取的東西,藍色圈內是公司對對職位福利的描述(像五險一金,領導好之類的),順便也爬下來了,下面請看詳細介紹:

library(xml2)

library(rvest)# 載入所需包

url%95%b0

%e6%8d

%ae%e5

%88%86

%e6%9e

%90&headckid=b1cb589ca92cf57e"

# 要爬取的網頁

position_info

page

position

%html_nodes('ul.sojob_list div.sojob-item-main div.job-info,h3 a')%>

%html_text(trim = true) # 讀取職位名,trim = true 可以避免爬取的資訊出現一堆\r\n\t的東西。

address % html_nodes('p.condition a.area') %>% html_text() # 爬取工作地點

experience % html_nodes('p.condition span') %>% html_text() # 對工作經驗的要求

companyname % html_nodes('ul.sojob_list div.sojob-item-main div.company-info,p.company-name a') %>% html_text(trim=true) # 公司名稱

companyfield % html_nodes('p.field-financing span') %>% html_text(trim = true) # 公司所在領域,像移動網際網路,金融什麼的。

公司的福利標籤內容數目個數不一定都有,而且不同的公司的內容不太一樣,爬取起來比較麻煩,鄙人不才,用列表和循壞弄的,**有四五行,就不貼出來,然後把爬到的東西存到之前的資料框裡就行了,最後在寫到txt檔案裡面,我不喜歡用csv檔案,csv總是出現編碼問題。

資料分析我用的是python中的pandas庫,直接上**吧!

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

plt.style.use('ggplot') # 匯入所需包,配色方案使用ggplot

plt.rcparams['font.sans-serif'] = ['simhei'] # 正常顯示中文標籤

plt.rcparams['axes.unicode_minus'] = false # 正常顯示負號

這些東西可能用不到,先寫上肯定沒錯。

然後就去讀取資料,清洗掉一些沒用的資料,注意到在工資那裡有一些寫著面議,另外一些寫的是薪資範圍,不能直接進行計算,我把面議刪掉了,然後把文字進行拆分,變成薪資上界和下界並轉化成int,然後取均值。之後在把福利標籤清理一下,爬的時候帶著『c』和『()』,這個要去掉才能分析。很簡單,**就略了。

然後就可以進行分析了:

先按照城市進行分組,然後檢視一下:

發現有105個城市,這非常不利於我們進行分析,所以我選擇了幾個比較熱門的城市,算了,不想說太多了,直接上圖算了

我們發現北京的平均薪資最高,上海是第二,杭州第三,深圳第四,南京第五,廣州比南京低了一大截,位於第六,長三角地區的三個主要城市果然比較爭氣。再來乙個箱線圖看看,

先看看左上角的工作經驗和薪水的關係,發現隨著工作經驗的增加薪水也是在增加的;工作經驗是連續的,當然也可以將其離散化,換成3~5年啊什麼的;右上角是學歷和薪水的關係,不限學歷的上限和下限都比較極端,博士的下限和上限確實比較高但是明顯的右偏,大專明顯沒有什麼優勢,本科生和碩士也有一些差別,但是差別不大;左下角是城市和薪水的關係,可以看出北京上海杭州深圳的上四分位數和下四分位數基本在同一檔次上,比其他的城市明顯高;算了,反正圖在這兒了,自己理解吧

在附上一張福利標籤的詞頻統計:

發現大多數公司認為職員最關注五險一金,帶薪年假。還有647個公司什麼都沒寫

當然也有一些不足之處:

1. 招聘資訊不能代表在職人員的實際資訊。

2. 有的公司還寫著六險一金,它想表達的和五險一金沒啥差別,還有一些會把領導好寫成領導nice,這些程式都識別不出來,需要我們告訴程式,我在這裡懶得弄了。

Tableau資料分析類職位

如今每個行業都開始注重資料的利用,比如電商類公司資料洞察客戶的行為及偏好以便精準營銷,金融類企業需要利用資料構建反欺詐模型等等。所以對於資料分析類的工作需求也相應增加,所以便產生了需求,我想知道資料分析類職位在哪些地區有招聘,行業分布是怎樣的,薪酬如何,對於應聘者的技能又有什麼樣的要求,所以便用后羿...

爬蟲 資料分析 numpy

資料分析 是把隱藏在一些看似雜亂無章的資料背後的資訊提煉出來,總結出所研究物件的內在規律 資料分析三劍客 numpy,pandas,matplotlib numpy numerical python 是 python 語言的乙個擴充套件程式庫,支援大量的維度陣列與矩陣運算,此外也針對陣列運算提供大量...

人工智慧相關職位資料分析 需求分析

1.利用爬蟲收集各大招聘 的職位資料 2.收集不同職位的招聘資訊資料 3.收集全國範圍內的招聘資訊資料 4.收集字段要求 職位名title 公司名company 工作地點workplace 最好精確到市下面的區 薪資salary 發布時間publishtime 工作經驗要求experiencereq...