如今每個行業都開始注重資料的利用,比如電商類公司資料洞察客戶的行為及偏好以便精準營銷,金融類企業需要利用資料構建反欺詐模型等等。所以對於資料分析類的工作需求也相應增加,所以便產生了需求,我想知道資料分析類職位在哪些地區有招聘,行業分布是怎樣的,薪酬如何,對於應聘者的技能又有什麼樣的要求,所以便用后羿採集器爬取了拉勾的職位資訊簡要分析一下。
分析大綱如下
**使用后羿採集器爬取拉勾網職位資訊,之所以用后羿而不用python一來對於爬蟲目前還不是很熟悉,即使使用別人的輪子依然需要補習,二來資料量並不大后羿完全勝任且快速簡單,爬完發現資料少的可憐,僅有450條資訊。
**由於資料量非常少,直接用excel開啟進行資料清理,資訊字段主要有以下幾類:
地區職位名稱
薪酬經驗/學歷要求
公司名稱
公司所處行業
公司規模
福利技能要求
崗位職責
爬取的資料很乾淨,只需要將薪酬拆分即可,轉為兩列最低薪酬及最高薪酬,再取兩者的平均值作為平均薪酬,接下來分拆經驗、學歷為兩列,這部分很快處理完成
**這裡採用tableau進行分析,因為視覺化這塊還是比excel給力一些
首先是分析招聘職位的地區分布情況,結果顯示排名前三位依次為北上深一線城市,其中北京職位需求遙遙領先,痛心的是一線廣州需求量比杭州還要低,再其次就是強二線西上海成都,其他地區都少得可憐。另外無論是職位數量還是平均薪資都是天子腳下最高
那麼每個地區需求的資料分析類職位的行業分布是怎樣的呢?如下圖,結果顯示北上廣深杭成全部都是金融行業需求最多,其次是移動網際網路,不過這些結果和我們的實際認知是一致的,不算稀奇,當然這裡行業劃分其實很不規範,有些是按照主營型別寫的,不算標準行業型別,比如北京需求量甚高的文娛內容其中不乏移動網際網路的也說不定,所以行業需求量僅限參考,給到乙個大致擇業方向
下面來看看總的各行業職位分布情況及簡要工資情況,結果毫無疑問是金融行業,且高工資分布基本都在金融,其次是移動網際網路
招聘此崗位的公司都是怎樣的規模?需求量最大的是2000人以上的大公司佔比35.1%,其次是150-500人的中小型企業
說到薪酬部分了,這部分也是大多數人關心的問題,這裡用平均工資來顯示,平均薪酬為18k/月,只有北上深提供了較高的平均薪資
再來看看最低起薪的情況,北京依然是起薪分布最高的的地區,其次為上海、深圳、杭州、廣州
這些崗位都有哪些經驗要求?大部分都是要求3-5年經驗其次是1-3年。兩者佔比77%,說明絕大多數企業都是至少要有經驗,說明沒有經驗的確實很難過關
再來看看學歷要求,本科乃是保底線,碩士以上的要求僅佔4.2%
公司在招聘時都有哪些福利展示,這裡利用詞云展示
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import wordcloud
from wordcloud import stopwords
import jieba
from scipy.misc import imread
import re
pd.set_option('display.max_columns',20)
data=pd.read_excel('/users/shaling/downloads/拉勾的資料.xlsx',sheet_name='sheet2')
print(data.head())
print(data.keys())
txt=''.join(i for i in data['福利'])
所要求的技能:機器學習,建模,資料統計學,撰寫報告,python,sql,excel,tableau等
結論就是:
1、該崗位需求量大都聚集在北上廣深杭幾個城市
2、該崗位需求量較大的行業是金融行業,公司大都是中大型企業
3、該崗位薪酬較高,高薪聚集在金融行業
資料分析職位爬蟲與分析
簡單介紹一下,rvest包支援xpath,是我目前接觸到的r語言爬蟲最好的包。首先觀察一下網頁翻頁的變化,發現第二頁是在 後面加了乙個 curpage 1 嘗試讓最後是 0 發現又回到了第一頁,這個 的頁數是從 0 開始的,而r中的索引是從1開始的 沒什麼影響,只是感慨一下 最多只能到100頁,也就...
tableau 大資料分析工具(一)
帕累託圖 pareto chart 可以分析總利潤額的多少百分比來自於多少比例的客戶,也可以分析總銷售的多少百分比來自於哪幾種主要的產品 eg 建立乙個帕累託圖,來分析是否是80 的利潤額 於20 的大客戶,或者是別的情況 步驟 連線資料來源 supermarket 1 將 客戶姓名 利潤 分別拖放...
tableau資料分析實戰 明星藝人資料分析
本文資料 於艾漫官網7月29日 8月13日共計16天的資料 其中熱度用活躍粉絲數表示,活躍粉絲數指統計期內去除水軍後提及目標藝人的網民數量 紅粉數指統計期內對目標藝人表達正面情感的網民數量,黑粉數指統計期內對目標藝人表達負面情感的網名數量。本文將從以下3個方面對資料進行分析 1.top20上榜次數分...