爬取獵聘網職位 requests bs4

2021-09-25 00:17:05 字數 2271 閱讀 6450

本人傾向於用bs4匹配,資料量不大,怎麼簡單怎麼來了

最後寫入json檔案

import requests

import json

from bs4 import beautifulsoup

# url = ''

defget_page()

:"""

獲取頁數/職業

"""page =

input

('請輸入頁數:'

) job =

input

('請輸入職業:'

) url =

''.format

(job)

page_url =

'&curpage='

# 條件:一頁/多頁

if page ==

'1':

full_url = url

else

:for i in

range

(int

(page)):

full_url = url+page_url+

str(i)

parse(full_url,headers)

defparse

(url,headers)

:"""

解析頁面/將資料儲存到json檔案

"""response = requests.get(url=url,headers=headers)

res = response.text

#建立soup物件

soup = beautifulsoup(res,

'lxml'

)#定位

content = soup.select(

'.sojob-list li'

)# import os

# os.mkdir('./liepin')

items =

# 組成json物件

for c in content:

item =

# 依次為職位,地區,學歷,工作經驗,年薪

title = c.select(

'div h3')[

0].get_text(

).strip(

) area = c.select(

'p .area')[

0].get_text(

) edu = c.select(

'p .edu')[

0].get_text(

) time = c.select(

'.sojob-item-main div p span')[

2].get_text(

) text_warning = c.select(

'p span')[

0].get_text(

)

item[

'title'

]= title

item[

'area'

]= area

item[

'edu'

]= edu

item[

'time'

]= time

item[

'text_warning'

]= text_warning

import time

import hashlib

# 使用md5構造乙個不重名的檔名

key = time.time(

) md = hashlib.md5(

) md.update(

str(key)

.encode(

"utf-8"))

#加密後的字串

file_name = md.hexdigest(

)print

(%file_name)

json.dump(items,

open

('./liepin/'

+file_name +

'.json'

,'w'

,encoding=

"utf-8"

),ensure_ascii=

false

,indent=4)

if __name__ ==

"__main__"

:

headers =

get_page(

)

nodejs爬取獵聘職位id

需求 爬取網易集團在獵聘網上的在招職位列表,輸出其所有職位id 分析 在獵聘上搜尋分析後,找到獵聘的公司職位列表在上,職位id在其職位li的href上。下面通過 進行爬取。const request require co request const co require co const cheer...

爬蟲分頁爬取獵聘 15python爬取百度貼吧

不要問我這個十一去哪兒旅遊了,我還在家沒日沒夜的碼 這次我們用urllib爬取頁面,再用beautifulsoup提取有用資訊,最後用xlsxwriter把獲取的資訊 寫入到excel表 python 基礎 xlsxwriter用來寫入excel檔案的 urllib python內建爬蟲工具 bea...

拉勾網職位資料爬取 按公司規模爬取

全部的 見我的github 這裡改進了一下之前文章 拉勾網職位資料爬取,由於拉勾網最多隻會顯示30頁的職位資訊,為了獲取更多的職位資訊,就要分類爬取。由於北京的python職位很多,超過了30頁的部分就不顯示了,我為了能夠比較全的爬取資料,就進行了分類爬取。這裡我選擇公司規模這個類別 小於15人 1...