本人傾向於用bs4匹配,資料量不大,怎麼簡單怎麼來了
最後寫入json檔案
import requests
import json
from bs4 import beautifulsoup
# url = ''
defget_page()
:"""
獲取頁數/職業
"""page =
input
('請輸入頁數:'
) job =
input
('請輸入職業:'
) url =
''.format
(job)
page_url =
'&curpage='
# 條件:一頁/多頁
if page ==
'1':
full_url = url
else
:for i in
range
(int
(page)):
full_url = url+page_url+
str(i)
parse(full_url,headers)
defparse
(url,headers)
:"""
解析頁面/將資料儲存到json檔案
"""response = requests.get(url=url,headers=headers)
res = response.text
#建立soup物件
soup = beautifulsoup(res,
'lxml'
)#定位
content = soup.select(
'.sojob-list li'
)# import os
# os.mkdir('./liepin')
items =
# 組成json物件
for c in content:
item =
# 依次為職位,地區,學歷,工作經驗,年薪
title = c.select(
'div h3')[
0].get_text(
).strip(
) area = c.select(
'p .area')[
0].get_text(
) edu = c.select(
'p .edu')[
0].get_text(
) time = c.select(
'.sojob-item-main div p span')[
2].get_text(
) text_warning = c.select(
'p span')[
0].get_text(
)
item[
'title'
]= title
item[
'area'
]= area
item[
'edu'
]= edu
item[
'time'
]= time
item[
'text_warning'
]= text_warning
import time
import hashlib
# 使用md5構造乙個不重名的檔名
key = time.time(
) md = hashlib.md5(
) md.update(
str(key)
.encode(
"utf-8"))
#加密後的字串
file_name = md.hexdigest(
)print
(%file_name)
json.dump(items,
open
('./liepin/'
+file_name +
'.json'
,'w'
,encoding=
"utf-8"
),ensure_ascii=
false
,indent=4)
if __name__ ==
"__main__"
:
headers =
get_page(
)
nodejs爬取獵聘職位id
需求 爬取網易集團在獵聘網上的在招職位列表,輸出其所有職位id 分析 在獵聘上搜尋分析後,找到獵聘的公司職位列表在上,職位id在其職位li的href上。下面通過 進行爬取。const request require co request const co require co const cheer...
爬蟲分頁爬取獵聘 15python爬取百度貼吧
不要問我這個十一去哪兒旅遊了,我還在家沒日沒夜的碼 這次我們用urllib爬取頁面,再用beautifulsoup提取有用資訊,最後用xlsxwriter把獲取的資訊 寫入到excel表 python 基礎 xlsxwriter用來寫入excel檔案的 urllib python內建爬蟲工具 bea...
拉勾網職位資料爬取 按公司規模爬取
全部的 見我的github 這裡改進了一下之前文章 拉勾網職位資料爬取,由於拉勾網最多隻會顯示30頁的職位資訊,為了獲取更多的職位資訊,就要分類爬取。由於北京的python職位很多,超過了30頁的部分就不顯示了,我為了能夠比較全的爬取資料,就進行了分類爬取。這裡我選擇公司規模這個類別 小於15人 1...