訪問url位址檢視網頁源**發現職位資訊為動態載入通過開發者工具檢視xhr
請求,發現json
資料位址為,將位址複製到瀏覽器,出現
您操作太頻繁,請稍後訪問
之類的資料,無法檢視完整資料向web中的位址傳送請求,獲取cookies
和session
資訊使用post
方式將之前獲取的cookies
,session
,headers
作為引數,重新向真實的json
資料位址傳送請求獲取到json
資料通過json.loads()
將json
資料裝換成python
欄位的資料型別,方便解析
具體**如下:
import requests
import time
defmain
(pages)
:# 通過訪問主網頁獲取cookies和session
url1 =
''# 提交ajax請求,獲取json資料
url =
""# 請求頭
headers =
# 使用data來決定獲取多少頁的json資料
for page in
range(1
, pages)
: data =
s = requests.session(
)# 建立session
s.get(url=url1, headers=headers, timeout=3)
cookie = s.cookies # 獲取cookie
respon = s.post(url=url, headers=headers, data=data, cookies=cookie, timeout=3)
time.sleep(4)
print
(respon.text)
# 獲取前兩頁的職位json資訊
main(3)
# 結果如下:
# ,"code":0}
爬蟲(5) 爬取拉鉤網資料
importjson importurllib fromurllibimportparse,request importmath 請求頭 headers 獲得相關網頁數方法 defgetpagenum kw url 路由 沒有輸查詢關鍵字的路由 url form data data url編碼 da...
python丨Selenium爬取拉鉤職位資訊
第一頁職位資訊 from selenium import webdriver from lxml import etree import re import time class lagouspider object def init self self.driver webdriver.chrom...
爬取拉鉤網上所有的python職位
2.爬取拉鉤網上的所有python職位。from urllib import request,parse import json,random defuser agent page 瀏覽器列表,每次訪問可以用不同的瀏覽器訪問 user agent list mozilla 5.0 x11 ubunt...