費話不多少,主要是靠介面爬取,那麼怎麼獲得介面就是乙個問題了。
但是沒找到這個pageid引數在哪出現的,所以就沒辦法了。
那我們就換一種方法,不從這裡獲得景點資訊。而是從這裡
這是第一頁,而如果翻頁的話url會變,例如:
這是第二頁,很明顯我們可以通過控制s0-p2,後邊這個2來控制頁數。但是這樣會有問題,就是說解析出來的詳情頁的url會跳轉到門票這一欄,就是說正常情況下解析出來的url是這種 但是會有重定向,定向到這裡
ok,再看返回的資料
返回的資料有各個景點詳情頁的url。
import requests
import json
headers =
url = ""
resp = requests.post(url=url,headers=headers,data=json.dumps(requestdata))
print(json.loads(resp.text))
tagid試了幾頁應該是0
其他的就比較常規,而head中有幾項找不到,試了下head:{},發現也可以獲得資料
就是說這段**和上邊那段**效果是一樣的。
import requests
import json
headers =
url = ""
requestdata = }
resp = requests.post(url=url,headers=headers,data=json.dumps(requestdata))
print(json.loads(resp.text))
Scrapy爬取攜程桂林問答
id int 11 not null auto increment comment 主鍵 question varchar 255 default null comment 問題的標題 full question varchar 255 default null comment 問題的詳情 keyw...
爬蟲 爬取攜程的航班資訊
功能介紹 輸入起點 終點 時間就能得到攜程上的航班資訊 from prettytable import prettytable import requests import json def xiecheng dcity,acity,date date date 0 4 date 4 6 date ...
爬取部落格評論
通過抓包獲取資料 還要找到真實的 url 位址 多數在 networt xhr 中 import requests import json link headers r requests.get link,headers headers print 頁面狀態響應碼 r.status code 此時已...