在尋找具體的url上,翻來覆去的研究的半天,畢竟,模擬瀏覽器傳送請求,最為重要的就是保證請求的url一定要是對的,稍有不慎便會失之毫釐謬以千里(有點誇張、夸夸其談、誇……)
最初直接寫了n行命令,各種嘗試,如願以償後便想著對**進行完善一下,然而對於小白而言,物件導向的寫法,仍舊只是個說法,還未能落地。
廢話不多說,附上**,供大佬們批評指點~
# -*- coding: utf-8 -*-
# 匯入第三方庫
import requests
import jsonpath
import json
# 定義方法,傳送請求,返回響應資料
def__getrequests__()
:# 確定url
url =
''# 實現對應頁碼進行爬取
pn =
int(
input
('請輸入查詢頁碼:'))
# 定義url對應的引數
params =
# 定義請求頭
headers =
# 傳送請求、獲取響應
response = requests.get(url, headers=headers, params=params)
.content.decode(
)# 把json響應轉為字典
dict_data = json.loads(response)
return dict_data
# 定義main方法,對響應資料進行處理並列印
defmain()
: result = __getrequests__(
)# 將劇名存入列表
movie_name = jsonpath.jsonpath(result,
'$..title'
)# 將劇名對應的評分存入列表
movie_value = jsonpath.jsonpath(result,
'$..value'
)print
('豆瓣最近熱播的英美劇:'
) i =
0try
:while
true
:print
(f'劇名:|?❀?❀?|評分:'
) i +=
1except
:if i ==18:
print
('未完待續'
)else
:print
('讀取結束,後續更新'
)if __name__ ==
'__main__'
: main(
)
人生苦短,學有所擇,學有所需,學有所得~
進步不怕晚,不怕慢,遠勝於止步不前。
下期再見~
python爬蟲 爬取抽屜新熱榜
爬取段子 抽屜 爬蟲的常規操作,根據需求進行分析。我們要爬取段子,也就是每條段子資訊。先按f12檢視一下網頁,審查元素。我們剛好找到段子資訊,看看其他段子是不是也在這個位置。我們發現了25條一樣的 提取這些資訊,我們同樣使用beautifulsoup。beautifulsoup的用法我在另一篇文章中...
Python 爬蟲爬取網頁
工具 python 2.7 import urllib import urllib2 defgetpage url 爬去網頁的方法 request urllib.request url 訪問網頁 reponse urllib2.urlopen request 返回網頁 return response...
python爬蟲爬取策略
在爬蟲系統中,待抓取url佇列是很重要的一部分。待抓取url佇列中的url以什麼樣的順序排列也是乙個很重要的問題,因為這涉及到先抓取那個頁面,後抓取哪個頁面。而決定這些url排列順序的方法,叫做抓取策略。下面重點介紹幾種常見的抓取策略 一 深度優先遍歷策略 深度優先遍歷策略是指網路爬蟲會從起始頁開始...