Python爬蟲首秀 嘗試爬取熱播英美劇劇名及評分

2021-10-07 04:19:19 字數 1404 閱讀 2579

在尋找具體的url上,翻來覆去的研究的半天,畢竟,模擬瀏覽器傳送請求,最為重要的就是保證請求的url一定要是對的,稍有不慎便會失之毫釐謬以千里(有點誇張、夸夸其談、誇……)

最初直接寫了n行命令,各種嘗試,如願以償後便想著對**進行完善一下,然而對於小白而言,物件導向的寫法,仍舊只是個說法,還未能落地。

廢話不多說,附上**,供大佬們批評指點~

# -*- coding: utf-8 -*-

# 匯入第三方庫

import requests

import jsonpath

import json

# 定義方法,傳送請求,返回響應資料

def__getrequests__()

:# 確定url

url =

''# 實現對應頁碼進行爬取

pn =

int(

input

('請輸入查詢頁碼:'))

# 定義url對應的引數

params =

# 定義請求頭

headers =

# 傳送請求、獲取響應

response = requests.get(url, headers=headers, params=params)

.content.decode(

)# 把json響應轉為字典

dict_data = json.loads(response)

return dict_data

# 定義main方法,對響應資料進行處理並列印

defmain()

: result = __getrequests__(

)# 將劇名存入列表

movie_name = jsonpath.jsonpath(result,

'$..title'

)# 將劇名對應的評分存入列表

movie_value = jsonpath.jsonpath(result,

'$..value'

)print

('豆瓣最近熱播的英美劇:'

) i =

0try

:while

true

:print

(f'劇名:|?❀?❀?|評分:'

) i +=

1except

:if i ==18:

print

('未完待續'

)else

:print

('讀取結束,後續更新'

)if __name__ ==

'__main__'

: main(

)

人生苦短,學有所擇,學有所需,學有所得~

進步不怕晚,不怕慢,遠勝於止步不前。

下期再見~

python爬蟲 爬取抽屜新熱榜

爬取段子 抽屜 爬蟲的常規操作,根據需求進行分析。我們要爬取段子,也就是每條段子資訊。先按f12檢視一下網頁,審查元素。我們剛好找到段子資訊,看看其他段子是不是也在這個位置。我們發現了25條一樣的 提取這些資訊,我們同樣使用beautifulsoup。beautifulsoup的用法我在另一篇文章中...

Python 爬蟲爬取網頁

工具 python 2.7 import urllib import urllib2 defgetpage url 爬去網頁的方法 request urllib.request url 訪問網頁 reponse urllib2.urlopen request 返回網頁 return response...

python爬蟲爬取策略

在爬蟲系統中,待抓取url佇列是很重要的一部分。待抓取url佇列中的url以什麼樣的順序排列也是乙個很重要的問題,因為這涉及到先抓取那個頁面,後抓取哪個頁面。而決定這些url排列順序的方法,叫做抓取策略。下面重點介紹幾種常見的抓取策略 一 深度優先遍歷策略 深度優先遍歷策略是指網路爬蟲會從起始頁開始...