爬取豆瓣電影推薦排行榜

2021-07-30 22:56:34 字數 2166 閱讀 2492

import 

requests

from

bs4 import

beautifulsoup

class

dianying():

def

html_url(self, url

):html = requests.get(url

) soup = beautifulsoup(html.text,'lxml')

pai = soup.select('.pl2')

for

i in

pai:

s = i.find_all('a')

name = s[0].text.strip()

j = i.find_all('p')

pin = i.find_all('div')

fen = pin[0].text.strip()

jiesao = j[0].text.strip()

href = s[0]['href']

print(name,jiesao,'\n

',fen,'\n

',href.strip() )

self.get_html(href)

def

get_html(self, href

):html_a = requests.get(href

) soup_a = beautifulsoup(html_a.text,'lxml')

pai_a = soup_a.select('.related-info')[0]

s = pai_a.find('span')

a = pai_a.find_all('h2')

d = a[0].text.strip()

f = s.text.strip()

print(d,'\n

', f)

dou = dianying()

dou.html_url('')

結果:怒

/ 憤怒 / rage 2016-09-10(多倫多電影節) / 2016-09-17(日本) / 渡邊謙 / 森山未來 / 松山研一 / 綾野剛 / 廣瀨鈴 / 皮埃爾瀧 / 三浦貴大 / 佐久本寶 / 高畑充希 / 原日出子 / 池脅千鶴 / 宮崎葵 / 妻夫木聰 / 日本 / ikari-movie.com / 李相日 / 142分鐘 / 怒 / 劇情... 

7.9(23273人評價) 

怒的劇情簡介  ·  ·  ·  ·  ·  · 

炎炎夏日,東京八王子郊外社群,一對夫婦慘遭殺害。事後**用血在牆上寫下大大的「怒」字,隨後逃亡,銷聲匿跡長達一年之久。而在此期間,三個身份不明的男子和身邊的人相遇了。曾自甘墮落的愛子(宮崎葵 飾)被父親(渡邊謙 飾)領回海濱小鎮,邂逅了不善言辭的哲也(松山研一 飾)。在東京工作的同性戀優馬(妻夫木聰 飾)將柔情似水的直人(綾野剛 飾)帶回了家,他不相信對方,卻又嘗試去相信。隨母親搬到沖繩的小泉(廣瀨鈴 飾)跟著同學辰哉(佐久本寶 飾)登上一座荒島,在廢墟中遇到了揹包客田中(森山未來 飾),他們短暫成為朋友,而可怕的命運突然降臨泉的頭上。不久之後,通緝令遍布全國,三個男子的真實身份引人生疑……

本片根據吉田修一的同名原作改編。

看不見的客人

/ 布局(臺) / the invisible guest 2016-09-23(奇幻電影節) / 2017-01-06(西班牙) / 馬里奧·卡薩斯 / 阿娜·華格納 / 何塞·科羅納 / 芭芭拉·藍妮 / 法蘭西斯克·歐瑞拉 / 帕科·圖斯 / 大衛·塞爾瓦斯 / 伊尼戈·加斯特西 / 珊·葉拉姆斯 / 馬內爾·杜爾索 / 布蘭卡·馬丁內斯 /... 

8.7(54620人評價) 

。。。。。結果一部分,黏貼不下渣**了,選擇用正規表示式會好很多。待改進。

python爬取豆瓣電影排行榜資料

電影推薦 豆瓣電影排行榜資料抓取 目標 目標資料描述 1 排名 2 電影名字 3 鏈結 4 導演人員 5 評價 6 評分 7 評價人數 8 評價內容 篩選資訊 def get top url respose requests.get url,headers headers soup beautifu...

爬取豆瓣電影排行榜top250

下面直接上 import requests from bs4 import beautifulsoup 爬取網頁原始碼 defdownload page url headers req requests.get url url,headers headers return req.content 爬...

爬取貓眼電影排行榜

匯入我們需要的模組 import reimport requests 一 獲取網頁內容 1 宣告目標url,就是爬取的 位址 base url 2 模仿瀏覽器 headers 3 發起請求 response requests.get base url,headers headers 4 接收響應的資...