豆瓣高分電影爬取學習心得

2021-10-04 07:04:51 字數 1208 閱讀 9385

自己寫的豆瓣高分電影爬取程式

使用request和re正則庫

#豆瓣電影評分榜單

import requests

import re

defgethtmltext

(url)

:try

: hd =

r = requests.get(url,timeout=

30,headers=hd)

r.raise_for_status(

) return r.text

except

:return

""cid =

20for i in

range(10

):print

("第"

+str

(i)+

"頁的電影\n"

)print

("電影名稱 評分"

) url=

"豆瓣高分&sort=rank&page_limit=20&page_start="

+str

(cid)

data = gethtmltext(url)

pat1 =

'"title":"(.*?)"'

pat2 =

'"rate":"(.*?)"'

movie_title=re.

compile

(pat1,re.s)

.findall(data)

movie_rate=re.

compile

(pat2,re.s)

.findall(data)

for j in

range

(len

(movie_title)):

print

(movie_title[j]

,movie_rate[j]

)#print(movie_title[1],"\t",movie_rate[1])

cid+=

20

學習心得:

手法:通過檢視增加的包來判斷是什麼,(比如有\u的一般都是中文編碼,可以在python中解碼讀出來)
request庫的爬取:

手段不同,但是核心原理和步驟相同。

scrapy:

準備lmxl,pywin32,wheel

使用指令去完成爬蟲

豆瓣熱門電影爬取

import requests import json import csv defgetonepagedata page start url headers params response requests.get start url,headers headers,params params i...

爬取豆瓣網電影資訊

coding utf 8 import urllib2 import bs4 from bs4 import beautifulsoup 爬取豆瓣網電影簡介,包括電影名,導演,評分以及介紹等 class dbtop def init self self.usr agent mozilla 5.0 w...

電影芳華豆瓣評論爬取

沒有被善待的人,最容易識別善良,也最珍惜善良。適合帶長輩們看,或許多少年後,就沒人再拍這樣的電影了 後面半小時淚彈太足,我們在最好的年代虛度光陰,他們在最壞的年代洗盡鉛華。這條短評跟影片無關 舉報import requests from bs4 import beautifulsoup import...