自己寫的豆瓣高分電影爬取程式
使用request和re正則庫
#豆瓣電影評分榜單
import requests
import re
defgethtmltext
(url)
:try
: hd =
r = requests.get(url,timeout=
30,headers=hd)
r.raise_for_status(
) return r.text
except
:return
""cid =
20for i in
range(10
):print
("第"
+str
(i)+
"頁的電影\n"
)print
("電影名稱 評分"
) url=
"豆瓣高分&sort=rank&page_limit=20&page_start="
+str
(cid)
data = gethtmltext(url)
pat1 =
'"title":"(.*?)"'
pat2 =
'"rate":"(.*?)"'
movie_title=re.
compile
(pat1,re.s)
.findall(data)
movie_rate=re.
compile
(pat2,re.s)
.findall(data)
for j in
range
(len
(movie_title)):
print
(movie_title[j]
,movie_rate[j]
)#print(movie_title[1],"\t",movie_rate[1])
cid+=
20
學習心得:
手法:通過檢視增加的包來判斷是什麼,(比如有\u的一般都是中文編碼,可以在python中解碼讀出來)
request庫的爬取:
手段不同,但是核心原理和步驟相同。
scrapy:
準備lmxl,pywin32,wheel
使用指令去完成爬蟲
豆瓣熱門電影爬取
import requests import json import csv defgetonepagedata page start url headers params response requests.get start url,headers headers,params params i...
爬取豆瓣網電影資訊
coding utf 8 import urllib2 import bs4 from bs4 import beautifulsoup 爬取豆瓣網電影簡介,包括電影名,導演,評分以及介紹等 class dbtop def init self self.usr agent mozilla 5.0 w...
電影芳華豆瓣評論爬取
沒有被善待的人,最容易識別善良,也最珍惜善良。適合帶長輩們看,或許多少年後,就沒人再拍這樣的電影了 後面半小時淚彈太足,我們在最好的年代虛度光陰,他們在最壞的年代洗盡鉛華。這條短評跟影片無關 舉報import requests from bs4 import beautifulsoup import...