豆瓣高分電影爬取學習心得

自己寫的豆瓣高分電影爬取程式

使用request和re正則庫

#豆瓣電影評分榜單
import requests
import re
defgethtmltext
(url)
:try
:		hd =
r = requests.get(url,timeout=
30,headers=hd)
r.raise_for_status(
)		return r.text
except
:return
""cid =
20for i in
range(10
):print
("第"
+str
(i)+
"頁的電影\n"
)print
("電影名稱		評分"
)	url=
"豆瓣高分&sort=rank&page_limit=20&page_start="
+str
(cid)
data = gethtmltext(url)
pat1 =
'"title":"(.*?)"'
pat2 =
'"rate":"(.*?)"'
movie_title=re.
compile
(pat1,re.s)
.findall(data)
movie_rate=re.
compile
(pat2,re.s)
.findall(data)
for j in
range
(len
(movie_title)):
print
(movie_title[j]
,movie_rate[j]
)#print(movie_title[1],"\t",movie_rate[1])
cid+=
20

學習心得：

手法：通過檢視增加的包來判斷是什麼，（比如有\u的一般都是中文編碼，可以在python中解碼讀出來）

request庫的爬取：

手段不同，但是核心原理和步驟相同。

scrapy:

準備lmxl，pywin32，wheel

使用指令去完成爬蟲

豆瓣熱門電影爬取

import requests import json import csv defgetonepagedata page start url headers params response requests.get start url,headers headers,params params i...

爬取豆瓣網電影資訊

coding utf 8 import urllib2 import bs4 from bs4 import beautifulsoup 爬取豆瓣網電影簡介，包括電影名，導演，評分以及介紹等 class dbtop def init self self.usr agent mozilla 5.0 w...

電影芳華豆瓣評論爬取

沒有被善待的人，最容易識別善良，也最珍惜善良。適合帶長輩們看，或許多少年後，就沒人再拍這樣的電影了後面半小時淚彈太足，我們在最好的年代虛度光陰，他們在最壞的年代洗盡鉛華。這條短評跟影片無關舉報import requests from bs4 import beautifulsoup import...

豆瓣高分電影爬取學習心得

豆瓣熱門電影爬取

爬取豆瓣網電影資訊

電影芳華豆瓣評論爬取

相關推薦