python爬蟲獲取豆瓣電影top250的名字

2021-10-13 04:30:31 字數 1229 閱讀 6361

最近面試了乙個爬蟲實習崗位,不知道能不能過,先學習一下爬蟲練練手.

import re

import urllib.request

import urllib.error

defget_douban_pages()

: index =

1# 電影排名

# 偽裝成瀏覽器

header =

for i in

range(0

,10):

# 0~19

num = i *

25 url =

''% num

req = urllib.request.request(url, headers=header)

try:

response = urllib.request.urlopen(req, timeout=

1.5)

# 過濾出所有影片名(各地的影片名)

reg = r'.*?'

reg_ques = re.

compile

(reg)

name_list = reg_ques.findall(response.read(

).decode(

'utf-8'))

# 過濾出需要的(大陸的影片名)影片名

name_list2 =

reg2 = r'^(?!.* )'

# 不含 的字串,其他地方的影片名前面都是有 的

reg_ques = re.

compile

(reg2)

for name in name_list:

if reg_ques.match(name)

:for name_html in name_list2:

name = name_html[20:

][0:

-7]print

('no.'

, index,

' ', name)

index +=

1except urllib.error.urlerror as e:

ifhasattr

(e,'reason'):

print

(e.reason)

if __name__ ==

"__main__"

: get_douban_pages(

)

python爬蟲 豆瓣電影

最近學習python 順便寫下爬蟲練手 爬的是豆瓣電影排行榜 python版本2.7.6 安裝 beautiful soup sudo apt get install python bs4 安裝 requests sudo apt get install python requests下面是py a...

python爬蟲之獲取豆瓣電影資訊

本質就是 發起請求 獲取響應內容 解析內容 儲存資料首先,需要做的就是匯入模組pip install requests pip install lxml coding utf 8 import requests from lxml import etree 選取網頁並做解析 這裡以 titanic ...

Python爬蟲 爬取豆瓣電影(二)

檢視上乙個專案,請看 上乙個專案中獲取到了一定數量的電影url資訊,這次來獲取單個電影的電影詳情。對傳遞的url返回乙個名為soup的beautifulsoup物件 defget url html soup url header request body.get header proxies req...