1,開啟貓眼電影top100的榜單**:
2,google chrome 瀏覽器中按f12,開啟開發者面板,使用network:
此時什麼也沒有。
3,回到榜單的原始頁面,按下f5進行重新整理,此時再看開發者面板中的network中會有資訊流:
可以用正規表示式提取出相關的資訊。
第1,2,3,...10頁的**
?offset=0
?offset=10
?offset=20
...?offset=90
offset=後面的數字0、10、20、。。。90分別對應第1,2,3,。。。10頁。
5,**:
# 第1,2,3,...10頁的**
# ?offset=0
# ?offset=10
# ?offset=20
# ...
# ?offset=90
import requests
import re
import random
import time
import os
def doanload_onepage(offset):
url = '?offset=' + str(offset)
headers =
response = requests.get(url, headers=headers)
html = response.text
# print(html)
pattern = re.compile('.*?data-src="(.*?)".*?"name">(.*?).*?', re.s) # 提取電影的海報鏈結和名稱
movies = re.findall(pattern, html)
print(movies)
print(type(movies))
file_path = r'f:\maoyaotop100movies'
if not os.path.exists(file_path):
os.makedirs(file_path) # 如果儲存路徑不存在,則進行建立
os.chdir(file_path) # 改變儲存路徑到f:\maoyaotop100movies
pages = 10 # 總共10頁
for i in range(pages):
doanload_onepage(offset=i * 10)
過程:
參考:
正則匹配的抓取貓眼電影排行Top100
csdn部落格 皮乾東 知乎 htrying 微博 htring的微博 github htring 需要安裝requests包 安裝方式 在配好的環境中 pip install requests即可 通過開啟網頁,找到網頁之間的規律,如圖 可以發現頁面的url變成 比之前的url多乙個引數,offs...
Python實戰 抓取貓眼電影TOP100
話不多說,直接上 coding utf 8 import requests from requests import requestexception import re import json from multiprocessing import pool def get one page ur...
多程序抓取貓眼電影top100
import json from multiprocessing import pool import requests from requests.exceptions import requestexception import re 建構函式,輸入乙個url 傳送請求後返回該 的響應結果 de...