爬取貓眼電影相關資訊

2021-08-10 02:37:34 字數 1698 閱讀 1193

import json

import re

import requests

from requests.exceptions import requestexception

#定義抓取乙個頁面**

def get_one_page(url):

headers=

#定義異常

try:

response=requests.get(url,headers=headers)

#根據狀態碼判斷是否抓取成功

if response.status_code==200:

return response.text

return none

except requestexception:

return none

#解析網頁

def parse_one_page(html):

#每次要加起始符和結束符

pattern=re.compile('.*?board-index.*?">(\d+).*?data-src="(.*?)".*?.*?name">(.*?)'

+'.*?star">(.*?)

.*?releasetime">(.*?)

' +'.*?integer">(.*?).*?fraction">(.*?).*?',re.s)

items=re.findall(pattern,html)

for item in items:

yield

#寫入檔案

def write_to_file(content):

#加encoding顯示中文,寫入方式為'a',否則只能寫一條

with open('result.txt','a',encoding='utf-8') as f:

f.write(json.dumps(content,ensure_ascii=false)+'\n')

f.close()

def download(image_url, pathname):

headers =

response = requests.get(image_url, headers=headers)

with open(pathname, 'ab') as f:

f.write(response.content) #二進位制檔案

f.close()

#定義main方法呼叫

def main(offset):

#把offset作為引數傳入url

url=""+str(offset)

html=get_one_page(url)

for item in parse_one_page(html):

print(item)

#把爬取的內容寫入txt檔案

#讀取10頁前100個電影,構造0-90的迴圈

for i in range(10):

爬取貓眼電影

有乙份工作需要我列出兩個電影院的每天電影排期資訊,我不想每次都要去貓眼上覆制貼上。所以做了個爬蟲 功能 能夠知道每天的電影排期資訊 使用限制 只能在當天使用,不能在前一晚上使用,後面我會再考慮修改 coding utf 8 import requests import re from bs4 imp...

Python爬取貓眼電影

不多說,直接上 import requests import re import random import pymysql import time 連線資料庫 db pymysql.connect host localhost port 3306,user root passwd a db pyt...

貓眼電影影評爬取

電影的影評介面如下 這個可以在網上搜到,也可以自己抓包分析 這裡簡單的分析一下引數的含義 1218029 貓眼電影的id 這裡就是 少年的你 的電影id了 offset 偏移,貌似是依次增加15 我們可以每次增加offset來進行爬取,即讓offset每次增加15。我們通過這種方式來構造url,傳送...