requests 正則爬取貓眼電影前100

2022-02-28 13:13:00 字數 1337 閱讀 8452

最近複習功課,日常碼農生活。

import requests

from requests.exceptions import requestexception

import re

import json

from multiprocessing import pool

#requests.get()呼叫完記得抓異常

def get_one_page(url):

try:

response = requests.get(url)

if response.status_code == 200:

return response.text

return none

except requestexception:

return none

def parse_one_page(html):

#re.s使.可以匹配換行符

pattern = re.compile('.*?board-index.*?>(\d+).*?data-src="(.*?)".*?name">(.*?).*?star">(.*?)

.*?releasetime">(.*?)

' +'.*?integer">(.*?).*?fraction">(.*?).*?',re.s)

items = re.findall(pattern,html)

for item in items:

#利用yield生成器

yield

def write_to_file(content):

with open('result.txt', 'a', encoding='utf-8')as f:

#json.dumps將字典轉換為字串 ,json.load()將json格式資料轉換為字典

f.write(json.dumps(content, ensure_ascii=false) + '\n')

f.close()

def main(offset):

url = '' + str(offset)

html = get_one_page(url)

for item in parse_one_page(html):

print(item)

write_to_file(item)

if __name__ == '__main__':

#引入程序池,加快爬取速度

pool = pool()

pool.map(main, [i*10 for i in range(10)])

requests庫 正規表示式爬取貓眼電影

我們用 requests 庫 正規表示式構建乙個簡陋的爬蟲,雖然這個爬蟲很簡陋,但是通過這個例子我們可以對爬蟲有乙個很好的了解。這次目的是爬取貓眼電影 top 100,要想爬取這些資訊,我們首先要到貓眼電影 top 100 的頁面上觀察一下 也可以說踩點 為 這就是我們要爬取的頁面,現在我們來寫一段...

利用正則爬取貓眼電影

爬取貓眼電影 import json import requests from requests.exceptions import requestexception import redef get one page url 獲取乙個頁面的資訊 try proxies get random ip ...

爬取貓眼電影

有乙份工作需要我列出兩個電影院的每天電影排期資訊,我不想每次都要去貓眼上覆制貼上。所以做了個爬蟲 功能 能夠知道每天的電影排期資訊 使用限制 只能在當天使用,不能在前一晚上使用,後面我會再考慮修改 coding utf 8 import requests import re from bs4 imp...