爬取的是電影的名稱 排名 演員 上映時間 評分 等(話不多說看**就懂了)。
用的是正規表示式進行匹配,實現的是乙個最基本的對網頁的爬取功能。
import requests
import re
import json
import time
def get_one_page(url):
try:
response = requests.get(url,headers = headers)
if(response.status_code ==200):
return response.text
return none
except:
return none
def pause_one_page(html):
pattern = re.compile( '.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star.*?>(.*?)
.*?releasetime.*?>(.*?)
' '.*?integer.*?>(.*?).*?fraction.*?>(.*?).*?', re.s)
items = re.findall(pattern, html)
for item in items:
yield
def write_to_file(content):
with open('result.txt', 'a', encoding='utf-8') as f:
f.write(json.dumps(content,ensure_ascii = false)+'\n')
def main(offset):
url ='' + str(offset)
html = get_one_page(url)
for item in pause_one_page(html):
print(item)
write_to_file(item)
if __name__ == '__main__':
for i in range(10):
main(offset= i * 10)
time.sleep(1)
python爬取貓眼電影排行
完整的 如下在這裡 閒著沒事,把解析html中的正則方法改用了xpath與beautifulsoup,只能說各有各的優點吧。正則的話,提取資訊可以連貫,一次性提取出所有需要的資訊,當然前提是你的正則式子沒有寫錯,所以說正則寫起來相比xpath與beautifulsoup來說要複雜一下,提取出錯後,除...
爬取貓眼電影排行100電影
import json import requests from requests.exceptions import requestexception import re import time 獲取單頁的內容 def get one page url try response requests....
爬取貓眼電影排行榜
匯入我們需要的模組 import reimport requests 一 獲取網頁內容 1 宣告目標url,就是爬取的 位址 base url 2 模仿瀏覽器 headers 3 發起請求 response requests.get base url,headers headers 4 接收響應的資...