在練手爬取電影資訊**,遇到過這樣一種情況:
使用正規表示式進行提取豆瓣的電影資訊的時候,想要提取電影的名稱,但是發現這個頁面中還有英文的標籤:
如果採用 正規表示式
title_pattern =re.compile (r』(.+?)』)來匹配,會將所有中文和英文名字一起獲取到
一種解決方法是通過獲取完這些資訊再進行篩選:
for ss in title_list:
if" / "
in ss:
title_list.remove(ss)
很簡單的一種處理也不用糾結於正規表示式,
再一種是直接獲取:
那就必須改變正規表示式的寫法:(這個不確定)
>
.*?<
/em>
="title"
>(.
*?)<
/span>
.*?
ps:一些隨手筆記
?:非貪婪模式,只匹配符合條件的字元
.*:匹配除換行符外所有字元。
():提取匹配的字元
re.compile:將正規表示式字串形式編譯為乙個parttern物件。
寫爬蟲基本流程:
1.選取指定url,
2.觀察該**url基本規律,
3.檢視網頁源**
4.匯入re正規表示式方法提取想要的資料或者引入bs4方法、xpath
5.將爬取到的資料儲存在檔案或者資料庫中
如果在此過程**現伺服器請求失敗,應該是**反爬蟲的問題,這就需要新增**,偽裝頭部獲取資訊。
爬取豆瓣電影TOP250
利用css選擇器對電影的資訊進行爬取 import requests import parsel import csv import time import re class cssspider def init self self.headers defget dp self,url respon...
豆瓣Top250電影爬取
from bs4 import beautifulsoup 網頁解析,獲取資料 import re 正規表示式,進行文字匹配 import urllib.request,urllib.error 制定url,獲取網頁資料 import xlwt 進行excel操作 import sqlite3 進行...
python爬取豆瓣電影top250
簡要介紹 爬取豆瓣電影top250上相關電影的資訊,包括影片鏈結 影片名稱 上映時間 排名 豆瓣評分 導演 劇情簡介。使用 requests etree xpath 1 檢視網頁資訊,確定爬取的內容,建立資料庫 class spiderdata peewee.model url peewee.cha...