python爬取古詩詞網 正規表示式

2021-09-26 01:25:12 字數 1480 閱讀 2228

目前剛剛學了點爬蟲,發現正規表示式的解析速度最快。下面是原始碼,複製貼上就能用。2023年8月9日測試可用

需要安裝的庫:requests

import requests

import re

defparse_page

(url)

: headers =

response = requests.get(url,headers=headers)

text=response.content.decode(

'utf-8'

) titles = re.findall(r'.*?(.*?)'

,text,re.dotall)

dynasties = re.findall(r'.*?(.*?)'

,text,re.dotall)

authors = re.findall(r'.*?(.*?)'

,text,re.dotall)

poetries = re.findall(r'(.*?)

',text,re.dotall)

content=

for poetry in poetries:

poetry=re.sub('',

'',poetry)

poetry=re.sub(''

,'\n'

,poetry)

.strip(

) poems =

zip(titles,dynasties,authors,content)

for poem in poems:

title,dynasty,author,content = poem

print

("《"

+title+

"》")

print

(dynasty+

" · "

+author)

print

(content+

"\n"

)def

main()

: start =

int(

input

("從這一頁開始爬取1+:"))

end =

int(

input

("到這一頁結束10-:"))

base_url =

""for i in

range

(start,end+1)

: url = base_url.

format

(i) parse_page(url)

if __name__==

"__main__"

: main(

)

執行截圖:

python爬取貓眼電影資料 正規表示式

貓眼電影榜單 目標資料描述 1 排名 2 電影名稱 3 主演 4 上映時間 5 評分 獲取url資訊,輸出url內容 def gethtmltext url try headers r requests.get url,headers headers r.raise for status retur...

Python爬蟲 用正規表示式爬取小說內容

import requests import re import json from requests.exceptions import requestexception defget one page url try headers 設定 伺服器 response requests.get ur...

Python如何使用正規表示式爬取京東商品資訊

京東 jd.com 是中國最大的自營式電商企業,2015年第一季度在中國自營式b2c電商市場的占有率為56.3 如此龐大的乙個電商 上面的商品資訊是海量的,小編今天就帶小夥伴利用正規表示式,並且基於輸入的關鍵詞來實現主題爬蟲。其實引數 e7 8b 97 e7 b2 ae解碼之後就是 的意思。那麼非常...