python爬取古詩詞網正規表示式

目前剛剛學了點爬蟲，發現正規表示式的解析速度最快。下面是原始碼，複製貼上就能用。2023年8月9日測試可用

需要安裝的庫：requests

import requests
import re
defparse_page
(url)
:    headers =
response = requests.get(url,headers=headers)
text=response.content.decode(
'utf-8'
)    titles = re.findall(r'.*?(.*?)'
,text,re.dotall)
dynasties = re.findall(r'.*?(.*?)'
,text,re.dotall)
authors = re.findall(r'.*?(.*?)'
,text,re.dotall)
poetries = re.findall(r'(.*?)
',text,re.dotall)
content=
for poetry in poetries:
poetry=re.sub('',
'',poetry)
poetry=re.sub(''
,'\n'
,poetry)
.strip(
)    poems =
zip(titles,dynasties,authors,content)
for poem in poems:
title,dynasty,author,content = poem
print
("《"
+title+
"》")
print
(dynasty+
" · "
+author)
print
(content+
"\n"
)def
main()
:    start =
int(
input
("從這一頁開始爬取1+："))
end =
int(
input
("到這一頁結束10-："))
base_url =
""for i in
range
(start,end+1)
:        url = base_url.
format
(i)        parse_page(url)
if __name__==
"__main__"
:    main(
)

執行截圖：

python爬取貓眼電影資料正規表示式

貓眼電影榜單目標資料描述 1 排名 2 電影名稱 3 主演 4 上映時間 5 評分獲取url資訊，輸出url內容 def gethtmltext url try headers r requests.get url,headers headers r.raise for status retur...

Python爬蟲用正規表示式爬取小說內容

import requests import re import json from requests.exceptions import requestexception defget one page url try headers 設定伺服器 response requests.get ur...

Python如何使用正規表示式爬取京東商品資訊

京東 jd.com 是中國最大的自營式電商企業，2015年第一季度在中國自營式b2c電商市場的占有率為56.3 如此龐大的乙個電商上面的商品資訊是海量的，小編今天就帶小夥伴利用正規表示式，並且基於輸入的關鍵詞來實現主題爬蟲。其實引數 e7 8b 97 e7 b2 ae解碼之後就是的意思。那麼非常...

python爬取古詩詞網 正規表示式

python爬取貓眼電影資料 正規表示式

Python爬蟲 用正規表示式爬取小說內容

Python如何使用正規表示式爬取京東商品資訊

相關推薦

python爬取古詩詞網正規表示式

python爬取貓眼電影資料正規表示式

Python爬蟲用正規表示式爬取小說內容