目前剛剛學了點爬蟲,發現正規表示式的解析速度最快。下面是原始碼,複製貼上就能用。2023年8月9日測試可用
需要安裝的庫:requests
import requests
import re
defparse_page
(url)
: headers =
response = requests.get(url,headers=headers)
text=response.content.decode(
'utf-8'
) titles = re.findall(r'.*?(.*?)'
,text,re.dotall)
dynasties = re.findall(r'.*?(.*?)'
,text,re.dotall)
authors = re.findall(r'.*?(.*?)'
,text,re.dotall)
poetries = re.findall(r'(.*?)
',text,re.dotall)
content=
for poetry in poetries:
poetry=re.sub('',
'',poetry)
poetry=re.sub(''
,'\n'
,poetry)
.strip(
) poems =
zip(titles,dynasties,authors,content)
for poem in poems:
title,dynasty,author,content = poem
print
("《"
+title+
"》")
print
(dynasty+
" · "
+author)
print
(content+
"\n"
)def
main()
: start =
int(
input
("從這一頁開始爬取1+:"))
end =
int(
input
("到這一頁結束10-:"))
base_url =
""for i in
range
(start,end+1)
: url = base_url.
format
(i) parse_page(url)
if __name__==
"__main__"
: main(
)
執行截圖:
python爬取貓眼電影資料 正規表示式
貓眼電影榜單 目標資料描述 1 排名 2 電影名稱 3 主演 4 上映時間 5 評分 獲取url資訊,輸出url內容 def gethtmltext url try headers r requests.get url,headers headers r.raise for status retur...
Python爬蟲 用正規表示式爬取小說內容
import requests import re import json from requests.exceptions import requestexception defget one page url try headers 設定 伺服器 response requests.get ur...
Python如何使用正規表示式爬取京東商品資訊
京東 jd.com 是中國最大的自營式電商企業,2015年第一季度在中國自營式b2c電商市場的占有率為56.3 如此龐大的乙個電商 上面的商品資訊是海量的,小編今天就帶小夥伴利用正規表示式,並且基於輸入的關鍵詞來實現主題爬蟲。其實引數 e7 8b 97 e7 b2 ae解碼之後就是 的意思。那麼非常...