import requests
import re
defparse_page
(url)
: headers=
response=requests.get(url,headers=headers)
# text=response.content.decode('utf-8')
text=response.text
# print(text)
titles = re.findall(r'.*?(.*?)'
, text, re.dotall)
##正則化得到題目
author=re.findall(r'.*?.*?.*?(.*?)
',text,re.dotall)
##正則化得到作者
dynasty= re.findall(r'.*?(.*?).*?.*?
', text, re.dotall)
##正則化得到朝代
content=re.findall(r'(.*?)
',text,re.dotall)
##正則化得到古詩句
# print(titles)
# print(author)
# print(dynasty)
contents=
#將詩句放在乙個列表裡
for x in content:
content=re.sub(r"<.*?>",""
,x)#刪除其餘特殊字元
\n content=content.strip(
)##刪除換行
# print(contents)
poems=
#得到的古詩放在乙個列表裡
for a,b,c,d in
zip(titles,author,dynasty,contents)
:#通過zip函式進行規劃
poem=
# print(poems)
for item in poems:
##遍歷每一首古詩
print
(item)
print
("++++++++++++++++下一首詩++++++++++++++++++++++"
)def
main()
:for x in
range(1
,11):
#發現每乙個網頁的古詩句**有規律可尋,所以可以把每個網頁一次性爬取下來,不用每個**單獨爬
url=
""%x parse_page(url)
if __name__ ==
'__main__'
: main(
)
python爬蟲 古詩文網驗證碼識別
古詩文網驗證碼識別,是通過對古詩文網登陸介面的驗證碼進行識別的,利用專門的驗證碼識別 可以提取驗證碼中的驗證碼 推薦 超級鷹 註冊登陸超級鷹 因為驗證碼識別需要消耗題分,所以需要先購買題分 1塊錢1000題分,每次識別10題分就差不多了 選擇 軟體id 選項,生成乙個軟體id 後面會用到 只需要自己...
scrapy框架爬取古詩文網的名句
使用scrapy框架爬取名句,在這裡只爬取的了名句和出處兩個字段。具體解析如下 items.py 用來存放爬蟲爬取下來的資料模型,如下 import scrapy class qsbkitem scrapy.item content scrapy.field auth scrapy.field pi...
如何鑑賞中國古詩詞
古典詩詞是我國文學遺產的重要組成部分,在高中語文教材中占有一定的分量。在全國語文高考中,古詩詞賞析連考了七年,難度越來越大,題型越來越完善,題量有逐年加大的趨勢,成為高考備考的乙個亮點。無論從教材角度,從高考角度,還是從繼承與創新文學遺產的角度上,培養與提高學生古詩詞的鑑賞能力,成為每乙個語文教師刻...