中國古詩文Python爬蟲JJJ

import requests
import re
defparse_page
(url)
:    headers=
response=requests.get(url,headers=headers)
# text=response.content.decode('utf-8')
text=response.text
# print(text)
titles = re.findall(r'.*?(.*?)'
, text, re.dotall)
##正則化得到題目
author=re.findall(r'.*?.*?.*?(.*?)
',text,re.dotall)
##正則化得到作者
dynasty= re.findall(r'.*?(.*?).*?.*?
', text, re.dotall)
##正則化得到朝代
content=re.findall(r'(.*?)
',text,re.dotall)
##正則化得到古詩句
# print(titles)
# print(author)
# print(dynasty)
contents=
#將詩句放在乙個列表裡
for x in content:
content=re.sub(r"<.*?>",""
,x)#刪除其餘特殊字元
\n        content=content.strip(
)##刪除換行
# print(contents)
poems=
#得到的古詩放在乙個列表裡
for a,b,c,d in
zip(titles,author,dynasty,contents)
:#通過zip函式進行規劃
poem=
# print(poems)
for item in poems:
##遍歷每一首古詩 
print
(item)
print
("++++++++++++++++下一首詩++++++++++++++++++++++"
)def
main()
:for x in
range(1
,11):
#發現每乙個網頁的古詩句**有規律可尋，所以可以把每個網頁一次性爬取下來，不用每個**單獨爬
url=
""%x       parse_page(url)
if __name__ ==
'__main__'
:    main(
)

python爬蟲古詩文網驗證碼識別

古詩文網驗證碼識別，是通過對古詩文網登陸介面的驗證碼進行識別的，利用專門的驗證碼識別可以提取驗證碼中的驗證碼推薦超級鷹註冊登陸超級鷹因為驗證碼識別需要消耗題分，所以需要先購買題分 1塊錢1000題分，每次識別10題分就差不多了選擇軟體id 選項，生成乙個軟體id 後面會用到只需要自己...

scrapy框架爬取古詩文網的名句

使用scrapy框架爬取名句，在這裡只爬取的了名句和出處兩個字段。具體解析如下 items.py 用來存放爬蟲爬取下來的資料模型，如下 import scrapy class qsbkitem scrapy.item content scrapy.field auth scrapy.field pi...

如何鑑賞中國古詩詞

古典詩詞是我國文學遺產的重要組成部分，在高中語文教材中占有一定的分量。在全國語文高考中，古詩詞賞析連考了七年，難度越來越大，題型越來越完善，題量有逐年加大的趨勢，成為高考備考的乙個亮點。無論從教材角度，從高考角度，還是從繼承與創新文學遺產的角度上，培養與提高學生古詩詞的鑑賞能力，成為每乙個語文教師刻...

中國古詩文Python爬蟲JJJ

python爬蟲 古詩文網驗證碼識別

scrapy框架爬取古詩文網的名句

如何鑑賞中國古詩詞

相關推薦

python爬蟲古詩文網驗證碼識別