爬取三國演義

2021-10-19 09:37:42 字數 1439 閱讀 5743

import requests

from bs4 import beautifulsoup

if __name__ ==

'__main__'

:# 佔位符代替頁碼

url=

"三國演義"

# 每一頁的url

url_list=

headers =

# 共十四頁

for pagenum in

range(1

,13):

# 拼湊完整的url

new_url=

format

(url%pagenum)

resp=requests.get(url=new_url,headers=headers)

resp.encoding=

"utf-8"

page_text=resp.text

soup=beautifulsoup(page_text,

"lxml"

)for item in soup.select(

".sons>.cont"):

"href"])

#將完整的url存入url陣列中

fp=open

(".sanguo.txt"

,"w"

,encoding=

"utf-8"

)for item in url_list:

url=

""+item

resp=requests.get(url=url,headers=headers)

resp.encoding=

"utf-8"

detail_page_text=resp.text

detail_soup=beautifulsoup(detail_page_text,

"lxml"

)# 獲取章節數

detail_num=detail_soup.select(

".cont>h1>span>b")[

0].text

# 獲取章節標題

detail_title=detail_num+detail_soup.select(

".cont>.contson>p")[

0].text

# 獲取章節內容

content=detail_soup.find(

'div'

,class_=

'contson'

).text

# 寫入檔案

fp.write(detail_title+

":"+

"\n"

+content+

"\n"

)print

("正在爬取"

+detail_num)

print

("爬取完成"

)

《三國演義》簡介

三國演義 是我國最早的一部長篇 章回體歷史 描寫了 三國時期的歷史故事,集體表現了統治者之間政治和軍事鬥爭。該書最早的 版本是明 嘉靖元年刊印的 三國志通俗演義 分24卷,240則,每則乙個七言標題。此後新的刊本迭出,卷數 回目 引用詩詞等均有改動。清康熙時,毛綸 毛宗崗父子對 三國志演義 進行了修...

《三國演義》統帥對比

在三國中我最佩服的統帥是陸遜。由對比可以得出一些結論。周瑜本來可以是一位很不錯的軍師統帥。可以說年輕有為,得吳侯重用,又有佳麗為妻,可謂人生大快。平心而論,赤壁之戰是周瑜的傑作。可是周瑜身體太差 可能有心臟病吧 又受箭傷,又有點嫉妒,最後一命嗚呼了。但是不能把周瑜的死歸於嫉妒,因為周瑜還是以大局為重...

Python爬蟲三國演義

定位目標 在這裡插入 片import requests from bs4 import beautifulsoup f open sanguo.txt w encoding utf 8 檔案儲存在當前資料夾中 headers url page text requests.get url url,he...