定位目標:
在這裡插入**片import requests
from bs4 import beautifulsoup
f=open
('./sanguo.txt'
,'w'
,encoding=
'utf-8'
)#檔案儲存在當前資料夾中
headers=
url=
""page_text=requests.get(url=url,headers=headers)
.text
#資料解析,標題,詳情頁的url,章節內容
soup=beautifulsoup(page_text,
'lxml'
)#例項化soup物件
#可以通過層級選擇器定位
a_list=soup.select(
'.book-mulu>ul>li>a'
)for a in a_list:
title=a.string
detail_url=
''+a['href'
]#對詳情頁發出url請求,解析出章節內容
page_text_detail=requests.get(url=detail_url,headers=headers)
.text
#注意不能使用上面已經例項化好的soup解析,需要重新例項化新的頁面的soup
soup=beautifulsoup(page_text_detail,
'lxml'
)# detail_list=soup.select('.chapter_content>p')
# print(detail_list)
div_tag=soup.find(
'div'
,class_=
'chapter_content'
) content=div_tag.text
f.write(title+
":"+content+
"\n"
)print
(title+
)f.close(
)
第一回·宴桃園豪傑三結義 斬黃巾英雄首立功:執行過程還可能會出現以下錯誤:滾滾長江東逝水,浪花淘盡英雄。是非成敗轉頭空。青山依舊在,幾度夕陽紅。 白髮漁樵江渚上,慣看秋月春風。一壺濁酒喜相逢。古今多少事,都付笑談中。
——調寄《臨江仙》
........
[winerror 10060] 由於連線方在一段時間後沒有正確答覆或連線的主機沒有反應,連線嘗試失敗。』))
總之,使用python使用不到30行的**就可以爬取一些**資源了!
《三國演義》簡介
三國演義 是我國最早的一部長篇 章回體歷史 描寫了 三國時期的歷史故事,集體表現了統治者之間政治和軍事鬥爭。該書最早的 版本是明 嘉靖元年刊印的 三國志通俗演義 分24卷,240則,每則乙個七言標題。此後新的刊本迭出,卷數 回目 引用詩詞等均有改動。清康熙時,毛綸 毛宗崗父子對 三國志演義 進行了修...
《三國演義》統帥對比
在三國中我最佩服的統帥是陸遜。由對比可以得出一些結論。周瑜本來可以是一位很不錯的軍師統帥。可以說年輕有為,得吳侯重用,又有佳麗為妻,可謂人生大快。平心而論,赤壁之戰是周瑜的傑作。可是周瑜身體太差 可能有心臟病吧 又受箭傷,又有點嫉妒,最後一命嗚呼了。但是不能把周瑜的死歸於嫉妒,因為周瑜還是以大局為重...
爬取三國演義
import requests from bs4 import beautifulsoup if name main 佔位符代替頁碼 url 三國演義 每一頁的url url list headers 共十四頁 for pagenum in range 1 13 拼湊完整的url new url f...