python爬蟲初戰之小說爬取

2021-10-14 09:27:06 字數 1349 閱讀 2920

廢話不多說,上**。

總體思路是構建函式然後迴圈。

函式分兩塊,第乙個函式得到標題和每一章節的**,第二個函式得到每一章節的具體內容,然後迴圈就ok。

import urllib.request as req

import re

#開啟頁面,找到正文

url =

''name =

'流星蝴蝶劍'

defget_url_title

(url)

: the_url =

''webpage = req.urlopen(url)

data = webpage.read(

) data = data.decode(

'gbk'

)#在網頁源**上有編碼形式

web = re.findall(

'/liu/.*?.html'

,data)

#找到每一章**用列表表示,方便迴圈

webs =

[the_url + x for x in web]

title = re.findall(

'(正文.*?)'

,data)

#標題也很重要

return

(webs,title)

defget_body

(url)

: webpage = req.urlopen(url)

data = webpage.read(

) data = data.decode(

'gbk'

) body = re.findall(

'(.*?)

',data)

body =

'\n'

.join(body)

body = body.replace(

'"','')

return

(body)

txt =

open

('%s.txt'

%name,

'w')

#開始寫入檔案

urls,title = get_url_title(url)

for i in

range

(len

(title)):

txt.write(

'\n\t\t'

+title[i]

+'\n'

) body = get_body(urls[i]

) txt.write(body)

就這樣,兒時的夢想就達成了,還有些小惆悵,當初躲在被窩裡,揹著玄重尺,去天下撲獵武魂的日子終究還是過去了。

爬蟲之小說爬取

以筆趣閣 為例,爬取一念永恆這本 具體 如下 1 from bs4 import beautifulsoup 2from urllib import request 3import requests 4importre5 import sys6 def down this chapter chapt...

Python爬蟲例項,爬取小說

import pprint import requests from bs4 import beautifulsoup 獲取原始碼 defget source url r requests.get url if r.status code 200 print r.status code 錯誤 rai...

爬取小說的簡易python爬蟲

學習一段時間的python之後決定寫些東西 剛好自己喜歡看 就像寫一段爬取 的爬蟲,這裡以筆趣閣的 為例。我發現筆趣閣的每個 的目錄源 基本都包含其所有的章節的url,所以這段 是先獲取所有的url然後逐頁獲取其文字 import requests 這裡以 天地霸氣訣為例 import re imp...