簡單爬取小說

import
urllib.request
import
re#爬取**是最基礎的爬蟲，學會思路就能去做一些高階爬蟲，思路一樣，只是用的庫或者js或者非同步等問題不同而已
url = "
"#爬取的****
with urllib.request.urlopen(url) as doc:
html = doc.read()#
讀取網頁
html = html.decode("
gbk")#
解碼title = re.findall(r'
', html)[0]
fb = open('
%s.text
' % title, '
w', encoding='
gbk'
)urls = re.findall(r'
(.*?)
', html)
for i in
urls:
chapter_url = i[0]#
獲取每章**的主要位址，位址不完整
chapter_name = i[1]#
獲取每章的章名
chapter_url = "
" % chapter_url#
將基位址與每章主要位址拼接
chapter_html = urllib.request.urlopen(chapter_url).read()#
解析每章網頁
chapter_html = chapter_html.decode("
gbk")#
decode（「gbk」）或utf-8取決於原網頁的編碼
chapter_content = re.findall(r'
(.*?)
', chapter_html)[0]
chapter_content = chapter_content.replace("
", "")#
用正則將無效資料替換掉
chapter_content = chapter_content.replace("
","")#
用正則將
（換行）替換
fb.write(chapter_name)#
寫入txt檔案中
fb.write(chapter_content)
fb.write('\n
')將換行寫入

requests爬取小說

1.url解析 2.傳送請求 3.接收返回 4.進行解析 5.儲存將國風中文網制定頁的的題目作者最近更新章節和時間抓取下來儲存到本地小夥伴們，今天我們用的利劍是requests xpath 第一步匯入模組 import requests from lxml import etree im...

Python爬取小說

感覺這個夠蛋疼的，因為你如果正常寫的話，前幾次執行沒問題，之後你連都沒改，再執行就出錯了。其實這可能是網路請求失敗，或者有反爬蟲的東西吧。但這就會讓你寫的時候非常苦惱，所以這這東西，健壯性及其重要！import requests from bs4 import beautifulsoup impo...

nodejs 爬取小說

前段時間看到有個同學用python爬取了於是打算用nodejs爬取一下在這裡先總結一下整個過程.僅供學習，請勿商業類似jquery的乙個庫 const cheerio require cheerio 檔案管理模組 const fs require fs 控制併發數 const async re...

簡單爬取小說

requests爬取小說

Python爬取小說

nodejs 爬取小說

相關推薦