importurllib.request
import
re#爬取**是最基礎的爬蟲,學會思路就能去做一些高階爬蟲,思路一樣,只是用的庫或者js或者非同步等問題不同而已
url = "
"#爬取的****
with urllib.request.urlopen(url) as doc:
html = doc.read()#
讀取網頁
html = html.decode("
gbk")#
解碼title = re.findall(r'
', html)[0]
fb = open('
%s.text
' % title, '
w', encoding='
gbk'
)urls = re.findall(r'
(.*?)
', html)
for i in
urls:
chapter_url = i[0]#
獲取每章**的主要位址,位址不完整
chapter_name = i[1]#
獲取每章的章名
chapter_url = "
" % chapter_url#
將基位址與每章主要位址拼接
chapter_html = urllib.request.urlopen(chapter_url).read()#
解析每章網頁
chapter_html = chapter_html.decode("
gbk")#
decode(「gbk」)或utf-8取決於原網頁的編碼
chapter_content = re.findall(r'
(.*?)
', chapter_html)[0]
chapter_content = chapter_content.replace("
", "")#
用正則將無效資料替換掉
chapter_content = chapter_content.replace("
","")#
用正則將
(換行)替換
fb.write(chapter_name)#
寫入txt檔案中
fb.write(chapter_content)
fb.write('\n
')將換行寫入
requests爬取小說
1.url解析 2.傳送請求 3.接收返回 4.進行解析 5.儲存 將國風中文網制定頁的 的題目 作者 最近更新章節和時間抓取下來儲存到本地 小夥伴們,今天我們用的利劍是requests xpath 第一步 匯入模組 import requests from lxml import etree im...
Python爬取小說
感覺這個夠蛋疼的,因為你如果正常寫的話,前幾次執行沒問題,之後你連 都沒改,再執行就出錯了。其實這可能是網路請求失敗,或者有反爬蟲的東西吧。但這就會讓你寫的時候非常苦惱,所以這這東西,健壯性及其重要!import requests from bs4 import beautifulsoup impo...
nodejs 爬取小說
前段時間看到有個同學用python爬取了 於是打算用nodejs爬取一下 在這裡先總結一下整個過程.僅供學習,請勿商業 類似jquery的乙個庫 const cheerio require cheerio 檔案管理模組 const fs require fs 控制併發數 const async re...