大概可以用了,就是下著下著會中斷。。
import urllib.request#python3.7 用的
from bs4 import beautifulsoup#**cmd 下執行py -m pip install bs4 安裝bs4
#設定編碼
import importlib,sys
importlib.reload(sys)
#sys.setdefaultencoding('utf-8')
startindex = 0 #預設第0本
startpage = 0 #預設第0頁
#獲取乙個章節的內容
def getchaptercontent(file,url):
try:
bookcontentres = urllib.request.urlopen(url)#開啟網頁
bookcontentsoup = beautifulsoup(bookcontentres.read(), "html.parser")#
file.write(bookcontentsoup.select("h3[class='j_chaptername']")[0].string + '\n')#寫上章節名到file(即txt檔案中)
episodenames=bookcontentsoup.select("h3[class='j_chaptername']")[0]
for p in bookcontentsoup.select(".j_readcontent p"):#起點的文章內容在div j_readcontent裡的 p裡
file.write(p.next + '\n')
except baseexception:
#如果出錯了,就重新執行一遍
print(baseexception.message)
getchaptercontent(file, url)
else:
chapternext = bookcontentsoup.select("a#j_chapternext")[0]
if chapternext.string != "書末頁":
#獲取當前頁所有書的內容
def getcurrenturlbooks(url):
response = urllib.request.urlopen(url)
the_page = response.read()#讀取網頁
soup = beautifulsoup(the_page, "html.parser")
bookarr = soup.select("ul[class='all-img-list cf'] > li")
global startindex
if startindex > 0:
bookarr = bookarr[startindex:]
startindex = 0
for book in bookarr:
bookcover = book.select("div[class='book-mid-info'] h4 > a")[0]
print ("書名:" + bookcover.string)
# 先建立.txt檔案,然後獲取文字內容寫入
爬蟲爬起點小說
import requests from lxml import etree import os 設計模式 物件導向 class spider object def start request self 1.請求 拿到資料,抽取 名建立資料夾,抽取 鏈結 response requests.get ...
爬起點小說 day02
總的來說起點 還是挺好爬的,就是爬取 的時候太慢了,4000多本 就爬了2天一夜 把起點首頁的所有列表 class spider list scrapy.spider name spider list 要呼叫的名字 allowed domains qidian.com 分乙個域 start urls...
JAVA 網路程式設計的老師小結(待完善)
網路程式設計 1 網路傳輸的七層結構 從下到上 物理層 資料鏈路層 網路層 傳輸層 會話層 表示層 應用層 2 各層主要的協議 傳輸層 tcp udp 應用層 http ftp telnet 3 tcp udp的區別 tcp 建立連線,安全,效率低,資料是以流的形式傳輸的,有先後順序。udp 無連線...