import requests
from pyquery import pyquery as pq
def get_content(a):
response=requests.get(a)
response.encoding = 'gbk'
doc = pq(response.text)
text=doc('#content.showtxt')
bookname=doc('div.bookname h1')
c=str(bookname)
a=str(text)
b=a.replace("
","\n").replace('
','\n').replace('
請記住本書首發網域名稱:www.biqugexsw.com。筆趣閣**網手機版閱讀**:m.biqugexsw.com
','').replace('\xa0','').replace('','')#初級過濾
file.write(a)#寫入章節名稱
file.write(b)#寫入內容
file.close()
def get_mulu():
index_url=''#替換任意一本**url
response=requests.get(index_url)
doc = pq(response.text)
urls = doc('div.listmain a')
length=int(len(urls))
count=0
for i in urls.items():
a=''+i.attr.href#獲取所有章節
get_content(a)
count += 1
print('進度:%0.5f' % (count / length)+'%')
get_mulu()
入門級爬蟲,3500章的**大概是用了20分鐘,還可以吧,中間沒有發生堵塞和timeout估計是這家**沒做反爬。 Python爬蟲 筆趣閣小說爬取
import requests from lxml import etree以 我有百萬技能點 為例,在筆趣閣搜尋進入目錄頁,複製目錄頁url 對目錄頁的每個章節的url進行爬取,分析網頁利用xpath定位每個章節的url然後進行爬取,然後重新構造url。目錄每一章節的url href html e...
用爬蟲爬取筆趣閣小說
時間 2019年3月4日19 16 06 功能 爬取筆趣閣任何 from urllib import request from bs4 import beautifulsoup 此函式用來獲取每章對應的 並儲存 defsecondopenurl url,ch name 請求每章詳細內容 date r...
04筆趣閣小說爬取 爬取整部小說
考慮到爬取時間有點長,再加上一行資訊充當進度條。完整 如下 import requests from bs4 import beautifulsoup 獲取章節名稱和鏈結 target 目錄頁位址 req requests.get url target 使用beautifulsoup 篩選出id l...