import requests
from lxml import etree
import os
# 設計模式 -- 物件導向
class spider(object):
def start_request(self):
# 1. 請求**拿到資料,抽取**名建立資料夾,抽取**鏈結
response = requests.get("")
html = etree.html(response.text) # 結構化
bigsrc_list = html.xpath('//div[@class="book-mid-info"]/h4/a/@href')
bigtit_list = html.xpath('//div[@class="book-mid-info"]/h4/a/text()')
for bigsrc, bigtit in zip(bigsrc_list, bigtit_list):
if os.path.exists(bigtit) == false:
os.mkdir(bigtit)
self.file_data(bigsrc, bigtit)
def finally_file(self, litsrc, littit, bigtit):
# 3. 請求文章拿到抽取文章內容,建立檔案儲存到相應資料夾
html = etree.html(response.text) # 結構化
# xpth是屬於list資料型別,可以用"\n".join()將list(列表)轉換為str(字串)
content = "\n".join(html.xpath('//div[@class="read-content j_readcontent"]/p/text()'))
file_name = bigtit + "\\" + littit + ".txt"
print("正在儲存檔案:" + file_name)
with open(file_name, "a", encoding="utf-8") as f:
f.write(content)
spider = spider()
spider.start_request()
爬起點的小說。。待完善
大概可以用了,就是下著下著會中斷。import urllib.request python3.7 用的 from bs4 import beautifulsoup cmd 下執行py m pip install bs4 安裝bs4 設定編碼 import importlib,sys importli...
爬起點小說 day02
總的來說起點 還是挺好爬的,就是爬取 的時候太慢了,4000多本 就爬了2天一夜 把起點首頁的所有列表 class spider list scrapy.spider name spider list 要呼叫的名字 allowed domains qidian.com 分乙個域 start urls...
使用scrapy爬蟲,爬取起點小說網的案例
爬取的頁面為 爬取的 為凡人修仙之仙界篇,這邊 很不錯。正文的章節如下圖所示 其中下面的章節為加密部分,現在暫時無法破解加密的部分。唉.下面直接上最核心的 位於spiders中的核心 coding utf 8 import scrapy from qidian.items import qidian...