總的來說起點**還是挺好爬的,就是爬取**的時候太慢了,4000多本**就爬了2天一夜
# 把起點首頁的所有列表
class spider_list(scrapy.spider):
name = "spider_list" #要呼叫的名字
allowed_domains = ["qidian.com"] #分乙個域
start_urls = [#所有要爬路徑""]
#每爬完乙個網頁會**parse方法
def parse(self, response):
hx=response.xpath('//div[@class="work-filter type-filter"]/ul/li/a|//div[@class="work-filter type-filter"]/ul/li/a')
for i in range(1,len(hx)):
print(hx[i].select("text()").extract()[0]) # 取長度
爬蟲爬起點小說
import requests from lxml import etree import os 設計模式 物件導向 class spider object def start request self 1.請求 拿到資料,抽取 名建立資料夾,抽取 鏈結 response requests.get ...
爬起點的小說。。待完善
大概可以用了,就是下著下著會中斷。import urllib.request python3.7 用的 from bs4 import beautifulsoup cmd 下執行py m pip install bs4 安裝bs4 設定編碼 import importlib,sys importli...
day02 資料儲存
librarys c和c 的 庫 linux kernel 操作硬體裝置 開發步驟 1.建立android專案 2.設計布局 3.新增事件監聽 4.發布執行 資料儲存 openfileinput string filename 開啟 data data 包名 files目錄下檔案對應的輸入流 sd卡...