目錄
五大模組
**********
spider
itempipeline
schedule
engine
四個配置引數
三個物件
常用屬性
常用方法
response
常用屬性
常用方法
item
兩類中介軟體
**********middleware
spidermiddleware
解析html,產生爬取請求和資料
流水線處理資料,清理、檢驗、查重、儲存
對爬取請求進行排程
控制資料流,根據事件觸發對應的模組
名稱用途
預設值concurrent_requests
32concurrent_items
併發item處理
100concurrent_requests_per_domain
8concurrent_requests_per_ip
0代表乙個http請求
屬性含義
.url
請求的位址
.method
"get" or "post"
.headers
請求頭,以字典形式組織
.body
請求主體,以字串形式組織
.meta
使用者新增的擴充套件資訊
.copy():給出該物件的乙個複製
代表乙個http響應
屬性含義
.url
http請求的url
.status
響應的狀態碼
.headers
響應的頭部資訊
.body
響應的主體資訊,以字串形式組織
.flags
一組標記
.request
對應的http請求
.copy():給出該物件的乙個復刻
包含資訊的字典物件
修改、丟棄、新增請求或響應
對請求和爬取項進行再處理
Scrapy框架爬蟲學習 3
繼上一節課爬取到了資料之後,這一節將資料入庫。因為python自帶了sqlite seklait 資料庫,直接用就可以。1.新建 sqlite 資料庫 在pycharm下進入terml,然後進入ipython模式,之後 import sqlite3 zufang sqlite3.connect zu...
爬蟲scrapy框架學習(三)
3.示例2redisspider a.使用方法 它與示例1只有乙個地方不同,就是將start url存入redis中,如下 b.總結 該示例很簡單,只是將start url存入redis key中,就可實現分布式爬蟲,多台電腦共同完成乙個爬蟲,資料不會重複 4.示例3rediscrawlspider...
scrapy爬蟲框架
作者經過幾周的python爬蟲實踐之後,深入學習了一下scrapy這個爬蟲框架,現將一些基本知識和 總結整理一下,以備後查。2.scrapy的命令列使用 這部分網上很多部落格都有總結,不需要背,理解會用主要的命令 startproject crawl fetch list genspider.即可,...