爬蟲學習 Scrapy框架學習（四）

接之前的部落格內容

1、建立乙個工程和spider模板；

2、編寫spider；

3、編寫item pipeline;

4、優化配置策略

1、reqeust類（向網路中提交請求的內容）

request物件表示乙個http請求；由spider生成，由**********執行

屬性或方法 ||| 說明

.url request對應的請求url位址

.method 對應的請求方法，'get' 'post'等

.headers 字典型別風格的請求頭

.body 請求內容主體，字串型別

.meta 使用者新增的擴充套件資訊，在scrapy內部模組間傳遞資訊使用

.copy() 複製該請求

2、response類（從網路中爬取內容的封裝類）

response物件表示乙個http請求；由**********生成，由spider處理

屬性或方法 ||| 說明

.url response對應的url位址

.status http狀態碼，預設是200

.headers response對應的頭部資訊

.body response對應的內容資訊，字串型別

.flags 一組標記

.request 產生response型別對應的request物件

.copy() 複製該響應

3、item類（由spider產生的資訊封裝的類）

class scrapy.item.item()

item物件表示乙個從html頁面中提取的資訊內容；由spider生成，由item pipeline處理

item類似字典型別，可以按照字典型別操作

①beautiful soup；②lxml；③re；④xpath selector；⑤css selector

基本使用

.css('a::attr(href)').extract()

Scrapy爬蟲框架學習

目錄五大模組 spider itempipeline schedule engine 四個配置引數三個物件常用屬性常用方法 response 常用屬性常用方法 item 兩類中介軟體 middleware spidermiddleware 解析html，產生爬取請求和資料流水線處理資料，...

python學習 scrapy爬蟲框架學習

scrapy學習，可以參考 scrapy1.5中文文件，1 建立專案指定資料夾目錄建立專案，cmd進入資料夾路徑，使用命令 scrapy startproject 專案名建立成功後的專案目錄結構 2 編寫第乙個蜘蛛，參考 140.html import scrapy class mingyan ...

Scrapy框架爬蟲學習 3

繼上一節課爬取到了資料之後，這一節將資料入庫。因為python自帶了sqlite seklait 資料庫，直接用就可以。1.新建 sqlite 資料庫在pycharm下進入terml，然後進入ipython模式，之後 import sqlite3 zufang sqlite3.connect zu...

爬蟲學習 Scrapy框架學習（四）

Scrapy爬蟲框架學習

python學習 scrapy爬蟲框架學習

Scrapy框架爬蟲學習 3

相關推薦