接之前的部落格內容
1、建立乙個工程和spider模板;
2、編寫spider;
3、編寫item pipeline;
4、優化配置策略
1、reqeust類(向網路中提交請求的內容)
request物件表示乙個http請求;由spider生成,由**********執行
屬性或方法 ||| 說明
.url request對應的請求url位址
.method 對應的請求方法,'get' 'post'等
.headers 字典型別風格的請求頭
.body 請求內容主體,字串型別
.meta 使用者新增的擴充套件資訊,在scrapy內部模組間傳遞資訊使用
.copy() 複製該請求
2、response類(從網路中爬取內容的封裝類)
response物件表示乙個http請求;由**********生成,由spider處理
屬性或方法 ||| 說明
.url response對應的url位址
.status http狀態碼,預設是200
.headers response對應的頭部資訊
.body response對應的內容資訊,字串型別
.flags 一組標記
.request 產生response型別對應的request物件
.copy() 複製該響應
3、item類(由spider產生的資訊封裝的類)
class scrapy.item.item()
item物件表示乙個從html頁面中提取的資訊內容;由spider生成,由item pipeline處理
item類似字典型別,可以按照字典型別操作
①beautiful soup;②lxml;③re;④xpath selector;⑤css selector
基本使用
.css('a::attr(href)').extract()
Scrapy爬蟲框架學習
目錄 五大模組 spider itempipeline schedule engine 四個配置引數 三個物件 常用屬性 常用方法 response 常用屬性 常用方法 item 兩類中介軟體 middleware spidermiddleware 解析html,產生爬取請求和資料 流水線處理資料,...
python學習 scrapy爬蟲框架學習
scrapy學習,可以參考 scrapy1.5中文文件,1 建立專案 指定資料夾目錄建立專案,cmd進入資料夾路徑,使用命令 scrapy startproject 專案名 建立成功後的專案目錄結構 2 編寫第乙個蜘蛛,參考 140.html import scrapy class mingyan ...
Scrapy框架爬蟲學習 3
繼上一節課爬取到了資料之後,這一節將資料入庫。因為python自帶了sqlite seklait 資料庫,直接用就可以。1.新建 sqlite 資料庫 在pycharm下進入terml,然後進入ipython模式,之後 import sqlite3 zufang sqlite3.connect zu...