2019-01
-1909:
50:48[scrapy.utils.log] info: scrapy 1.5
.1 started (bot: tencent)
### 爬⾍ scrpay 框架依賴的相關模組和平台的資訊
2019-01
-1909:
50:48[scrapy.utils.log] info: versions:lxml 4.2
.5.0
,libxml2 2.9
.5, cssselect 1.0
.3, parsel 1.5
.0, w3lib 1.19
.0, twisted 18.9
.0, python 3.6
.5(v3.
6.5:f59c0932b4, mar 28
2018,17
:00:18
)[msc v.
1900
64 bit (amd64)
], pyopenssl 18.0
.0(openssl 1.1
.0i 14 aug 2018
), cryptography 2.3
.1, platform windows-10-
10.0
.17134
-sp0
### ⾃定義的配置資訊哪些被應⽤了
2019-01
-1909:
50:48[scrapy.crawler] info: overridden settings:
### 外掛程式資訊
]### 啟動的爬⾍中介軟體
]### 啟動的管道
2019-01
-1909:
50:48[scrapy.middleware] info: enabled item pipelines:
['tencent.pipelines.tencentpipeline'
]### 開始爬去資料
2019-01
-1909:
50:48[scrapy.core.engine] info: spider opened
2019-01
-1909:
50:48[scrapy.extensions.logstats] info: crawled 0 pages (at 0 pages/
min)
, scraped 0 items (at 0 items/
min)
2019-01
-1909:
50:48[scrapy.extensions.telnet] debug: telnet console listening on 127.0
.0.1
:6023
### 抓取 robots 協議內容
2019-01
-1909:
50:51[scrapy.core.engine] debug: crawled (
200)
>
(referer:
none
)### start_url 發起請求
2019-01
-1909:
50:51[scrapy.core.engine] debug: crawled (
200)
#a0> (referer: none)
## 提示錯誤,爬⾍中通過 yeid 交給引擎的請求會經過爬⾍中介軟體,由於請求的 url 超出 allowed_domain 的範圍,被 offsitmiddleware 攔截了
2019-01
-1909:
50:51[scrapy.spidermiddlewares.offsite] debug: filtered offsite request to 'hr.tencent.com'
:>
### 爬⾍關閉
2019-01
-1909:
50:51[scrapy.core.engine] info: closing spider (finished)
### 本次爬⾍的資訊統計
2019-01
-1909:
50:51[scrapy.statscollectors] info: dumping scrapy stats:
2019-01
-1909:
50:51[scrapy.core.engine] info: spider closed (finished)
scrapy shell是⼀個互動終端,我們可以在未啟動spider的情況下嘗試及除錯**,也可以⽤來測試xpath表示式
使用方法(終端開啟):
scrapy shell
response.url: 當前相應的 url 位址
response.request.url: 當前相應的請求的 url 位址
response.headers: 響應頭
response.body: 響應體,也就是 html **,預設是 byte 型別
response.requests.headers: 當前響應的請求頭
(1)什麼是配置檔案:scrapy設定(settings)提供了定製scrapy元件的方法。你可以控制包括核心(core),外掛程式(extension),pipeline及spider元件。設定為**提供了提取以key-value對映的配置值的的全域性命名空間(namespace)。
(2)為什麼需要配置檔案:配置檔案存放⼀些公共的變數(比如資料庫的位址,賬號密碼等),方便別人和自己修改,⼀般用全大寫字母命名變數名 sql_host = 『192.168.0.1』
(3)設定介紹
參考和學習:scrapy學習篇(八)之settings
注意: scrapy預設base設定,一般不要嘗試去修改
Python之scrapy框架爬蟲
scrapy命令詳解 可能是如今最全最簡單的scrapy命令解釋 明天上班,又要爬 現在每天做的工作有50 的時間爬 40 的時間清理資料,10 寫報告。若想自學資料分析,側重點很重要,我當初把大部分經歷放在了python的pandas numpymatplotlib上面,其他時間一部分放在sql身...
python爬蟲框架之Scrapy
scrapy 是乙個爬蟲框架,提取結構性的資料。其可以應用在資料探勘,資訊處理等方面。提供了許多的爬蟲的基類,幫我們更簡便使用爬蟲。基於twisted 準備步驟 首先安裝依賴庫twisted 在這個 下面去尋找符合你的python版本和系統版本的twisted pip install 依賴庫的路徑 ...
python爬蟲scrapy之rules的基本使用
link extractors 是那些目的僅僅是從網頁 scrapy.http.response物件 中抽取最終將會被follow鏈結的物件 scrapy預設提供2種可用的 link extractor,但你通過實現乙個簡單的介面建立自己定製的link extractor來滿足需求 每個linkex...