python爬蟲之Scrapy介紹三文件介紹

2019-01
-1909:
50:48[scrapy.utils.log] info: scrapy 1.5
.1 started (bot: tencent)
### 爬⾍ scrpay 框架依賴的相關模組和平台的資訊
2019-01
-1909:
50:48[scrapy.utils.log] info: versions:lxml 4.2
.5.0
,libxml2 2.9
.5, cssselect 1.0
.3, parsel 1.5
.0, w3lib 1.19
.0, twisted 18.9
.0, python 3.6
.5(v3.
6.5:f59c0932b4, mar 28
2018,17
:00:18
)[msc v.
1900
64 bit (amd64)
], pyopenssl 18.0
.0(openssl 1.1
.0i 14 aug 2018
), cryptography 2.3
.1, platform windows-10-
10.0
.17134
-sp0 
### ⾃定義的配置資訊哪些被應⽤了
2019-01
-1909:
50:48[scrapy.crawler] info: overridden settings:
### 外掛程式資訊
]### 啟動的爬⾍中介軟體
]### 啟動的管道
2019-01
-1909:
50:48[scrapy.middleware] info: enabled item pipelines:
['tencent.pipelines.tencentpipeline'
]### 開始爬去資料
2019-01
-1909:
50:48[scrapy.core.engine] info: spider opened 
2019-01
-1909:
50:48[scrapy.extensions.logstats] info: crawled 0 pages (at 0 pages/
min)
, scraped 0 items (at 0 items/
min)
2019-01
-1909:
50:48[scrapy.extensions.telnet] debug: telnet console listening on 127.0
.0.1
:6023
### 抓取 robots 協議內容
2019-01
-1909:
50:51[scrapy.core.engine] debug: crawled (
200)
>
(referer:
none
)### start_url 發起請求
2019-01
-1909:
50:51[scrapy.core.engine] debug: crawled (
200)
#a0> (referer: none)
## 提示錯誤，爬⾍中通過 yeid 交給引擎的請求會經過爬⾍中介軟體，由於請求的 url 超出 allowed_domain 的範圍，被 offsitmiddleware 攔截了
2019-01
-1909:
50:51[scrapy.spidermiddlewares.offsite] debug: filtered offsite request to 'hr.tencent.com'
:>
### 爬⾍關閉
2019-01
-1909:
50:51[scrapy.core.engine] info: closing spider (finished)
### 本次爬⾍的資訊統計
2019-01
-1909:
50:51[scrapy.statscollectors] info: dumping scrapy stats:
2019-01
-1909:
50:51[scrapy.core.engine] info: spider closed (finished)

scrapy shell是⼀個互動終端，我們可以在未啟動spider的情況下嘗試及除錯**，也可以⽤來測試xpath表示式

使用方法（終端開啟）：

scrapy shell

response.url: 當前相應的 url 位址 response.request.url: 當前相應的請求的 url 位址 response.headers: 響應頭 response.body: 響應體，也就是 html **，預設是 byte 型別

response.requests.headers: 當前響應的請求頭

（1）什麼是配置檔案：scrapy設定(settings)提供了定製scrapy元件的方法。你可以控制包括核心(core)，外掛程式(extension)，pipeline及spider元件。設定為**提供了提取以key-value對映的配置值的的全域性命名空間(namespace)。

（2）為什麼需要配置檔案：配置檔案存放⼀些公共的變數(比如資料庫的位址，賬號密碼等)，方便別人和自己修改，⼀般用全大寫字母命名變數名 sql_host = 『192.168.0.1』

（3）設定介紹

參考和學習：scrapy學習篇（八）之settings

注意： scrapy預設base設定，一般不要嘗試去修改

Python之scrapy框架爬蟲

scrapy命令詳解可能是如今最全最簡單的scrapy命令解釋明天上班，又要爬現在每天做的工作有50 的時間爬 40 的時間清理資料，10 寫報告。若想自學資料分析，側重點很重要，我當初把大部分經歷放在了python的pandas numpymatplotlib上面，其他時間一部分放在sql身...

python爬蟲框架之Scrapy

scrapy 是乙個爬蟲框架，提取結構性的資料。其可以應用在資料探勘，資訊處理等方面。提供了許多的爬蟲的基類，幫我們更簡便使用爬蟲。基於twisted 準備步驟首先安裝依賴庫twisted 在這個下面去尋找符合你的python版本和系統版本的twisted pip install 依賴庫的路徑 ...

python爬蟲scrapy之rules的基本使用

link extractors 是那些目的僅僅是從網頁 scrapy.http.response物件中抽取最終將會被follow鏈結的物件 scrapy預設提供2種可用的 link extractor,但你通過實現乙個簡單的介面建立自己定製的link extractor來滿足需求每個linkex...

python爬蟲之Scrapy介紹三 文件介紹

Python之scrapy框架爬蟲

python爬蟲框架之Scrapy

python爬蟲scrapy之rules的基本使用

相關推薦

python爬蟲之Scrapy介紹三文件介紹