1.
建立專案
scrapy startproject myproject
cd myproject
2.
建立爬蟲
scrapy genspider
-
t crawl myspider www.baidu.com
-
-
-
-
建立有rules配置
3.
執行爬蟲
scrapy crawl myspider
4.
錯誤檢查
scrapy check
-
-
-
-
檢查爬蟲的語法錯誤
5.
列出爬蟲
scrapy
list
-
-
返回專案裡spider名稱
6.
測試網頁
scrapy fetch
-
-
nolog www.baidu.com
-
-
-
-
不會生成日誌
scrapy fetch
-
-
nolog
-
-
headers www.baidu.com
-
-
輸出headers
scrapy fetch
-
-
nolog
-
-
no
-
redirect
-
-
-
不會重定向
7.
請求網頁 把網頁源**儲存成檔案,在用瀏覽器開啟(除錯工具)
8.
命令列互動模式shell
request
-
-
-
請求的網頁
response
-
-
請求網頁的返回結果
response.text請求結果
response.headers
-
-
headers
view(response)
-
-
-
在網頁上開啟返回的結果(如果能顯示出來,說明是靜態網頁,能直接爬,如果沒顯示,說明是ajax載入的網頁)
response.xpath("")
-
-
用xpath解析網頁
9.
解析網頁的內容
scrapy parse http:
/
/
www.baidu.com
-
c parse
-
-
-
前面是parse方法,後面是callback呼叫解析的parse方法
10.
獲取配置資訊
scrapy settings
-
-
get mongo_url
-
-
-
獲取配置資訊
11.
執行spider檔案
scrapy runspider myspider.py
-
-
-
直接執行myspider檔案(引數是檔名稱)
12.
輸出版本
scrapy version
scrapy version
-
v
-
-
-
輸出依賴庫的版本
13.
測試
scrapy bench
-
-
-
測試爬行速度,反應當前執行效能
scrapy爬蟲》scrapy命令列操作
1.mysql資料庫 2.mongodb資料庫 3.redis資料庫 1.建立專案 scrapy startproject myproject cd myproject 2.建立爬蟲 scrapy genspider t crawl myspider www.baidu.com 建立有rules配置...
Scrapy 命令列工具
startproject 全域性命令 在當前路徑下建立乙個名為myproject的 scrapy專案 語法 scrapy startproject myproject genspider 需要專案 在當前專案中建立spider僅僅是建立spider的一種快捷方法,可以使用提前定義好的模板來生成spi...
常見scrapy命令列總結
1.scrapy startproject 建立新的爬蟲檔案 2.scrapy genspider www.com 必須在爬蟲檔案中建立 最基礎的模板 用crawl建立需要輸入scrapy genspider t crawl www.com 3.scrapy genspider l 可以列出所有模板...