Python3 Scrapy 框架學習

1.安裝scrapy 框架

windows 開啟cmd輸入

pip install scrapy

2.新建乙個專案：

比如這裡我新建的專案名為first

scrapy startproject first

然後看一些目錄結構

首先在專案目錄下有乙個scrapy.cfg 檔案，這個檔案是關於整個專案的一些配置，這個具體後面再說

然後是乙個專案同名的資料夾，裡面具體檔案作用如下：

__init__.py 初始化資訊

items.py 作為爬蟲專案的資料容器檔案，主要用來定義我們要獲取的資料

pipelines.py 爬蟲專案的管道檔案，主要用來對items 裡面定義的資料進行進一步的加工處理

settings.py 檔案為爬蟲專案的設定檔案，主要為爬蟲專案的一些設定資訊

然後下一層的spiders 資料夾裡面放置一些爬蟲，當然現在裡面什麼都沒有，因為我們還沒有新建乙個爬蟲

這裡介紹一下全域性命令和專案命令

全域性命令：不在scrapy專案裡就可以使用的命令

專案命令：必須在scrapy專案中才可以使用的命令

全域性命令：

注意**一定要加上http://

fetch : scrapy fetch **（不顯示除錯資訊可以加 --nolog 引數）

runspider: scrapy runspider 爬蟲（現在專案中沒有爬蟲，後面具體再講）

settings:scrapy settings --get 配置項（後面具體再講）

shell:scrapy shell **（在shell終端裡面處理爬下來的資料）

view:scrapy view ** (將**資料趴下來並在瀏覽器中開啟)

專案命令：

bench:scrapy bench(測試本地硬體的效能)

genspider:scrapy genspider 爬蟲的檔名定義爬取的網域名稱(scrapy genspider baidu baidu.com)

另外:-l ：檢視可以使用的模板（scrapy genspider -l）

-d：檢視模板內容（scrapy genspider -d basic）

-t：使用模板（scrapy genspider -t basic 爬蟲名定義爬取的網域名稱）

check:scrapy check 爬蟲名（使用合同contract的方式對爬蟲進行測試）

crawl:scrapy crawl 爬蟲名（啟動爬蟲，不顯示除錯資訊可以加--nolog引數）

list:scrapy list（顯示專案中有哪些爬蟲）

edit (這個命令在windows上用不了所以我就不介紹了)

持續更新。。。。。。。。。

Python3 Scrapy 安裝方法

寫了幾個爬蟲的雛形，想看看有沒有現成的，發現了scrapy，筆記本win10，想用新版本py3來裝scrapy，老是提示error microsoft visual c 14.0 is required.get it with microsoft visual c build tools 媽蛋vc ...

Python3 Scrapy 安裝方法

看了看相關介紹後選擇了scrapy框架，然後興高采烈的開啟了控制台，坑出現了。執行報錯 error unable to find vcvarsall.bat最後花費了將近一天的時間，終於找到了解決方法。使用wheel安裝。這個裡邊是編譯好的各種庫的同時，推薦一篇我的scrapy入門例項部落格 s...

Python3 scrapy學習小結

1.如何建立scrapy工程?命令列中輸入 scrapy startproject projectname projectname是自定義的工程名稱 2.spiders資料夾這部分處理怎麼爬取資料。通常有乙個或者多個spider，每個spider有下面四個基本的組成除此外會有其它的自定義變數或函式...

Python3 Scrapy 框架學習

Python3 Scrapy 安裝方法

Python3 Scrapy 安裝方法

Python3 scrapy學習小結

相關推薦