Python3 Scrapy 框架學習

2022-09-18 12:06:17 字數 1476 閱讀 6591

1.安裝scrapy 框架

windows 開啟cmd輸入

pip install scrapy
2.新建乙個專案:

比如這裡我新建的專案名為first

scrapy startproject first
然後看一些目錄結構

首先在專案目錄下有乙個scrapy.cfg 檔案,這個檔案是關於整個專案的一些配置,這個具體後面再說

然後是乙個專案同名的資料夾,裡面具體檔案作用如下:

__init__.py     初始化資訊

items.py        作為爬蟲專案的資料容器檔案,主要用來定義我們要獲取的資料

pipelines.py   爬蟲專案的管道檔案,主要用來對items 裡面定義的資料進行進一步的加工處理

settings.py     檔案為爬蟲專案的設定檔案,主要為爬蟲專案的一些設定資訊

然後下一層的spiders 資料夾裡面放置一些爬蟲,當然現在裡面什麼都沒有,因為我們還沒有新建乙個爬蟲

這裡介紹一下全域性命令 和專案 命令

全域性命令:不在scrapy專案裡就可以使用的命令

專案命令:必須在scrapy專案中才可以使用的命令

全域性命令:

注意**一定要加上http://

fetch : scrapy fetch **(不顯示除錯資訊可以加 --nolog 引數)

runspider: scrapy runspider 爬蟲(現在專案中沒有爬蟲,後面具體再講)

settings:scrapy settings --get 配置項(後面具體再講)

shell:scrapy shell **(在shell終端裡面處理爬下來的資料)

view:scrapy view ** (將**資料趴下來並在瀏覽器中開啟)

專案命令:

bench:scrapy bench(測試本地硬體的效能)

genspider:scrapy genspider 爬蟲的檔名  定義爬取的網域名稱(scrapy genspider baidu baidu.com)

另外:-l :檢視可以使用的模板 (scrapy genspider -l)

-d:檢視模板內容 (scrapy genspider -d basic)

-t:使用模板 (scrapy genspider -t basic 爬蟲名 定義爬取的網域名稱)

check:scrapy check 爬蟲名(使用合同contract的方式對爬蟲進行測試)

crawl:scrapy crawl 爬蟲名(啟動爬蟲,不顯示除錯資訊可以加--nolog引數)

list:scrapy list(顯示專案中有哪些爬蟲)

edit (這個命令在windows上用不了所以我就不介紹了)

持續更新。。。。。。。。。

Python3 Scrapy 安裝方法

寫了幾個爬蟲的雛形,想看看有沒有現成的,發現了scrapy,筆記本win10,想用新版本py3來裝scrapy,老是提示error microsoft visual c 14.0 is required.get it with microsoft visual c build tools 媽蛋vc ...

Python3 Scrapy 安裝方法

看了看相關介紹後選擇了scrapy框架,然後興高采烈的開啟了控制台,坑出現了。執行報錯 error unable to find vcvarsall.bat最後花費了將近一天的時間,終於找到了解決方法。使用wheel安裝。這個 裡邊是編譯好的各種庫的 同時,推薦一篇我的scrapy入門例項部落格 s...

Python3 scrapy學習小結

1.如何建立scrapy工程?命令列中輸入 scrapy startproject projectname projectname是自定義的工程名稱 2.spiders資料夾這部分處理怎麼爬取資料。通常有乙個或者多個spider,每個spider有下面四個基本的組成 除此外會有其它的自定義變數或函式...