1.安裝scrapy 框架
windows 開啟cmd輸入
pip install scrapy
2.新建乙個專案:
比如這裡我新建的專案名為first
scrapy startproject first
然後看一些目錄結構
首先在專案目錄下有乙個scrapy.cfg 檔案,這個檔案是關於整個專案的一些配置,這個具體後面再說
然後是乙個專案同名的資料夾,裡面具體檔案作用如下:
__init__.py 初始化資訊
items.py 作為爬蟲專案的資料容器檔案,主要用來定義我們要獲取的資料
pipelines.py 爬蟲專案的管道檔案,主要用來對items 裡面定義的資料進行進一步的加工處理
settings.py 檔案為爬蟲專案的設定檔案,主要為爬蟲專案的一些設定資訊
然後下一層的spiders 資料夾裡面放置一些爬蟲,當然現在裡面什麼都沒有,因為我們還沒有新建乙個爬蟲
這裡介紹一下全域性命令 和專案 命令
全域性命令:不在scrapy專案裡就可以使用的命令
專案命令:必須在scrapy專案中才可以使用的命令
全域性命令:
注意**一定要加上http://
fetch : scrapy fetch **(不顯示除錯資訊可以加 --nolog 引數)
runspider: scrapy runspider 爬蟲(現在專案中沒有爬蟲,後面具體再講)
settings:scrapy settings --get 配置項(後面具體再講)
shell:scrapy shell **(在shell終端裡面處理爬下來的資料)
view:scrapy view ** (將**資料趴下來並在瀏覽器中開啟)
專案命令:
bench:scrapy bench(測試本地硬體的效能)
genspider:scrapy genspider 爬蟲的檔名 定義爬取的網域名稱(scrapy genspider baidu baidu.com)
另外:-l :檢視可以使用的模板 (scrapy genspider -l)
-d:檢視模板內容 (scrapy genspider -d basic)
-t:使用模板 (scrapy genspider -t basic 爬蟲名 定義爬取的網域名稱)
check:scrapy check 爬蟲名(使用合同contract的方式對爬蟲進行測試)
crawl:scrapy crawl 爬蟲名(啟動爬蟲,不顯示除錯資訊可以加--nolog引數)
list:scrapy list(顯示專案中有哪些爬蟲)
edit (這個命令在windows上用不了所以我就不介紹了)
持續更新。。。。。。。。。
Python3 Scrapy 安裝方法
寫了幾個爬蟲的雛形,想看看有沒有現成的,發現了scrapy,筆記本win10,想用新版本py3來裝scrapy,老是提示error microsoft visual c 14.0 is required.get it with microsoft visual c build tools 媽蛋vc ...
Python3 Scrapy 安裝方法
看了看相關介紹後選擇了scrapy框架,然後興高采烈的開啟了控制台,坑出現了。執行報錯 error unable to find vcvarsall.bat最後花費了將近一天的時間,終於找到了解決方法。使用wheel安裝。這個 裡邊是編譯好的各種庫的 同時,推薦一篇我的scrapy入門例項部落格 s...
Python3 scrapy學習小結
1.如何建立scrapy工程?命令列中輸入 scrapy startproject projectname projectname是自定義的工程名稱 2.spiders資料夾這部分處理怎麼爬取資料。通常有乙個或者多個spider,每個spider有下面四個基本的組成 除此外會有其它的自定義變數或函式...