Scrapy環境搭建

2021-08-21 03:30:24 字數 1164 閱讀 1075

win7系統下搭建scrapy環境:

以我電腦f盤建立的venv為例 →

1.cd venv

2.cd scripts

3.activte/deactivate (進入/退出 虛擬環境)

4.cd ../..

5.pip install c:\users\administrator\desktop\twisted-18.4.0-cp36-cp36m-win32.whl

6.pip install scrapy

這樣便搭建好了scrapy的基礎環境了

twisted安裝包傳送門

以我爬取的豆瓣網為例

1.scrapy startproject movie .

2.scrapy genspider movie --template=crawl

這樣便建立好了你的第乙個scrapy爬蟲了

1.scrapy crawl movie 開始爬取**

2.scrapy crway movie -o result.json 生成json格式

scrapy的整體框架如下:

attention: 使用scrapy的乙個小坑 –>

報錯:debug: filtered offsite request to…

官方對這個的解釋,是你要request的位址和allow_domain裡面的衝突,從而被過濾掉。可以停用過濾功能。

request1 = scrapy.request(url=url, callback=self.parse_content, dont_filter=true) dont_filter=true即可解決.

官方文件(中文)

官方教程(英文)

jasonding的學習scrapy入門

young-hz 的scrapy研究探索系列

scrapy環境搭建

在spiders目錄下建立 doubanspider.py 檔案,內容如下 coding utf 8 import scrapy class firstspider scrapy.spider name douban 爬蟲的名字,執行時候使用 start urls 需要爬去的url def pars...

Scrapy環境搭建

建立乙個新的專案 scrapy startproject 專案名 2.生成爬蟲 scrapy genspider 檔名 3.執行 crawl scrapy crawl 爬蟲名稱 scrapy crawl 爬蟲名 o zufang.json o output scrapy crawl 爬蟲名 o zu...

ubutun 搭建scrapy環境

scrapy官方文件 本人ubutun系統只有python3,無python2 可以了解python。2020不在更新python兩年前的了解,目前不知道 可以跳過安裝python3 一 安裝以下依賴項 sudo apt get install python3 dev python3 pip lib...