Scrapy建立專案以及setting設定

2021-08-16 00:27:22 字數 2676 閱讀 7272

一、scrapy建立專案

1.cmd命令

1.cd desktop

2.scrapy startproject 檔名

3.cd 檔名

4.scrapy genspidr 爬蟲名字 **網域名稱、

二、setting設定   

1.robots.txt協議(爬蟲協議),預設true遵守

2.延遲傳送請求

3.禁用cookie追蹤

4.設定user-agent

改前

改後

5.為pipelines配置

改前

改後

三、middlewares設定

設定user-agent

需匯入

from fake_useragent import useragent
找到設定複製

複製放在middlewares

改完之後為

class jobusermiddleware(object):

"""this middleware allows spiders to override the user_agent"""

def __init__(self, user_agent='scrapy',name=''):

self.user_agent = useragent()

@classmethod

def from_crawler(cls, crawler):

# o = cls(crawler.settings['user_agent'],'張三')

# cls後的資料會自動賦值給建構函式的對應引數

o = cls()

# crawler.signals.connect(o.spider_opened, signal=signals.spider_opened)

return o

def spider_opened(self, spider):

# =右邊**的含義是從spider中獲得user_agent的屬性,

# 如果沒有預設為self.user_agent的內容

# self.user_agent = getattr(spider, 'user_agent', self.user_agent)

pass

def process_request(self, request, spider):

if self.user_agent:

request.headers.setdefault(b'user-agent', self.user_agent.random)

建立scrapy專案

1.windows r開啟 cmd命令列工具,cd desktop 進入到桌面目錄 2.輸入建立專案命令 scrapy startproject 專案名 3.cd 到 專案目錄下 cd專案名 4.執行建立爬蟲的命令 scrapy genspider 爬蟲名 爬蟲起始 5.使用pycharm開啟專案,...

建立scrapy專案

1.選擇合適的資料夾,在pycharm中的terminal中輸入 scrapy startproject spider,建立爬蟲專案spider。2.執行命令後,得到乙個名為spider的資料夾,檔案結構如下 3.進入專案根目錄 cd spider 4.建立爬蟲檔案agri.py scrapy ge...

scrapy的安裝,scrapy建立專案

簡要 scrapy的安裝 1 pip install scrapy i 國內源 一步到位 2 報錯1 building twisted.test.raiser extension error microsoft visual c 14.0 is required.get it with micros...