一、scrapy建立專案
1.cmd命令
1.cd desktop
2.scrapy startproject 檔名
3.cd 檔名
4.scrapy genspidr 爬蟲名字 **網域名稱、
二、setting設定
1.robots.txt協議(爬蟲協議),預設true遵守
2.延遲傳送請求
3.禁用cookie追蹤
4.設定user-agent
改前
改後
5.為pipelines配置
改前
改後
三、middlewares設定
設定user-agent
需匯入
from fake_useragent import useragent找到設定複製
複製放在middlewares
改完之後為
class jobusermiddleware(object):
"""this middleware allows spiders to override the user_agent"""
def __init__(self, user_agent='scrapy',name=''):
self.user_agent = useragent()
@classmethod
def from_crawler(cls, crawler):
# o = cls(crawler.settings['user_agent'],'張三')
# cls後的資料會自動賦值給建構函式的對應引數
o = cls()
# crawler.signals.connect(o.spider_opened, signal=signals.spider_opened)
return o
def spider_opened(self, spider):
# =右邊**的含義是從spider中獲得user_agent的屬性,
# 如果沒有預設為self.user_agent的內容
# self.user_agent = getattr(spider, 'user_agent', self.user_agent)
pass
def process_request(self, request, spider):
if self.user_agent:
request.headers.setdefault(b'user-agent', self.user_agent.random)
建立scrapy專案
1.windows r開啟 cmd命令列工具,cd desktop 進入到桌面目錄 2.輸入建立專案命令 scrapy startproject 專案名 3.cd 到 專案目錄下 cd專案名 4.執行建立爬蟲的命令 scrapy genspider 爬蟲名 爬蟲起始 5.使用pycharm開啟專案,...
建立scrapy專案
1.選擇合適的資料夾,在pycharm中的terminal中輸入 scrapy startproject spider,建立爬蟲專案spider。2.執行命令後,得到乙個名為spider的資料夾,檔案結構如下 3.進入專案根目錄 cd spider 4.建立爬蟲檔案agri.py scrapy ge...
scrapy的安裝,scrapy建立專案
簡要 scrapy的安裝 1 pip install scrapy i 國內源 一步到位 2 報錯1 building twisted.test.raiser extension error microsoft visual c 14.0 is required.get it with micros...