#settings.py檔案設定
#如果**中沒有robots檔案,就不會抓取任何資料
robotstxt_obey = false
#設定請求頭
default_request_headers =
#啟動pipline(檔案68行,取消注釋即可)
item_pipelines =
#建立專案和爬蟲
1.建立專案:'scrapy startproject [爬蟲的名字]'
2.建立爬蟲:進入到專案所在的路徑,執行命令 'scrapy genspider [爬蟲名字] [爬蟲網域名稱]'
注意:爬蟲名字不能和專案名一樣
#專案目錄結構
1.items.py: 用來存放爬蟲爬取下來的資料的模型
2.middlewares.py: 用來存放各種中介軟體的檔案
3.pipelines.py: 用來將items的模型儲存到本地磁碟中
4.settings.py: 本爬蟲的一些配置資訊(比如請求頭,多久傳送一次請求,ip**池等)
5.scrapy.cfg: 專案的配置檔案
6.spider包: 以後所有的爬蟲都放到這個裡面
scrapy簡單使用方法
步驟 1 在編譯器 我用的pycharm 裡新建資料夾,名稱隨意 2 從終端 anaconda prompt 中進入所建立的資料夾 anaconda prompt中切換c盤和d盤方法見上篇部落格 3 在該資料夾中建立scrapy框架,即執行命令 scrapy startproject name其中,...
網路爬蟲(三) 簡單使用scrapy
一.首先簡單了解scrapy的架構 官方給出的解釋 spiders spider是scrapy使用者編寫用於分析response並提取item 即獲取到的item 或額外跟進的url的類。每個spider負責處理乙個特定 或一些 item pipeline item pipeline負責處理被spi...
scrapy簡單爬蟲
coding utf 8 這只是爬蟲檔案內容,使用pycharm執行,在terminal中使用命令列,要用爬蟲名字 import scrapy from insist.items import insistitem class insistsspider scrapy.spider name ins...