進入命令管理器
通過命令scrapy startproject spider3
進入spider3專案中
執行scrapy genspider university qianmu.org (scrapy genspider 爬蟲的名字name 爬蟲的網域名稱)
通過pycharm軟體匯入此專案
scrapy.cfg:必須有的重要的專案的配置檔案
item.py:定義item類,從scrapy.item繼承,裡面定義scrapy.field類
pipelines.py:處理爬取的資料流向。重要的是process_item()方法
spiders目錄下的__init__.py:也是必須有。在這裡可以寫爬蟲類或爬蟲子模組
settings.py 配置檔案:
bot_name # 爬蟲名
robotstxt_obey = true # 遵守robots協議
user_agent=』』 # 指定爬取時使用。一定要更改user-agent,否則訪問會報403錯誤
concurrent_request = 16 # 預設16個並行
cookies_enabled = false # 預設是啟用。一般需要登入時才需要開啟cookie
default_request_headers = {} # 預設請求頭,需要時填寫
spider_middlewares # 爬蟲中介軟體
『first.middlewares.first**********middleware』: 543 # 543優先順序越小越高
『firstscrapy.pipelines.firstscrapypipeline』: 300 # item交給哪乙個管道處理,300優先順序越小越高
其他引數介紹參考:
Scrapy建立爬蟲專案步驟
1.開啟cmd命令列工具,輸入 scrapy startproject 專案名稱 2.使用pycharm開啟專案,檢視專案目錄 3.建立爬蟲,開啟cmd,cd命令進入到爬蟲專案資料夾,輸入 scrapy genspider 爬蟲檔名 爬蟲基礎網域名稱 4.開啟pycharm,發現 spider 目錄...
基於Scrapy框架編寫爬蟲專案
知識點 2種安裝模組的方式。以下兩種方式可以安裝絕大部分模組,網路安裝 指直接在控制台 pip install xx 第6條,配置過程 1.複製 f 程式設計 python lib site packages pywin32 system32 下的兩個.dll檔案 2.貼上到 c windows s...
爬蟲框架 scrapy 專案檔案詳解
第一部分 基本配置 1 專案名稱,預設的user agent由它來構成,也作為日誌記錄的日誌名 bot name amazon 2 爬蟲應用路徑 spider modules amazon.spiders newspider module amazon.spiders 3 客戶端user agent...