爬蟲建立scrapy框架的專案

進入命令管理器

通過命令scrapy startproject spider3

進入spider3專案中

執行scrapy genspider university qianmu.org (scrapy genspider 爬蟲的名字name 爬蟲的網域名稱)

通過pycharm軟體匯入此專案

scrapy.cfg：必須有的重要的專案的配置檔案

item.py：定義item類，從scrapy.item繼承，裡面定義scrapy.field類

pipelines.py：處理爬取的資料流向。重要的是process_item()方法

spiders目錄下的__init__.py：也是必須有。在這裡可以寫爬蟲類或爬蟲子模組

settings.py 配置檔案：

bot_name # 爬蟲名

robotstxt_obey = true # 遵守robots協議

user_agent=』』 # 指定爬取時使用。一定要更改user-agent，否則訪問會報403錯誤

concurrent_request = 16 # 預設16個並行

cookies_enabled = false # 預設是啟用。一般需要登入時才需要開啟cookie

default_request_headers = {} # 預設請求頭，需要時填寫

spider_middlewares # 爬蟲中介軟體

『first.middlewares.first**********middleware』: 543 # 543優先順序越小越高

『firstscrapy.pipelines.firstscrapypipeline』: 300 # item交給哪乙個管道處理，300優先順序越小越高

其他引數介紹參考：

Scrapy建立爬蟲專案步驟

1.開啟cmd命令列工具，輸入 scrapy startproject 專案名稱 2.使用pycharm開啟專案，檢視專案目錄 3.建立爬蟲，開啟cmd，cd命令進入到爬蟲專案資料夾，輸入 scrapy genspider 爬蟲檔名爬蟲基礎網域名稱 4.開啟pycharm，發現 spider 目錄...

基於Scrapy框架編寫爬蟲專案

知識點 2種安裝模組的方式。以下兩種方式可以安裝絕大部分模組，網路安裝指直接在控制台 pip install xx 第6條，配置過程 1.複製 f 程式設計 python lib site packages pywin32 system32 下的兩個.dll檔案 2.貼上到 c windows s...

爬蟲框架 scrapy 專案檔案詳解

第一部分基本配置 1 專案名稱，預設的user agent由它來構成，也作為日誌記錄的日誌名 bot name amazon 2 爬蟲應用路徑 spider modules amazon.spiders newspider module amazon.spiders 3 客戶端user agent...

爬蟲 建立scrapy框架的專案

Scrapy建立爬蟲專案步驟

基於Scrapy框架編寫爬蟲專案

爬蟲框架 scrapy 專案檔案詳解

相關推薦

爬蟲建立scrapy框架的專案