Scrapy 專案步驟

2021-09-01 17:36:27 字數 566 閱讀 1659

1.建立專案:scrapy starproject 專案名

2.編寫 items.py檔案:設定需要儲存的資料字段,明確想要抓取的目標,用來儲存爬到的資料。

3.建立爬蟲:scrapy genspider 爬蟲名 「爬取的**」

4.進入專案專案名/spiders

3個預設建立的:

name = " ":編寫爬蟲檔案,檔案裡的 name 就是爬蟲名(區別與專案名,唯一)

allowed_domains = :允許的域組,規定爬蟲這個網域名稱下的網頁,不存在的url會被忽略。

start_urls = :起始 url 位址,爬蟲的開始

之後寫方法處理響應內容:(xpath可以匹配出想要的資料,生成item,通過yield傳到管道檔案),在 setting.py 中設定管道檔案的類名

5.儲存內容:在pipelines.py中寫管道類(必寫item)

6.執行:

scrapy crawl itcast

scrapy crawl itcast - o json/csv/xml

windows安裝:pip install scrapy

Scrapy建立爬蟲專案步驟

1.開啟cmd命令列工具,輸入 scrapy startproject 專案名稱 2.使用pycharm開啟專案,檢視專案目錄 3.建立爬蟲,開啟cmd,cd命令進入到爬蟲專案資料夾,輸入 scrapy genspider 爬蟲檔名 爬蟲基礎網域名稱 4.開啟pycharm,發現 spider 目錄...

scrapy 安裝步驟

參考 1.安裝python 2.安裝setuptools 或者 pip ubuntu linux sudo apt get install python pip 解壓後進入資料夾執行 python setup.py install 3.安裝lxml lxml是一種使用 python 編寫的庫,可以迅...

scrapy 五 scrapy專案二

在之前的基礎上,新增多個url進行爬取,第一種是將需要爬取的 都列出來,在start urls中 在basic.py中 start urls 第二種是如下寫法 start urls i.strip for i in open todo.urls.txt readlines 水平爬取就是next pa...