scrapy 是一套基於基於twisted
的非同步處理框架,純python實現的爬蟲框架,使用者只需要定製開發幾個模組就可以輕鬆的實現乙個爬蟲,用來抓取網頁內容以及各種,非常之方便~
安裝scrapy
pip install scrapy驗證安裝是否成功
import scrapy
scrapy.version_info # (1, 6, 0)
匯入scrapy,然後輸出版本號,我的是1.6.0版本
建立scrapy專案
scrapy startproject example # 建立專案在命令列輸入:cd example # 進入專案
scrapy genspider example example.com # 建立爬蟲檔案
scrapy startproject example這個命令在當前資料夾下建立乙個名為example的專案
目錄結構:
example建立爬蟲檔案├── example
│ ├── __init__.py
│ ├── items.py
│ ├── middlewares.py
│ ├── pipelines.py
│ ├── __pycache__
│ ├── settings.py
│ └── spiders
│ ├── __init__.py
│ └──__pycache__
└── scrapy.cfg
you can start your first spider with:
cd example
進入example資料夾
scrapy genspider example example.com
建立名為example,網域名稱為example.com的爬蟲檔案
比如我們要爬取京東, 可以進入建立好的專案,在專案下建立名我jd, 網域名稱為jd.com的爬蟲檔案即:
這時候在spiders資料夾下會出現乙個jd.py
檔案
檔案內容如下
# -*- coding: utf-8 -*-
import scrapy
class
jdspider
(scrapy.spider)
: name =
'jd'
# 爬蟲名
allowed_domains =
['jd.com'
]# 允許在jd.com網域名稱下爬取
start_urls =
['']# 爬蟲開始的位置
defparse
(self, response)
:pass
當然也可以自己建立乙個爬蟲檔案。
啟動爬蟲
在專案資料夾下,即上面cd example後進入的資料夾。在命令列中輸入scrapy crawl
,啟動剛建立好的爬蟲:
scrapy crawl jd這樣我們就建立乙個scrapy爬蟲並啟動了
使用scrapy開啟爬蟲
scrapy startproject test 建立專案 建立的檔案介紹 scrapy.cfg 專案配置檔案,專案配置檔案路徑部署資訊 items.py 定義item資料結構的地方 settings.py 是專案的設定檔案,可以定義專案的全域性設定 spiders資料夾 編寫xpath和正規表示式...
Scrapy建立爬蟲專案步驟
1.開啟cmd命令列工具,輸入 scrapy startproject 專案名稱 2.使用pycharm開啟專案,檢視專案目錄 3.建立爬蟲,開啟cmd,cd命令進入到爬蟲專案資料夾,輸入 scrapy genspider 爬蟲檔名 爬蟲基礎網域名稱 4.開啟pycharm,發現 spider 目錄...
爬蟲 建立scrapy框架的專案
進入命令管理器 通過命令scrapy startproject spider3 進入spider3專案中 執行scrapy genspider university qianmu.org scrapy genspider 爬蟲的名字name 爬蟲的網域名稱 通過pycharm軟體匯入此專案 scra...