爬蟲Scrapy框架的安裝和使用（Python）

好處：省事，快速搭建乙個系統，快速抓取資料。

壞處：細節不清楚，框架的限制需要考慮，學習成本高，可能隱藏了很多未知的問題。

安裝scrapy in ubuntu：

sudo apt-get install python-dev python-piplibxml2-dev libxslt1-dev

sudo pip install scrapy

1）. 新建爬蟲專案

scrapy startproject projectname

專案目錄結構：

tarena@tedu:~/spider/tencentspider$tree.：

├──scrapy.cfg

└──tencentspider

├── __init__.py

├── items.py

├── middlewares.py

├── pipelines.py

├── settings.py

└── spiders

└── __init__.py

明確目標：明確你想要抓取的目標，生成乙個具體的爬蟲：

scrapy genspider tencent

scrapy genspider tencent hr.tencent.com

下面需要具體取修改**邏輯，按照我們的需求去實現自己的爬蟲邏輯：

修改setttings.py 設定

pipelines.py儲存的邏輯

tecent.py, 抓取頁面資訊和繼續跳轉的邏輯

items.py 儲存item的對映

3) 製作爬蟲 (spiders/spidername.py)：製作爬蟲開始爬取網頁;

4) 儲存內容 (pipelines.py)：設計管道儲存爬取內容;

5) 在scrapy下啟動爬蟲：

scrapy crawl tencent

bot_name = 'tencentspider' # 爬蟲名字

# 可以指定多個儲存邏輯的管道

item_pipelines = {

"mysqlpipelines": 300, # 300表示優先順序居中

"filepipelines": 200, # 300表示優先順序居中

安裝scrapy 爬蟲框架

安裝scrapy 爬蟲框架個人根據學習需要，在windows搭建scrapy爬蟲框架，搭建過程種遇到個別問題，共享出來作為記錄。1.安裝python 2.7 1.2配置環境變數以下內容新增到path中 c python27 c python27 scripts 開啟cmd執行如下內容 c pyt...

安裝 python 爬蟲框架 Scrapy

官方安裝說明文件一 scrapy 需要以下依賴二一般來說，你可以通過以下命令直接安裝 scrapy 依賴會被自動安裝 pip3 install scrapy注關於pip 和 pip3 的區別，請看這裡三乙個常見的問題是安裝 twisted 時，會報 microsoft visual ...

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後，深入學習了一下scrapy這個爬蟲框架，現將一些基本知識和總結整理一下，以備後查。2.scrapy的命令列使用這部分網上很多部落格都有總結，不需要背，理解會用主要的命令 startproject crawl fetch list genspider.即可，...

爬蟲Scrapy框架的安裝和使用（Python）

安裝scrapy 爬蟲框架

安裝 python 爬蟲框架 Scrapy

scrapy爬蟲框架

相關推薦