好處: 省事,快速搭建乙個系統,快速抓取資料。
壞處: 細節不清楚,框架的限制需要考慮,學習成本高,可能隱藏了很多未知的問題。
安裝scrapy in ubuntu:
sudo apt-get install python-dev python-piplibxml2-dev libxslt1-dev
sudo pip install scrapy
1). 新建爬蟲專案
scrapy startproject projectname
專案目錄結構:
tarena@tedu:~/spider/tencentspider$tree.:
├──scrapy.cfg
└──tencentspider
├── __init__.py
├── items.py
├── middlewares.py
├── pipelines.py
├── settings.py
└── spiders
└── __init__.py
明確目標:明確你想要抓取的目標,生成乙個具體的爬蟲:
scrapy genspider tencent
scrapy genspider tencent hr.tencent.com
下面需要具體取修改**邏輯,按照我們的需求去實現自己的爬蟲邏輯:
修改setttings.py 設定
pipelines.py儲存的邏輯
tecent.py, 抓取頁面資訊和繼續跳轉的邏輯
items.py 儲存item的對映
3) 製作爬蟲 (spiders/spidername.py):製作爬蟲開始爬取網頁;
4) 儲存內容 (pipelines.py):設計管道儲存爬取內容;
5) 在scrapy下啟動爬蟲:
scrapy crawl tencent
bot_name = 'tencentspider' # 爬蟲名字
# 可以指定多個儲存邏輯的管道
item_pipelines = {
"mysqlpipelines": 300, # 300表示優先順序居中
"filepipelines": 200, # 300表示優先順序居中
安裝scrapy 爬蟲框架
安裝scrapy 爬蟲框架 個人根據學習需要,在windows搭建scrapy爬蟲框架,搭建過程種遇到個別問題,共享出來作為記錄。1.安裝python 2.7 1.2配置環境變數 以下內容新增到path中 c python27 c python27 scripts 開啟cmd執行如下內容 c pyt...
安裝 python 爬蟲框架 Scrapy
官方安裝說明文件 一 scrapy 需要以下依賴 二 一般來說,你可以通過以下命令直接安裝 scrapy 依賴會被自動安裝 pip3 install scrapy注 關於pip 和 pip3 的區別,請看 這裡 三 乙個常見的問題是 安裝 twisted 時,會報 microsoft visual ...
scrapy爬蟲框架
作者經過幾周的python爬蟲實踐之後,深入學習了一下scrapy這個爬蟲框架,現將一些基本知識和 總結整理一下,以備後查。2.scrapy的命令列使用 這部分網上很多部落格都有總結,不需要背,理解會用主要的命令 startproject crawl fetch list genspider.即可,...