## 安裝scrapy 框架
1.安裝'scrapy':通過`pip install scrapy`即可安裝。
2.如果在windows安裝,則還需要安裝`pypiwin32`,安裝方式為`pip install pypiwin32`。
3.如果在ubuntu安裝,則需要安裝一些第三方庫:`sudo apt-get install python-dev python-pip libxml12-dev libxslt1-dev zliblg-dev libffi-dev libssl-dev`。
##scrapy框架結構
##建立專案和爬蟲
1.建立專案:`scrapy startproject [專案名稱]`。
scrapy startproject test
2.建立爬蟲:進入到專案所在路徑,執行命令:`scrapy genspider [爬蟲名稱] [網頁路徑]`。
cd test
scrapy genspider test_spider "www.bilibili.com"
注意,專案名稱和爬蟲名稱不能相同。
##專案目錄結構
1.items.py :用來存放爬蟲爬取下來資料的模型。
2.middlewares.py :用來存放各種中介軟體的檔案。
3.pipelines.py : 用來將items的模型儲存到本地磁碟中。
4.settings.py :本爬蟲的一些配置資訊,(例如請求頭、多久發一次請求、ip**池等)
5.scrapy.cfg:專案的配置檔案。
6.spiders包:所有爬蟲存放的位置。
Scrapy學習筆記(一)
tar zxvf python 3.7.0.tgz c softwareyum y install zlib zlib devel yum y install bzip2 bzip2 devel yum y install ncurses ncurses devel yum y install re...
Scrapy學習筆記
於網路 上圖就是整個scrapy的架構圖了,主要包括部分作用如下 scrapy執行流程 scrapy engine從spiders獲取初始的url,並將這些request交給scheduler進行排列。scrapy engine從scheduler獲取處理好的request。scrapy engin...
Scrapy學習筆記(三)
抓取 資訊 class youdailispider crawlspider name youdaili allowed domains youdaili.net start urls rules rule linkextractor allow r d d html callback parse ...