scrapy
是乙個爬蟲框架,提取結構性的資料。其可以應用在資料探勘,資訊處理等方面。提供了許多的爬蟲的基類,幫我們更簡便使用爬蟲。基於twisted
準備步驟
首先安裝依賴庫twisted
在這個** 下面去尋找符合你的python版本和系統版本的twisted
pip install (依賴庫的路徑)
然後在安裝scrapy框架
pip install scrapy
用法1.建立專案
在cmd路徑下輸入指令
scrapy startproject 專案名
2.專案目錄結構
firstspider
firstspider
spiders 爬蟲目錄(寫**位置)
__init__.py
myspider.py 爬蟲檔案,以後的爬蟲**寫在這裡
__init__.py
items.py 定義資料結構地方
middlewares.py 中介軟體(了解)
pipelines.py 管道檔案
settings.py 專案配置檔案
scrapy.cfg
專案建立處理,裡面是沒有爬蟲的,我們需要通過指令來建立乙個爬蟲:
scrapy genspider 專案名字 網域名稱(baidu.com)
3.定製item.py,其實就是您的資料結構
4.撰寫蜘蛛
根據response獲取網頁內容
response.text 字串型別
response.body 二進位制型別
列印response物件,簡單的跑一把
指令scrapy crawl qiubai
【注意】抓取的時候會出錯執行
pip install pypiwin32
5.執行(自動生成對應格式檔案)
scrapy crawl qiubai -o qiubai.json
scrapy crawl qiubai -o qiubai.xml
scrapy crawl qiubai -o qiubai.csv
用scrapy寫爬蟲的一步驟:
1)建立專案 scrapy startproject 專案名
2)建立爬蟲 scrapy genspider 爬蟲名 網域名稱
執行爬蟲 scrapy crawl 爬蟲名 [-o xx.json/xml/csv]
3)根據需求編寫item
4)在spiders裡面解析資料
5)在管道中處理解析完的資料
windows系統下搭建爬蟲框架scrapy
摘要 本機環境為windows 7,64位系統,python 2.7 裝成了32位的了 1.安裝twisted 安裝完成後,你會在c python27 lib site packages目錄下看到twisted資料夾 2.安裝zope.inte ce 很多版本,根據windows位數,python版...
Python之scrapy框架爬蟲
scrapy命令詳解 可能是如今最全最簡單的scrapy命令解釋 明天上班,又要爬 現在每天做的工作有50 的時間爬 40 的時間清理資料,10 寫報告。若想自學資料分析,側重點很重要,我當初把大部分經歷放在了python的pandas numpymatplotlib上面,其他時間一部分放在sql身...
Python爬蟲高階一之爬蟲框架概述
爬蟲入門之後,我們有兩條路可以走。乙個是繼續深入學習,以及關於設計模式的一些知識,強化python相關知識,自己動手造輪子,繼續為自己的爬蟲增加分布式,多執行緒等功能擴充套件。另一條路便是學習一些優秀的框架,先把這些框架用熟,可以確保能夠應付一些基本的爬蟲任務,也就是所謂的解決溫飽問題,然後再深入學...