python爬蟲框架之Scrapy

scrapy

是乙個爬蟲框架，提取結構性的資料。其可以應用在資料探勘，資訊處理等方面。提供了許多的爬蟲的基類，幫我們更簡便使用爬蟲。基於twisted

準備步驟

首先安裝依賴庫twisted

在這個** 下面去尋找符合你的python版本和系統版本的twisted

pip install （依賴庫的路徑）

然後在安裝scrapy框架

 pip install scrapy

用法1.建立專案

在cmd路徑下輸入指令

scrapy startproject 專案名

2.專案目錄結構

firstspider

spiders 爬蟲目錄（寫**位置）

__init__.py

myspider.py 爬蟲檔案,以後的爬蟲**寫在這裡

__init__.py

items.py 定義資料結構地方

middlewares.py 中介軟體（了解）

pipelines.py 管道檔案

settings.py 專案配置檔案

scrapy.cfg

專案建立處理，裡面是沒有爬蟲的，我們需要通過指令來建立乙個爬蟲：

scrapy genspider 專案名字網域名稱(baidu.com)

3.定製item.py，其實就是您的資料結構

4.撰寫蜘蛛

根據response獲取網頁內容

response.text 字串型別

response.body 二進位制型別

列印response物件，簡單的跑一把

指令scrapy crawl qiubai

【注意】抓取的時候會出錯執行

pip install pypiwin32

5.執行（自動生成對應格式檔案）

scrapy crawl qiubai -o qiubai.json scrapy crawl qiubai -o qiubai.xml

scrapy crawl qiubai -o qiubai.csv

用scrapy寫爬蟲的一步驟：

1）建立專案 scrapy startproject 專案名

2）建立爬蟲 scrapy genspider 爬蟲名網域名稱

執行爬蟲 scrapy crawl 爬蟲名 [-o xx.json/xml/csv]

3）根據需求編寫item

4）在spiders裡面解析資料

5）在管道中處理解析完的資料

windows系統下搭建爬蟲框架scrapy

摘要本機環境為windows 7，64位系統，python 2.7 裝成了32位的了 1.安裝twisted 安裝完成後，你會在c python27 lib site packages目錄下看到twisted資料夾 2.安裝zope.inte ce 很多版本，根據windows位數，python版...

Python之scrapy框架爬蟲

scrapy命令詳解可能是如今最全最簡單的scrapy命令解釋明天上班，又要爬現在每天做的工作有50 的時間爬 40 的時間清理資料，10 寫報告。若想自學資料分析，側重點很重要，我當初把大部分經歷放在了python的pandas numpymatplotlib上面，其他時間一部分放在sql身...

Python爬蟲高階一之爬蟲框架概述

爬蟲入門之後，我們有兩條路可以走。乙個是繼續深入學習，以及關於設計模式的一些知識，強化python相關知識，自己動手造輪子，繼續為自己的爬蟲增加分布式，多執行緒等功能擴充套件。另一條路便是學習一些優秀的框架，先把這些框架用熟，可以確保能夠應付一些基本的爬蟲任務，也就是所謂的解決溫飽問題，然後再深入學...

python爬蟲框架之Scrapy

windows系統下搭建爬蟲框架scrapy

Python之scrapy框架爬蟲

Python爬蟲高階一之爬蟲框架概述

相關推薦