當時我是在anaconda中建立乙個虛擬環境spider
首先安裝anaconda這個包
使用 conda create -n your_env_name python=x.x(2.7、3.6等)命令建立python版本為x.x、名字為your_env_name的虛擬環境。your_env_name檔案可以在anaconda安裝目錄envs檔案下找到。
source activate spider 進入虛擬環境
scrapy startproject myspider 建立乙個新myspider工程
基本的框架建立好了
conda info -e #檢視當前環境下所建立的虛擬環境
**示例:(獲取部落格內容)
import scrapy
from scrapy.shell import inspect_response
from myspider.items import csdnitem
from myspider.settings import csdnpage
class csdnspider(scrapy.spider):
name = 'csdn'
allowed_domains = ['csdn.net']
start_urls = [
'',# '',
]def parse(self, response):
# 類似於字典的物件
boxs = response.xpath('//div[@class="article-item-box csdn-tracking-statistics"]')
for box in boxs:
# 列印僅為了測試;
# ************將item物件例項化在for迴圈裡面, 否則每次會覆蓋之前item的資訊;*******
item = csdnitem()
item['title'] = box.xpath('./h4/a/text()')[1].extract().strip()
item['url'] = box.xpath('./h4/a/@href')[0].extract()
# print("1. *****************", item['title'])
yield scrapy.request(item['url'], meta=, callback=self.parse_article)
for page in range(2, 3):
url = "/article/list/%s" %(page)
yield scrapy.request(url, callback=self.parse)
def parse_article(self, response):
item = response.request.meta['item']
# 列印僅僅為了測試:出現問題的部分.
爬蟲 Scrapy介紹
scrapy是乙個為了爬取 資料,提取結構性資料而編寫的應用框架。其可以應用在資料探勘,資訊處理或儲存歷史資料等一系列的程式中。其最初是為了頁面抓取 更確切來說,網路抓取 所設計的,也可以應用在獲取api所返回的資料 例如 amazon associates web services 或者通用的網路...
Scrapy爬蟲框架介紹
scrapy是乙個為了爬取 資料,提取結構性資料而編寫的應用框架。可以應用在包括資料探勘,資訊處理或儲存歷史資料等一系列的程式中。其最初是為了 頁面抓取 更確切來說,網路抓取 所設計的,也可以應用在獲取api所返回的資料 例如 amazon associates web services 或者通用的...
Scrapy爬蟲框架介紹
爬蟲框架是實現爬蟲功能的乙個軟體結構和功能元件集合。爬蟲框架是乙個半成品,能夠幫助使用者實現專業網路爬蟲。五個模組 spiders 爬蟲 解析 產生的相應 response 產生爬取項item,產生額外的爬取請求 requests scheduler 排程器 負責對爬取請求進行排程管理 可能同時有多...