本文基於python 3.7.0,win10平台; 2018-08注意環境變數是否配置成功完整專案**:
為了安裝順利,請備好梯子安裝過程中注意以下報錯資訊:
microsoft visual c++ 14.0 is required. get it with "microsoft visual c++ build tools"
解決辦法:
cp:表示python版本
amd64:表示64位
如果抓取的內容包含中文可配置:feed_export_encoding = 'utf-8'
import scrapy
class novelitem(scrapy.item):
title = scrapy.field()
content = scrapy.field()
這些即你需要儲存的欄位名
import scrapy
# 引入自定義的items
from mytest.items import novelitem
# # 繼承scrapy.spider
class novelspider(scrapy.spider):
# 爬蟲名
name = 'novel_spider'
# 允許的網域名稱
allowed_domains = ['']
# 入口url 扔到排程器裡面去
start_urls = ['/chapter/20180406/29649.html']
def parse(self, response):
movielist = response.xpath('//*[@id="container"]/div[3]/div[2]/div[2]/div/div/ul/li')
novelcontent = novelitem()
for item in movielist:
u = '' + item.xpath('.//a/@href').extract_first()
yield scrapy.request(u, callback= self.content_a, meta= , dont_filter = true)
# 放到管道裡否則 pipeline獲取不到
# 如果你發現拿到的內容一直為空,注意是否被過濾了,即dont_filter沒有設定
def content_a(self, response):
novelcontent = response.meta['nc']
novelcontent['title'] = response.xpath('//*[@id="j_article"]/div[1]/h1/text()').extract_first()
yield novelcontent
注意以下幾點:
匯出為json: scrapy crawl your-spider-name -o test.json
如果出現報錯資訊:
github blog issues
Scrapy入門 環境安裝及demo執行
執行環境 win10 python3.6.5 vscode python環境的安裝本文不再贅述 下面通過pip命令安裝scrapy環境。在vscode上新建乙個終端,終端上鍵入命令 pip install scrapy pip會自動收集依賴的庫資訊,並依次安裝 筆者在執行過程中遇到了兩個問題,乙個是...
Scrapy框架簡單爬蟲demo
接著上一節的scrapy環境搭建,這次我們開始長征的第二步,如果第一步的還沒走,請出門右轉 scrapy爬蟲框架環境搭建 新建scrapy專案 專案名稱是scrapydemo scrapy startproject scrapydemo 然後回車,就會自動生成乙個專案骨架,如下圖 然後我們寫爬蟲的 ...
Scrapy入門 Scrapy是什麼
一 scrapy 蜘蛛 scrapy是我們熟知的蜘蛛爬蟲框架,我們用蜘蛛來獲取網際網路上的各種資訊,然後再對這些資訊進行資料分析處理。所以說,scrapy是學習大資料的入門技能。scrapy是乙個為了爬取 資料,提取結構性資料而編寫的應用框架。蜘蛛作為網路爬蟲,在網上到處或定向抓取 網頁的html資...