安裝pip install scrapy
中間可能會遇到的問題:
建立專案:
其中*****是你的專案名
本文中使用tutorial
目錄如上圖所示
在items.py中寫入需要儲存的字段
import上述**中tutorialitem和專案名對應。這裡保留兩個字段,鏈結中的title和linkscrapy
class tutorialitem(scrapy.item):
#define the fields for your item here like:
#name = scrapy.field()
title =scrapy.field()
link =scrapy.field()
pass
在spiders資料夾中新建爬蟲檔案命名隨意,本文中命名為dmoz_spider.py
import這裡定義了乙個名為dmoz的爬蟲,它去找存在於中的中的標籤中的text和href,並將text賦給item中定義的title欄位,將href賦給item中定義的link欄位。=。=scrapy
from tutorial.items import
tutorialitem
class
dmozspider(scrapy.spider):
name = "
dmoz
"allowed_domains = ["
"]start_urls =[
""]defparse(self, response):
for sel in response.xpath('
//ul/li'):
item =tutorialitem()
item[
'title
'] = sel.xpath('
a/text()
').extract()
item[
'link
'] = sel.xpath('
a/@href
').extract()
yield item
yield 是用來在迭代時減少記憶體開銷的
此時乙個簡單的爬蟲已經搭建完成,這時我們執行
scrapy crawl dmoz -o result.josn -t json就可以執行名為dmoz的爬蟲,並將結果儲存在result.json中,結果如圖:
此處預設儲存的是unicode編碼
scrapy之爬蟲初體驗
本篇文章主要將怎樣建立乙個scrapy專案,以及完成第乙個scrapy爬蟲專案。首先是安裝scrapy模組,有很多原因都能導致scrapy模組安裝失敗,網上有很多教程讓怎樣安裝scrapy。親測比較有效的方法使用whl檔案安裝。不過有小夥伴也可以嘗試直接使用pip install scrapy命令進...
「黑客」入門 爬蟲scrapy初體驗
歡迎關注,敬請點讚!pip install scrapy 需要在專案根目錄下,如d python spider 執行 scrapy startproject 專案名 如 lab d python spider scrapy startproject lab 進入專案內 cd 專案名,d python...
Scrapy框架系列 爬蟲利器之初體驗(1)
pip install scrapyscrapy startproject doubantop250 專案名稱 scrapy crawl douban 後面會解釋,這個 dougban 是從 來的,此處先留乙個小坑 yield itemclass doubantop250pipeline objec...