#-*- coding: utf-8 -*-
#這只是爬蟲檔案內容,使用pycharm執行,在terminal中使用命令列,要用爬蟲名字
import
scrapy
from insist.items import
insistitem
class
insistsspider(scrapy.spider):
name = '
insists
'allowed_domains = ['
itcast.cn']
start_urls = ['
']defparse(self, response):
node_list=response.xpath("
//div[@class='li_txt']")
items=
for node in
node_list:
#建立item欄位物件,用來儲存資訊
item=insistitem()#
items裡面的類
name=node.xpath("
./h3/text()
").extract()#
extract()將xpath物件轉化為unicode字串
title=node.xpath("
./h4/text()
").extract()
info=node.xpath("
./p/text()
").extract()
item[
'name
']=name[0]
item[
'title
']=title[0]
item[
'info
']=info[0]
return
items
#pass
scrapy爬蟲簡單案例
進入cmd命令列,切到d盤 cmd d 建立article資料夾 mkdir articlescrapy startproject articlescrapy genspider xinwen www.hbskzy.cn 命令後面加爬蟲名和網域名稱 不能和專案名同名 items檔案 define h...
Scrapy框架簡單爬蟲demo
接著上一節的scrapy環境搭建,這次我們開始長征的第二步,如果第一步的還沒走,請出門右轉 scrapy爬蟲框架環境搭建 新建scrapy專案 專案名稱是scrapydemo scrapy startproject scrapydemo 然後回車,就會自動生成乙個專案骨架,如下圖 然後我們寫爬蟲的 ...
網路爬蟲(三) 簡單使用scrapy
一.首先簡單了解scrapy的架構 官方給出的解釋 spiders spider是scrapy使用者編寫用於分析response並提取item 即獲取到的item 或額外跟進的url的類。每個spider負責處理乙個特定 或一些 item pipeline item pipeline負責處理被spi...