bot_name = 'testone'
spider_modules = ['testone.spiders']
newspider_module = 'testone.spiders'
#ua偽裝
#robots協議是否遵從
robotstxt_obey = false
#顯示指定型別的日誌資訊
log_level="error"
import scrapy
class firstspider(scrapy.spider):
#爬蟲檔案的名稱:就是爬蟲原始檔唯一標識
name = 'first'
#允許的網域名稱:用來限制start_urls那些url可以進行請求傳送
#啟始url的列表:該列表存放的url會被scrapy自動請求傳送
start_urls = ['',]
#用於資料解析:response引數表示就是請求成功後對應的響應物件
def parse(self, response):
number = 0
div_list=response.xpath('//*[@id="content"]/div/div[2]/div')
for div in div_list:
#xpath返回的是列表,但是列表元素一定是selector型別的物件
#extract可以將selector物件中的data引數儲存的字串提取出來
#第一種寫法
author = div.xpath('./div[1]/a[2]/h2//text()')[0].extract()
# 第二種寫法
#author = div.xpath('./div[1]/a[2]/h2//text()').extract_first()
# 列表呼叫了extract之後,則表示將列表中的selector物件中的data對的的字串提取出來
content = div.xpath('./a/div/span//text()').extract()
#格式化
content=' '.join(content).replace('\n','')
print(content,author)
Scrapy框架解析
engine 1 控制所有模組之間的資料流 2 根據條件觸發事件 不需要使用者修改 scheduler對所有爬取請求進行排程管理 不需要使用者修改 middleware目的 事實engine scheduler和 之間進行使用者可配置的控制 功能 修改 丟棄 新增請求或響應 使用者可以編寫配置編碼 ...
scrapy框架使用及案例
使用pycharm的terminal終端 以下命令都是在terminal終端中執行 建立乙個工程 scrapy startproject pro cd pro 在spiders子目錄中建立乙個爬蟲檔案 scrapy genspider spidername www.com 執行工程 scrapy c...
scrapy爬蟲框架使用教程2
下文中提到的所有命令,均是在shell 俗稱黑視窗或命令列中 輸入的 當你已經搭建好python開發環境,並且安裝好scrapy框架後,就可以開始乙個爬蟲專案了 新建專案命令如下 scrapy startproject myfirstproject 此命令缺省會在當前目錄下建立乙個名為myfires...