python學習 scrapy爬蟲框架學習

2021-10-01 19:36:01 字數 1316 閱讀 2882

scrapy學習,可以參考:scrapy1.5中文文件,

1)建立專案

指定資料夾目錄建立專案,cmd進入資料夾路徑,使用命令:scrapy startproject 專案名

建立成功後的專案目錄結構:

2)編寫第乙個蜘蛛,參考:140.html

import scrapy

class mingyan(scrapy.spider): # 需要繼承scrapy.spider類

name = "mingyan2" # 定義蜘蛛名(crwal後的名稱)

start_urls = ['']

def parse(self, response):

mingyan = response.css('div.quote')

for v in mingyan: # 迴圈獲取每一條名言裡面的:名言內容、作者、標籤

text = v.css('.text::text').extract_first() # 提取名言

autor = v.css('.author::text').extract_first() # 提取作者

tags = v.css('.tags .tag::text').extract() # 提取標籤

tags = ','.join(tags) # 陣列轉換為字串

#儲存filename = '%s-語錄.txt' % autor # 爬取的內容存入檔案,檔名為:作者-語錄.txt

with open(filename, "a+") as f: # 不同人的名言儲存在不同的txt文件,「a+」以追加的形式

f.write(text)

f.write('\n') # 『\n』 表示換行

f.write('標籤:' + tags)

f.write('\n-------\n')

f.close()

3)pycharm中執行scrapy爬蟲專案,參考:

定義乙個py,如下:

from scrapy import cmdline

# 引數三為爬蟲的名字name

cmdline.execute(['scrapy', 'crawl', 'mingyan2'])

4)scrapy提取資料:

1. css選擇器

2. scrapy提取資料:xpath選擇器

5)scrapy命令

Python練習 scrapy 爬取汽車之家文章

autohome.py spider檔案 coding utf 8 import scrapy from autohome.items import autohomeitem class autohomespider scrapy.spider name autohome allowed domai...

scrapy 爬取流程

什麼時候到pipeline,什麼 時候到spider這個就不說了,這個是框架跳轉到的流程 關鍵是訪問之前要登入怎麼辦,資料還要注入呢 這是個列表,裡面就是爬取的鏈結了 我們前面爬取就只是寫了乙個,但是其實可以寫多個 鏈結又是怎麼訪問的呢 這東西你就可以手動提取鏈結返回了 這東西你就得好好注意了 從入...

scrapy 爬取小說

速度是相當的快的 爬取整站的 最後結果儲存至mongodb資料庫 pycharm開發還是很好用的 建立專案 scrapy startproject daomubiji 執行專案 scrapy crawl daomubi settings default request headers items t...