爬蟲8 Scrapy 取內容

2022-06-24 20:24:12 字數 1079 閱讀 9783

scrapy的例項都分了好幾次來寫了,因為平時要工作,而且總是遇到這樣那樣的問題,所以進度一直很慢

寫程式有的時候也是玄學,好好的程式總是莫名其妙的就不能執行,然後又莫名其妙的好了,很是奇葩,就像今天的問題

搞了半天搞不好,還像程式設計師求救,最後什麼都沒幹又自己好了

不過程式設計師哥哥還是說得對,**之前能執行那說明**邏輯沒問題,又確定了格式沒問題,那剩下的多半是環境的問題了,寫**一定要多注意細節。

因為之前在學selenium的時候,已經學過xpath的提取了,所以這個倒沒費多大的功夫,直接上**了

from scrapy.spiders import

spider

from scrapy.selector import

selector

from tutorial.items import

dmozitem

class

dmozspider(spider):

name = "

dmoz

"allowed_domains = ["

dmoz.org"]

start_urls=[

"",""]

defparse(self,response):

sel =selector(response)

sites = sel.xpath('

//div[@class="site-title"]/text()')

items=

for site in

sites:

item =dmozitem()

item[

'title

'] =site.extract()

return items

再接下來是儲存內容了

資訊儲存主要有四種:json, json lines, csv, xml

我們用json匯出

-o後面是檔名,-t後面是匯出型別

scrapy crawl dmoz -o axiba.json -t json

目前為止這個例子就學完了,下一步去研究專案的爬蟲了

嘿嘿

scrapy簡單爬取內容

scrapy的簡單爬取不用新建專案。安裝好scrapy後編寫爬蟲檔案import scrapy class zaobaoscrapy scrapy.spider name zaobao start urls def parse self,response for href in response.c...

Scrapy爬蟲爬取電影天堂

目標 建立專案 scrapy startproject 爬蟲專案檔案的名字 生成 crawlspider 命令 scrapy genspider t crawl 爬蟲名字 爬蟲網域名稱 終端執行 scrapy crawl 爬蟲的名字 python操作mysql資料庫操作 爬蟲檔案 coding ut...

scrapy多爬蟲以及爬取速度

主要這段時間一直使用的就是scrapy這個框架,因為公司裡面需要爬取大量的 所以才使用了多爬蟲,但是目前測試也只是幾十個,一直也想不到更好的方法去同時抓取成千上百個結構不同的 所以也很是苦逼的用了scrapy裡面的多爬蟲,對每個 分別解析,還好雖然幾次改需求但是欄位都是統一的,可以很輕鬆的通過ite...