Scrapy(三)建立專案

2021-09-19 23:35:29 字數 1589 閱讀 1028

建立專案是爬取內容的第一步,之前已經講過,scrapy通過scrapy startproject命令來在當前目錄下建立乙個新的專案。

下面我們建立乙個爬取(『文章資訊的專案

scrapy startproject cnblog

其中cnblog是你的專案的名字,可以自己定義。

其目錄結構如下

cnblog/

scrapy.cfg

cnblog/

__init__.py

items.py

pipelines.py

middlewares.py

settings.py

spiders/

__init__.py

下面簡單的講解一下各目錄/檔案的作用:

在專案中的spiders資料夾下面建立乙個檔案,命名為cnblog_spider.py我們將在這個檔案裡面編寫我們的爬蟲。先上**再解釋。

import scrapy

class

cnblog_spider

(scrapy.spider)

: name =

"cnblog"

allowed_domains =

["cnblogs.com"

] start_urls =

['',]

defparse

(self, response)

: title = response.xpath(

'//a[@class="titlelnk"]/text()'

).extract(

) link = response.xpath(

'//a[@class="titlelnk"]/@href'

).extract(

)print

(title)

print

(link)

下面是三個重要的內容

將settings.py檔案裡面的下列內容修改如下,其餘的內容不動。

robotstxt_obey =

false

#不遵循robots協議

#去掉下面的這個注釋,以設定請求頭資訊,偽造瀏覽器headers,並手動新增乙個user-agent

default_request_headers =

至此,專案必要的資訊已經全部完成了,下面就是執行我們的爬蟲專案

進入帶有scrapy.cfg檔案的那個目錄,前面已經說過,這是專案的根目錄,執行下面的命令

scrapy crawl cnblog

cnblog是spiders/cnblog_spider.py檔案裡面我們定義的那個具有唯一性的name

你會發現列印出了首頁的文章列表和文章的url資訊,如下所示。

建立scrapy專案

1.windows r開啟 cmd命令列工具,cd desktop 進入到桌面目錄 2.輸入建立專案命令 scrapy startproject 專案名 3.cd 到 專案目錄下 cd專案名 4.執行建立爬蟲的命令 scrapy genspider 爬蟲名 爬蟲起始 5.使用pycharm開啟專案,...

建立scrapy專案

1.選擇合適的資料夾,在pycharm中的terminal中輸入 scrapy startproject spider,建立爬蟲專案spider。2.執行命令後,得到乙個名為spider的資料夾,檔案結構如下 3.進入專案根目錄 cd spider 4.建立爬蟲檔案agri.py scrapy ge...

scrapy的安裝,scrapy建立專案

簡要 scrapy的安裝 1 pip install scrapy i 國內源 一步到位 2 報錯1 building twisted.test.raiser extension error microsoft visual c 14.0 is required.get it with micros...