Scrapy（三）建立專案

建立專案是爬取內容的第一步，之前已經講過，scrapy通過scrapy startproject命令來在當前目錄下建立乙個新的專案。

下面我們建立乙個爬取（『文章資訊的專案

scrapy startproject cnblog

其中cnblog是你的專案的名字，可以自己定義。

其目錄結構如下

cnblog/ scrapy.cfg cnblog/ __init__.py items.py pipelines.py middlewares.py settings.py spiders/ __init__.py

下面簡單的講解一下各目錄/檔案的作用：

在專案中的spiders資料夾下面建立乙個檔案，命名為cnblog_spider.py我們將在這個檔案裡面編寫我們的爬蟲。先上**再解釋。

import scrapy
class
cnblog_spider
(scrapy.spider)
:    name =
"cnblog"
allowed_domains =
["cnblogs.com"
]    start_urls =
['',]
defparse
(self, response)
:        title = response.xpath(
'//a[@class="titlelnk"]/text()'
).extract(
)        link = response.xpath(
'//a[@class="titlelnk"]/@href'
).extract(
)print
(title)
print
(link)

下面是三個重要的內容

將settings.py檔案裡面的下列內容修改如下，其餘的內容不動。

robotstxt_obey = false #不遵循robots協議 #去掉下面的這個注釋，以設定請求頭資訊，偽造瀏覽器headers，並手動新增乙個user-agent default_request_headers =

至此，專案必要的資訊已經全部完成了，下面就是執行我們的爬蟲專案

進入帶有scrapy.cfg檔案的那個目錄，前面已經說過，這是專案的根目錄，執行下面的命令

scrapy crawl cnblog

cnblog是spiders/cnblog_spider.py檔案裡面我們定義的那個具有唯一性的name

你會發現列印出了首頁的文章列表和文章的url資訊，如下所示。

建立scrapy專案

1.windows r開啟 cmd命令列工具，cd desktop 進入到桌面目錄 2.輸入建立專案命令 scrapy startproject 專案名 3.cd 到專案目錄下 cd專案名 4.執行建立爬蟲的命令 scrapy genspider 爬蟲名爬蟲起始 5.使用pycharm開啟專案，...

建立scrapy專案

1.選擇合適的資料夾，在pycharm中的terminal中輸入 scrapy startproject spider，建立爬蟲專案spider。2.執行命令後，得到乙個名為spider的資料夾，檔案結構如下 3.進入專案根目錄 cd spider 4.建立爬蟲檔案agri.py scrapy ge...

scrapy的安裝，scrapy建立專案

簡要 scrapy的安裝 1 pip install scrapy i 國內源一步到位 2 報錯1 building twisted.test.raiser extension error microsoft visual c 14.0 is required.get it with micros...

Scrapy（三）建立專案

建立scrapy專案

建立scrapy專案

scrapy的安裝，scrapy建立專案

相關推薦