建立專案是爬取內容的第一步,之前已經講過,scrapy通過scrapy startproject
命令來在當前目錄下建立乙個新的專案。
下面我們建立乙個爬取(『文章資訊的專案
scrapy startproject cnblog
其中cnblog是你的專案的名字,可以自己定義。
其目錄結構如下
cnblog/
scrapy.cfg
cnblog/
__init__.py
items.py
pipelines.py
middlewares.py
settings.py
spiders/
__init__.py
下面簡單的講解一下各目錄/檔案的作用:
在專案中的spiders資料夾下面建立乙個檔案,命名為cnblog_spider.py我們將在這個檔案裡面編寫我們的爬蟲。先上**再解釋。
import scrapy
class
cnblog_spider
(scrapy.spider)
: name =
"cnblog"
allowed_domains =
["cnblogs.com"
] start_urls =
['',]
defparse
(self, response)
: title = response.xpath(
'//a[@class="titlelnk"]/text()'
).extract(
) link = response.xpath(
'//a[@class="titlelnk"]/@href'
).extract(
)print
(title)
print
(link)
下面是三個重要的內容
將settings.py檔案裡面的下列內容修改如下,其餘的內容不動。
robotstxt_obey =
false
#不遵循robots協議
#去掉下面的這個注釋,以設定請求頭資訊,偽造瀏覽器headers,並手動新增乙個user-agent
default_request_headers =
至此,專案必要的資訊已經全部完成了,下面就是執行我們的爬蟲專案
進入帶有scrapy.cfg檔案的那個目錄,前面已經說過,這是專案的根目錄,執行下面的命令
scrapy crawl cnblog
cnblog是spiders/cnblog_spider.py檔案裡面我們定義的那個具有唯一性的name
你會發現列印出了首頁的文章列表和文章的url資訊,如下所示。
建立scrapy專案
1.windows r開啟 cmd命令列工具,cd desktop 進入到桌面目錄 2.輸入建立專案命令 scrapy startproject 專案名 3.cd 到 專案目錄下 cd專案名 4.執行建立爬蟲的命令 scrapy genspider 爬蟲名 爬蟲起始 5.使用pycharm開啟專案,...
建立scrapy專案
1.選擇合適的資料夾,在pycharm中的terminal中輸入 scrapy startproject spider,建立爬蟲專案spider。2.執行命令後,得到乙個名為spider的資料夾,檔案結構如下 3.進入專案根目錄 cd spider 4.建立爬蟲檔案agri.py scrapy ge...
scrapy的安裝,scrapy建立專案
簡要 scrapy的安裝 1 pip install scrapy i 國內源 一步到位 2 報錯1 building twisted.test.raiser extension error microsoft visual c 14.0 is required.get it with micros...