寒假大資料學習筆記九

2、建立scrapy專案

這是很麻煩的一步，因為pycharm沒法建立scrapy專案，所以無論是windows還是linux都需要使用命令建立，可以使用命令scrapy檢視所有的scrapy可使用命令。

scrapy genspider [專案名] [**網域名稱] ，切換到想建立專案的的位置，輸入以上命令即可。這裡我推薦使用pycharm的terminal，因為它的預設顯示的路徑就是在你目前專案的路徑下，所以直接用terminal直接輸入命令即可。**網域名稱直接輸入www.後面的就可以了，例如填寫baidu.com即可，因為scrapy會負責填寫上http之類的字首協議。**網域名稱起到的作用是限制範圍，將爬蟲限制到想要爬取的網域名稱之下，不至於出現爬的爬的就跑丟的情況。

3、建立爬蟲

進入建立的scrapy專案中，輸入 scrapy crawl [爬蟲名] ，就可以得到如下python檔案：

#
-*- coding: utf-8 -*-
import
scrapy
class
gzbdspider(scrapy.spider):
name = '
gzbd
'allowed_domains = ['
nhc.gov.cn']
start_urls = ['
']defparse(self, response):
pass

name是剛才輸入的爬蟲名字，名字必須唯一，因為名字是scrapy識別爬蟲的唯一**，避免出現同一scrapy專案下scrapy無法識別使用者想要執行哪個爬蟲的尷尬問題。同時，上述**自己打也是沒有問題的，不僅如此，連同整個scrapy專案也是一樣，手動建立資料夾，檔案也是可以的，只要規格和名字與用命令建立的一樣就行。

寒假大資料學習筆記九

寒假大資料學習筆記十一

寒假大資料學習筆記七

寒假大資料學習筆記五

寒假大資料學習筆記九

寒假大資料學習筆記十一

寒假大資料學習筆記七

寒假大資料學習筆記五

相關推薦