在pycharm中開啟專案workon py3env
cd g:/pyproject
scrapy startproject jd
scrapy.cfg
專案的配置檔案,帶有這個檔案的那個目錄作為scrapy專案的根目錄
items.py
定義你所要抓取的字段
pipelines.py
管道檔案,當spider抓取到內容(item)以後,會被送到這裡,這些資訊(item)在這裡會被清洗,去重,儲存到檔案或者資料庫。
middlewares.py
中介軟體,主要是對功能的拓展,你可以新增一些自定義的功能,比如新增隨機user-agent, 新增proxy。
settings.py
設定檔案,用來設定爬蟲的預設資訊,相關功能開啟與否,比如是否遵循robots協議,設定預設的headers,設定檔案的路徑,中介軟體的執行順序等等。
spiders/
在這個資料夾下面,編寫你自定義的spider。
在專案中的spiders資料夾下面建立乙個檔案,命名為baidu.py我們將在這個檔案裡面編寫我們的爬蟲。
建立scrapy專案
1.windows r開啟 cmd命令列工具,cd desktop 進入到桌面目錄 2.輸入建立專案命令 scrapy startproject 專案名 3.cd 到 專案目錄下 cd專案名 4.執行建立爬蟲的命令 scrapy genspider 爬蟲名 爬蟲起始 5.使用pycharm開啟專案,...
建立scrapy專案
1.選擇合適的資料夾,在pycharm中的terminal中輸入 scrapy startproject spider,建立爬蟲專案spider。2.執行命令後,得到乙個名為spider的資料夾,檔案結構如下 3.進入專案根目錄 cd spider 4.建立爬蟲檔案agri.py scrapy ge...
scrapy的安裝,scrapy建立專案
簡要 scrapy的安裝 1 pip install scrapy i 國內源 一步到位 2 報錯1 building twisted.test.raiser extension error microsoft visual c 14.0 is required.get it with micros...