如何建立scrapy專案?
輸入命令:
scrapy startproject project_name
在當前目錄下建立名字叫project_name的scrapy專案
命令格式:scrapy startproject 專案名
如何啟動官方提供的爬蟲模版?
進入project_name這個專案目錄下,輸入命令
srapy genspider blog i.cnblogs.com
命令格式:「srapy genspider 爬蟲模組名 網域名稱」
如何除錯scrapy專案?
在專案目錄下新建乙個start.py檔案,寫入:
#!/usr/bin/python3from scrapy.cmdline import execute
if __name__ == '__main__':
execute(['scrapy', 'crawl', 'spider_name', '--nolog'])
在windows系統,會出現錯誤:no model win32 如何解決?
pip install pypiwin32
除錯時候注意點:
預設scrapy會讀取該網頁的robots協議,把遵守協議改成false
robotstxt_obey = true --> false
如何進行除錯?
scrapy shell 除錯**
scrapy shell
通過以下命令:
response
如果狀態200表示獲取頁面成功,通過response物件進行css或xpath除錯
response.css('#homepage1_homepagedays_dayslist_ctl00_daylist_titleurl_0::text').extract()
response.xpath("//a[@id='homepage1_homepagedays_dayslist_ctl00_daylist_titleurl_0']/text()").extract()
如何加入請求頭?
scrapy shell -s user-agent='省略'
url
scrapy爬蟲除錯
在scrapy框架執行時,除錯爬蟲是必不可少的一步,用於常規檢查爬蟲執行過程中item與介面返回值,主要操作如下 新建 debug.py檔案,寫入內容如下 from scrapy import cmdline name main scrapy的名稱 cmd scrapy crawl format n...
scrapy的除錯方法
parse命令,scrapy shell,logging 一 parse命令 檢查spider輸出的最基本方法是使用parse命令。這能讓你在函式層上檢查spider哥哥部分的效果,其十分靈活並且已用。不過不能在 中測試。二 scrapy shell 基本使用是配合view 檢視scapy拿到的資料...
建立scrapy專案
1.windows r開啟 cmd命令列工具,cd desktop 進入到桌面目錄 2.輸入建立專案命令 scrapy startproject 專案名 3.cd 到 專案目錄下 cd專案名 4.執行建立爬蟲的命令 scrapy genspider 爬蟲名 爬蟲起始 5.使用pycharm開啟專案,...