雖然是用pycharm進行除錯,但是最開始一定不要在pycharm中生成專案,因為要用scrapy自己生成乙個專案,否則會缺少如同scrapy.cfg的配置檔案,導致unknown command: crawl
錯誤。
所以先在自己想要的地方開始:
scrapy startproject myproject
注意這個myproject是自定義的資料夾。然後在pycharm裡找到這個專案。發現已經自動生成了這樣的結構,也幫忙配置好了環境變數。
建立專案之後,我們還需要建立乙個爬蟲,官方的語法如下:
scrapy genspider [-t template]
注意:name引數是爬蟲名,不能與專案名相同,domain引數是想要爬取的**。然後就能在spiders裡面看到剛剛的生成的爬蟲。
runspider命令可以直接通過執行 .py 檔案來啟動爬蟲。此時要退到根目錄下輸入,注意不需要輸入.py:
scrapy crawl
如果不想在命令列執行就可以在根目錄下設定啟動的指令碼,我設定的名字叫做start.py,其中myspider可以替換成任意爬蟲名字。
接下來是命令列的除錯:
scrapy shell [url]
注意官方文件: pycharm 安裝scrapy報錯解決辦法
如果你遇到的問題是 microsoft visual c 14.0 is required,那麼你來對地方了!出現這個錯誤可能並不是真的缺少c 庫,你可能缺少twisted包,這個包是scrapy的基礎。twisted 18.4.0 cp36 cp36m win32.whl我把它放在d twiste...
PyCharm下進行Scrapy專案的除錯
在命令列輸入 scrapy startproject project nameproject name為專案名稱,比如我的專案名稱為py scrapyjobbole,生成的目錄為 在命令列輸入 scrapy genspider jobbole spider名稱 blog.jobbole.com 爬取...
Pycharm下新增scrapy庫報錯解決方法
然後就要告訴你在 可以利用pycharm安裝第三方的包了,首先開啟pycharm的左上角的file然後找到setting的選項 開啟了setting之後就像上圖選定的藍色的選項,然後就會出現已經安裝好了的第三方的包。有沒有發現的右側有乙個綠色的加號,點進那個加號,然後就會出現如下的視窗。然後開始安裝...