pycharm實現scrapy爬蟲的生成和入門

2021-10-06 16:32:21 字數 930 閱讀 1898

雖然是用pycharm進行除錯,但是最開始一定不要在pycharm中生成專案,因為要用scrapy自己生成乙個專案,否則會缺少如同scrapy.cfg的配置檔案,導致unknown command: crawl錯誤。

所以先在自己想要的地方開始:

scrapy startproject myproject
注意這個myproject是自定義的資料夾。然後在pycharm裡找到這個專案。發現已經自動生成了這樣的結構,也幫忙配置好了環境變數。

建立專案之後,我們還需要建立乙個爬蟲,官方的語法如下:

scrapy genspider [-t template]

注意:name引數是爬蟲名,不能與專案名相同,domain引數是想要爬取的**。然後就能在spiders裡面看到剛剛的生成的爬蟲。

runspider命令可以直接通過執行 .py 檔案來啟動爬蟲。此時要退到根目錄下輸入,注意不需要輸入.py:

scrapy crawl
如果不想在命令列執行就可以在根目錄下設定啟動的指令碼,我設定的名字叫做start.py,其中myspider可以替換成任意爬蟲名字。

接下來是命令列的除錯:

scrapy shell [url]
注意官方文件:

pycharm 安裝scrapy報錯解決辦法

如果你遇到的問題是 microsoft visual c 14.0 is required,那麼你來對地方了!出現這個錯誤可能並不是真的缺少c 庫,你可能缺少twisted包,這個包是scrapy的基礎。twisted 18.4.0 cp36 cp36m win32.whl我把它放在d twiste...

PyCharm下進行Scrapy專案的除錯

在命令列輸入 scrapy startproject project nameproject name為專案名稱,比如我的專案名稱為py scrapyjobbole,生成的目錄為 在命令列輸入 scrapy genspider jobbole spider名稱 blog.jobbole.com 爬取...

Pycharm下新增scrapy庫報錯解決方法

然後就要告訴你在 可以利用pycharm安裝第三方的包了,首先開啟pycharm的左上角的file然後找到setting的選項 開啟了setting之後就像上圖選定的藍色的選項,然後就會出現已經安裝好了的第三方的包。有沒有發現的右側有乙個綠色的加號,點進那個加號,然後就會出現如下的視窗。然後開始安裝...