scrapy簡單使用方法

2021-10-02 15:38:13 字數 889 閱讀 7493

步驟:

1、在編譯器(我用的pycharm)裡新建資料夾,名稱隨意

2、從終端(anaconda prompt)中進入所建立的資料夾(anaconda prompt中切換c盤和d盤方法見上篇部落格)

3、在該資料夾中建立scrapy框架,即執行命令:

scrapy startproject name
其中,name是自己命名的專案名 

4、在編譯器中更改該資料夾中新生成的settings檔案:

第22行,把 robotstxt_obey=true  改為  false(這行**表示是否遵循爬蟲協議,如果是ture的可能有些內容無法爬取)

第67到69行**解注釋,並把300改為1(這是優先順序設定)

5、在name資料夾中的spider資料夾下進行爬蟲操作,因此在anaconda prompt中更改當前路徑,進入到spider資料夾

6、建立爬蟲檔案,即在anaconda prompt中執行命令:

scrapy genspider baidu_spider baidu.com
其中,baidu_spider為新建的python檔名稱,可以隨意更改,但不能與專案名相同,後面的baidu.com是準備爬取的**的url

7、在編譯器中開啟新建的baidu_spider檔案,之後所有的爬取操作都由這個檔案控制(主要由parse函式控制)。

補全baidu_spider.py中的url,更改parse中的內容(具體看需要,可以直接print(response.body)輸出網頁原始碼或者其他任意操作都可)

8、開始爬取,即在anaconda prompt中執行**:

git簡單使用方法

目標是看了這邊文章能夠滿足最基本的git使用需求。整個文章的遠端git庫以git.osc為例。安裝好後,滑鼠右鍵點git bash here,會出來命令列介面。首先到 目錄 root host mingw64 d cd root host mingw64 必須有,遠端git庫通過這個確定是誰提交的 ...

Git 簡單使用方法

git 常用命令 git init here 建立本地倉庫 repository 將會在資料夾下建立乙個 git 資料夾,git 資料夾裡儲存了所有的版本資訊 標記等內容 git clone 如果你需要與他人合作乙個專案,或者想要複製乙個專案,看看 你就可以轉殖那個專案。執行命令 git remot...

Vim簡單使用方法

基本上vi可以分為三種狀態,分別是命令模式 command mode 插入模式 insert mode 和底行模式 last line mode 各模式的功能區分如下 1 命令列模式command mode 控制螢幕游標的移動,字元 字或行的刪除,移動複製某區段及進入insert mode下,或者到...