前面寫了一篇起步的跟著scrapy文件學爬蟲(1)
了,隔了好久才又過來需更了。
scrapy是通過scrapy命令列來進行控制的,這裡我們稱之為「scrapy tool」來區別子命令。對於子命令,我們直接稱之為「commands」或「scrapy commands」。
出於不同的需求,scrapy tool提供了許多命令,每條命令都接受一系列不同的引數和選項。
scrapy會在以下路徑中查詢 ini格式的scrapy.cfg引數配置檔案:
1. /etc/scrapy.cfg 或 c:\scrapy\scrapy.cfg (系統層面)
2. ~/.config/scrapy.cfg($xdg_config_home) 和 ~/.scrapy.cfg ($home)作為全域性配置(使用者層面)
3. scrapy.cg 內建在當前scrapy專案的根路徑下(專案層面)。
這些檔案裡的設定會按以下順序合併:使用者自定義優先順序高於系統層面配置(即2高於1),專案層面會覆蓋其它所有配置(即3高於1和2)。
*這裡提到的覆蓋是指同乙個條目在多個檔案中配置衝突了,會按照如此優先順序進行捨取,而非覆蓋所有。
scrapy還可以通過一些環節變數進行配置,例如:
scrapy的預設結構如下:
├── scrapy.cfg
└── tutorial
├── __init__.py
├── items.py
├── middlewares.py
├── pipelines.py
├── __pycache__
├── settings.py
└── spiders
├── __init__.py
└── __pycache__
└── spider1.py
└── spider2.py
...
scrapy.cfg就是上面提到的專案級的配置檔案。該檔案中包含python模組名的字段,定義了專案的設定,例如:
[settings]
default = myproject.settings
跟著鬼哥學爬蟲 1
好久沒公開過破解的文章了,手上的東西都不太方便公開,所以寫一點程式設計方面的文章。工作需求,最近在爬一些資料,下面主要介紹一下採用的beartiful soup,這個python下的乙個很方便用作爬蟲的解析器。老規矩,簡單介紹一下初始化使用,然後開始用乙個個案例才熟悉它的用法。0x01 簡介 bea...
跟著鬼哥學爬蟲 2 糗事百科
bs4中最重要的就是資料的分類,解析,獲取過程。即 response urllib2.urlopen res html response.read soup beautifulsoup html,lxml somedata soup.select div.content span 這裡的soup.s...
scrapy爬蟲框架使用教程2
下文中提到的所有命令,均是在shell 俗稱黑視窗或命令列中 輸入的 當你已經搭建好python開發環境,並且安裝好scrapy框架後,就可以開始乙個爬蟲專案了 新建專案命令如下 scrapy startproject myfirstproject 此命令缺省會在當前目錄下建立乙個名為myfires...