在我們處理完資料後,習慣把它放在原有的位置,但是這樣也會出現一定的隱患。如果因為新資料的加入或者其他種種原因,當我們再次想要啟用這個檔案的時候,小夥伴們就會開始著急卻怎麼也翻不出來,似乎也沒有其他更好的蒐集辦法,而重新進行資料整理顯然是不現實的。下面我們就一起看看python爬蟲中sc處理專案資料的方法吧。
1、拉取專案
$ git clone
$ cd tweetscraper/
$ pip install -r requirements.txt #add '--user' if you are not root
$ scrapy list
$ #if the output is 'tweetscraper', then you are ready to go.
2、資料持久化
通過閱讀文件,我們發現該專案有三種持久化資料的方式,第一種是儲存在檔案中,第二種是www.cppcns.com儲存在mongo中,第三種是儲存在mysql資料庫中。因為我們抓取的資料需要做後期的分析,所以,需要將資料儲存在mysql中。
抓取到的資料預設是以json格式儲存在磁碟 ./data/tweet/ 中的,所以,需要修改配置檔案 tweetscraper/settings.py 。
item_pipelines =
#settings for mysql
mysql_snyrycxcxerver = "18.126.219.16"
mysql_db = "scraper"
mysql_table = "tweets" # the table will be created automatically
mysql_user = "root" # mysql user to use (should h**e insert access granted to the database/table
mysql_pwd = "admin123456" # mysql user's password
內容擴充套件:
scrapy.cfg是專案的配置檔案
from scrapy.spider import basespider
class dmozspider(basespider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = [
"",""
]def parse(self, response):
filename = response.url.split("/")[-2]
open(filename, 'wb').write(response.body)
python中的Scrapy框架使用
scrapysheel scrapy終端是乙個互動終端,供您在未啟動spider的情況下嘗試及除錯您的爬取 其本意是用來測試提取資料的 不過您可以將其作為正常的python終端,在上面測試任何的python 該終端是用來測試xpath或css表示式,檢視他們的工作方式及從爬取的網頁中提取的資料。在編...
python中scrapy框架的簡單使用
注 對過去一周的學習有個簡單的總結,鞏固一下 加深記憶 安裝 pip install scrapy 報錯 少外掛程式的話 pip install upgrade incremental 公升級pip包 pip install twisted scrapy 底層的乙個框架 執行完之後在安裝scrapy...
Scrapy處理異常狀態碼
當爬取頁面狀態碼是異常狀態碼,但response是正常的時候,正常情況scrapy框架會判斷狀態碼,如果不是正常狀態碼會停止後續操作。raise httperror response,ignoring non 200 response 通過上面 可以看出,如果在請求一些頁面狀態碼異常,但respon...