pip install pymongo
2.設定pipelines.py檔案from scrapy.conf import settings
import pymongo
class
lreadprojectpipeline
(object):
def__init__
(self)
:# 獲取setting主機名、埠號和資料庫名稱
host = settings[
'mongodb_host'
] port = settings[
'mongodb_port'
] dbname = settings[
'mongodb_dbname'
]# 建立資料庫連線
client = pymongo.mongoclient(host=host,port=port)
# 指向指定資料庫
mdb = client[
'scrapy'
]# 獲取資料庫裡面存放資料的表名
self.post = mdb[settings[
'mongodb_docname']]
defprocess_item
(self, item, spider)
: data =
dict
(item)
# 向指定的表裡新增資料
self.post.insert(data)
return item
3.設定settings.py檔案#啟動時,自動載入配置資訊
item_pipelines =
#連線資料庫,配置mongodb資料庫資訊
#本地位址
mongodb_host=
'127.0.0.1'
#埠mongodb_port=
27017
#資料庫名
mongodb_dbname=
'scrapy'
#表名mongodb_docname=
'lread'
Python爬蟲框架Scrapy教程 1 入門
最近實驗室的專案中有乙個需求是這樣的,需要爬取若干個 數目不小 發布的文章元資料 標題 時間 正文等 問題是這些 都很老舊和小眾,當然也不可能遵守 microdata 這類標準。這時候所有網頁共用一套預設規則無法保證正確抓取到資訊,而每個網頁寫乙份spider 也不切實際。這時候,我迫切地希望能有乙...
scrapy爬蟲框架
作者經過幾周的python爬蟲實踐之後,深入學習了一下scrapy這個爬蟲框架,現將一些基本知識和 總結整理一下,以備後查。2.scrapy的命令列使用 這部分網上很多部落格都有總結,不需要背,理解會用主要的命令 startproject crawl fetch list genspider.即可,...
scrapy 爬蟲框架
1.安裝 公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功 只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱 執行此命令,可以生成乙個爬蟲專案 會預先生成...