採集的內容在管道中插入到mysql中:
class bookpipeline:
def __init__(self):
# connection database
self.connect = pymysql.connect(host='127.0.0.1', user='root', passwd='123456',
db='books') # 後面三個依次是資料庫連線名、資料庫密碼、資料庫名稱
# get cursor
self.cursor = self.connect.cursor()
print("連線資料庫成功")
def process_item(self, item, spider):
# sql語句
insert_sql = "insert into book1(tit,content) values (%s,%s)"
print(item)
# 執行插入資料到資料庫操作
self.cursor.execute(insert_sql, (item['tit'],
item['content']))
# 提交,不進行提交無法儲存到資料庫
self.connect.commit()
def close_spider(self, spider):
# 關閉游標和連線
self.cursor.close()
self.connect.close()
使用scrapy編寫爬蟲並入庫Mysql全過程
1 使用pip install scrapy 安裝scrapy 2 開啟cmd命令列視窗,建立屬於自己的爬蟲專案工程。命令 scrapy startproject first 3 通過步驟2爬蟲工程已經建立完畢,使用pycharm開啟,其目錄結構如下 4 其中spiders資料夾專門用來存放爬蟲的檔...
scrapy框架爬取資料入庫(附詳細介紹)
1.建立scrapy專案 安裝scrapy框架和mysql資料庫就不在這討論了,論壇上也有很多 在這裡我建立的專案名稱是 testmysql 命令 cmd 是 scrapy startproject testmysql 最好是在你想要建立專案的目錄裡面建立,建立好後,會看到如下檔案 2.建立spid...
Mysql 匯入資料 本地 HDFS資料入庫
在mysql中建好錶後,匯入資料的時候使用了2種方法 1 由txt xlsx xls檔案匯入 網上步驟一步一步進行即可,位址鏈結 tips 使用該方法遇到的問題 1 使用txt文件匯入資料時,即使txt文件資料和表字段一一選好,但還是會出現錯位的情況,不知為何在他匯入的時候會自己重新排插入表字段的順...