我最近在涉及大量資料處理的專案中頻繁使用 sqlite3。我最初的嘗試根本不涉及任何資料庫,所有的資料都將儲存在記憶體中,包括字典查詢、迭代和條件等查詢。這很好,但可以放入記憶體的只有那麼多,並且將資料從磁碟重新生成或載入到記憶體是乙個繁瑣又耗時的過程。
我決定試一試sqlite3。 因為只需開啟與資料庫的連線, 這樣可以增加可處理的資料量,並將應用程式的載入時間減少到零。此外,我可以通過 sql 查詢替換很多python邏輯語句。
我想分享一些關於這次經歷的心得和發現。
tl;dr
1. 使用大量操作
如果你需要在資料庫中一次性插入很多行,那麼你真不應該使用 execute。sqlite3 模組提供了批量插入的方式:executemany。
而不是像這樣做:
for row in iter_data():connection.execute('insert into my_table values (?)', row)
你可以利用這個事實,即 executemany 接受元組的生成器作為引數:
connection.executemany('insert into my_table value (?)',
iter_data()
) 這不僅更簡潔,而且更高效。實際上,sqlite3 在幕後利用 executemany 實現 execute,但後者插入一行而不是多行。
我寫了乙個小的基準測試,將一百萬行插入空表(資料庫在記憶體中):
2. 你不需要游標
connection = sqlite3.connect(':memory:')cursor = connection.cursor()
# do something with
cursor
但大多數情況下,你根本不需要游標,你可以直接使用連線物件。
像 execute
executemany類似的操作可以直接在連線上呼叫。以下是乙個證明此事的示例:
import sqlite3connection = sqlite3(':memory:')
# create a table
connection.execute('create table events(ts, msg)')
# insert
values
connection.executemany(
'insert into events values (?,?)',
[ (1, 'foo'),
(2, 'bar'),
(3, 'baz')
] )
# print inserted rows
for row in connnection.execute('select * from events'):
print(row)
3. 游標(cursor)可被用於迭代
你可能經常會看到使用fetchone或fetchall來處理 select 查詢結果的示例。但是我發現處理這些結果的最自然的方式是直接在游標上迭代:
for row inconnection.execute('select * from events'):
print(row)
這樣一來,只要你得到足夠的結果,你就可以終止查詢,並且不會引起資源浪費。當然,如果事先知道你需要多少結果,可以改用 limit sql語句,但python生成器是非常方便的,可以讓你將資料生成與資料消耗分離。
4. 使用context managers(上下文管理器)
即使在處理sql事務的中間,也會發生討厭的事情。為了避免手動處理回滾或提交,你可以簡單地使用連線物件作為上下文管理器。 在以下示例中,我們建立了乙個表,並錯誤地插入了重複的值:
import sqlite3connection = sqlite3.connect(':memory:')
with
connection:
connection.execute(
'create table events(ts, msg, primary key(ts, msg))')
try:
with
connection:
connection.executemany('insert into events values (?, ?)', [
(1, 'foo'),
(2, 'bar'),
(3, 'baz'),
(1, 'foo'),
]) except (sqlite3.operationalerror, sqlite3.integrityerror) as e:
print('could not complete operation:', e)
# no row was inserted because transaction failed
for row in
connection.execute('select * from events'):
print(row)
connection.close()
5. 使用pragmas
…當它真的有用時
在你的程式中有幾個 pragma 可用於調整 sqlite3 的行為。特別地,其中乙個可以改善效能的是 synchronous :
connection.execute('pragma synchronous = off')你應該知道這可能是危險的。如果應用程式在事務中間意外崩潰,資料庫可能會處於不一致的狀態。所以請小心使用! 但是如果你要更快地插入很多行,那麼這可能是乙個選擇。
6. 推遲索引建立
假設你需要在資料庫上建立幾個索引,而你需要在插入很多行的同時建立索引。把索引的建立推遲到所有行的插入之後可以導致實質性的效能改善。
7. 使用佔位符插入 python 值
使用 python 字串操作將值包含到查詢中是很方便的。但是這樣做非常不安全,而 sqlite3 給你提供了更好的方法來做到這一點:
# do not do this!my_timestamp = 1
c.execute("select * from events where ts = '%s'" % my_timestamp)
# do this instead
my_timestamp = (1,)
c.execute('select * from events where ts = ?', my_timestamp)
此外,使用python%s(或格式或格式的字串常量)的字串插值對於 executemany 來說並不是總是可行。所以在此嘗試沒有什麼真正意義!
請記住,這些小技巧可能會(也可能不會)給你帶來好處,具體取決於特定的用例。你應該永遠自己去嘗試,決定是否值得這麼做。
讓 Python 更加充分的使用 Sqlite3
我最近在涉及大量資料處理的專案中頻繁使用 sqlite3。我最初的嘗試根本不涉及任何資料庫,所有的資料都將儲存在記憶體中,包括字典查詢 迭代和條件等查詢。這很好,但可以放入記憶體的只有那麼多,並且將資料從磁碟重新生成或載入到記憶體是乙個繁瑣又耗時的過程。我決定試一試sqlite3。因為只需開啟與資料...
讓Python更加充分的使用Sqlite3
我最近在涉及大量資料處理的專案中頻繁使用 sqlite3。我最初的嘗試根本不涉及任何資料庫,所有的資料都將儲存在記憶體中,包括字典查詢 迭代和條件等查詢。這很好,但可以放入記憶體的只有那麼多,並且將資料從磁碟重新生成或載入到記憶體是乙個繁瑣程式設計客棧又耗時的過程。我決定試一試sqlite3。因為只...
讓python程式設計更加絲滑的一些小技巧
翻譯自10 smooth python tricks for python gods 即使python語法十分簡單以至每個人都可以學習,然而掌握python的程度卻因人而異 python容易學習卻難以精通。在python中,通常可以通過不同方法來完成同一任務,然而犯錯卻十分容易,此外由於你不知道py...