百萬級海量資料記憶體資料庫和資料庫的效能對比

2021-10-10 11:54:00 字數 3633 閱讀 4432

最近公司準備把記憶體資料庫和資料庫換成國產的數蠶資料庫。老大讓我來測試一下效能。週末正好加個小班小試了一下。

環境準備:

官方提供的包括的linux和windows平台專業版各一套。我這裡測試是windows平台使用windows 10系統。

開發機器:cpu i7 8700, 記憶體 16g, 256g固態盤。

資料準備:

使用100000,1000000條包含整數型別,浮點型別,日期型別,字串型別的資料,其中name,date,value含有重複值。構造的資料表為id,name,date,value的字段表。

測試內容包含:插入查詢

插入分別使用insert, sql檔案和import功能。

執行sct_local_mem.exe,或者執行sct_s_mem.exe再執行sct_c_mem.exe連線服務端。

以下測試在sct_local_mem.exe上,經測試通過網路速度對這部分插入測試幾乎沒有影響。

首先構造資料表

create table test(id u32(false), name string(true), date date(true), value float(true));

insert使用資料庫序列函式seq可以直接生成序列。

insert into test (id, name, date, value) select seq(100000), constants("張三",100000), constants (date(),100000), seq(100000)+1.0;
execute time: 743390 us                134518條每秒 使用

select "insert into test (id,name,date,value) values(" + x2str(id) + ",\"" + name + "\",\"" + x2str(date) + "\"," + x2str(value) + ");" as sql from test export as csv path="test.sql";
生成sql檔案。去除第一行

sql檔案內容為100000行

insert into test(id, name, date, value) values(0,"張三","2020-11-12",1.000000);

insert into test(id, name, date, value) values(1,"張三","2020-11-12",2.000000);

insert into test(id, name, date, value) values(2,"張三","2020-11-12",3.000000);

insert into test(id, name, date, value) values(3,"張三","2020-11-12",4.000000);

使用exec 執行sql檔案

exec "test.sql"

execute time: 12597752 us           7938條每秒

使用import載入csv時間

select * from test export as csv path="test.csv";

import test from csv path="test.csv";

execute time: 875321 us            114285條每秒

對應百萬結果:

import time: execute time: 9379922 us                 106610 條每秒

大體上可以看出時間上是亞線性關係穩定的增加。

查詢測試(僅在1000000資料下):

select id,date from test where first 100;
execute time: 447 us

select id,date from test where first 10000;
execute time: 7067 us

select id,date from test where id==10000;
execute time: 345 us

查詢速度可以媲美nosql資料庫

構造表

create table test(id u32(false), name string16(true), date date(true), value float(true));

insert插入資料

insert into test (id, name, date, value) select seq(100000), constants(「張三」,100000), constants (date(),100000), seq(100000)+1.0;

execute time: 247098217 us                 平均404條每秒

exec "test.sql";

execute time: 274124784 us                 平均364條每秒

資料無import命令使用load命令替代

load test from csv path="test.csv";

execute time: 2055357 us                   平均48543 條每秒

百萬insert和exec時間比較長就沒有測試,只測試load

execute time: 18544048 us                  平均54054條每秒

查詢測試(僅在1000000資料下):

select id,date from test where first 100;
execute time: 1256 us

select id,date from test where first 10000;
execute time: 59253 us

select id,date from test where id==10000;
execute time: 465 us

整體看對比記憶體資料庫硬碟直接insert語句插入速度慢了20倍左右。

load/import匯入資料比記憶體資料庫只慢了一倍左右。

查詢速度少量查詢慢了約一倍,查詢越多速度慢的越多。

記憶體資料庫速度上優勢很明顯,資料庫產品整體上效能比較穩定,查詢效能非常出色。適合多讀少寫的業務場景。

更新一下:

後來技術服務人員告訴我們說插入是預設不啟用寫快取的,啟用寫快取後我又測試了一下插入速度,大約提公升了四倍左右效能,2000條左右每秒,和其它資料庫效能差不多。

Oceanbase 千億級海量資料庫

from 我在資料庫大會有乙個報告 從大學的資料結構課程可以知道,資料量比較大時,有兩種資料結構很常用 雜湊表和b 樹,分布式系統也是類似的。如下圖 amazon的系統實現了乙個分布式雜湊表,而google bigtable,yahoo pnuts,microsoft sql azure實現了一顆分...

Oceanbase 千億級海量資料庫

from 我在資料庫大會有乙個報告 從大學的資料結構課程可以知道,資料量比較大時,有兩種資料結構很常用 雜湊表和b 樹,分布式系統也是類似的。如下圖 amazon的系統實現了乙個分布式雜湊表,而google bigtable,yahoo pnuts,microsoft sql azure實現了一顆分...

資料庫和資料庫物件

系統資料庫是指安裝完mysql伺服器後,會附帶的一些資料庫,系統資料庫會記錄一些必需的資訊,使用者不能直接修改這些系統資料庫。各個系統資料庫的作用如下 information schema 主要儲存系統中的一些資料庫物件資訊,如使用者表資訊 列資訊 許可權資訊 字符集資訊和分割槽資訊等。perfor...