一道面試的問題,當mysql表中有資料量很大的時候如何做分頁。。。。當時只知道在資料量很大的時候可以分表,但不知道不分表時可以怎麼做。。。。唉,誰讓**商就那麼幾條資料,乙個簡單的limit,offset就完全hold住了(捂臉)。。。很多應用往往只展示最新或最熱門的幾條記錄,但為了舊記錄仍然可訪問,所以就需要個分頁的導航欄。然而,如何通過mysql更好的實現分頁,始終是比較令人頭疼的問題。雖然沒有拿來就能用的解決辦法,但了解資料庫的底層或多或少有助於優化分頁查詢。
我們先從乙個常用但效能很差的查詢來看一看。
select *
from city
order by id desc
limit 0, 15
這個查詢耗時0.00sec。so,這個查詢有什麼問題呢?實際上,這個查詢語句和引數都沒有問題,因為它用到了下面表的主鍵,而且只讀取15條記錄。
create table city (
id int(10) unsigned not null auto_increment,
city varchar(128) not null,
primary key (id)
) engine=innodb;
真正的問題在於offset(分頁偏移量)很大的時候,像下面這樣:
select *
from city
order by id desc
limit 100000, 15;
上面的查詢在有2m行記錄時需要0.22sec,通過explain檢視sql的執行計畫可以發現該sql檢索了100015行,但最後只需要15行。大的分頁偏移量會增加使用的資料,mysql會將大量最終不會使用的資料載入到記憶體中。就算我們假設大部分**的使用者只訪問前幾頁資料,但少量的大的分頁偏移量的請求也會對整個系統造成危害。facebook意識到了這一點,但facebook並沒有為了每秒可以處理更多的請求而去優化資料庫,而是將重心放在將請求響應時間的方差變小。
對於分頁請求,還有乙個資訊也很重要,就是總共的記錄數。我們可以通過下面的查詢很容易的獲取總的記錄數。
select count(*)
from city;
然而,上面的sql在採用innodb為儲存引擎時需要耗費9.28sec。乙個不正確的優化是採用sql_calc_found_rows
,sql_calc_found_rows
可以在能夠在分頁查詢時事先準備好符合條件的記錄數,隨後只要執行一句select found_rows();
就能獲得總記錄數。但是在大多數情況下,查詢語句簡短並不意味著效能的提高。不幸的是,這種分頁查詢方式在許多主流框架中都有用到,下面看看這個語句的查詢效能。
select sql_calc_found_rows *
from city
order by id desc
limit 100000, 15;
這個語句耗時20.02sec,是上乙個的兩倍。事實證明使用sql_calc_found_rows
做分頁是很糟糕的想法。
下面來看看到底如何優化。文章分為兩部分,第一部分是如何獲取記錄的總數目,第二部分是獲取真正的記錄。
如果採用的引擎是myisam,可以直接執行count(*)去獲取行數即可。相似的,在堆表中也會將行數儲存到表的元資訊中。但如果引擎是innodb情況就會複雜一些,因為innodb不儲存表的具體行數。
我們可以將行數快取起來,然後可以通過乙個守護程序定期更新或者使用者的某些操作導致快取失效時,執行下面的語句:
select count(*)
from city
use index(primary);
下面進入這篇文章最重要的部分,獲取分頁要展示的記錄。上面已經說過了,大的偏移量會影響效能,所以我們要重寫查詢語句。為了演示,我們建立乙個新的表「news」,按照時事性排序(最新發布的在最前面),實現乙個高效能的分頁。為了簡單,我們就假設最新發布的新聞的id也是最大的。
create table news(
id int unsigned primary key auto_increment,
title varchar(128) not null
) engine=innodb;
select *
from news where id < $last_id
order by id desc
limit $perpage
select *
from news where id > $last_id
order by id asc
limit $perpage
select id
from (
select id, ((@cnt:= @cnt + 1) + $perpage - 1) % $perpage cnt
from news
join (select @cnt:= 0)t
where id < $last_id
order by id desc
limit $perpage * $buttons
)cwhere cnt = 0;
通過上面的語句可以為每乙個分頁的按鈕計算出乙個offset對應的id。這種方法還有乙個好處。假設,**上正在發布一片新的文章,那麼所有文章的位置都會往後移一位,所以如果使用者在發布文章時換頁,那麼他會看見一篇文章兩次。如果固定了每個按鈕的offset id,這個問題就迎刃而解了。mark callaghan發表過一篇類似的部落格,利用了組合索引和兩個位置變數,但是基本思想是一致的。
如果表中的記錄很少被刪除、修改,還可以將記錄對應的頁碼儲存到表中,並在該列上建立合適的索引。採用這種方式,當新增乙個記錄的時候,需要執行下面的查詢重新生成對應的頁號。
set p:= 0;
update news set page=ceil((p:= p + 1) / $perpage) order by id desc;
當然,也可以新增乙個專用於分頁的表,可以用個後台程式來維護。
update pagination t
join (
select id, ceil((p:= p + 1) / $perpage) page
from news
order by id
)con c.id = t.id
set t.page = c.page;
現在想獲取任意一頁的元素就很簡單了:
select *
from news a
join pagination b on a.id=b.id
where page=$offset;
還有另外一種與上種方法比較相似的方法來做分頁,這種方式比較試用於資料集相對小,並且沒有可用的索引的情況下—比如處理搜尋結果時。在乙個普通的伺服器上執行下面的查詢,當有2m條記錄時,要耗費2sec左右。這種方式比較簡單,建立乙個用來儲存所有id的臨時表即可(這也是最耗費效能的地方)。
create temporary table _tmp (key sort(random))
select id, floor(rand() * 0x8000000) random
from city;
alter table _tmp add offset int unsigned primary key auto_increment, drop index sort, order by random;
接下來就可以向下面一樣執行分頁查詢了。
select *
from _tmp
where offset >= $offset
order by offset
limit $perpage;
簡單來說,對於分頁的優化就是。。。避免資料量大時掃瞄過多的記錄。
部落格比較長,所以翻譯的有些粗糙。。。,之後會在好好檢查一遍的。在自己做測試時,有些查詢時間與作者有點不一致,不過作者這篇部落格是寫於2023年的,so~不要在意具體資料,領會精神吧~~
MySQL分頁效能優化
在對大表進行分頁時,如果在服務端實現分頁,大多數情況採用sql的limit語法來實現。但是當頁數越來越大時,效能很可能成為問題,尤其是需要查詢表的所有字段。1.索引與非索引字段 在查詢的結果集中,如果只包含索引字段,效能相比於包含非索引字段,差別很大。下面是乙個簡單的例子,在大約50w行的表上操作 ...
mysql 分頁效能優化
最簡單的分頁方法是這樣的 select from exarticletemp order by createdate desc limit 10000,10 該表中存在5w左右資料 執行時間平均在10s左右,因此該種方式在資料量大的情況下查詢效率極低。優化方式有以下幾種 1.此種方式平均在7 8s之...
mysql高效能指南 MySQL效能優化指南
資料庫優化,是乙個存在了幾十年的問題,更是每乙個後端開發者精進路上必須掌握的技能。而效能優化的核心,就是摳門。在完成功能的前提下 對於cpu,執行越少的 那麼所需要的cpu時間就越少,因此程式就會越快 對於io,執行越少次數的i o,阻塞於i o的時間就會越少 對於網路,傳輸越少的資料,那麼所需要的...