一 磁碟io與預讀
考慮到磁碟io是非常高昂的操作,計算機作業系統做了一些優化,當一次io時,不光把當前磁碟位址的資料,而是把相鄰的資料也都讀取到記憶體緩衝區內,因為區域性預讀性原理告訴我們,當計算機訪問乙個位址的資料的時候,與其相鄰的資料也會很快被訪問到。每一次io讀取的資料我們稱之為一頁(page)。具體一頁有多大資料跟作業系統有關,一般為4k或8k,也就是我們讀取一頁內的資料時候,實際上才發生了一次io,這個理論對於索引的資料結構設計非常有幫助。
二 索引的資料結構
任何一種資料結構都不是憑空產生的,一定會有它的背景和使用場景,我們現在總結一下,我們需要這種資料結構能夠做些什麼,其實很簡單,那就是:每次查詢資料時把磁碟io次數控制在乙個很小的數量級,最好是常數數量級。那麼我們就想到如果乙個高度可控的多路搜尋樹是否能滿足需求呢?就這樣,b+樹應運而生。
如上圖,是一顆b+樹,關於b+樹的定義可以參見b+樹,這裡只說一些重點,淺藍色的塊我們稱之為乙個磁碟塊,可以看到每個磁碟塊包含幾個資料項(深藍色所示)和指標(黃色所示),如磁碟塊1包含資料項17和35,包含指標p1、p2、p3,p1表示小於17的磁碟塊,p2表示在17和35之間的磁碟塊,p3表示大於35的磁碟塊。真實的資料存在於葉子節點即3、5、9、10、13、15、28、29、36、60、75、79、90、99。非葉子節點只不儲存真實的資料,只儲存指引搜尋方向的資料項,如17、35並不真實存在於資料表中。
###b+樹的查詢過程
如圖所示,如果要查詢資料項29,那麼首先會把磁碟塊1由磁碟載入到記憶體,此時發生一次io,在記憶體中用二分查詢確定29在17和35之間,鎖定磁碟塊1的p2指標,記憶體時間因為非常短(相比磁碟的io)可以忽略不計,通過磁碟塊1的p2指標的磁碟位址把磁碟塊3由磁碟載入到記憶體,發生第二次io,29在26和30之間,鎖定磁碟塊3的p2指標,通過指標載入磁碟塊8到記憶體,發生第三次io,同時記憶體中做二分查詢找到29,結束查詢,總計三次io。真實的情況是,3層的b+樹可以表示上百萬的資料,如果上百萬的資料查詢只需要三次io,效能提高將是巨大的,如果沒有索引,每個資料項都要發生一次io,那麼總共需要百萬次的io,顯然成本非常非常高。
###b+樹性質
1.索引欄位要盡量的小:通過上面的分析,我們知道io次數取決於b+數的高度h,假設當前資料表的資料為n,每個磁碟塊的資料項的數量是m,則有h=㏒(m+1)n,當資料量n一定的情況下,m越大,h越小;而m = 磁碟塊的大小 / 資料項的大小,磁碟塊的大小也就是乙個資料頁的大小,是固定的,如果資料項佔的空間越小,資料項的數量越多,樹的高度越低。這就是為什麼每個資料項,即索引欄位要盡量的小,比如int佔4位元組,要比bigint8位元組少一半。這也是為什麼b+樹要求把真實的資料放到葉子節點而不是內層節點,一旦放到內層節點,磁碟塊的資料項會大幅度下降,導致樹增高。當資料項等於1時將會退化成線性表。
2.索引的最左匹配特性(即從左往右匹配):當b+樹的資料項是復合的資料結構,比如(name,age,***)的時候,b+數是按照從左到右的順序來建立搜尋樹的,比如當(張三,20,f)這樣的資料來檢索的時候,b+樹會優先比較name來確定下一步的所搜方向,如果name相同再依次比較age和***,最後得到檢索的資料;但當(20,f)這樣的沒有name的資料來的時候,b+樹就不知道下一步該查哪個節點,因為建立搜尋樹的時候name就是第乙個比較因子,必須要先根據name來搜尋才能知道下一步去**查詢。比如當(張三,f)這樣的資料來檢索時,b+樹可以用name來指定搜尋方向,但下乙個欄位age的缺失,所以只能把名字等於張三的資料都找到,然後再匹配性別是f的資料了, 這個是非常重要的性質,即索引的最左匹配特性。
三 索引型別
1.普通索引index :加速查詢
2.唯一索引 主鍵索引:primary key :加速查詢+約束(不為空且唯一) 唯一索引:unique:加速查詢+約束 (唯一)
3.聯合索引 -primary key(id,name):
聯合主鍵索引 -unique(id,name):
聯合唯一索引 -index(id,name):聯合普通索引
4.全文索引fulltext :用於搜尋很長一篇文章的時候,效果最好。
5.空間索引spatial :了解就好,幾乎不用
四 索引的兩大型別hash與btree#我們可以在建立上述索引的時候,為其指定索引型別,分兩類
hash型別的索引:查詢單條快,範圍查詢慢btree型別的索引:b+樹,層數越多,資料量指數級增長(我們就用它,因為innodb預設支援它)
Mysql學習之索引介紹及其原理
1 索引的分類 1 單值索引 即乙個索引只包含單個列,乙個表可以有多個單值索引。2 唯一索引 索引列的值必須唯一,但是允許有空值。3 復合索引 即乙個索引包含多個列。2 語法 1 建立 create unique index indexname on mytable columnname lengt...
吃透MySQL(四) 索引原理詳細介紹
以機械硬碟來說,先了解幾個概念 1.1,扇區 磁碟儲存的最小單位,扇區一般大小為512byte。1.2,磁碟塊 檔案系統與磁碟互動的的最小單位 計算機系統讀寫磁碟的最小單位 乙個磁碟塊由連續幾個 2 n 扇區組成,塊一般大小一般為4kb。1.3,磁碟讀取資料 磁碟讀取資料靠的是機械運動,每次讀取資料...
MySQL索引原理之索引原理
索引定義 是儲存引擎用於快速查詢記錄的一種資料結構。需要額外開闢空間和資料維護工作。索引是物理資料頁儲存,在資料檔案中 innodb,ibd檔案 利用資料頁 page 儲存。索引可以加快檢索速度,但是同時也會降低增刪改操作速度,索引維護需要代價。索引涉及的理論知識 二分查詢法 hash和b tree...