HBase二級索引的設計

2022-07-04 09:12:13 字數 2104 閱讀 4261

摘要

最近做的乙個專案涉及到了多條件的組合查詢,資料儲存用的是hbase,恰恰hbase對於這種場景的查詢特別不給力,一般hbase的查詢都是通過rowkey(要把多條件組合查詢的字段都拼接在rowkey中顯然不太可能),或者全表掃瞄再結合過濾器篩選出目標資料(太低效),所以通過設計hbase的二級索引來解決這個問題

查詢需求

多個查詢條件構成多維度的組合查詢,需要根據不同組合查詢出符合查詢條件的資料

hbase本身只提供基於行鍵和全表掃瞄的查詢,而行鍵索引單一,對於多維度的查詢困難(如:對於**+天數+酒店+交通的多條件組合查詢困難),全表掃瞄效率低下。

設計思路

(圖1)設計思路

二級索引的本質就是建立各列值與行鍵之間的對映關係

如(圖1),當要對f:c1這列建立索引時,只需要建立f:c1各列值到其對應行鍵的對映關係,如c11->rk1等,這樣就完成了對f:c1列值的二級索引的構建,當要查詢符合f:c1=c11對應的f:c2的列值時(即根據c1=c11來查詢c2的值,圖1青色部分)

其查詢步驟如下:

1. 根據c1=c11到索引資料中查詢其對應的rk,查詢得到其對應的rk=rk1

2. 得到rk1後就自然能根據rk1來查詢c2的值了 這是構建二級索引大概思路,其他組合查詢的聯合索引的建立也類似。

邏輯檢視

(圖2) 部分資料在hbase中儲存的邏輯檢視

表中有兩個列族,其中乙個是列族index,其並不儲存任何的資料,僅僅是為了將索引資料與主資料分開儲存(因為在hbase中同一列族的資料會被壓縮在一起儲存),索引資料的行鍵格式為:regionstartkey-索引名-索引鍵-rowkwy,其他regionstartkey就是出發點,因為在建立hbase表時就對錶根據出發點進行了預分割槽,索引鍵為主資料中某列(可能是多列)的列值,rowkey對應主資料的行鍵;主資料的行鍵格式為:出發點-目的地-價效比,所以在儲存資料時,同一出發點 目的地的資料預設是按價效比排序的;索引資料的行鍵和主資料的行鍵的字首都是出發點,所以在儲存時相同出發點的索引資料和主資料是儲存在同乙個region中的,這樣避免了在通過索引得到rk後又去其他region上查詢目標資料,提高了查詢效率。

假設查詢的條件:

其查詢步驟如下:

首先根據查詢條件來確定索引名,根據其查詢條件為出遊天資料 酒店等級確定索引名為aaa,這樣就將查詢的範圍縮小在索引名為aaa的索引資料區內

根據出遊天數的值為3天,酒店等級的值為4,結合phoenix的模糊查詢就能確定符合這兩個查詢條件的索引資料的行鍵

得到索引資料行鍵後就擷取其最後的rowkey

最關鍵的rowkey得到後就能輕易的獲得其對應的列值了,整個查詢過程就結束了。

對於其他更為複雜的組合查詢的二級索引設計如類似。

需要額外的儲存空間,屬 一種以空間換時間的方式。

注意

1.將查詢條件中的可選字段轉換成數字能節省儲存空間,如交通工具中的飛機,高鐵,火車,輪船,汽車分別轉換成5,4,3,2,1

2.將漢字轉換成拼音才能保證資料按hbase的排序規則排序

3.如果資料量在百萬級別以下可使用phoenix(hbase的sql查詢引擎)模糊查詢功能減少索引行鍵的設計

參考資料

hbase高效能複雜條件查詢引擎

奇虎360 hbase二級索引的設計與實踐

Hbase二級索引

hbase的查詢都是通過rowkey 要把多條件組合查詢的字段都拼接在rowkey中顯然不太可能 或者全表掃瞄再結合過濾器篩選出目標資料 太低效 所以通過設計hbase的二級索引來解決這個問題。多個查詢條件構成了多維度的組合查詢,需要根據不同組合查詢出符合條件的資料。例如 按照電影維度查詢資料適合,...

HBase 二級索引的設計 案例講解

多個查詢條件構成多維度的組合查詢,需要根據不同組合查詢出符合查詢條件的資料 hbase本身只提供基於行鍵和全表掃瞄的查詢,而行鍵索引單一,對於多維度的查詢困難 如 對於 天數 酒店 交通的多條件組合查詢困難 全表掃瞄效率低下。設計思路 圖1 設計思路 二級索引的本質就是建立各列值與行鍵之間的對映關係...

HBase 實現二級索引

使用整合mapreduce的方式建立hbase索引。主要的流程如下 1.11.2 獲取rowkey和指定欄位名稱和字段值 1.3建立put例項,value rowkey,rowkey columnname columnvalue 1.4使用identitytablereducer將資料寫入索引表 類...