以下資料是google在2023年發布的乙個測試資料。
algorithm
% remaining
encoding
decoding
gzip
13.4%
21 mb/s
118 mb/s
lzo20.5%
135 mb/s
410 mb/s
22.2%
172 mb/s
409 mb/s
資料**hbase: the definitive guide
1)gzip的壓縮率最高,但是其實cpu密集型的,對cpu的消耗比其他演算法要多,壓縮和解壓速度也慢;
2)lzo的壓縮率居中,比gzip要低一些,但是壓縮和解壓速度明顯要比gzip快很多,其中解壓速度快的更多;
下面是阿里云云資料庫hbase版中關於幾個壓縮演算法的開發指南。
業務型別
無壓縮表大小
lzo(壓縮率/解壓速度mb/s)
zstd(壓縮率/解壓速度mb/s)
lz4(壓縮率/解壓速度mb/s)
監控類419.75t
5.82/372
13.09/256
5.19/463.8
日誌類77.26t
4.11/333
6.0/287
4.16/496.1
風控類147.83t
4.29/297.7
5.93/270
4.19/441.38
消費記錄
108.04t
5.93/316.8
10.51/288.3
5.55/520.3
create
'test'
,
disable
'test'
;alter
'test'
, name =
>
'info'
, compression =
>
'lzo'
enable
'test'
major_compact 'test'
大資料儲存HBase
這兩天要寫乙個方案,某單位想建乙個中心資料庫,匯聚各業務系統資料,以及各種網上抓取的預報資料。我設想是用hbase。主要考慮點是 1 開源 2 支援海量資料 該單位的資料量增長按規劃還是很大的,大約每天20gb 關係型資料庫就不考慮了。rdbms本質上是單機系統,拿mysql來說吧,主從複製,讀寫分...
大資料HBase系列之HBase基本操作
hbase version hbase zkcli hbase shell 2.1 建立表 語法 create 表名 列族名 create student info 2.2 顯示所有表 語法 list 或 list 表名 list student 2.3 顯示表描述 語法 describe 表名 d...
大資料框架基礎HBase計數和截斷
可以使用count命令計算表的行數量。它的語法如下 count 刪除第一行後,表emp就只有兩行。驗證它,如下圖所示。hbase main 023 0 count emp 2 row s in 0.090 seconds 2此命令將禁止刪除並重新建立乙個表。truncate 的語法如下 hbase ...