1.1 資料儲存
① 行儲存
基於 hadoop 系統行儲存結構的優點在於快速資料載入和動態負載的高適應能力,但是行儲存不支援快速查詢,當查詢僅僅針對多列表中的少數幾列時,它不能跳過不必要的列讀取。同時,由於行儲存混合著不同資料值的列,行儲存不容易獲得乙個極高的壓縮比,即空間利用率不易大幅提高,儘管通過熵編碼和利用列相關性能夠獲得乙個較好的壓縮比,但是複雜資料儲存實現會導致解壓開銷增大。
② 列儲存
列儲存在查詢時列儲存能夠避免讀不必要的列,並且壓縮乙個列中的相似資料能夠達到較高的壓縮比。
③ 儲存方式的選擇
在資料倉儲的搭建中,我們選擇列儲存方式。
對於列式儲存正規化,有三種儲存格式可以選擇:rcfile,orc,parquet。
若論對 hive(以 mapreduce 為執行引擎)的支援 orc 是最好的,但是若論對 spark 等 hadoop 生態圈中更多的技術框架,parquet 的支援是最好的,而 spark 作為 hive 的執行引擎時效能非常好,因以我們這裡毫無疑問地選擇了 parquet。
1.2 資料壓縮
hive 中可用的壓縮格式如下表所示:
壓縮格式
工具演算法
檔案拓展名
是否可切分
default
無default
.delate
否gzip
gzip
default
.gz否
bzip2
bzip2
bzip2
.bz2
是lzo
lzop
lzo.lzo是無
否 1.3 執行引擎
Hive 資料倉儲
hive命令列模式 1 進入bin 執行.hiv 2 配置hive環境變數,直接執行命令 hive service cli 或 hive hive的web模式 執行hive service hwi 啟動後訪問http master 9999 hwi hive的遠端服務 預設埠 10000,執行啟動命...
資料倉儲Hive
資料倉儲是乙個面向主題的 整合的 相對穩定的 反映歷史變化的資料集合,用於支援管理決策。根本目的是為了支援企業內部的商業分析和決策,基於資料倉儲的分析結果,做出相關的經營決策.資料倉儲中的資料比較穩定,保留了大量歷史資料 而資料庫只儲存某一時刻的資料.對於傳統資料倉儲來說,既是資料儲存產品也是分析產...
資料倉儲Hive
乙個公司裡面不同專案可能用到不同的資料來源,有的存在mysql裡面,又的存在mongodb裡面,甚至還有些要做第三方資料。但是現在又想把資料整合起來,進行資料分析。此時資料倉儲 data warehouse,dw 就派上用場了。它可以對多種業務資料進行篩選和整合,可以用於資料分析 資料探勘 資料包表...