大講台談hive(中篇)

2021-07-04 09:14:00 字數 1905 閱讀 8014

hive

檔案儲存格式包括以下幾類:

1、textfile

2、sequencefile

3、rcfile

4、orcfile(0.11以後出現)

其中textfile為預設格式,建表時不指定預設為這個格式,匯入資料時會直接把資料檔案拷貝到hdfs上不進行處理。

sequencefile

,rcfile,orcfile格式的表不能直接從本地檔案匯入資料,資料要先匯入到textfile格式的表中,然後再從表中用insert匯入sequencefile,rcfile,orcfile表中。

一、textfile 格式

預設格式,資料不做壓縮,磁碟開銷大,資料解析開銷大。可結合gzip、bzip2使用(系統自動檢查,執行查詢時自動解壓),但使用這種方式,hive不會對資料進行切分, 從而無法對資料進行並行操作。

二、sequencefile 格式

sequencefile

是hadoop api提供的一種二進位制檔案支援,其具有使用方便、可分割、可壓縮的特點。sequencefile支援三種壓縮選擇:none,record,block。record壓縮率低,一般建議使用block壓縮。

三、rcfile 檔案格式

rcfile

是一種行列儲存相結合的儲存方式。首先,其將資料按行分塊,保證同乙個record在乙個塊上,避免讀乙個記錄需要讀取多個block。其次,塊資料列式儲存,有利於資料壓縮和快速的列訪問。

四、orcfile()

五、再看textfile、sequencefile、rcfile三種檔案的儲存情況

[[email protected]~]$ hadoop dfs -dus /user/hive/warehouse/*

hdfs:    0

hdfs:    0

hdfs:    0

hdfs:    102638073

hdfs:   112497695

hdfs:  536799616

hdfs:  107308067

[[email protected]~]$ hadoop dfs -ls /user/hive/warehouse/*/

-rw-r--r--   2 hadoop supergroup   51328177 2014-03-20 00:42/user/hive/warehouse/rcfile_table/000000_0

-rw-r--r--   2 hadoop supergroup   51309896 2014-03-20 00:43/user/hive/warehouse/rcfile_table/000001_0

-rw-r--r--   2 hadoop supergroup   56263711 2014-03-20 01:20 /user/hive/warehouse/seqfile_table/000000_0

-rw-r--r--   2 hadoop supergroup   56233984 2014-03-20 01:21/user/hive/warehouse/seqfile_table/000001_0

-rw-r--r--   2 hadoop supergroup  536799616 2014-03-19 23:15/user/hive/warehouse/testfile_table/weibo.txt

-rw-r--r--   2 hadoop supergroup   53659758 2014-03-19 23:24/user/hive/warehouse/textfile_table/000000_0.gz

-rw-r--r--   2 hadoop supergroup   53648309 2014-03-19 23:26/user/hive/warehouse/textfile_table/000001_1.gz

大講台談如何運用大資料完善資料中心平台

隨著大資料的各個領域的深入應用,大資料的價值正逐漸凸顯,而大資料的核心價值在於從海量的複雜資料中挖掘出有價值的資訊,通過大資料技術進行更快地分析 更準確地 發掘出新的業務模式,創造新的商業發展機會。因此,大資料時代下,企業迫切需要思考如何應用大資料技術改造完善已有資料中心平台,提公升企業的資料處理能...

大講台大資料尖刀運維班

1 從工作職責的運維和實施看 運維工程師最基本的職責都是負責服務的穩定性,確保服務可以7 24h不間斷地為使用者提供服務,負責維護並確保整個服務的高可用性,同時不斷優化系統架構提公升部署效率 優化資源利用率 實施工程師,以軟體實施工程師為例,主要負責工程實施 包括常用作業系統 應用軟體及公司所開發的...

Hive 隨談(二) Hive 結構

hive 的結構如圖所示,主要分為以下幾個部分 使用者介面主要有三個 cli,client 和 wui。其中最常用的是 cli,cli 啟動的時候,會同時啟動乙個 hive 副本。client 是 hive 的客戶端,使用者連線至 hive server。在啟動 client 模式的時候,需要指出 ...