hive
檔案儲存格式包括以下幾類:
1、textfile
2、sequencefile
3、rcfile
4、orcfile(0.11以後出現)
其中textfile為預設格式,建表時不指定預設為這個格式,匯入資料時會直接把資料檔案拷貝到hdfs上不進行處理。
sequencefile
,rcfile,orcfile格式的表不能直接從本地檔案匯入資料,資料要先匯入到textfile格式的表中,然後再從表中用insert匯入sequencefile,rcfile,orcfile表中。
一、textfile 格式
預設格式,資料不做壓縮,磁碟開銷大,資料解析開銷大。可結合gzip、bzip2使用(系統自動檢查,執行查詢時自動解壓),但使用這種方式,hive不會對資料進行切分, 從而無法對資料進行並行操作。
二、sequencefile 格式
sequencefile
是hadoop api提供的一種二進位制檔案支援,其具有使用方便、可分割、可壓縮的特點。sequencefile支援三種壓縮選擇:none,record,block。record壓縮率低,一般建議使用block壓縮。
三、rcfile 檔案格式
rcfile
是一種行列儲存相結合的儲存方式。首先,其將資料按行分塊,保證同乙個record在乙個塊上,避免讀乙個記錄需要讀取多個block。其次,塊資料列式儲存,有利於資料壓縮和快速的列訪問。
四、orcfile()
五、再看textfile、sequencefile、rcfile三種檔案的儲存情況
[[email protected]~]$ hadoop dfs -dus /user/hive/warehouse/*
hdfs: 0
hdfs: 0
hdfs: 0
hdfs: 102638073
hdfs: 112497695
hdfs: 536799616
hdfs: 107308067
[[email protected]~]$ hadoop dfs -ls /user/hive/warehouse/*/
-rw-r--r-- 2 hadoop supergroup 51328177 2014-03-20 00:42/user/hive/warehouse/rcfile_table/000000_0
-rw-r--r-- 2 hadoop supergroup 51309896 2014-03-20 00:43/user/hive/warehouse/rcfile_table/000001_0
-rw-r--r-- 2 hadoop supergroup 56263711 2014-03-20 01:20 /user/hive/warehouse/seqfile_table/000000_0
-rw-r--r-- 2 hadoop supergroup 56233984 2014-03-20 01:21/user/hive/warehouse/seqfile_table/000001_0
-rw-r--r-- 2 hadoop supergroup 536799616 2014-03-19 23:15/user/hive/warehouse/testfile_table/weibo.txt
-rw-r--r-- 2 hadoop supergroup 53659758 2014-03-19 23:24/user/hive/warehouse/textfile_table/000000_0.gz
-rw-r--r-- 2 hadoop supergroup 53648309 2014-03-19 23:26/user/hive/warehouse/textfile_table/000001_1.gz
大講台談如何運用大資料完善資料中心平台
隨著大資料的各個領域的深入應用,大資料的價值正逐漸凸顯,而大資料的核心價值在於從海量的複雜資料中挖掘出有價值的資訊,通過大資料技術進行更快地分析 更準確地 發掘出新的業務模式,創造新的商業發展機會。因此,大資料時代下,企業迫切需要思考如何應用大資料技術改造完善已有資料中心平台,提公升企業的資料處理能...
大講台大資料尖刀運維班
1 從工作職責的運維和實施看 運維工程師最基本的職責都是負責服務的穩定性,確保服務可以7 24h不間斷地為使用者提供服務,負責維護並確保整個服務的高可用性,同時不斷優化系統架構提公升部署效率 優化資源利用率 實施工程師,以軟體實施工程師為例,主要負責工程實施 包括常用作業系統 應用軟體及公司所開發的...
Hive 隨談(二) Hive 結構
hive 的結構如圖所示,主要分為以下幾個部分 使用者介面主要有三個 cli,client 和 wui。其中最常用的是 cli,cli 啟動的時候,會同時啟動乙個 hive 副本。client 是 hive 的客戶端,使用者連線至 hive server。在啟動 client 模式的時候,需要指出 ...