hive檔案儲存格式
1.textfile
textfile為預設格式
儲存方式:行儲存
磁碟開銷大 資料解析開銷大
壓縮的text檔案 hive無法進行合併和拆分
2.sequencefile
二進位制檔案,以的形式序列化到檔案中
儲存方式:行儲存
可分割 壓縮
一般選擇block壓縮
優勢是檔案和hadoop api中的mapfile是相互相容的。
3.rcfile
儲存方式:資料按行分塊 每塊按照列儲存
壓縮快 快速列訪問
讀記錄盡量涉及到的block最少
讀取需要的列只需要讀取每個row group 的頭部定義。
讀取全量資料的操作 效能可能比sequencefile沒有明顯的優勢
4.orc
儲存方式:資料按行分塊 每塊按照列儲存
壓縮快 快速列訪問
效率比rcfile高,是rcfile的改良版本
5.自定義格式
使用者可以通過實現inputformat和 outputformat來自定義輸入輸出格式。
總結:textfile 儲存空間消耗比較大,並且壓縮的text 無法分割和合併 查詢的效率最低,可以直接儲存,載入資料的速度最高
sequencefile 儲存空間消耗最大,壓縮的檔案可以分割和合併 查詢效率高,需要通過text檔案轉化來載入
rcfile 儲存空間最小,查詢的效率最高 ,需要通過text檔案轉化來載入,載入的速度最低
個人建議:text,seqfile能不用就盡量不要用 最好是選擇orc
hive的幾種檔案格式
hive檔案儲存格式 1.textfile textfile為預設格式 儲存方式 行儲存 磁碟開銷大 資料解析開銷大 壓縮的text檔案 hive無法進行合併和拆分 2.sequencefile 二進位制檔案,以的形式序列化到檔案中 儲存方式 行儲存 可分割 壓縮 一般選擇block壓縮 優勢是檔案...
hive的幾種檔案格式
hive檔案儲存格式 1.textfile textfile為預設格式 儲存方式 行儲存 磁碟開銷大 資料解析開銷大 壓縮的text檔案 hive無法進行合併和拆分 2.sequencefile 二進位制檔案,以的形式序列化到檔案中 儲存方式 行儲存 可分割 壓縮 一般選擇block壓縮 優勢是檔案...
Hive 檔案格式
hive檔案儲存格式包括以下幾類 1 textfile 2 sequencefile 3 rcfile 4 orcfile 0.11以後出現 5 parquet其中textfile為預設格式,建表時不指定預設為這個格式,匯入資料時會直接把資料檔案拷貝到hdfs上不進行處理 sequencefile,...