hive包含的檔案儲存格式有:textfile、sequencefile、rcfile、orcfile,parquet。
預設的檔案格式,行儲存。
缺點:儲存空間占用較大,i/o效能低;不可對資料進行切割、合併,不能進行並行操作;
適用於小型查詢,測試操作等。
鍵值對形式儲存的二進位制文字格式,行儲存。
優點:可壓縮、可分割。優化i/o效能;可並行操作;
缺點:儲存空間占用最大,只侷限於hadoop生態使用;
適用於小資料,大部分都是列查詢的操作。
行列式儲存。先將資料按行分塊,每乙個塊資料轉換成乙個record物件,避免讀取一條資料需要讀取多個block;然後塊資料按列儲存。
優點:可壓縮,高效的列儲存,查詢速度較快;
缺點:載入時效能消耗較大,全量資料讀取時效能較低。
優化後的rcfile,優缺點與rcfile類似,查詢效率最高。
適用於hive中、大型的儲存和查詢。
列儲存。
優點:更高效的壓縮和編碼;不與任何資料處理技術繫結,可用於多種資料處理框架。
缺點:不支援update,insert,delete,acid
適用於字段非常多,無更新,只讀取部分列資料。
總結:表的字段個數不多時檔案按塊進行壓縮,行儲存比較高效;
表的字段個數成百上千時,且只需要個別欄位的查詢時,列儲存可較大提高效率;
資料倉儲一次寫入,多次讀取,orc格式比較有優勢。
Hive的資料儲存格式
hive 沒有專門的資料儲存格式,也沒有為資料建立索引,使用者可以非常自由的組織 hive 中的表,只需要在建立表的時候告訴 hive 資料中的列分隔符和行分隔符,hive 就可以解析資料。其次,hive 中所有的資料都儲存在 hdfs 中,hive 中包含以下資料模型 table,external...
hive 修改表的儲存格式 Hive檔案儲存格式
列式儲存和行式儲存 5.png 上圖左邊為邏輯表,右邊第乙個為行式儲存,第二個為列式儲存。行儲存的特點 查詢滿足條件的一整行資料的時候,列儲存則需要去每個聚集的字段找到對應的每個列的值,行儲存只需要找到其中乙個值,其餘的值都在相鄰地方,所以此時行儲存查詢的速度更快。列儲存的特點 因為每個欄位的資料聚...
hive儲存複雜的json格式
1.hive復合資料型別 array data type map primitive type,data type struct col name data type comment col comment 2.json建構於兩種結構 名稱 值 對的集合 a collection of name v...