hive基礎使用總結

2021-08-19 01:29:56 字數 635 閱讀 3536

法完成的複雜的分析工作。

hive和普通資料庫的區別

hive的元資料一般由關係型資料庫mysql或者derby來儲存

首先,hive 沒有專門的資料儲存格式,也沒有為資料建立索引,使用者可以

非常自由的組織 hive 中的表,只需要在建立表的時候告訴 hive 資料中的列分

隔符和行分隔符,hive 就可以解析資料。

其次,hive 中所有的資料都儲存在 hdfs 中,hive 中包含以下資料模型:table(內部表),

external table(外部表),partition(分割槽),bucket(分桶)。

內部表和外部表的區別在於內部表是把hadoop上對應的資料檔案剪下到hive中,刪除的時候原資料檔案隨之刪除,外部表是建立乙個對映,讓表對映到指定的資料檔案的位置,刪除的時候只是刪除對映,原資料檔案不會刪除

分割槽和分桶的區別,分區分桶都是為了減少資料的掃瞄量,加快查詢;分割槽的時候,表的資料會根據分割槽字段儲存到不同的資料夾下,乙個分割槽下分割槽值相同;分桶的時候是根據分桶字段的hash值進行分類,然後存到指定的檔案中,桶的數量就是檔案的數量,分桶可以解決小檔案過多的問題

Hive使用總結

上例錯誤,要分清聚合函式 hive的資料存在hdfs上,其元資料 表的列和分割槽及屬性 是否為外部表 表資料所在目錄等 儲存在資料庫,一般作查詢,無索引,可拓展,用來執行於互動或批處理方式配置單元查 詢分割槽 可直接使用where查其分割槽名查詢資料 alter table table name r...

Hive總結(五)hive日誌

日誌記錄了程式執行的過程,是一種查詢問題的利器。hive中的日誌分為兩種 1.系統日誌,記錄了hive的運 況,錯誤狀況。2.job 日誌,記錄了hive 中job的執行的歷史過程。系統日誌儲存在什麼地方呢 在hive conf hive log4j.properties 檔案中記錄了hive日誌的...

Hive總結(五)hive日誌

日誌記錄了程式執行的過程,是一種查詢問題的利器。hive中的日誌分為兩種 1.系統日誌,記錄了hive的運 況,錯誤狀況。2.job 日誌,記錄了hive 中job的執行的歷史過程。系統日誌儲存在什麼地方呢 在hive conf hive log4j.properties 檔案中記錄了hive日誌的...