Hive表生命週期管理

2021-08-14 13:07:13 字數 1025 閱讀 6260

hive資料倉儲中隨著越來越多業務方的使用,會產生非常多的庫表。如何對資料生命週期進行管理成了很重要的工作。

經過驗證發現,通過對hive表執行以下語句會詳細展現該錶的很多統計資訊,其中就有lastaccesstime。 (前提是該執行使用者必須有對應表所在hdfs檔案目錄的讀許可權)

> show table extended in order like wy_order;

oktablename:wy_order

owner:wwy_admin

location:hdfs://weiyun-test-hadoop/warehouse/wy/mysql/order/wy_order

inputformat:org.apache.hadoop.hive.ql.io.parquet.mapredparquetinputformat

outputformat:org.apache.hadoop.hive.ql.io.parquet.mapredparquetoutputformat

columns:struct columns

partitioned:true

partitioncolumns:struct partition_columns

totalnumberfiles:0

totalfilesize:0

maxfilesize:0

minfilesize:0

lastaccesstime:0

lastupdatetime:1504687914320

雖然hive可以查詢到這些資訊,但發現多訪問幾下居然沒更新那個最後訪問時間了。原來是由於hdfs有個預設配置會只記錄1小時精度的最後訪問時間,引數為dfs.namenode.accesstime.precision(預設小時粒度)

就算客戶端是通過spark、impala,一樣可以反映到最後訪問時間。原因是他們都會直接訪問檔案讀取資料而被hdfs記錄到。

可以在元資訊上根據這些進行資料生命週期管理。開發定時任務掃瞄出過期的資料表,郵件發出來。

volume 生命週期管理

data volume 中存放的是重要的應用資料,如何管理 volume 對應用至關重要。前面我們主要關注的是 volume 的建立 共享和使用,本節將討論如何備份 恢復 遷移和銷毀 volume。備份因為 volume 實際上是 host 檔案系統中的目錄和檔案,所以 volume 的備份實際上是...

elasticsearch生命週期管理

使用索引生命週期管理實現熱溫冷架構 官方文件 elasticsearch 集群從 3 節點擴容到溫熱架構的搭建攻略 1 當索引達到約定大小 索引文件數量達到約定數量,自動建立新的索引 2 安裝指定週期 1 天,1 周,1 個月 建立索引,將之前的索引存檔 3 強制刪除過期的索引,以達到保留一定日期範...

React 生命週期 生命週期方法

生命週期 掛載 更新 解除安裝 元件被建立 執行初始化 並被掛載到dom中,完成元件的第一次渲染 constructor props getderivedstatefromprops props,state render componentdidmount 元件被建立時會首先呼叫元件的構造方法,接受...