Hive基本概念

2022-07-25 03:15:10 字數 625 閱讀 4532

hive由facebook開源,用於解決海量結構化日誌的資料統計問題。hive是hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張表,並提供類sql查詢功能。其本至就是將hql轉化成mapreduce程式。

缺點執行機制

hive通過使用者提供的一系列互動介面,接收使用者的指令(sql),使用自己的driver,結合元資料(metastore),將這些指令翻譯成mapreduce,提交到hadoop中執行,再返回結果。

資料更新

hive主要是針對資料倉儲應用設計的,資料倉儲的內容通常是讀多寫少的,因此,hive不建議對資料進行改寫。而資料庫中通常需要對資料進行修改。

索引hive在載入資料的過程中不會對資料進行任何處理,甚至不會對資料進行掃瞄,因此沒有對資料中的某些key建立索引。hive需要訪問資料中滿足條件的特定值時,需要暴力掃瞄所有的資料,故其訪問延遲較高。由於mapreduce的引入,hive可以並行訪問資料,因此即時沒有索引,對於大資料量的訪問,hive仍然可以體現出優勢。而在資料庫中,通常會對一些列建立索引,因此對少量特定條件資料的訪問,資料庫具有很高的效率與較低的延遲。

執行hive中,大多數的查詢都是通過hadoop中的mapreduce來實現的。而資料庫通常有自己的引擎。

HIVE 基本概念

hive架構 hive架構圖 hive與hadoop的關係 hive利用hdfs儲存資料,利用mapreduce查詢資料 hive與hadoop關係圖 hive的資料儲存 1 hive中所有的資料都儲存在 hdfs 中,沒有專門的資料儲存格式 可支援text,sequencefile,parquet...

Hive基本概念

什麼是hive 是乙個基於hadoop的資料倉儲工具,可以將結構化資料對映成一張資料表,並提供類sql的查詢功能。hive的意義是什麼 背景 hadoop是個好東西,但是學習難度大,成本高,坡度陡。意義 目的 降低程式設計師使用hadoop的難度。降低學習成本。hive可以對資料進行儲存與計算 儲存...

hive核心基本概念

基於 hadoop 的乙個資料倉儲工具 hive本身不提供資料儲存功能,使用hdfs做資料儲存,hive也不分布式計算框架,hive的核心工作就是把sql語句翻譯成mr程式 hive也不提供資源排程系統,也是預設由hadoop當中yarn集群來排程 可以將結構化的資料對映為一張資料庫表,並提供 hq...