Hive基本概念

2021-09-29 19:36:56 字數 1094 閱讀 2229

什麼是hive

是乙個基於hadoop的資料倉儲工具,可以將結構化資料對映成一張資料表,並提供類sql的查詢功能。

hive的意義是什麼

背景:hadoop是個好東西,但是學習難度大,成本高,坡度陡。

意義(目的):降低程式設計師使用hadoop的難度。降低學習成本。

hive可以對資料進行儲存與計算

儲存使用hdfs儲存

計算使用mapreduce進行計算。

hive的特性

1、擴充套件性 : hive的擴充套件性與集群的擴充套件性相同

2、延展性:hive支援使用者自定義函式,編寫符合自己業務需求的函式。

3、容錯性:節點出現問題(宕機/斷電)sql仍可完成執行。

架構圖

基本組成:

元資料:描述資料的資料(屬性)

表名稱、欄位名,欄位的資料型別。

內部執行流程

直譯器 -> 編譯器 -> 優化器 -> 執行器

hive利用hdfs儲存資料,利用mapreduce查詢分析資料

hive用於海量資料的離線資料分析

資料格式:

hive中沒有定義專門的資料格式

資料格式部分自定義:

總結:hive具有sql資料庫的外表,但應用場景完全不同,hive只適合用來做批量資料統計分析

可支援text,

sequencefile,

parquetfile,

orc格式

rcfile等

HIVE 基本概念

hive架構 hive架構圖 hive與hadoop的關係 hive利用hdfs儲存資料,利用mapreduce查詢資料 hive與hadoop關係圖 hive的資料儲存 1 hive中所有的資料都儲存在 hdfs 中,沒有專門的資料儲存格式 可支援text,sequencefile,parquet...

Hive基本概念

hive由facebook開源,用於解決海量結構化日誌的資料統計問題。hive是hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張表,並提供類sql查詢功能。其本至就是將hql轉化成mapreduce程式。缺點執行機制 hive通過使用者提供的一系列互動介面,接收使用者的指令 sql ...

hive核心基本概念

基於 hadoop 的乙個資料倉儲工具 hive本身不提供資料儲存功能,使用hdfs做資料儲存,hive也不分布式計算框架,hive的核心工作就是把sql語句翻譯成mr程式 hive也不提供資源排程系統,也是預設由hadoop當中yarn集群來排程 可以將結構化的資料對映為一張資料庫表,並提供 hq...