什麼是hive
是乙個基於hadoop的資料倉儲工具,可以將結構化資料對映成一張資料表,並提供類sql的查詢功能。
hive的意義是什麼
背景:hadoop是個好東西,但是學習難度大,成本高,坡度陡。
意義(目的):降低程式設計師使用hadoop的難度。降低學習成本。
hive可以對資料進行儲存與計算
儲存使用hdfs儲存
計算使用mapreduce進行計算。
hive的特性
1、擴充套件性 : hive的擴充套件性與集群的擴充套件性相同
2、延展性:hive支援使用者自定義函式,編寫符合自己業務需求的函式。
3、容錯性:節點出現問題(宕機/斷電)sql仍可完成執行。
架構圖
基本組成:
元資料:描述資料的資料(屬性)
表名稱、欄位名,欄位的資料型別。
內部執行流程
直譯器 -> 編譯器 -> 優化器 -> 執行器
hive利用hdfs儲存資料,利用mapreduce查詢分析資料
hive用於海量資料的離線資料分析
資料格式:
hive中沒有定義專門的資料格式
資料格式部分自定義:
總結:hive具有sql資料庫的外表,但應用場景完全不同,hive只適合用來做批量資料統計分析
可支援text,sequencefile,
parquetfile,
orc格式
rcfile等
HIVE 基本概念
hive架構 hive架構圖 hive與hadoop的關係 hive利用hdfs儲存資料,利用mapreduce查詢資料 hive與hadoop關係圖 hive的資料儲存 1 hive中所有的資料都儲存在 hdfs 中,沒有專門的資料儲存格式 可支援text,sequencefile,parquet...
Hive基本概念
hive由facebook開源,用於解決海量結構化日誌的資料統計問題。hive是hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張表,並提供類sql查詢功能。其本至就是將hql轉化成mapreduce程式。缺點執行機制 hive通過使用者提供的一系列互動介面,接收使用者的指令 sql ...
hive核心基本概念
基於 hadoop 的乙個資料倉儲工具 hive本身不提供資料儲存功能,使用hdfs做資料儲存,hive也不分布式計算框架,hive的核心工作就是把sql語句翻譯成mr程式 hive也不提供資源排程系統,也是預設由hadoop當中yarn集群來排程 可以將結構化的資料對映為一張資料庫表,並提供 hq...