大資料Hive框架搭建與使用

2021-09-25 01:27:06 字數 1849 閱讀 8422

將sql語句轉換成mapreduce程式,並且提交到yarn上執行,讀取hdfs上的資料進行處理。

sql語句:和mysql資料庫中sql語句非常非常類似。

建立在hadoop之上提供以sql方式分析資料的框架

最早的由facebook開源的框架

0.13.1:經典穩定的版本(2104)

1.2.1 :較新的乙個版本

2.x:2017發布,

底層推薦使用spark或者tez框架分析資料,而不是mapreduce

首先重新命名檔案:

hive 的資料需要儲存到hdfs,那麼儲存hdfs那個目錄,是不是需要配置

不配置,因為它會去讀預設路徑,但是這些目錄是空,需要去建立

hive的使用語句,大部分與sql語言類似,常用的sql語句在hive環境中也可以使用

開啟hive:bin/hive
hello	1

hoadoop 1

hadoop 1

hadoop 1

like 1

like 1

1:create table tb_word(

2: word string,

3: count int

4:)5:row format delimited fields terminated by '\t'

6:lines terminated by '\n';

1:建立表名為tb_word的表

2:新增word欄位 string型別

3:新增count欄位 int型別

5:匯入的資料檔案每一行以tab鍵分割,即『\t』

6:每一行分割以回車分割

load data local inpath '資料檔案路徑'  into table tb_word;

首先:元資料是什麼元資料可以簡單的理解為儲存資料關係的資料,像是書的目錄一樣

其次:為什麼要使用mysql來儲存元資料

hive中無論是建立的 資料庫還是表 ,這些元資料metastore需要儲存

預設情況下儲存在derby資料庫裡面的,屬於嵌入式資料,每次僅僅支援乙個會話

所有為了支援多個會話的hive操作,推薦mysql儲存元素

官方配置文件

(1)建立配置檔案

touch hive-site.xml
(2)修改配置

首先要將hive下的metastore_db和derby.log刪除

在多個視窗啟動測試

如可以正常在多個視窗啟動,即執行正常,配置成功

大資料 Hive與HBase

hive hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供簡單的sql查詢功能。hbase hbase是hadoop的資料庫,乙個分布式 可擴充套件 大資料的儲存。hbase和hive在大資料架構中處在不同位置,hbase主要解決實時資料查詢問題,hiv...

大資料 Hive 簡介

第一部分 hive簡介 什麼是hive hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能。本質是將sql轉換為mapreduce程式 第二部分 為什麼使用hive 面臨的問題 人員學習成本太高 專案週期要求太短 我只是需要乙個簡單的環境 ...

大資料Hive分割槽

hive組織表到分割槽。它是將乙個表到基於分割槽列,如日期,城市和部門的值相關方式。使用分割槽,很容易對資料進行部分查詢。表或分割槽是細分成桶,以提供額外的結構,可以使用更高效的查詢的資料。桶的工作是基於表的一些列的雜湊函式值。例如,乙個名為tab1表包含雇員資料,如 id,name,dept 和y...