將sql語句轉換成mapreduce程式,並且提交到yarn上執行,讀取hdfs上的資料進行處理。
sql語句:和mysql資料庫中sql語句非常非常類似。
建立在hadoop之上提供以sql方式分析資料的框架
最早的由facebook開源的框架
0.13.1:經典穩定的版本(2104)
1.2.1 :較新的乙個版本
2.x:2017發布,
底層推薦使用spark或者tez框架分析資料,而不是mapreduce
首先重新命名檔案:
hive 的資料需要儲存到hdfs,那麼儲存hdfs那個目錄,是不是需要配置
不配置,因為它會去讀預設路徑,但是這些目錄是空,需要去建立
hive的使用語句,大部分與sql語言類似,常用的sql語句在hive環境中也可以使用
開啟hive:bin/hive
hello 1
hoadoop 1
hadoop 1
hadoop 1
like 1
like 1
1:create table tb_word(
2: word string,
3: count int
4:)5:row format delimited fields terminated by '\t'
6:lines terminated by '\n';
1:建立表名為tb_word的表
2:新增word欄位 string型別
3:新增count欄位 int型別
5:匯入的資料檔案每一行以tab鍵分割,即『\t』
6:每一行分割以回車分割
load data local inpath '資料檔案路徑' into table tb_word;
首先:元資料是什麼元資料可以簡單的理解為儲存資料關係的資料,像是書的目錄一樣
其次:為什麼要使用mysql來儲存元資料
hive中無論是建立的 資料庫還是表 ,這些元資料metastore需要儲存
預設情況下儲存在derby資料庫裡面的,屬於嵌入式資料,每次僅僅支援乙個會話
所有為了支援多個會話的hive操作,推薦mysql儲存元素
官方配置文件
(1)建立配置檔案
touch hive-site.xml
(2)修改配置
首先要將hive下的metastore_db和derby.log刪除
在多個視窗啟動測試
如可以正常在多個視窗啟動,即執行正常,配置成功
大資料 Hive與HBase
hive hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供簡單的sql查詢功能。hbase hbase是hadoop的資料庫,乙個分布式 可擴充套件 大資料的儲存。hbase和hive在大資料架構中處在不同位置,hbase主要解決實時資料查詢問題,hiv...
大資料 Hive 簡介
第一部分 hive簡介 什麼是hive hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能。本質是將sql轉換為mapreduce程式 第二部分 為什麼使用hive 面臨的問題 人員學習成本太高 專案週期要求太短 我只是需要乙個簡單的環境 ...
大資料Hive分割槽
hive組織表到分割槽。它是將乙個表到基於分割槽列,如日期,城市和部門的值相關方式。使用分割槽,很容易對資料進行部分查詢。表或分割槽是細分成桶,以提供額外的結構,可以使用更高效的查詢的資料。桶的工作是基於表的一些列的雜湊函式值。例如,乙個名為tab1表包含雇員資料,如 id,name,dept 和y...