hive是基於hadoop構建的一套資料倉儲分析系統,它提供了豐富的sql查詢方式來分析儲存在hadoop 分布式檔案系統中的資料。hive可以將結構化的資料儲存在資料倉儲中,通過自己的sql去查詢分析需要的內容,這套sql簡稱hive sql。它與關係型資料庫的sql略有不同,但支援了絕大多數的語句如ddl、dml 以及常見的聚合函式、連線查詢、條件查詢。
hive在hadoop的架構體系中承擔了乙個sql解析的過程,它提供了對外的入口來獲取使用者的指令然後對指令進行分析,解析出乙個mapreduce程式組成可執行計畫,並按照該計畫生成對應的mapreduce任務提交給hadoop集群處理,獲取最終的結果。
以上定義**於《hadoop開發者入門專刊》
我將延用《hadoop安裝》文件(
)風格撰寫下文。
hive需要hadoop的支援,也就是說在安裝hive之前需要正確安裝hadoop,這裡不再闡述hadoop的安裝過程。一般我們會將hive安裝到namenode所在主機上,這裡假設使用root使用者進行安裝,hive的安裝過程很簡單:
[[email protected]] # 解壓
[[email protected]] tar xzvf hive-0.5.0-dev.tar.gz
[[email protected]] # 進入目錄
[[email protected]] cd hive-0.5.0-dev
[[email protected]] # 與hadoop的安裝一樣,我們應該習慣性的將安裝目錄寫入環境變數
[[email protected]] export hive_home=`pwd`
[[email protected]] # 也可以將環境變數設定到/etc/profile中
以上就是在linux(cent os 5.x)上安裝hive的過程,下面就到了配置的環節。
hive的必要配置相當簡單,只需要宣告$hadoop_home(請查閱《hadoop安裝》文件)這個環境變數就行了。
hive的核心配置檔案$hive_home/conf/hive-default.xml中有一些對hive關鍵配置,一般我們不需要對期進行改動,如果你需要更改這個關鍵配置,請不要直接更改hive-default.xml這個檔案,在同一目錄下新建hive-site.xml檔案,然後將需要更改的屬性配置在這裡面即可,配置格式與hive-default.xml一樣。
另外,在hive官方文件中重點提到了hive的日誌配置$hive_home/conf/hive-log4j.properties,雖然不是必要更改的配置檔案,但合理的設定會對我們有一定的幫助,具體配置方法可見官方文件。
根據官方文件的描述,在使用hive之前需要在hdfs中建立幾個目錄,並且將其開放g+w模式。如下**所示:
[[email protected]] $hadoop_home/bin/hadoop fs -mkdir /tmp
[[email protected]] $hadoop_home/bin/hadoop fs -mkdir /user/hive/warehouse
[[email protected]] $hadoop_home/bin/hadoop fs -chmod g+w /tmp
[[email protected]] $hadoop_home/bin/hadoop fs -chmod g+w /user/hive/warehouse
通過我的試驗,以上建立目錄的步驟是可以省略的,hive會自動建立需要的目錄。
hive提供了乙個cli(command line inte***ce)客戶端,我們可以通過cli進行直觀的ddl、dml及sql操作。以下是cli使用示例:
[[email protected]] # 開啟hive客戶端
[[email protected]] $hive_home/bin/hive
hive>
create table tt (
id int,
name string
)row format delimited
fields terminated by ','
collection items terminated by '\n'
stored as textfile;
hive>select * from tt;
hive>drop table tt; ok
time taken: 5.004 seconds
如果有以上提示就證明你的hive已經安裝成功並能執行了。
Hive 安裝 配置
1.什麼是hive hive是基於hadoop的資料倉儲解決方案。由於hadoop本身在資料儲存和計算方面有很好的可擴充套件性和高容錯性,因此使用hive構建的資料倉儲也秉承了這些特性。簡單來說,hive就是在hadoop上架了一層sql介面,可以將sql翻譯成mapreduce去hadoop上執行...
ElasticSearch詳細安裝配置一
elasticsearch 6.2.2.tar.gz elasticsearch head master.zip kibana 6.2.2 linux x86 64.tar.gz logstash 6.2.2.tar.gz node v8.9.1 linux x64.tar.gz jdk 8u221...
Jenkins Hudson安裝 配置詳細記錄
jenkins的前身是hudson,是做持續整合必不可少的工具,主要用途 持續 自動的構建專案 構建自動化測試專案 監控定時執行的一些任務。先說說一下安裝 首先安裝jdk,我的jdk版本是1.6.0。發現他們倆的主目錄都是預設指定到c documents and settings administr...