1.什麼是hive
hive是基於hadoop的資料倉儲解決方案。由於hadoop本身在資料儲存和計算方面有很好的可擴充套件性和高容錯性,因此使用hive構建的資料倉儲也秉承了這些特性。
簡單來說,hive就是在hadoop上架了一層sql介面,可以將sql翻譯成mapreduce去hadoop上執行,這樣就使得資料開發和分析人員很方便的使用sql來完成海量資料的統計和分析,而不必使用程式語言開發mapreduce那麼麻煩。
2. hive安裝與配置
除此之外,由於hive是預設將元資料儲存在本地內嵌的 derby 資料庫中,但是這種做法缺點也很明顯,derby不支援多會話連線,因此本文將選擇mysql作為元資料儲存。
2.2 安裝mysql來替換預設的derby資料庫
請參考 hive整合mysql資料庫
2.3 修改配置檔案
解壓安裝檔案到指定的的資料夾 /opt/hive
tar -zxf apache-hive-2.1.0-bin.tar.gz -c opt/hive
2.3.1 設定環境變數
vi /etc/profile
2.3.2 修改hive-site.xml檔案
2.3.3 修改hive-env.sh
cp hive-env.sh.template hive-env.sh
vi hive-env.sh
2.4 執行hive
執行hive之前首先要確保meta store服務已經啟動,
如果需要用到遠端客戶端(比如 tableau)連線到hive資料庫,還需要啟動hive service
然後由於配置過環境變數,可以直接在命令列中輸入hive
2.5 測試hive是否可以正確使用
2.5.1 建立測試表dep
2.5.2 通過mysql檢視建立的表
2.5.3 通過ui頁面檢視建立的資料位
訪問 ***.***.***.***:50070
Hive安裝配置詳細
hive是基於hadoop構建的一套資料倉儲分析系統,它提供了豐富的sql查詢方式來分析儲存在hadoop 分布式檔案系統中的資料。hive可以將結構化的資料儲存在資料倉儲中,通過自己的sql去查詢分析需要的內容,這套sql簡稱hive sql。它與關係型資料庫的sql略有不同,但支援了絕大多數的語...
的安裝配置 Manjaro Linux安裝配置
安裝wmtools 1.解除安裝舊版本 sudo pacman r open vm tools git clone 3.執行指令碼進行安裝 cd vmware tools patches sudo patched open vm tools.sh 安裝vim sudo pacman s vim 更新...
python配置安裝 配置安裝
scrapy框架安裝 安裝請參考 scrapy安裝 windows安裝方式 1.先確定windows是否安裝了python c users administrator python python 2.7.13 v2.7.13 a06454b1afa1,dec 17 2016,20 53 40 msc...