那麼,到底什麼是hive,我們先看看hive官網wiki是如何介紹hive的
apache hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張表,並且提供了通過sql 對儲存在分布式中的大型資料集的查詢和管理,主要提供以下功能:
它提供了一系列的通過sql 訪問資料的工具,可用來對資料進行提取/轉化/載入(etl);
對資料各種型別的資料新增schema
可以存查詢和分析儲存在hdfs(或者hbase)中的大規模資料;
查詢可以通過mapreduce、tez、spark-sql來完成的(並不是所有的查詢都需要mapreduce來完成,比如select * from ***就不需要)
通過hive llap, apache yarn and apache slider 實現次秒級查詢檢索
總結為一句話:hive是基於hadoop的資料倉儲,那麼資料倉儲的概念有是什麼呢,這裡我們就簡單理解為是乙個對資料進行查詢和管理的軟體
數倉工具 Hive函式大全 12
很多時候,我們需要對錶中的資料進行處理或者是想要完成某一邏輯的時候,單純的借助關鍵字組合起來的sql語句可能不能完成我們的需求,這個時候我們就需要特定的函式來幫助我們完成這樣的邏輯,如果沒有的話,我們可以嘗試定義已有的函式進行組合或者自定義函式來完成我們的需求。hive內部提供了很多函式給開發者使用...
數倉工具 Hive關鍵字 11
關鍵字是任何一門語言中都要的一些字元,這些字元都有特殊的含義,一般情況下使用者不能直接使用的,因為編譯器對關鍵字是有特殊處理的。hive有一些保留的關鍵字,我們在執行一些語句時,不能將這些關鍵字作為識別符號 identifier 比如建表語句的表名或者欄位名 hive中有很多關鍵字,直接作為列名或者...
Hive 1 數倉和Hive基本概念
資料倉儲的分層架構 資料倉儲分層的目的 數倉的三層架構 數倉的四層架構 etlhive概念 hive的互動方式 非易失性 資料進入數倉後,基本不會被修改 時變性 分析資料的手段 工具 可能會變 數倉的出現並不是要取代資料庫,數倉是在資料庫已經大量存在的情況下,為了進一步挖掘資料來決策而產生的,數倉絕...