hive經典的入門流程操作

2021-06-17 17:38:33 字數 936 閱讀 1609

那麼我們首先要在hive裡建表,建表語句如下:

create table login (

uid string,

ip string

)partitioned by (dt string)

row format delimited

fields terminated by ','

stored as textfile;

其實表名是login,字段之間以,隔開,儲存是text,其次還以dt這個字段作為分割槽。

建立成功之後,會看到hdfs上建立了/user/hive/warehouse/login這個目錄。

將每天的每分鐘的原始日誌,轉換成以下檔案格式

123,17.6.2.6

112,11.3.6.2

………..

根據檔案大小,合併檔案,例如合併為24個檔案。

格式完畢,就可以把資料入庫到hive了,假設今天是執行命令

load data local  inpath '/data/login/20120713/*' overwrite into table login partition (dt='20120713');
執行成功會,轉換過的檔案會上傳到hdfs的/user/hive/warehouse/login/dt=20120713這個目錄裡。

在hive執行以下語句

select count(distinct uid) from login where dt=』20120713』;
使用dt這個分割槽條件查詢,就可以避免hive去查詢其他分割槽的檔案,減少io操作,這個是hive分割槽很重要的特性,也是以天為單位,作為login表分割槽的重要意義。

執行完畢後,就可以在命令裡出現結果,一般通過管道執行hive shell命令,讀取管道的內容,把結果入庫到mysql裡就完成了分析了。

搭建hive的流程

搭建hive的流程 1.先裝mysql 修改mysql登入許可權 2.解壓hive,需要將mysql的驅動包拷貝到hive的利用目錄彙總,修改hive的配置檔案,hive site.xml的檔案中 連線資料庫的四個屬性 首先安裝mysql yum install mysql server y 服務端...

Hive 的工作流程

1.執行查詢操作 execute query 命令列或web ui之類的hive介面將查詢傳送給driver 任何資料庫驅動程式,如jdbc odbc等 以執行。2.獲取計畫任務 get plan driver借助查詢編譯器解析查詢,檢查語法和查詢計畫或查詢需求 3.獲取元資料資訊 get meta...

C 入門經典 Chapter4 流程控制

4.1布林邏輯 布林比較運算子 處理布林值的布林值運算子 異或 條件布林運算子 比 和 效能更好 比如 只需判斷前面的布林值為false,整體值就為false,不用計算後面的布林值 1.布林賦值運算子 2.按位運算子 位移運算子 位移賦值運算子 3.運算子優先順序 更新 用作字首 一元 賦值運算子 ...