hive經典的入門流程操作

那麼我們首先要在hive裡建表，建表語句如下:

create table login (
uid  string,
ip  string
)partitioned by (dt string)
row format delimited
fields terminated by ','
stored as textfile;

其實表名是login,字段之間以,隔開,儲存是text,其次還以dt這個字段作為分割槽。

建立成功之後,會看到hdfs上建立了/user/hive/warehouse/login這個目錄。

將每天的每分鐘的原始日誌，轉換成以下檔案格式

123,17.6.2.6

112,11.3.6.2

………..

根據檔案大小，合併檔案，例如合併為24個檔案。

格式完畢，就可以把資料入庫到hive了，假設今天是執行命令

load data local  inpath '/data/login/20120713/*' overwrite into table login partition (dt='20120713');

執行成功會，轉換過的檔案會上傳到hdfs的/user/hive/warehouse/login/dt=20120713這個目錄裡。

在hive執行以下語句

select count(distinct uid) from login where dt=』20120713』;

使用dt這個分割槽條件查詢，就可以避免hive去查詢其他分割槽的檔案，減少io操作，這個是hive分割槽很重要的特性，也是以天為單位，作為login表分割槽的重要意義。

執行完畢後，就可以在命令裡出現結果，一般通過管道執行hive shell命令，讀取管道的內容，把結果入庫到mysql裡就完成了分析了。

搭建hive的流程

搭建hive的流程 1.先裝mysql 修改mysql登入許可權 2.解壓hive，需要將mysql的驅動包拷貝到hive的利用目錄彙總，修改hive的配置檔案，hive site.xml的檔案中連線資料庫的四個屬性首先安裝mysql yum install mysql server y 服務端...

Hive 的工作流程

1.執行查詢操作 execute query 命令列或web ui之類的hive介面將查詢傳送給driver 任何資料庫驅動程式，如jdbc odbc等以執行。2.獲取計畫任務 get plan driver借助查詢編譯器解析查詢，檢查語法和查詢計畫或查詢需求 3.獲取元資料資訊 get meta...

C 入門經典 Chapter4 流程控制

4.1布林邏輯布林比較運算子處理布林值的布林值運算子異或條件布林運算子比和效能更好比如只需判斷前面的布林值為false，整體值就為false，不用計算後面的布林值 1.布林賦值運算子 2.按位運算子位移運算子位移賦值運算子 3.運算子優先順序更新用作字首一元賦值運算子 ...

hive經典的入門流程操作

搭建hive的流程

Hive 的工作流程

C 入門經典 Chapter4 流程控制

相關推薦