hive 本質上是乙個 sql 解析引擎 ,提供了一種類sql語言 hql 以便於使用,將我們熟悉的sql語言 轉換成了 乙個個map-reduce程序
需求 : 統計如下檔案中 每個手機號使用流量的情況
待處理檔案:http.dat
檔案格式:
需要保留的字段有 : 1(手機號)6(上行資料報數)7(下行資料報數)8(上行流量)9(下行流量)
step1: 使用hive為此檔案建表 設定 '\t' 為分割符:
step2: 將本地檔案 http.dat 載入到表中 :
先建立一張空表http_result 來儲存結果
step4: 然後對錶中資料進行處理:
hive> insert into table http_result //將select的結果寫入表中
> select t1,sum(t6),sum(t7),sum(t8),sum(t9) from http group by t1; //按手機號分割槽
step5:map-reduce程序結束後 檢視 http_result表中的結果
結果正確!!
hive例項,GPRS流量統計
hive例項,gprs流量統計 最近面試,發現很多公司在使用hive對資料進行處理。hive是hadoop家族成員,是一種解析like sql語句的框架。它封裝了常用mapreduce任務,讓你像執行sql一樣操作儲存在hdfs的表。hive的表分為兩種,內錶和外表。hive 建立內部表時,會將資料...
Hive對周一的寫法入坑實戰演練
我看還有人將以下的語句換了乙個方式也是ok的 select date sub next day 2020 09 05 monday 7 還有乙個神奇的寫法將mo或者monday換成對應的int型別的1 7.試一把 select date sub next day 2020 09 05 1 7 看來結...
MapReduce案例 統計手機號總流量
map方法和reduce方法都是迴圈呼叫的 map方法 每行資料呼叫一次 reduce方法 每個kv呼叫一次 只執行一次的 寫在setup和cleanup中 資料格式 1363157985066 13726230503 00 fd 07 a4 72 b8 cmcc 120.196.100.82 i0...