hive計算網頁停留時長

hive表結構例如以下：

create table pv_user_info(
session_id string, 
user_id string,
url string,
starttime bigint
);

主要就是這幾個字段實用。省略其它。

實現方式：userid和sessionid分組後並按時間降序排序，降序排序後。第一行就是該使用者最後一次瀏覽的網頁。最後一行是第一次瀏覽的網頁，第一行的starttime和第二行的starttime相減就是第二行停留時間。

這裡會有幾個誤差

使用者最後一次瀏覽的網頁時長：由於不知道用關閉瀏覽器的時間。所以沒辦法計算，就返回乙個特定的值吧，我這裡返回的是0。

跨天：任務是按天統計，還沒有第二天的資料，所以不考慮跨天。

連續點開多個網頁：按上面的實現方式就會有誤差。這是沒辦法的。

按產生日誌檔案的結果看。僅僅能用這樣的實現方式，除非專門寫個js記錄網頁停留時長(不知是否可行)，那麼就不須要用hive了。

詳細實現：

1.要實現行與行之間的比較或算加減法hive sql是實現不了的，僅僅有自己定義函式udf

2.定義全域性變數，存上次瀏覽時間。sessionid。userid

3.第一次呼叫evaluate方法上次瀏覽時間肯定是空的。也就是說是使用者在這一天裡最後一次瀏覽網頁的時間，直接返回0即可了。

4.再次呼叫evaluate方法要推斷是不是同上一次呼叫evaluate方法是不是同乙個使用者同乙個會話。假設是的話就相減。

5.呼叫evaluate方法假設和上一次呼叫不是乙個使用者。說明這個網頁是還有乙個使用者最後一次瀏覽網頁的時間。直接返回0。

hiveudf**

import org.apache.hadoop.hive.ql.exec.udf;
public class calcudf extends udf 
return 0l;
} else 
return usetime;
} else 
return 0l;
}}	}
}

將**打成jar包。上傳到/home/hadoop/test/

進入hive命令列，執行：

add jar /home/hadoop/test/hiveudf.jar; // 加入jar包 
create temporary function calc as 'com.orange.hadoop.calcudf';    //建立函式
//最後執行hive sql
select session_id,user_id,url,starttime, 
calc(starttime,user_id,session_id) 
from 
(select * from pv_user_info distribute by user_id,session_id sort by  user_id,session_id ,starttime desc) t;

這是我的實現方式。有沒有更好的解決方式？

hive計算網頁停留時長

hive表結構例如以下 create table pv user info session id string,user id string,url string,starttime bigint 主要就是這幾個字段實用。省略其它。實現方式 userid和sessionid分組後並按時間降序排序，降...

統計頁面停留時間計算

一頁面停留時間與停留時間是如何計算出來的？我們想要知道的是假如這個使用者從10 00開始訪問對於page2而言，訪問時間是10 05 10 01，即4分鐘。接著訪問者來到了page3頁面，他發現改頁面無法滿足他的需求或是他要找的內容已在page3頁面找到。那麼接下來就是離開。那麼，這個訪問者...

PowerShell限制計算機使用時長

前兩天中午吃飯的時候，同事問在windows 下有沒有什麼辦法可以限制使用者使用計算機的時長，比如超過兩個小時，則不允許繼續使用，另一同事說網上有很多類似的軟體啊，超時了則不允許其繼續上網，同事說是想限制其不能再繼續使用計算機。我問是不是想限制你兒子玩遊戲啊，他說是。我想了想說這個不難，我給你寫個指...

hive計算網頁停留時長

hive計算網頁停留時長

統計頁面停留時間計算

PowerShell限制計算機使用時長

相關推薦