在給的http.log日誌檔案中,是電信運營商記錄使用者上網訪問某些**行為的日誌記錄資料,一條資料中有多個欄位用空格分隔。
例如:"18611132889 20 5000"是一條上網行為,第乙個字段代表手機號碼,第二個字段代表請求**的
url,第三個字段代表請求傳送的資料即上行流量(
20位元組),第四個字段代表伺服器響應給使用者的流量即下行流量(
5000
位元組)。
資料
手機段規則
需求:
1.計算出使用者上網流量總流量(上行
+下行)最高的的**
top3
,2.根據給的的手機號段歸屬地規則,計算出總流量最高的省份
top3
3.根據給的的手機號段運營商規則,計算出總流量最高的運營商
top3
步驟分析:
1將手機號規則資訊放在
map集合中,以手機號為
key,手機資料實體為
value
。2載入
日誌資料,獲取
url和手機號資料(
url需要簡單清洗)
3 處理
url資料,統計流量
4 根據
日誌檔案中的手機號匹配獲取對應的區域運營商資料,進行統計
知識點:
集合 list和
map儲存資料特點
io 切割
;//手機號
privatestring
url;
//請求的
urlprivateint
updata
;//上行流量
privateint
lowdata
;//下行流量
telbean
privatestring
prefix
;privatestring
phone
;privatestring
province
;privatestring
city
;privatestring
isp;
privatestring
postcode
;privatestring
citycode
;privatestring
areacode
;/**
* 將tel
放在map
中*@return
*/publicstaticmapgettelmap()
}catch(exception e)
return
map;
}/**
* 返回
tel的list
資料*@return
*/publicstaticlistgettellist()
}catch(exception e)
return
list;}
由於list集合和
map集合儲存資料的特點不同
,此案例我們選擇使用
map集合
list需要根據手機號獲取其對應的區域需要遍歷並匹配手機字段
map儲存手機號規則資料
,可將手機號作為
key,
telbean
為value資料,
直接根據
key來獲取其對應的區域資訊
/*** 統計
url結果
*@return
*/publicstaticmapgeturlresult()
}}catch(exception e)
return
urlmap;}
static
maptelmap
;static
publicstaticvoidmain(string
args) }
//對結果集
map排序
獲取想要的結果
ispmap
.entryset();
pmap
.entryset();
urlmap
.entryset();
}catch(exception e)
publicstaticarraylist> sort(map
map)
});return
list;}
流量資料分析的方法學習
1 看數字和趨勢 以電商 為例 2 維度分解 3 使用者分群 又叫使用者畫像 4 轉化漏斗 5 行為軌跡 關注行為軌跡,是為了真實了解使用者行為。通過大資料手段,還原使用者的行為軌跡,有助於增長團隊關注使用者的實際體驗 發現具體問題,根據使用者使用習慣設計產品 投放內容。6 留存分析 在人口紅利逐漸...
網路流量大資料分析平台(1)
本系列文章用來記錄搭建網路流量大資料平台的過程,後續可能還會寫關於做流量分析的部分。廢話不多說,直接開始。總體架構圖如下 使用的軟體版本如下 因為流量採集使用了乙個開源工具,對流量進行了初步的協議解析,所以傳入我們系統的是兩種流量資料 已知協議資料 未知協議資料。已知協議 資料來源直接傳給我們解析後...
py資料分析學習日誌 電信客戶流失資料
注意 原文使用的pandas為0.17版本之前,在新版的pd一部分函式已被棄用或改寫,以下 已修改 seniorcitizen 老年人 partner 配偶 dependents 家屬 renure 職位 multiplelines 網際網路服務 sreamingtv 額 contract 合同 l...