Hadoop 模擬搭建使用者行為日誌採集系統分析

2021-08-19 20:24:31 字數 1555 閱讀 1905

1.nginx分發器:上面提到了前端js埋點請求,要求速度要快,併發度要高,所以這裡使用了nginx分發器作為web server,實現反向**與lb(負載均衡);

2.spawn-cgi:上圖只是示例提供乙個server服務的場景,同樣也可以不同節點上,提供相同的服務,用nginx實現負載均衡,以能提供更快更高可用的服務.

spawn-cgi的功能: 就是提供了乙個閘道器介面,它可以輕鬆快速的實現對外暴露server服務的功能,並能使底層的服務變成乙個守護程序;

它的請求走的fcgi協議,這種協議更加適合外部請求,因為http請求很容易受到攻擊;

3.thrift rpc:在定義介面規範之後,能夠幫助我們快速的生成client和server**,並能幫助我們實現服務之間的解耦:

使用thrift rpc生成的client和server之間的通訊,走的rpc協議,這種協議有如下好處:

保證資料的安全,相比http協議更不容易受到外部攻擊;

速度快,效能好,比如用c++生成**,實現效果效能更好,速度更快,更能應對高併發的處理請求;

rpc協議更加適合底層內部的請求,所以設計上後端一般都是使用rpc協議.

另外,rpc的兩端client和server只要遵循rpc協議和定義的scheme介面通訊規範,兩端可以使用不同的開發語言.

1.thrift rpc:在定義介面通訊規範後,可以用thrift命令快速生成server和client**,完成最基本的c/s架構;這種生成**的方式,可以幫助我們實現服務之間的解耦,client只負責欄位的解析等輕量級的工作,而server才是真正的處理引擎;

在server裡面,我們可以實現自己的業務處理邏輯.通過glogs可以將收集到使用者行為日誌快速高效的寫入log檔案中.

2.spawn-cgi: 通過cgi提供的閘道器介面,可以將自己用thrift rpc的server服務提供給外部.

簡單的可以理解為提供了一種**,可以在非應用程式所在的機器上操作應用程式.

3.nginx分發器: 就是web server,用於分發使用者的請求,實現反向**與負載均衡;通過它可以將使用者的js埋點請求分發給我們的server應用程式去處理;

4.ab壓測: 如果thrift rpc 使用c++生成client和server,可以大大的提供效能,這種場景下,可以使用ab壓測工具,進行壓力測試;

--------------------上面的部分,基本就實現了模擬日誌收集系統的搭建---------------------

5.flume + hbase/hive: 用於使用者行為日誌分析;

6.flume+kafka+storm/spark streaming:用於實時流處理的資料探勘;

使用者行為日誌概述

什麼是使用者行為日誌呢?其實也叫做使用者行為軌跡,流量日誌等。簡單來說,就是使用者每次訪問 產生的行為資料 訪問,瀏覽,搜尋,點選等 基本上,只要你訪問了任何乙個 該 都會有你的行為記錄。當然,日誌也是乙個很大的概念,任何程式都有可能輸出日誌 作業系統核心 各種應用伺服器等等。日誌的內容 規模和用途...

大資料場景 使用者行為日誌分析

使用者日誌 訪問的系統屬性 作業系統 瀏覽器型別 訪問資訊 session id,訪問ip 資料處理 有資料者有未來,有資料意味著每乙份使用者行為資料都是寶貴的資源。經過資料清洗,再用演算法提取分析,商業價值,商業決策 線上推廣 等等 當然一切建立在有大量使用者有流量的情況下的。資料處理流程 資料採...

Mysql慢查詢日誌分析環境搭建採坑心得

1.可以熟練的開啟關閉mysql慢查詢日誌。2.知道如何設定慢查詢日誌的儲存位置及檔名稱。3.了解慢查詢日誌的儲存格式 推薦file 4.懂得基本的sql優化知識。作為乙個弟弟,我當然是下一步下一步.因為它這個從始至終都沒讓我選擇儲存在 但是人家預設安裝後存在c盤下。發現已經配好了,那麼我們就開啟c...