訪客分析是常見資料分析的一種,通過如上圖(google analytics)以比較直觀的方式展現使用者達到**後各條訪問路徑的流失情況,幫助**優化減少流失率。
訪客路徑分析有如下幾個關鍵點:
通過上述分析,要實現訪客路徑分析需要完成如下幾項工作:
計算每一級所有網頁的會話總數。
計算每一級會話數top 5的網頁。
計算每一級兩兩網頁之間的跳轉訪問數。
本文提出一種基於druid的實現方案,將上述3個查詢轉化為druid中的timeseries(求總數)、topn(求前5)、groupby(求兩兩關聯)查詢。
資料清洗(etl)
將使用者pv流水根據,聚合成乙個session會話。session會話內使用者的訪問流水按時間排序,取前11個分別放於維度landing_page ~ path10,etl處理後的資料**示例如下:
host
landing_page
path1
path2
…path10
www.***.com
/index.html
/a/b…/e
www.***.com
/product.html
/c/d
…null
資料入druid供查詢,schema設計如下
查詢語句示例},
"dataschema" : ,
"querygranularity" : ,
"intervals" :
},"parser" : ,
"timestampspec" : }
},"metricsspec": },
"tuningconfig" : ,
"indexspec" : ,
"dimensioncompression":"lz4"
, "metriccompression" : "lz4"
, "longencoding" : "auto"
} }
}}
計算每一級所有網頁的會話總數(預設展示前5級),過濾掉為null的情況(使用者只訪問到上一級就跳出)。
計算每一級會話數top5的網頁,過濾掉為null的情況(使用者只訪問到上一級就跳出)。]
},"aggregations": [
},"aggregator":
},},
"aggregator":
},},
"aggregator":
},},
"aggregator":
},},
"aggregator": }],
"intervals":
}
計算每一級兩兩網頁之間的跳轉訪問數,後一級的null用來計算流水數。,}]
},"threshold": 5
, "metric": ,
"aggregations": ,
"intervals":
}
本文提出基於druid來做訪客路徑分析的方案需由多個請求來完成。,,]
},"aggregations": ,
"intervals":
}
PostGis路徑分析
建立postgis資料庫。使用sample資料庫做模板。要生成最佳路徑,首先要生成合法的拓撲。生成拓撲前,需要新增兩個字段,用來儲存線段的首尾編號 add source and target column alter table nyc roads add column source integer...
網路分析概述 路徑分析
網路分析功能 路徑分析 路徑分析是gis中最基本的功能,其核心是對最佳路徑的求解。從網路模型的角度看,最佳路徑的求解是指在指定網路的兩個結點之間,找一條阻礙強度最小的路徑。另一種路徑分析功能是求解最佳遊歷方案,又分為弧段最佳遊歷方案求解和結點最佳遊歷方案求解兩種。最佳路徑分析 最佳路徑分析也稱最優路...
統計之路徑分析簡述
一般來講,無論是一元線性回歸還是多元線性回歸,都是研究自變數如何影響因變數的。然而在一些問題當中,自變數之間也有可能存在聯絡。這種情況下,傳統的線性回歸模型就不適用了。路徑分析 path analysis 就可以解決這種問題。以下以住院的例子進行說明 圖1 圖1.路徑分析的乙個例子。年齡 入院時的病...