相關query挖掘

2022-08-09 13:03:14 字數 1204 閱讀 6565

我通常也把相關query稱為相似query,搜尋日誌中乙個使用者在短時間內的一系列搜尋詞被稱為相關query。相關就是兩個query間有一定的關係,反映了使用者在當時的需求。本文就以應用搜尋為背景來介紹相關query。

候選資料

分析每天的使用者日誌,從搜尋日誌中提取短時間(15分鐘或30分鐘)內的搜尋詞組成候選相關query對。最後分析的日誌天數越多越好,資料越多挖掘出的相關query對越多,結果也越準確。

特徵抽取

模型訓練

補招漏選資料

最終結果的多少的主要影響因素有使用者搜尋日誌間隔、日誌天數。

具體實現過程中發現和大query相關的小眾query招不回來,因為其本身搜尋次數太多。但我們需要大query來為小query導流。

《紀念碑谷(44736次),天空迷宮(200次)>,共現次數是89次,相似度是0.004,相似度太低,導致紀念碑谷無法召回天空迷宮。

《天空迷宮,紀念碑谷》其相似度是0.069,被認為是相關query。

所以我們會反向找一次,對於相關query對《天空迷宮,紀念碑谷》會判斷下其反向對《紀念碑谷,天空迷宮》的情況,如果發現紀念碑谷是大query(超過一定次數如1w)且其自身相似度超過一定域值(如0.003),我們也會把《紀念碑谷,天空迷宮》給招回來。

線上反饋

這樣我們就可以通過線上展示結果獲取乙份真實的標註資料,用該資料去重新訓練演算法,獲得乙個新模型來重新**原始資料。

線上反饋的作用就是找到真實標註資料,替換舊樣本獲得新模型,從而不斷提高模型的準確度

持久化good case,避免回退

最初是相關query對,每當使用者搜尋querya時,就會出來queryb的結果。時間久了,使用者輸入querya後就不會再輸入queryb,那就導致可能在某段時間後挖掘不出該相似對,那querya下就無法顯示queryb對應的應用;使用者又會漸漸的在輸入querya後再次輸入queryb才能獲得想要的結果。這樣就導致效果起伏,我們需要避免這種情況。

所以對每次線上反饋中的正向case,我們都做持久化,以白名單的形式強制加到最終的相關query中。以此來積累正向case,減少效果回退的情況。

query 相關操作

每一次操作select的時候,總是要出來翻一下資料,不如自己總結一下,以後就翻這裡了。比如 1 設定value為pxx的項選中 selector val pxx 2 設定text為pxx的項選中 selector find option text pxx attr selected true 這裡有...

資料探勘相關演算法

所謂分類,簡單來說,就是根據文字的特徵或屬性,劃分到已有的類別中。常用的分類演算法包括 決策樹分類法,樸素的貝葉斯分類演算法 native bayesian classifier 基於支援向量機 svm 的分類器,神經網路法,k 最近鄰法 k nearest neighbor,knn 模糊分類法等等...

資料探勘相關術語 名詞

etlextraction transformation loading bi business intelligence dw data warehouse 資料倉儲之父william h.inmon 他的幾本資料倉儲方面的書值得一看 資料倉儲模型 inmon提出的企業級資料倉儲模型 kimbal...