推薦系統之召回策略 Blog2

2021-10-07 12:42:37 字數 2182 閱讀 3862

今天也要加油鴨~

海量 item——召回(粗排)——候選集合——排序(精排)——排序列表—— 規則(多樣化推薦)—— 推薦結果

所謂召回,是指從上百千萬的商品中,粗排出幾百上千的商品,供打分模型精排。

目前工業界的推薦系統,在召回階段,一般都採取多路召回策略。比如典型的召回路有:基於使用者興趣標籤的召回;基於協同過濾的召回;基於熱點的召回;基於地域的召回;基於topic的召回;基於命名實體的召回等。下面具體介紹幾種。

要求:有個能準確且詳細描繪使用者和item的標籤體系。主要有兩種方式如下:

單標籤是直接篩選一些分類或細分標籤作為召回的有效標籤(如內容形式_案例、風格_中式等),這種方式簡單、粗暴,且召回結果豐富,不存在召回結果為空的情況。當然,具體用哪些標籤是是乙個關鍵點。一方面是因為部分單標籤會存在包含關係,所以不加篩選的話召回結果的重複佔比會很高,對召回的效能也有影響;另一方面,為了幫助使用者更精準的篩選候選集,不同型別的使用者(如冷啟動使用者與活躍使用者,會員使用者與普通使用者等)所用的召回標籤肯定也存在差異。

上面說的單標籤召回存在召回結果重複率高、不精準的問題,雖然召回結果豐富,但做了過濾後,有效的結果是有限的。

組合標籤召回可以是同級標籤組合(如風格_中式_and_家庭結構_一家三口)、多級標籤順序組合(如內容形式_案例_and_種類_),也可以跨分類多級組合(如性別_女_and_需求_開放式廚房 _and_內容形式_),還可以將靜態標籤與動態標籤進行組合、固有屬性標籤與使用者行為進行組合等,具體組合型別及組合的深度可通過產品特性和業務特點去發現和探索。即使不做太多優化,組合標籤召回的效果也比單標籤好很多。

user-based cf :基於使用者的協同過濾演算法,多用於挖掘那些有共同興趣的小團體,通常新穎性比較好,準確性稍差;

item-based cf:基於物品的協同過濾演算法,多用於挖掘物品之間的關係,然後根據使用者的歷史行為來為使用者生成推薦列表;

1.向量空間模型vsm:

向量空間模型是乙個文字文件空間表示方法。給定文件詞彙表是乙個詞典,通過一些自然語言處理方法從所有文件中獲取,詞典中詞的數為n。每個文件被表示成乙個n維空間中的向量,每一維對應給定文件詞彙表中的乙個詞在該文件中的權重,文件dj和詞tk權重w(k,j)的計算方法如下:

tf-idf(tk,dj)=(詞在文件中頻率/最常出現詞在文件中頻率)*log(文件數/出現過詞彙tk的文件數)

w(k,j)=tf-idf(tk,dj)/sqrt(j文件中各詞tf-idf平方的和)

2.度量兩個文件的接近程度

常使用余弦相似度:sim(di,dj)=兩向量點積/兩向量模的積

(1)ugc(使用者生成的內容)標籤系統

2.標籤的流行度的log和標籤的數量的log幾乎是一條斜率為負的直線。

(2)簡單的基於標籤推薦

p(u,i)=sum[n(u,b)*n(b,i)],其中n(u,b)為使用者u打過標籤b的次數,n(b,i)為物品i被打過b標籤的次數。

1.演算法的改進

2…p(u,i)=sum[n(u,b)*n(b,i)/(log(1+nb(u)))],增加了分母項(為了懲罰熱門標籤),其中nb(u)記錄了標籤b被多少各不同使用者使用過,借鑑了tf-idf的思想。

3…p(u,i)=sum[n(u,b)*n(b,i)/(log(1+nb(u)*log(1+ni(u))))],進一步擴充套件了分母項(為了懲罰熱門物品),其中ni(u)記錄了物品i被多少各不同使用者打過標籤。

(3)解決資料稀疏性(相似標籤的聚合)

現實中使用者和物品的交集標籤會很少,所以應將相似標籤聚合,計算標籤的余弦相似度:

sim(b,b』)=[sum(nbi*nb』i)/sqrt[sum(nbi2)*sum(nb』i2)]],nbi為給各物品打標籤b的使用者數,nb』i為給各物品打標籤b』的使用者數。

(4)標籤清理

1.去除詞頻很高的停止詞和表情緒的詞;2.去除因詞根、分隔符不同造成的同義詞。

3.也可採用讓使用者進行反饋的方式。

(5)如何給使用者推薦標籤

2.方法:將使用者u最常使用的標籤和物品i最常被打的標籤線性加權。

當然還有,基於知識圖譜(後續補充)

在新使用者的冷啟動中,按照時間和熱度做內容召回;從內容角度考慮,根據新聞的時效性,對熱點新聞加大權重。

推薦召回策略

1.概述 召回是指從全量資訊集合中觸發盡可能多的正確結果,並將返回結果給 排序 排序是對所有召回的內容進行打分排序,選出得分最高的幾個結果推薦給使用者。2.召回策略 常用的主要有協同過濾 向量化召回和深度樹匹配模型。2.1 協同過濾 協同過濾主要分為基於物品的協同過濾 基於使用者的協同過濾和基於模型...

推薦系統召回之userCF

通過計算使用者之間的相似度。這裡的相似度指的是兩個使用者的興趣相似度。假設對於使用者u uu和v vv,n u n u n u 指的是使用者u uu喜歡的物品集合,n v n v n v 指的是使用者v vv uu和v vv的相似度 w uv n u n v n u n v w frac wuv n...

推薦系統 召回 冷啟動

冷啟動問題主要分為兩類 這裡主要分享兩個演算法,乙個是利用使用者的註冊資訊進行冷啟動,乙個是利用物品本身資訊進行冷啟動。這裡主要利用使用者註冊時填寫的人口統計學資訊,如年齡 性別 職業 民族 學歷和居住地 獲取使用者的註冊資訊 根據註冊資訊對使用者進行分類 給使用者推薦他所屬那個分類中使用者喜歡的物...