Actor Cric推薦演算法

2021-09-08 15:37:07 字數 855 閱讀 3986

本文提的主要方法是捕獲推薦物品之間的關係並產生一系列補充物品,來增強效能。

對於一些方法基於在同樣的狀態下推薦一些物品,忽略了推薦的物品治安的搞關係,因此推薦的物品是相似的。實際中對於一些互補物品可能比推薦所有相似的物品有很高的回報。

結構的選擇(4)critic框架

是為了學習動作-值函式的近似,它是為了判斷由演員產生的動作是否匹配當前狀態st;演員如何根據q(st,at)更新它的引數??

critic框架利用dqn網路。其中這裡動作將確定。目標值yt

損失函式為:

(5)訓練流程

將使用確定性策略梯度訓練框架(dev)中引數。

1、td方法—temporal-difference (td) learning

td它整合了蒙特卡洛思想和動態程式設計(dynamic programming, dp)思想。像 dp 方法一樣,td 方法不需要等到最終的 outcome 才更新模型,它可以基於其他估計值來更新估計

推薦演算法之好友推薦

寫點自己的理解,大牛請直接略過。好友推薦裡有推薦一些你可能認識的人,其中二度人脈是其中一種。比如 何炅和謝娜 在微博上相互關注,那用二度人脈的方法就是找和謝娜相互關注的人 如 張杰,海濤,某人 這時候 張杰,海濤,某人 就是何炅的二度人脈,排除掉何炅已經相互關注的張杰,剩下 張杰和某人 於是何炅發現...

推薦演算法分類

1 item based collective filtering 總結 物以類聚 很多 的核心演算法之一 原因 item的增長速度遠小於user的增長速度 方法 離線計算item的相似度矩陣供線上使用 缺點 由於基於item的相似性,故推薦的item相似,缺乏多樣性 2 user based co...

推薦演算法簡介

在推薦系統簡介中,目前,主要的推薦方法包括 基於內容推薦 協同過濾推薦 基於關聯規則推薦 基於效用推薦 基於知識推薦和組合推薦。一 基於內容推薦 基 於內容的推薦 content based recommendation 是資訊過濾技術的延續與發展,它是建立在專案的內容資訊上作出推薦的,而不需要依據...