基於強化學習
dqn的智慧型體信任增強
亓法欣童向榮
於雷【期刊名稱】
《計算機研究與發展》【年卷
期】2020(057)006
【摘要】
信任推薦系統是以社交網路為基礎的一種重要推薦系統應用
其結合用
戶之間的信任關係對使用者進行專案推薦
但之前的研究一般假定使用者之間的信任
值固定無法對使用者信任及偏好的動態變化做出及時響應
進而影響推薦效果實際上
使用者接受推薦後
當實際評價高於心理預期時
體驗使用者對推薦者的信任將
增加反之則下降
針對此問題
並且重點考慮使用者間信任變化過程及信任的動態
性提出了一種結合強化學習的使用者信任增強方法
因此使用最小均方誤差演算法研究
評價差值
對使用者信
任的動態
影響利用
強化學習
方法deep
q-learning(dqn)
模擬推薦者在推薦過程中學習使用者偏好進而提公升信任值的過程
並且提出了乙個多項式級別的演算法來計算信任值和推薦
可激勵推薦者學習使用者
的偏好並使使用者對推薦者的信任始終保持在較高程度
實驗表明
方法可快速響
應使用者偏好的動態變化
當其應用於推薦系統時
相較於其他方法
可為使用者提供
更及時、更準確的推薦結果
【總頁數】
頁(1227-1238)
多智慧型體系統
強化學習
信任深度q學習
最小均方誤差方法
【作者】
亓法欣童向榮
於雷【作者單位】
煙台大學計算機與控制工程學院
山東煙台
264005;
紐約州立大
學賓漢姆頓分校電腦科學系
紐約州賓漢姆頓市
【正文語種】
中文
深度強化學習 (三)DQN
強化學習是乙個馬爾科夫決策過程,它的目標是追求累計回報最大化max,值函式v s 是對狀態s能獲得的累計回報的估計,也就是v s e gt st s 根據貝爾曼方程v st 與v st 1 的關係為 v st e rt 1 r v st 1 st s 引入動作後有動作 值函式 q st,at q s...
強化學習 DQN 演算法改進
dueling dqn 是一種基於 dqn 的改進演算法。主要突破點 利用模型結構將值函式表示成更加細緻的形式,這使得模型能夠擁有更好的表現。下面給出公式,並定義乙個新的變數 q s t,a t v s t a s t,a t 也就是說,基於狀態和行動的值函式 q 可以分解成基於狀態的值函式 v 和...
強化學習 二 DQN深度強化學習網路
dqn,deep q network,是融合了q learning和神經網路的方法 使用q table這樣乙個 來儲存state和action的q值,在複雜的情境下,狀態可以多到比天上的星星還要多,如果全用 來儲存,計算機是儲存不下的。並且在如此巨大的 中搜尋對應狀態也是一種很耗時的事情 不過神經網...