對話系統學習筆記(3)

2021-08-29 23:43:03 字數 1670 閱讀 1556

針對以上問題,作者提出了以下方案:

模型建立

該模型依舊使用lstm encoder-decoder模型,不同之處在與使用了兩個機械人進行對話:

reward函式定義

action:a 是產生的響應,生成的句子可以是任意長度。

state:上一輪兩個機械人的對話 [pi,qi]。對話歷史通過將 pi 和 qi

拼接起來,利用 lstm 編碼。

policy:指給定 state 之後各個 action 的概率分布,也就是 prl(pi+1|pi,qi)

1. 避免無聊響應

作者給出的函式為:

其中,s是建立好的無聊響應的response集和,ns是回答s中無聊響應的個數,響應a為輸入時模型輸出s的概率,本文設計了8個常見的dull utterance作為整體使用的dull utterance集合。作者在實驗中證明,由於dull utterance之間彼此表示接近,所以僅僅使用集合中的8個,效果就能夠覆蓋得很好。在計算過程中,由於p小於1,所以整體r1大於0。

2.避免重複回答

函式為:

h代表的是相近兩輪對話的代表值。cos是對話的相似度,r2也為正值。

3.避免高reward回答

函式為:

r3的目的是避免只產生高reward回答而捨棄了對話的連貫性。該函式分為兩部分,第一部分是基於上文產生a的概率,第二部分是對a產生q的反向**。反向的seq2seq是使用source和target反過來訓練的另外乙個模型,這樣做的目的是為了提高q和a之間的相互關係。

最終函式為:

最終的 reward 由這三部分加權得到。

實驗評測

1.兩個自動評測:(1)對話長度(2)對話多樣性;

2.人工評測。

對於對話長度,當出現無聊響應或對話重複率較高時就結束:

對於對話多樣性,使用unigrams、bigrams元組的數量和多樣性來進行評測:

總結

在實驗的評測中沒有採用使用比較廣泛的blue指標,其實在**中作者也提到了由於rl模型是基於未來的獎勵而不是mle,所以基於rl的模型實現的blue評分會更低也就不足為奇,因此在使用mle演算法的基礎上提公升對話的質量是值得思考的。

作業系統學習筆記3

1 快取最快,快取未命中,記憶體,記憶體找不到,缺頁,外存 2 儲存管理單元將虛擬邏輯位址轉換為實際實體地址 3 抽象 保護 共享 虛擬化 4 管理方式 重定位 分段 分頁 虛擬儲存 5 位址生成時機 編譯時 載入時 執行時 6 動態分割槽分配 當程式被載入執行時,分配乙個程序指定大小可變的分割槽 ...

linux系統學習筆記

一 軟體包安裝 原始碼包安裝 二進位製包安裝 二 rhel 7系統管理 使用systemctl命令管理服務 man命令幫助資訊 常用命令 reboot 用於重啟系統。格式為reboot,預設為系統管理員重啟 poweroff 用於關閉系統,其格式為poweroff,預設為系統管理員關閉 ps 用於檢...

Linux系統學習筆記

沒有裝系統的電腦稱之為裸機,人和計算機之間的翻譯平台就是作業系統os。分時作業系統是一台計算機能同時為多個使用者提供服務,使用者互動式發布命令,作業系統採用時間片輪轉的方式,為每個使用者服務。unix作業系統 unix是乙個多使用者多工的作業系統,收費的作業系統。linux版本一般使用centos和...