關於DQN一些小想法

2021-07-25 13:00:29 字數 1042 閱讀 9088

基於目前對rl這方面的了解,主要分為基於三個方面: value function, policy 以及 model

其中目前最廣泛的為value function的思路,也就是所謂的q-learning,deep q network 與深度神經網路的結合。

目前主要看了兩篇dqn 在nlp 和object detection方面的兩篇應用的文章深有感觸

1. improving information extraction by acquiring external evidence with reinforcement learning

2. active object localization with deep reinforcement learning

我的思考是,dnq中每一條記錄(s,a,r,s') 其實包含三個方面:

1. 如何定義state

2. 如何確定actions的範圍

3. 如何定義reward的規則

例如在**1中,例如rl去學習如何更好地從文章中的精確地提取entity的資訊,其中最重要地是學習去提取和當前事件相同的其他表達方式。

1. state的定義: 也就是dqn的輸入,在**中**的state由幾個方面組成,包括當前entity的置信度,和擴充選擇的entity的置信度,他們的matches以及content word的tf-idf。

2. action的定義:**中有兩種actions 也就有兩個networks。 每個actions的選擇範圍是固定的。文中的兩個actions:reconcile和 new entity selection(query),其中reconcile定義為只有四種,接受某個,接受所有,拒絕全部以及停止。 query則是利用其他方式定義好的k(常數)個模板。

同樣地,**2也是巧妙地定義了這個方面。

目前,我還沒有看過rl在語音識別方面應用的*****,如果您看過比較好的,可以給我推薦一下嘛。

之前嘗試過讓rl自動去學習語音識別的對齊問題,感覺如何定義action和reward,尤其是reward function存在著困難。目前對ctc這個概率思想理解地不是很深入,有待努力。

我的一些小想法 聊以一笑

1 用正背面 左右面 上下面,6張生成事物三維構圖。可以用來新增到聊天程式的對方實體 娛樂軟體來為使用者生成自己的三維 小動畫 電影 等。2 整合所有搜尋引擎的 各個搜尋引擎的頭幾條作為這個 的搜尋結果。可新增搜尋偏好,可以按各大搜尋引擎結果的相同資訊的重合 度顯示結果。3 乙個統計所以同城醫院各類...

關於OCR,一些想法

ocr一般分為兩種 1,根據給定的字元特徵集合,提取未知字元的特徵進行匹配識別 典型例子 gocr 2,不知道字元特徵,但給出提取特徵的規則,通過機器學習training來獲取某個字符集的特徵集,對未知字元進行匹配識別。典型例子 tesseract 第一種方法簡單,在某些場合很高效,但比較侷限,字符...

關於tv app的一些想法

以前是做iptv機頂盒的,現在是做網際網路電視機頂盒的,在技術上的區別是不大的。通過這些年與電信,廣電打交道,現在對產品有了一些小想法。那麼在顯示上都是以web為主,用web來顯示epg內容,用osd來顯示狀態。但是隨著android的出現,現在大部分機頂盒或電視劇集廠家,都開始了智慧型之旅。乙個是...