1、策略迭代、價值迭代、泛化迭代的前提條件:智慧型體知道環境的狀態轉移概率,即是基於模型的問題
2、蒙特卡洛方法取樣:隨機取樣估計期望值,通過樣本序列逼近真實的期望值。 成立原因:大數定理。
3、探索和利用,探索指的是不拘於當前的表現,選擇不同於當前策略的行動;利用是持續使用當前的最優策略,盡可能的獲得更多的回報。
4、蒙特卡洛方法的缺點:估計值的方差大。估計值方差大則均值收斂需要更長時間。方差大的原因:每次擲骰子的數字都不同,取樣頻率的問題,會多次出現同乙個狀態,在計算的過程中沒有區分第一次到達這個狀態和第二次到達,是every-visit的方式,可以改成採用first-visit的方式減小方差,但沒有顯著提高。
優點:資料量足夠大的時候,對期望值的估計是無偏的。
5、時序差分法與sarsa:td法結合了動態規劃和蒙特卡洛方法,利用了最優子結構的思想。
但是他是為了縮小方差使得誤差變大了,蒙特卡洛方法是為了極小的誤差使得方差變大,td方法結果沒有mc好。
6、q-learning:它和sarsa只在乙個地方有區別,sarsa遵循了真實的互動序列,根據真實的行動進行價值的估計,q-learning在下一時刻選擇了使得價值最大的行動,沒有遵循互動序列。
存在」過高估計「的問題,使用最優價值的行動替代互動時候使用的行動。 200頁兩個步驟,關於收斂性證明暫時沒看懂?????
7、dqn演算法兩個突出點:
(1)replay buffer 回放機制:
q學習方法基於當前策略進行互動和改進,每一次模型利用互動的資料學習,學習後樣本被丟棄。存在兩個問題:乙個是互動得到的序列存在相關性。而對於基於極大似然的機器學習模型來說,假設就是訓練樣本是獨立且來自同分布的,假設不成立則效果大打折扣。另乙個是互動資料的使用效率低,模型訓練需要多輪迭代才能收斂,沒用用過就丟棄花的時間長。
樣本回放儲存了互動的樣本資訊,儲存當前的狀態s、動作a和長期累積回報v。buffer的大小設定的比較大,達到100萬個樣本這麼多,新的樣本把久遠的樣本覆蓋,之後均勻的從樣本中隨機取樣進行學習。
(2)target network目標網路:
引入和表現網路一樣的模型,目標網路由表現網路的引數延時更新而來,目標價值由目標網路計算得到。用它和表現網路的估計值比較進行表現網路引數的更新。
第七章 遷移學習
簡介 本章將通過搭建卷積神經網路模型對生活中的普通進行分類,並引入遷移學習 transfer learning 方法。為了驗證遷移學習方法的方便性和高效性,我們先使用自定義結構的卷積神經網路模型解決的分類問題,然後通過使用遷移學習方法得到的模型來解決同樣的問題,以此來看看在效果上是傳統的方法更出色,...
第七章學習小結
第七章的內容是查詢。查詢可以分為3種。分別是線性表查詢 樹表查詢 雜湊表查詢。1 線性表查詢 線性表查詢主要介紹了順序查詢和折半查詢這兩種方法。1 順序查詢區別於上學期學的方法,設定了哨兵,採用從後往前開始查詢的方法,將時間複雜度縮短了一倍。asl n 1 2 2 折半查詢,其實也叫二分查詢,原理是...
第七章學習小結
查詢的基本概念 查詢表 同一型別的資料元素 記錄 構成的集合。靜態查詢表 對查詢表只進行查詢操作。動態查詢表 不僅進行查詢操作,而且在查詢過程中還伴隨著插入 查詢的資料元素不在表中時 刪除某個資料元素的操作。關鍵字 key 是資料元素 或記錄 的某個資料項的值,用它可標識 識別 乙個資料元素 或記錄...