深度模型加蒙特卡洛樹搜尋,不需要外界知識的模型
1.深度模型
動態規劃與強化學習的目標:
動態規劃與強化學習的不同點
強化學習的基本思路:
給你乙個環境,機械人會有乙個行動,如果行動好,會有獎勵,行動不好,會有懲罰,這樣,不斷與環境互動獲得反饋,來優化行動。
強化學習的基本框架的數學表達(馬爾科夫決策過程):
s代表狀態集合
a代表可採取的行動集合
r代表獎勵函式
t代表轉移函式(動態規劃問題中,t是已知的):
學習目標,策略函式:
圍棋強化模型的基本思想:
利用專家提供的資料進行模型訓練
在圍棋問題上,就是利用人類棋譜來訓練落子模型,模擬人類專家的落子策略
關於熵的一些理解
對於理工科學生來說,熵 並不是乙個陌生的名詞。在諸如 大學物理 熱力學 和 資訊理論 等課程中都會有所介紹。但同時 熵 又是乙個顯得有點神秘的概念,看不見也摸不著。我最早是在高中物理課中聽說的,大概是在介紹 熱力學第二定律 時提到的。熱力學第二定律的內容是 熱力學過程是不可逆的 孤立系統自發地朝著熱...
關於float的一些理解
float是否脫離文件流,乙個父元素不設定overflow的話,子元素float,就不會把父元素撐開,換句話說,他就不會有高度,但是做個demo 父元素overflow hidden 子元素前兩個float,第三個不float,結果是第三個沒有clear浮動的元素,跟float的元素出現在同乙個位置...
關於android layout的一些理解
1 wrap content view的尺寸根據它的內容確定 match parent view的尺寸盡量和它的parent view group一樣大 2 獲得view的位置 position getleft gettop getright getleft getwidth getwidth 3 ...