關於AlphaGo的一些理解

深度模型加蒙特卡洛樹搜尋，不需要外界知識的模型

1.深度模型

動態規劃與強化學習的目標：

動態規劃與強化學習的不同點

強化學習的基本思路：

給你乙個環境，機械人會有乙個行動，如果行動好，會有獎勵，行動不好，會有懲罰，這樣，不斷與環境互動獲得反饋，來優化行動。

強化學習的基本框架的數學表達（馬爾科夫決策過程）：

s代表狀態集合

a代表可採取的行動集合

r代表獎勵函式

t代表轉移函式（動態規劃問題中，t是已知的）:

學習目標，策略函式：

圍棋強化模型的基本思想：

利用專家提供的資料進行模型訓練

在圍棋問題上，就是利用人類棋譜來訓練落子模型，模擬人類專家的落子策略

關於熵的一些理解

對於理工科學生來說，熵並不是乙個陌生的名詞。在諸如大學物理熱力學和資訊理論等課程中都會有所介紹。但同時熵又是乙個顯得有點神秘的概念，看不見也摸不著。我最早是在高中物理課中聽說的，大概是在介紹熱力學第二定律時提到的。熱力學第二定律的內容是熱力學過程是不可逆的孤立系統自發地朝著熱...

關於float的一些理解

float是否脫離文件流，乙個父元素不設定overflow的話，子元素float，就不會把父元素撐開，換句話說，他就不會有高度，但是做個demo 父元素overflow hidden 子元素前兩個float，第三個不float，結果是第三個沒有clear浮動的元素，跟float的元素出現在同乙個位置...

關於android layout的一些理解

1 wrap content view的尺寸根據它的內容確定 match parent view的尺寸盡量和它的parent view group一樣大 2 獲得view的位置 position getleft gettop getright getleft getwidth getwidth 3 ...

關於AlphaGo的一些理解

關於熵的一些理解

關於float的一些理解

關於android layout的一些理解

相關推薦