Alpha Zero 趣味學習 TicTacToe

2021-08-27 04:08:57 字數 727 閱讀 4886

深度學習風行天下,起始於圍棋軟體 alphago 的成功。

從遊戲軟體開發中學習 deep learning,可以適當避開深度學習理論的繁難晦澀、枯燥乏味,值得一試。

alphago 有著名垂青史的赫赫功績,但也有其難免的弱點。它的學習方法屬於有監督學習,需要海量標註資料,不僅使得開發成本居高,並且學習者難有充足資料可用。

alphago zero 的學習方法屬於無監督學習,人們只需給出解題的基本規則,無須提供具體資料。alphago zero 是自學成材。

不過,alphago zero 的自學訓練,對硬體效能要求極高,學習者若要嘗試實驗,需先投入大量資金購置高檔計算機裝置。

比較好的辦法,是選用與 alphago zero 功能原理相近的軟體作為替代。我推薦 blanyal 的作品 alpha-zero。它有3個遊戲,但我只會玩其中的 tictactoe,知道它的規則邏輯,所以選擇它當作學習物件。

嘗試訓練程式,我是這樣做的:

建立目錄 tictactoe,拷入源程式包中第一級目錄下的全部 8 個.py 檔案,和第二級目錄 tic_tac_toe

建立目錄 tictactoe\data

開啟 config.py,修改其中的 2 句

開啟 main.py,刪除其中 2 句

命令列執行:python main.py

程式執行 9 分多鐘,完成網路訓練。源程式通過基本體檢。

後又訓練 1 次,用時約 30 分鐘,對弈結果平局,訓練成功。

TI學習筆記之「Flying Start」

flying start具備在非零轉速下啟動的能力,這種功能適用於洗衣機 風機 電動自行車 電動滑板車等應用。flying start模式對於啟動命令的響應是和電機轉速 頻率和相位 以及電壓同步的,而後電機加速至目標轉速,這將避免觸發過流保護。無感測器flying start功能植入了乙個 頻率搜尋...

Q格式 TI的dsp的IQmath學習

接觸dsp和無刷電機原始碼時,對於計算的要求比較高。對q格式做一下了解,當然也解答了我以前的疑問。1.什麼是定點數?2.印象中的dsp不是應該支援浮點數的運算麼?在看st的變換原始碼時,本沒了解什麼是q格式,不過當時的理解是將sin theta 在0 90度的值 0 1 區間做了放大,即為0 327...

互動式AR趣味學習軟體

本作品主要致力於中小學生的興趣培養和空間想象能力的提高,具備兩項主要功能,第一 能夠提供學習規劃 學習提醒 學習時間曲線反饋等功能來提高學習的自覺性和有效性。第二 能夠在學習過程中提公升學習體驗。通過ocr技術 物品識別 ar技術 手勢和語音互動將靜態的文字 讀物立體化,通過虛擬按鍵的旋轉 移動 縮...