真正的頭號玩家 遊戲AI

2021-08-20 19:39:06 字數 4940 閱讀 9164

機械人。它們槍法差反應遲鈍,看起來就是給玩家「送快遞」的。但這些或者處處阻撓玩家,或者與玩家並肩作戰而無所不在的

ai,恰恰是遊戲中真正的「頭號玩家」。它們的發展伴隨機器學習的進步,是人工智慧在虛擬世界中的直接應用。如果把棋類也看做是遊戲,那麼前兩年出現的

alphago則

代表了遊戲

ai在未來的無限可能。

ai其實就是「指令碼」,執行著一次性或者迴圈的指定行為,跟其他的遊戲背景環境也沒有太大區別。此後,為了給玩家增加更多的變數,「事件」被引入了。

ai開始觀察環境或玩家,當出現了一定條件時,

ai會改變自己的行為邏輯。典型的例子比如

1987

年的《合金裝備》,其中的遊戲

ai原本處於巡邏模式,當遭遇玩家後會表示驚嚇並進行報警。在後來的《帝國時代》、《星際爭霸》、《魔獸爭霸》系列的地圖編輯器中,事件也作為乙個關鍵功能,可以讓玩家自己

diy出複雜的劇情。比如《帝國時代

2》中,就有大神甚至製作了總計

120張地圖的完整三國劇情。

ai會在比分落後、時間不多時瘋狂上搶。這是因為

ai存有上百種隊伍狀態,根據比分、時間、球的位置、球隊的不同,

ai的狀態和球隊打法都會不一樣。在戰術層面上

ai使用的是「狀態機」,而在個體球員層面上選擇就更為複雜,需要使用「決策樹」。決策樹是機器學習中的常用演算法,通過遞次判斷輸入資料中各特徵的值來進行輸出。足球的球員

ai是因為影響因素太多,比如球的距離、敵方距離、隊友距離、邊界距離等,用狀態機來表示的話狀態太多,故使用決策樹來對這些特徵逐一判斷。比如防守時,球的距離太遠就盯人,球的距離很近敵方也很近又在禁區時就解圍。

,遊戲中你有時會覺得這樣的

ai已經很聰明了,需要不停使用

sl**才能過關。但嚴格說起來它們還不算人工智慧,並不具備真正的學習能力,實際上你對抗的是遊戲程式設計師。而真正能讓

ai變的無可匹敵,讓

alphago

得以擊敗人類的,是「強化學習」。強化學習說白了就跟訓練寵物似的,

ai做的對就獎賞,做錯了就懲罰。所謂對與錯的判斷標準,可以是能否擊敗玩家,能否獲得高的分數等。而獎賞與懲罰,也就是增加或者削減此前行為的權值。遊戲中使用「強化學習」的還不多,有《黑與白》、《最高指揮官》等。貌似知名的《紅色警戒3》中

ai也會根據玩家前幾局的常用戰術進行針對,但是否使用了強化學習並不確定。

google

)將其與強化學習結合起來,構建了深度強化學習,並以此來訓練

ai玩經典的雅達利遊戲,獲得了比人類更好的成績。所謂深度強化學習,也就是先使用深度卷積神經網路來對當前的遊戲影象進行識別,自動提取出所需資訊,再根據這些資訊進行強化學習。在此基礎上,

deepmind

開發了圍棋程式

alphago

,先後戰勝了李世石與柯潔。圍棋可謂中國的傳統國技,是乙個規則簡單、狀態數卻近乎無窮的遊戲。對於

19*19

的棋盤,共有

361個點,每個點可以有白子、黑子、無子

3種狀態,故棋盤有

3^361

種情況,約等於

10^172

。因此,無法靠搜尋或儲存每一種情況來編寫ai。

...」;甚至有時情況太複雜,我們推算幾步之後還是無法確定這麼下好不好,只能再憑感覺(棋感)來判定好壞;根據推算的結果和所剩時間,決定就這麼落子,或者再來推演其它的下法;最後到了終盤時,能下的位置已經不多了,也許可以直接推算到比賽結束,完全不用依靠感覺了。

alphago

的演算法就恰恰完全重現了這一套思路,可以算是對人類下棋方式的徹底模仿。只不過因為電腦的計算能力優勢,

alphago

可以比人類算的更遠,從而在中盤奠定勝利。

首先依靠乙個卷積神經網路,把當前的棋盤和過去幾步的落子等資訊輸入進去,輸出應該下在**。這個決定落子的網路被稱為「策略網路」,其網路引數由人類的棋譜訓練得到。由於人類的常見定式可能就那麼幾十種,策略網路能很好的學會如何開局。中盤時,

alphago

依靠「蒙特卡洛樹」結合策略網路來進行推演,即:先依靠策略網路下幾步,再根據之後的局面是好是壞,來修改這幾步的權值;如此反覆推演成千上萬次,並在接下來的推演中綜合策略網路的結果、各個位置的權值和推演次數來綜合決定下一次嘗試哪幾步。以機器學習的思想來看,需要這麼做本質上是因為策略網路不夠強大(訓練用棋譜不夠多),因而無法完全用「判別式模型」(完全依靠訓練資料生成模型)直接解決問題。加上下棋時允許機器有一定的思考時間,故可以結合「生成式模型」的思想(模型的生成需要測試資料)。那麼在下了幾步之後,又如何判斷局面是好是壞呢?

alphago

使用了兩種方法:「價值網路」和「快速走子」,分別代表著棋感與推算到底。代表棋感的價值網路,也是乙個卷積神經網路,結構其實和策略網路一模一樣,就是在其基礎上又多使用了自我對弈的棋譜作為輸入(強化學習)。之所以策略網路沒有使用自我對弈,可能是想保留人類的開局定式。而代表推算到底的「快速走子」,也是在策略網路的基礎上進行簡化,提公升了網路的執行速度,從而可以快速的一直模擬到對局結束,再直接用輸贏結果作為反饋。最終的局面判斷,則是

對價值網路與快速走子各進行1/2

加權的綜合結果。

3000

」一樣是個大雜燴,其結合了「策略網路」、「蒙特卡洛樹」、「價值網路」和「快速走子」四種方法,包含「深度學習」、「判別式模型」、「生成式模型」、「強化學習」和「推演到底」五種思想。但上面也提到了,價值網路和快速走子其實都是由策略網路變化而來,那麼能不能把它們合併呢?

alphago

的下個版本

alphago master

正是這麼做的——用價值網路代替了策略網路,並刪掉了快速走子,完全用價值網路來預估局勢。同時用最新的

resnet

來構建價值網路,並以

alphago

的自我對局來對價值網路進行訓練,從而大大提公升了網路的精確度。如此改進後的

alphago master

在對戰平台上橫掃了人類頂尖選手,並在烏鎮以

3:0完勝柯潔。但

deepmind

並沒有停下,他們繼續把網路的輸入也精簡到只有棋盤和此前幾步的落子資訊,並完全去掉了人類棋譜,從零開始只通過純自我對弈來訓練網路!後來的結果我們都知道了,

alphago zero

由此誕生,

3天走過人類千年圍棋史,

40天擊敗了

alphago master

,震撼了整個機器學習界。

2》進軍,這一決定令無數遊戲玩家感到興奮。《星際爭霸》在

1998

年由大名鼎鼎的暴雪推出,奠定了如今火爆的電子競技產業,被譽為「上帝借暴雪之手賜予玩家的神作」。因為它變化豐富,單位和機制眾多,卻又擁有「完美」的平衡性,當然星際的單位模型、配音和劇情也都堪稱頂級。星際在南韓幾乎是國民遊戲,出現了眾多頂級職業選手,特別是「

boxer

」,其開創的「微操」概念讓人們驚嘆不已,極大的擴充套件了星際的複雜性和生命力。《星際爭霸》的

ai已經有很多了,它們戰術打的有模有樣,微操更是沒話說(參見「悍馬

2000

」),但大多都還是用指令碼、狀態機、決策樹寫成。

2023年10

月31日,南韓選手

stork

(人稱「總司令」)在世宗大學舉辦的對抗賽中輕鬆吊打了三大最強星際

ai,包括

facebook

開發的使用了機器學習的「

cherry pi

」,讓人們看到星際確實比圍棋難以征服的多。這主要是因為:

1.眾多的單位、屬性、技能、規則、地圖。

2.戰爭迷霧,並且有幻象和**單位,建築也可以取消建造。

3.人族星軌、神族傳兵、蟲族蟲洞等巨集機制。

4.apm

(每分鐘運算元)限制,如果存在限制,則需詳細計算每個操作的長短期收益。

2本來在國內一度陷入低谷,但依靠星際老男孩

scboy

7年來的堅持,如今看的人還是挺多的(因為想玩好比較難

..)。

scboy

最早由黃旭東、

msjoy、

f91、周寧

組成,特長是天南地北的海聊(相聲),以真摯的情感喚起了80後

90初的集體記憶。後來黃旭東和

f91等人又一步步犧牲自己成為了「諧星」,以「毒奶」和「智障」(又稱「

守護者」)著稱,又吸引了很多90後00

後加入到星際

2中。我很有幸見證了這一段歡樂而「偉大」的歷史,細節先在此不表。

deepmind

很清楚《星際爭霸

2》無法在短期內用

ai征服,他們去年和暴雪共同發布了星際

2ai研究環境

sc2le

,並且deepmind

將其進一步封裝成了

pysc2

,希望通過開放平台來加速星際

2 ai

的研究。

pysc2

基於python

,使用資源數、人口數和數個遊戲畫面層等作為輸入,與人類玩家獲得的資訊一樣,各個畫面層包括單位歸屬、單位血量、是否選中、地形高度等。而輸出的指令包括框選、移動、攻擊、建造、使用技能等,並且指令輸出的頻率受apm限制以保證公平性;另外每類指令又有相應引數要給定,總的可能指令數達到了

10^8左右

,遠超過圍棋(

19*19

)。為了降低任務的複雜性,

deepmind

基於pysc2

先嘗試解決了

7個小遊戲,分別是座標尋路、尋找收集礦物、尋找消滅跳蟲、槍兵

vs蟑螂、槍兵

vs毒爆跳蟲、採集礦物和瓦斯、建造槍兵,這相當於對一局比賽的常見情況做了分解。

deepmind

在這些小遊戲裡得到了較高的得分,但顯然這離完整的比賽還有相當距離。

ai的進步,就像人類中乙個呱呱墜地的嬰兒到學會了分辨物體學會了爬行,而如今,它們正要開始學習拼積木,去真正領悟創造力,《星際爭霸

2》正是下乙個美妙而複雜的積木。當然,要等到

ai真正與《星際爭霸

2》頂尖職業選手登上比賽舞台的那一天,相信還需要更多突破性的進步,就讓我們共同期待吧

中國雲遊戲元年 順網科技躋身頭號玩家佇列

日前,索尼宣布playstation now訂閱費降價並以加碼遊戲內容的形式向谷歌 微軟宣戰,後兩者程式設計客棧目前還未對 戰有所回應,但無疑雲遊戲全球化市場的競爭將愈演愈烈。與快速進入競爭期的海外市場相較,2019被認為是中國雲遊戲元年,國內多家巨頭紛紛下注。騰訊 華為 順網科技等大廠程式設計客棧...

流利說林暉 AI 教育的頭號玩家,這盤棋怎麼玩?

2018 年 9 月 27 日 流利說在紐交所掛牌上市,也成為了今年繼尚德機構 精銳教育 樸新教育 安博教育後的第5家美股教育上市公司。ipo完成後,流利說的交易 為 laix 對於這次 造詞 流利說聯合創始人兼首席科學家林暉博士解釋 l 代表 life,ai 代表人工智慧,x 代表未來的無限可能,...

分析玩家購買虛擬商品的真正原因

我曾不止一次聽說了人們對虛擬商品和花錢買樂趣的一些誤解,喜歡玩免費遊戲的使用者就會買虛擬商品,因為他們已經習慣於花錢獲得娛樂體驗,而虛擬商品正是我們提供的樂趣所在。但事實並非如此。使用者並不會因為自己喜歡玩遊戲,然後就為其中的虛擬商品付費。假如你執拗於前面那種想法,那就很難利用病毒傳播功能和強迫迴圈...