譯 AlphaGo 的確是乙個大事件

2021-09-07 06:54:26 字數 4659 閱讀 4049

**:

圍棋程式刻畫了人類直覺的元素,這是能夠產生深遠影響的進步。

1997 年,ibm 的 deep blue 系統擊敗了西洋棋世界冠軍,garry kasparov。當時,這場勝利被廣泛當做是人工智慧發展中的里程碑。但是 deep blue 的技術僅僅對棋類有用,不可推廣。電腦科學並沒因此產生革命。

而近期打敗了歷史上最強的棋手的 alphago 有沒有特別之處呢?

我相信答案是有,但是並不是依照和你們可能聽到的那些理由。很多的文章提出專家觀點認為圍棋比西洋棋更難,從而讓這次勝利顯得更加令人矚目。或者有人說我們並沒有認為在十年內在圍棋中機器能夠打敗人類,所以這是乙個重大突破。一些文章給出了正確的觀察,在圍棋中存在更多的可性位置狀態,但是他們並沒有解釋為何這個是對機器而不是人類更難的問題。

換言之,這些觀點都沒有解決核心問題:alphago 成功的技術進步是否有更加廣泛的影響?為了回答這個問題,我們必須認識到 alphago 的技術進步比讓 deep blue 成功的技術是質的飛躍同時也更加重要。

在西洋棋中,初學棋手被教導棋子的值這個概念。在一系統中,騎士或者象值三個卒。而車,因為能夠覆蓋的移動範圍很大,值五個卒。然後皇后有最大的範圍,值九個卒。國王有無窮的值,因為失去國王就輸了比賽。

你可以使用這些值來評估可行的走子。棄掉乙個象吃掉對手的車?通常是好的選擇。棄掉騎士和象換對手的車?那就不是乙個好的選擇了。

在計算機西洋棋中值的概念是很重要的。大多數計算機象棋程式搜尋數以百萬計或者數十億的走子的組合。程式的目標是找到乙個走子的序列最大化最終程式的棋盤狀態的值,而不管對手的走子的情況。

早期的西洋棋程式通過上面給出的規則來評價棋盤狀態。但後期的程式使用更加細節的象棋知識。deep blue 組合了超過 8,000 種不同的因素在評價棋盤狀態的函式之中。deep blue 不會僅僅說乙個象等於五個卒。如果同一方的卒在象前面,卒實際上會限制象的移動,因此讓象本身的價值降低。如果卒是**獲的,意思是他可以通過捕獲乙個敵方卒來開啟車的路,deep blue 將卒看做是半透明的,並不會降低車的值太多。

像這樣依賴細節知識的想法對 deep blue 非常關鍵。根據他們團隊的技術報告,這種半透明施壓卒在他們和 kasparov 第二場比賽中發揮了關鍵作用。

最終,deep blue 團隊使用了兩個主要的想法。第乙個是構建乙個函式可以使用很多細節的象棋只是來評價任意給定的棋盤狀態。第二個是使用強大的計算資源來評價很多可能的位置,選擇最佳最終棋盤狀態的那個走子。

那麼用這個策略來下圍棋呢?

使用這樣的策略你會很快進入到乙個困難的境地。問題出在如何評價棋盤狀態上。頂級的圍棋棋手使用很多的直覺來評判特定的棋盤狀態的好壞。例如,他們會做出關於乙個棋盤位置是「好的形態」的模糊描述。並且也不會是像西洋棋那樣的非常清晰的表達直覺方式。

現在你可能會認為這僅僅是多花時間精力就可以獲得很好的評價棋盤狀態的方法。不幸的是,並沒有顯而易見的方式能夠像西洋棋那樣成功,所以圍棋程式一直比較低迷。而所有的變化源自 2006 年 monte carlo tree search 演算法的出現,mcts 基於一種更加聰明的隨機模擬比賽的方式進行。但是這種方式仍然離人類棋手的實力很遠。所以看起來對棋盤狀態很強的直覺感才是取得勝利的關鍵。

有關 alphago 中提出的新的和重要的東西是人們設計出了一種可以將直覺層面的概念刻畫的方式。

為了解釋其工作機制,我們先描述 alphago 系統,主要內容參見 alphago 團隊發表於今年一月份的 **(系統的細節和 alphago 與李世石的比賽有不同,但是主要的原理是一致的)。

alphago 拿來了人類玩家的 150,000 比賽的資料,使用人工神經網路發現其中的模式。特別地,它學會了**人類玩家在任意給定的位置(狀態)走子的概率。alphago 的設計者們然後通過和自己更早的版本進行重複比賽來提公升神經網路的效能,不斷調整網路來逐步提公升其勝利的機會。

那麼這個策略網路如何學習**好的走子的?

簡而言之,神經網路是乙個非常複雜的數學模型,有數百萬的引數可以調整來改變模型的行為。當我說這個網路「學習了」的時候,我是指計算機一直在不斷地對模型的引數做出微小的調整,試著找到一種在比賽時給出微小進步的方式。學習的第一階段,網路試著去提公升做出和人類棋手同樣的走子的概率。而第二階段,網路會嘗試提公升在自我對弈中贏得比賽的概率。這看起來非常瘋狂——不斷重複對某個相當複雜的函式進行微小調整——但是如果持續足夠長的時間學習,並借助足夠的計算資源,網路會表現得越來越好。另外這兒有乙個奇特的現象:網路變得更好的原因無人理解,因為這些優化是數十億微小的自動調整產生的結果。

在這兩個訓練過程後,策略網路就可以下中規中矩的一盤棋了,可能和人類的業餘棋手水平相當。但仍然離職業水平有很大的差距。在某種意義上,這是一種不對未來走子過程進行搜尋且不評估結果棋盤狀態的下法。為了超越業餘水平,alphago 需要一種衡量棋盤狀態的方法。

為了越過這個障礙,設計者們研究出了 alphago 的核心想法——將策略網路和自身進行對弈,來獲得乙個給定的棋盤狀態是否為勝利的概率估計。勝利的概率就提供了一種關於棋盤狀態的評估的方法。(實際上,alphago 使用了乙個更加複雜的實現方式)接著,alphago 將這個觀點和對很多可能的走子過程的搜尋進行組合,將搜尋放在策略網路認為更加可能的路徑上。然後選擇那個給出最高棋盤狀態評價的走子。

我們可以從中看到 alphago 並沒有像 deep blue 對西洋棋那樣從乙個基於很多圍棋細節知識的評價系統開始。相反,通過預先分析成千場的比賽,並引入相當多的自我對弈,alphago 通過數十億的微小調整不斷地做出微小改進的方式構建了策略網路。然後,策略網路幫助 alphago 構建了乙個刻畫了非常類似於人類棋手所謂的關於不同棋盤狀態的直覺的概念。

按照這樣的方式,alphago 比 deep blue 更具突破性。因為計算機發展的早期,計算機就已經被用來搜尋優化已有的函式的方式。deep blue 的觀點僅僅是:搜尋的目標是優化儘管複雜但是形式大多數由已有的西洋棋知識表達的函式。當然完成搜尋的方式也是很聰明的,但是與 1960 年代的多數程式相比卻沒什麼不同。

儘管搜尋方式上更加聰明一些,不過 alphago 也還是使用了搜尋和優化的思想。但是這裡新穎且不同尋常之處是在前期(prior stage)使用了神經網路來學習幫助刻畫好的棋盤狀態的函式函式。通過組合這兩個部分,alphago 才能達到現在的狀態。

對比看來,deepmind 的神經網路簡單地探索了很多玩遊戲的方式。剛開始,網路和人類初學者很像,玩得非常糟糕,完全是瞎玩。但是網路偶然也會給出幾個精彩的操作。它學會了識別好的玩法——就是能夠獲得高分的玩法——這其實和 alphago 學會好的棋盤狀態的方式很像。並且當這個情況出現後,網路會強化這個行為,不斷地提公升玩遊戲的水平。

這種獲得直覺和識別模式的能力也已經被使用到其他的場景中了。在 2015 年,leon gatys、alexander ecker 和 matthias bethge 在 arxiv 上發表了一篇**,描述了一種使用神經網路學習藝術風格並能夠應用這種風格到其他上。這個想法非常簡單:網路會展示給大量的,獲得識別類似風格的的能力。然後可以應用風格資訊到新的影象上。例如,下圖給出了當你將中間那副梵谷的畫的風格作用在左邊的艾菲爾鐵塔的**上時就得到了右邊的復合。

這雖然不是非常好的藝術,但是對展示神經網路刻畫直覺並作用到各個領域確實是乙個很棒的例子。

由於這樣的多樣性,我認為 alphago 本身並不是乙個革命性的突破,但是更像是一種前沿的極度重要的發展:構建能夠刻畫直覺並學會模式識別的系統的能力。計算機科學家嘗試這個任務其實已有數十年,但並沒能取得大的進展。但是現在,神經網路的成功表明有潛力去擴大可以用計算機解決的問題的範圍。

現在去瘋狂歡呼去聲稱通用人工智慧在幾年後就會出現其實是危險的。總之,假設你將思考的方式分解成合乎邏輯的計算機能夠勝任的方式和「直覺」。如果我們將 alphago 和類似的系統看做是計算機可以模擬直覺的證據,看起來所有需要的基礎都已經形成了:計算機現在可以執行邏輯和直覺。那麼肯定通用人工智慧就在不遠的地方了!

但是這裡其實有個措辭上的錯誤:我們將很多精神活動都歸為「直覺」了。但僅僅因為神經網路可以刻畫某些特定型別的直覺就認為它能夠在所有型別的直覺上可行那就不合適了。可能神經網路在某些我們認為需要直覺的任務上一點都沒有作用。

實際上,我們現在對神經網路的理解上不少方面都很欠缺。例如,2014 年的一篇**描述了某些可以欺騙神經網路的「對手樣本」。作者從乙個表現很好的神經網路模型開始。看起來這樣的神經網路已經具備刻畫出模式識別的能力了。但是他們的工作表明,通過對進行微小的改變是可以欺騙神經網路的。例如,下面的中神經網路可以正確地識別左邊的小狗,但是如果加上中間突破中的微小的擾動,得到的右邊那副網路就不能正確地識別了。

對手樣本

另乙個現有系統的極限是他們通常需要對很多的人類樣本進行學習。例如,alphago 從 150,000 場人模擬賽中學習。這是相當大的乙個數目了!但是,人類是可以從很少的比賽中學習非常多的。類似地,識別和操作影象的網路一般都需要數百萬的樣本影象,每個影象有著對應的標註資訊。所以重要挑戰是讓系統不需要更少的輔助資訊從少量的人類提供的樣本資料集中學習。

諸如 alphago 這樣的系統是真正讓人興奮的。我們已經學會使用計算機系統重現人類直覺的某些形式。現在我們也面臨許多巨大的挑戰:擴充套件計算機能夠表示的直覺的範圍,讓系統更加穩定,理解他們工作的原理和機制,學習將這些模型和已有的計算機系統組合的更好的方式。我們可能很快就可以學會刻畫給出數學證明、寫出故事或者好的解釋的直覺判斷了嗎?現在正是人工智慧最為光明的時刻。

譯 AlphaGo 的確是乙個大事件

圍棋程式刻畫了人類直覺的元素,這是能夠產生深遠影響的進步。1997 年,ibm 的 deep blue 系統擊敗了西洋棋世界冠軍,garry kasparov。當時,這場勝利被廣泛當做是人工智慧發展中的里程碑。但是 deep blue 的技術僅僅對棋類有用,不可推廣。電腦科學並沒因此產生革命。而近期...

再談一次題外話 史密斯的確是個寶

伊梅爾 史密斯,這個賽季火箭的新丁,之前只是耳聞他很優秀,傳球精妙,表現穩定 看過火箭客戰馬刺的比賽後不禁暗暗叫好,已經很久沒有看到火箭球員做出那麼美妙的傳球了。雖然輸了,但不能掩蓋他的光彩,他很出彩。尤其是第四節火箭追分的關鍵時間段,他那幾個傳球實在是太絕了,當時由於情勢緊張沒有細細欣賞的閒情,可...

從乙個大學到了另乙個大學

掐指一算,從大隊培訓開始到現在整整乙個月了。進入工作崗位倆星期了。公司給我的感覺就是從乙個大學到了另乙個大學。今天和同事聊起來,都感覺對在深圳的兩個星期特別有感情。說起來也是一件很奇怪的事情,在壓力之下,一百來個互相不認識,隔了幾個代溝的人竟然能成為共患難的兄弟姐妹。今天買了床墊,發現沒有床墊中午午...