一報還一報 出來混遲早要還的(博弈論的詭計)

2021-09-05 22:39:00 字數 2295 閱讀 5103

一天半夜,某教授正在熟睡之際,**鈴突然響了起來。他睡跟惺忪拿起**,聽筒裡傳來女鄰居怒氣沖沖的聲音:「麻煩你管一下你的狗,不要再讓它叫了。」說完,**就掛了。這位教授十分生氣。第二天他定好鬧鐘,半夜兩點鐘準時起床,拿起**撥通了這位女鄰居家。過了半天,對方才拿起聽筒,帶著睡意惱怒地同:「哪一位?」這位教授彬彬有禮地告訴她:「夫人,昨天我忘記告訴你了。我們家沒有養狗。」

在這個反映現實人際關係的小笑話中,我們可以發現在沒有法規和道德的約束,也沒有其他力量從外部對雙方進行強制時,對自己最有利的一種策略:一報還一報。這一策略的提出,應歸功於美國密西根大學的學者羅伯特·愛克斯羅德。他是乙個政治科學家,研究方向是人與人之間的合作關係。

在開始研究合作之前,愛克斯羅德設定了兩個前提:一,每個人都是自私的;二,沒有權威干預個人決策。也就是說,個人可以完全按照自己利益最大化的目標進行決策。在此前提下,要研究的問題是:第一,人為什麼要合作;第二,人什麼時候是合作的,什麼時候又是不合作的;第三,如何使別人與你合作。

在研究的過程中,愛克斯羅德組織了一場計算機模擬競賽。思路非常簡單:任何參加這個競賽的人都扮演囚徒困境案例中乙個囚犯的角色,把自己的策略編成電腦程式,進行捉對博弈,在合作與背叛之間做出選擇。但與囚徒困境案例有個不同之處:他們不止玩一次這個遊戲,而是以單迴圈賽的方式玩上200次。這就是博弈論專家所謂的「重複的囚徒困境」,它更逼真地反映了具有經常而長期性的人際關係。

這個遊戲還允許程式在做出合作或背叛的抉擇時,參考對手程式前幾次的選擇。如果兩個程式只玩過乙個回合,則背叛顯然就是唯一理性的選擇。但如果兩個程式已經交手過多次,則雙方就建立了各自的歷史檔案,用以記錄與對手的交往情況。同時,它們也通過多次的交手樹立了或好或差的聲譽。

雖然如此,下一步將會如何行動卻仍然極難確定。實際上,這也是該競賽的組織者愛克斯羅德希望從這個競賽中了解的事情之一:乙個程式能夠總是不管對手做何種舉動都採取合作的態度嗎?或者,它能總是採取背叛行動嗎,它是否應該對對手的舉動報之以更為複雜的舉動?如果是,那會是怎麼樣的舉動呢?

第一輪遊戲有14個程式參加,其中包含了各種複雜的策略。再加上愛克斯羅德自己的乙個隨機程式(即以50%的概率選取合作或背叛)。使愛克斯羅德和其他人深為吃驚的是,競賽的桂冠屬於乙個被稱為「一報還一報(tit for tat)」的策略,它是由多倫多大學的數學教授阿納託·拉波波特提交上來的。有意思的是,在科學家們上交的14個程式中有8個是「善意的」,但正是這些永遠不會首先背叛的善意程式,輕易地贏了6個非善意的程式。

因為參與競賽的程式為數不多,一報還一報策略的勝利也許只是一種僥倖。為了進一步驗證上述結論,愛克斯羅德決定舉行第二輪競賽,邀請更多的人再做一次遊戲,並把第一次的結果公開發表。這一次有62位科學家遞交了改進的程式,其中包括多個以上一次的策略為基礎的改良品種。加上愛克斯羅德自己的隨機程式,63個程式又進行了一次競賽。競賽結果表明,在63個程式的前15名裡,只有第8名的哈靈頓程式是「非善意的」;在最後15名中,只有1個總是合作的程式是「善意的」。而且,奪魁的仍然是一報還一報策略。

這種讓幾十位科學家的智慧型相形見絀的神奇策略到底是怎樣的呢?

說起來很簡單,簡單到有些不可思議:第一步合作,此後每一步都重複對方上一步的行動:合作或背叛。如此簡單的程式之所以反覆獲勝,是因為它奉行了以其人之道還治其人之身的原則,並且用如下特徵最有效地鼓勵其他程式同它長期合作:善良、可激怒、寬容、簡單、不妒忌別人的成功。

其他各種策略輸就輸在上述五個方面做得不夠好。在比賽結果中,所有惡意程式(第一步背叛)都未進前10名;而某些程式太過好脾氣。被對方背叛之後不立即反應,結果鼓勵那些狡猾的程式反覆佔它的便宜;某些程式對於過往關係的「好壞」太過執著,一旦被別人欺騙就很難寬容,結果使得很多本來可能恢復的合作關係永久性斷絕;還有一些程式把自己搞得太複雜,總是試圖通過某種機巧來佔人便宜,儘管在與某些「傻」程式接觸中得了高分,但一旦碰到個性「剛烈」的程式就會搬起石頭砸了自己的腳。而從最後的總分來看,它們的小聰明得不償失。

在香港電影《無間道》有一句廣為流傳的台詞:出來混,遲早要還的。就是這句台詞決定了劇中不少人物的命運,無論是黑道還是白道,警還是匪,很多人物在以為自己勝券在握或進出生天時,猝不及防地死去,用一條命來還了。在博弈論中,「還」也是早晚的事,不過這不是什麼宿命,而是「一報還一報」策略的出發點和立足點,也是它的勝利基點。

小注:就本人的理解,在囚徒困境中,大家都不招供(雙方無罪釋放)是雙方利益最大化的選擇,也就意味著雙方合作。而從一方的個人利益最大化角度來看,選擇招供是最優策略(5年或無罪釋放),這也就意味著背叛對方。最終的結果就是雙方招供。雙方招供是博弈論中著名的納什均衡,因為它是一次博弈中理性主體做出的最優選擇,但並不意味它是全體最優選擇。上文描述的「重複」囚徒困境,背叛不再是最優的策略,一報還一報成為理性主體的最優選擇,有趣的是,個體的最優選擇已經趨近於全體的最優選擇。從上面的討論可以得出這麼乙個結論,在社會的長期交往中,合作不但能達到個體利益的最優,也能達到全體利益的最優化。

每週一報 初探Flex

以前從來不寫有關自己專業的東西,現在想想,閒暇之餘寫點東西也沒什麼不可以。起碼可以練練自己的文字表述能力,也順便見證下一路走來的自己。筆者是一名14年應屆畢業生,軟體工程專業。自去年6月開始,筆者就開始到校外公司實習。後來跳槽到了現在這家 國企 單位 哈哈,其實待遇也就跟普通公司一樣,甚至不如人家,...

實驗一報告

資料結構 實驗一 vc程式設計工具的靈活使用 一 實驗目的 複習鞏固vc程式設計環境的使用,以及c 模板設計。1.回顧並掌握vc單檔案結構程式設計過程。2.回顧並掌握vc多檔案工程設計過程 3.掌握vc程式除錯過程。4.回顧c 模板和模板的程式設計。二 實驗內容 1.設計乙個單檔案結構程式完成從鍵盤...

實驗一報告

資料結構 實驗一 vc程式設計工具的靈活使用 一 實驗目的 複習鞏固vc程式設計環境的使用,以及c 模板設計。1.回顧並掌握vc單檔案結構程式設計過程。2.回顧並掌握vc多檔案工程設計過程 3.掌握vc程式除錯過程。4.回顧c 模板和模板的程式設計。二 實驗內容 1.設計乙個單檔案結構程式完成從鍵盤...