博弈論初探

2021-10-09 09:40:00 字數 4298 閱讀 2043

博弈:是指在一定的遊戲規則約束下,基於直接相互作用的環境條件,各參與者依據所掌握的資訊,選擇各自的策略,以實現最大利益化的過程

博弈論:研究個體如何做策略選擇以實現利益最大化、以及其不同個體之間決策實現各自利益最大化的理論

博弈的分類:

1、合作博弈和非合作博弈。

合作博弈:指參與者能夠達成一種具有約束力的協議,在協議範圍內選擇有利於雙方的策略

非合作博弈:指參與者無法達成這樣一種協議

2、靜態博弈和動態博弈。

靜態博弈:指在博弈中,參與者同時選擇,或雖非同時選擇,但在邏輯上是同時的。

動態博弈:指在博弈中,參與者的行動有先後順序,且後行動者能夠觀察到先行動者的行動。

3、完全資訊博弈和不完全資訊博弈。

完全資訊博弈:指在博弈中,每個參與者對其他參與者的型別、策略空間及損益函式都有準確的資訊

不完全資訊博弈:總有一些資訊不是所有參與者都知道的

4、和博弈和非零和博弈

零和博弈:博弈前的損益總和與博弈後的損益總和相等,即損+益=0

非零和博弈:指博弈後的損益大於(小於)博弈前的損益總和(正和或負和)不玩負和遊戲,少玩零和遊戲,多玩正和遊戲

理性人假設與共同知識假設:

1、假設人的認知是理性的:

人是自我利益的判斷者。

比如你現在面前有三個不同型別美女:a(可愛),b(**),c(嫵媚)

\qquad

你知道自己最喜歡哪種型別的。但是上面可能都沒有你最喜歡的,可能你最喜歡d(妖嬈)的。

\qquad

具有完備性的偏好應該是:

a(可愛),b(**),c(嫵媚),d(妖嬈)

\qquad

如果a和b,你的偏愛程度是:a > b。

如果b和c,你的偏愛程度是:b > c

所以我可以推斷,在a和c中,你的偏好是:a>c

\qquad

所以偏好必須具有傳遞性,完整的偏好應該是:

a>b , b>c 必然能夠推斷出 a>c

\qquad

雖然假設人是理性的,但是事實上人是有限理性的,是會受到外界影響作出非理性的事情的,很多時候靠感覺做選擇

2、假設人的行為是理性的:

人是自我利益的追求者。

總的來說就是兩利相權取其重,兩害相權取其輕\qquad

但影響你的行為有很多因素,比如參照物

電子版:100元 紙質版:200元 (電子+紙質):210元

\qquad

顧客更容易選擇(電子+紙質)。(顧客不需要便宜,需要的是佔到便宜——擁有較高的消費者剩餘)。

例如一些商品**在一起銷售,**低於兩件商品之和,又高於每一件單品,這時候,大多數的消費者會選擇**在一起的商品。

ps:所以交流時給對方出選擇題,不做判斷題,參考係需要掌握在自己手裡。

3、共同知識假設

我們兩個人之間,你知道a,我也知道a,這a還不是共同知識,a想要成為共同知識還得你知道我知道a,我也知道你知道a,我還要知道你知道我知道a,你也還要知道我知道你知道a…

\qquad

所以達成共識是一件非常困難的事情

在資訊不對稱的情況下,有時候博弈的結果不取決於大家是怎麼想的,而取決於大家認為大家是怎麼想的

納什均衡發生在非合作博弈過程中,可以分為兩類:純策略納什平衡混合策略納什平衡

純策略就是指在一種情況下做出永恆不變的選擇,比如你如果出石頭,我必然出布,你如果出布,我必然出剪刀。

\qquad

混合策略就是是純策略上的乙個概率分布,也就是隨機選擇策略,但是選擇每一種策略的概率都是確定的。這種基於確定概率選擇策略的博弈稱為混合策略博弈

\qquad

嚴格來說,每個純策略都是乙個「退化」的混合策略,某一特定純戰略的機率為1,其他的則為0

1、純策略納什平衡:

最通常的案例就是囚徒困境了,囚徒只有兩個選擇:坦白,抗拒

兩個囚徒a和b,分別被關在兩個屋,訊息不共享,如果其中乙個人坦白了,另乙個抗拒,那坦白的直接釋放,抗拒的罰10年監禁;如果兩個人同時坦白了,都罰5年監禁;如果都抗拒則監禁1年可以被釋放。

\qquad

a想:如果我坦白,b不坦白,我直接被釋放,b坦白,我只要被關5年。但如果我抗拒,b坦白,我就得被關10年,b抗拒我只要被關一年。但是b會不會選擇坦白我不知道,但是我抗拒的話,最好的情況是被關1年,最壞情況被關10年;但是我坦白的話,最好情況直接釋放,最壞情況被關5年。所以綜合來看,我還是坦白比較好。

\qquad

而b也和a想的一樣,所以最終a和b都坦白,所以策略(坦白,坦白)便是他們的納什均衡點

2、混合策略納什平衡:

最通常的案例就是硬幣遊戲了,雙方只有兩個選擇:正面,反面

兩個人a和b,如果都出正面,a給b 3元;都出反面,a給b 1元;一正一反,b給a 2元。

\qquad

如果a一直出正面,b一直出反面,就變成了純策略問題了,a就會想:如果我出正面,最壞情況是b出正面,我要給他3元,最好情況是我得到2元;但如果我出反面,我最壞情況是給他1元,最好情況也是得到2元,所以我應該出反面。b會想,如果我出正面,最好情況得3元,最壞情況給他2元;但如果我出反面,最好情況是得1元,最壞情況給他2元,所以我應該出正面。所以a,b納什均衡點就變成了(反面,正面)

\qquad

但是放到混合策略上來說,就是a以一定概率出正面和反面,b也是如此。如果a出正面的概率為m,那麼出反面的概率就是1-m;b如果出正面的概率是n,那麼出反面的概率就是1-n。

\qquad

這時候a也會想:我應該以多少概率n出正面,收益會最大:

期望收益e=-3m·n + 2m·(1-n)+ 2(1-m)·n + -1(1-m)·(1-n)

優化一下:e=(3-8m)·n +3m-1,是關於n的一次函式,斜率為(3-8m),截距3m-1。

\qquad

同理b想:我應該以多少概率m出正面,收益會最大?

期望收益e=3m·n + -2m·(1-n)+ -2(1-m)·n + 1(1-m)·(1-n)

優化一下:e=(8n-3)·m +1-3n,是關於m的一次函式,斜率為(8n-3),截距1-3n。

通過分類討論,最後能畫出如下圖:

然後找到納什均衡點(3/8 ,3/8)

策略有很多種,之前介紹的基本上是離散型的策略,策略可分為:

策略(strategies):一套完整的行動計畫。

\qquad

混合策略(mixed strategies): 隨機選擇的行動。

\qquad

純策略(pure strategies): 最初定義的行動。

\qquad

離散型策略:每個參與人只擁有有限個離散型純策略供其選擇。

\qquad

連續性策略:每個參與人的純策略可以是一乙個連續區域中的任意乙個數。

之前不同參與者策略數量相等的策略,策略數量當然也可以不相等,我們將雙方在不同策略組合下的收益表稱為博弈表,亦稱為支付表

解決其納什均衡問題,常用最優反應分析,但對於這種零和博弈,最小最大值法也不失為好方法,實際上就是極大極小值搜尋

參考:納什均衡與零和混合策略博弈問題

初探博弈論

最近看的書都是計算機方面的,看多了難免單調。於是就和朋友一起跑到書店,想買一本書來中和一下生活中的0和1。一番挑選後,我拿著一本書到了收銀台,朋友看了說 不會吧,你怎麼又買計算機的書啊?我晃了晃手中的那本 新編博弈論平話 對朋友說 這可是放之四海皆準的真理哦,你看那邊經濟類的書架。朋友順著我指的方向...

博弈論初探 DAG上的NIM

給定乙個dag,起點1出有乙個棋子,先手後手依次將他向出邊移動,最先無法移動的人輸,求先手是否必勝。因為只要能轉移到任意的對手的必敗態,便為必勝態,反之為必敗態,故只會有必勝 必敗態存在。include include include include include define maxn 1001...

博弈論 Nim博弈

1.nim博弈的起源很早,至於歷史我們就不再說了,直接說它的使用場景。1 依舊是兩個人博弈,但是物品時n堆,每一堆有ai個。2 每個人可以挑選一堆取走若干個,但是不能不取。3 最先取完所有物品的人獲勝。4 結論 所以堆的物品的數量異或起來是0,先手必敗。2.乙個nim博弈的例項 nim博弈。乍一看這...