現代博弈論的建立得從2023年算起,2023年馮·諾依曼的《博弈論與經濟行為》以數學形式來闡述博弈論及其應用,標誌著現代系統博弈理論的初步形成。馮·諾依曼被稱為現代博弈論之父。
博弈論(game theory),也被稱為對策論。博弈者在博弈過程中的行為(action)被稱作博弈行為。
博弈行為解釋:帶有相互競爭性質的主體,為了達到各自目標和利益,採取的帶有對抗性質的行為。
博弈論主要研究博弈行為中最優的對抗策略及其穩定局勢,協助人們在一定規則範圍內尋求最合理的行為方式。
收益(pay off):各個參與者在不同局勢下得到的收益。
規則(rule):指的是對參與者行動的先後順序、參與者獲得資訊多少等內容的規定。
博弈論研究的基本正規化:建模者對參與者(player)規定兩樣東西:1.可採取的策略集(strategy sets);2. 取得的收益。觀察:當參與者選擇若干策略以最大化其收益時會產生什麼結果。最終要實現:兩害相權取其輕,兩利相權取其重。
**逮捕了共同犯罪的甲、乙兩人,由於**沒有掌握充分證據,所以將兩人分開審訊。假定條件:
若一人認罪並指證對方,而另一方保持沉默,則此人會被當即釋放,沉默者會被監禁10年;
若兩人都保持沉默,則根據已有的犯罪事實(無充分證據)兩人各判半年;
若兩人都認罪並相互指證,則兩人各判5年。
參與者:甲、乙。
規則:甲、乙兩人分別決策,無法得知對方的選擇。
策略集:認罪、沉默(純策略)。
乙沉默乙認罪
甲沉默二人各服刑半年
乙被釋放,甲服刑10年
甲認罪甲被釋放,乙服刑10年
二人各服刑5年
囚徒困境均衡解產生的原因:對兩人而言認罪的收益在任何情況下都比沉默的收益高,所以兩人同時認罪是乙個穩定的局勢。
囚徒困境表明穩定局勢並不一定是最優局勢。
靜態博弈與動態博弈
完全資訊博弈與不完全資訊博弈:
囚徒困境是一種非合作、不完全資訊的靜態博弈。
在博弈論中有乙個重要的概念:納什均衡。
納什均衡的本質就是不後悔。
即參與者於一定概率選擇策略。混合策略納什均衡:博弈過程中,博弈方通過概率形式隨機從可選策略中選擇乙個策略而達到的納什均衡被稱為混合策略納什均衡。
這裡的參與者:
規則:
混合策略集:
若雇主檢查的概率為α
\alpha
α,雇員偷懶的概率為β
由納什均衡:其他參與者策略不變的情況下,某個參與者單獨採取其他策略都不會使得收益增加。也就等價於無論雇主是否檢查,雇員的收益都一樣;無論雇員是否偷懶,雇主的收益也都一樣。
於是有t1=
t2t_=t_
t1=t2
以及t3=
t4t_=t_
t3=t4
。在納什均衡下,由於t3=
t4t_=t_
t3=t4
,可知雇主採取檢查策略的概率(雇主趨向於用這個概率去檢查):
α =h
w+f\alpha = \frac
α=w+fh
在納什均衡下,由於t1=
t2t_=t_
t1=t2
,可知雇員採取偷懶策略的概率(雇員趨於用這個概率去偷懶):
β =c
w+f\beta = \frac
β=w+fc
在檢查概率為α
\alpha
α之下,雇主的收益:
t 1=
t2=v
−w−c
vw+f
t_=t_=v-w-\frac
t1=t2
=v−
w−w+
fcv
對上式w
ww求導,則當w=c
v−fw=\sqrt-f
w=cv−
f時,雇主的收益最大,其值為:tma
x=v−
2cv+
ft_=v-2\sqrt+f
tmax=
v−2c
v+f
。由混合策略下納什均衡可知,雇主和雇員分別傾向於以某種概率採取策略。
Google機器學習入門 Pandas 簡介
學習目標 pandas 中的主要資料結構被實現為以下兩類 dataframe,您可以將它想象成乙個關係型資料 其中包含多個行和已命名的列。series,它是單一列。dataframe 中包含乙個或多個 series,每個 series 均有乙個名稱。資料框架是用於資料操控的一種常用抽象實現形式。sp...
機器學習(一) 簡介
什麼是機器學習?乙個不是很正式的回答是 不直接通過程式設計讓計算機解決問題,而是試著讓計算機自己找到解決方式。一 學習過程可以分為 資料輸入,抽象化,一般化。抽象化 由學習任務和所分析的資料型別來決定學習的模型,用這個模型來擬合資料集 稱之為訓練 然後資料就轉換為乙個彙總了原始資訊的抽象形式。一般化...
機器學習一 簡介
1 機器學習目的 教會計算機根據以往的經驗來執行指定的任務。2 決策樹 一種 模型,常用的分類方法。樹形結構。3 樸素貝葉斯 二八原則 在任何一組東西中,最重要的只佔其中一小部分,約20 其餘80 儘管是多數,卻是次要的。4 梯度下降 最優演算法 問題 過程 解決方案 最小化誤差的通用演算法是梯度下...