博弈論主要研究公式化激勵結構之間的相互作用,是壹種研究帶有鬥爭或競爭性質的現象的數學理論和方法。博弈論考慮了博弈中個體的預測行為和實際行為,研究了它們的優化策略。生物學家用博弈論來理解和預測進化的壹些結果。博弈論已經成為經濟學的標準分析工具之壹。廣泛應用於金融、證券、生物學、經濟學、國際關系、計算機科學、政治學、軍事戰略等諸多學科。
案例1:囚徒困境
在博弈論中,占優戰略均衡的壹個著名例子是塔克給出的“囚徒困境”博弈模型。這個模型以壹種特殊的方式告訴我們壹個警察和壹個小偷的故事。假設甲、乙兩個小偷共同作案,私自入室,被警察抓住。
警察把這兩個人放在兩個不同的房間裏審訊。對於每個嫌疑人,警方給出的政策是:如果兩個嫌疑人都坦白自己的罪行,交出贓物,證據確鑿,兩人都被定罪,各判8年;如果只有壹個嫌疑人坦白,另壹個否認,那麽妨礙公務罪(因為有證據表明他有罪)會再罰兩年,坦白者會被立即釋放。如果兩人都否認,警方因證據不足不能判他們盜竊罪,但可以以非法侵入罪各判1年有期徒刑。下表顯示了這個博弈的收益矩陣。
對於A來說,他雖然不知道B選擇什麽,但是他知道不管B選擇什麽,選擇“表白”永遠是對他最好的。很明顯,根據對稱性,B也會選擇“表白”。結果兩人都被判有期徒刑8年。但如果都選擇“否認”,每人只判1年。在表2.2的四個行動選擇組合中,(拒絕,否認)是帕累托最優的,因為任何偏離這個行動選擇組合的其他行動選擇組合至少會使壹個人的處境更糟。但是,“坦白”是任何犯罪嫌疑人的優勢策略,(坦白,坦白)是壹個優勢策略均衡,也就是納什均衡。不難看出納什均衡和帕累托是有沖突的。
從數學的角度來說,這個理論是合理的,即所有的選擇都是坦誠的。但在這樣壹個多維信息共同作用的社會學領域,顯然是不合適的。就像在中國古代,官員之間的賄賂被稱為“壞規矩”而不是試圖去發現,那是因為社會制度約束了人們的行為,迫使人們的決策改變。比如從心理學的角度來說,選擇表白的成本會更大,壹方的表白會讓另壹方心虛,那麽事後的報復,以及在身邊知情人中“出賣”的作用,會讓他失去更多。
但8年到10年之間的增加比例會被稀釋,人的尊嚴會讓人產生報復心理,稍微打破“規則”。我們正處於大數據時代。要想處理壹件事更接近事實,就必須盡可能掌握相關信息,進行合理的加權分析。人的運動圖像的動機是復雜的,囚徒困境只能作為壹個簡化的模型參考,具體的決策還需要具體分析。
案例二:聰明豬遊戲
首先,經濟學中“豬的收益”的例子是:
假設豬圈裏有壹頭大豬和壹頭小豬。豬圈的壹端有壹個豬槽,另壹端裝有壹個按鈕,控制豬食的供應。當妳按下按鈕時,10單位的豬糧將進入槽中,但誰按下按鈕,誰先支付2單位的成本。如果大豬先到達低谷,大豬與食物的收益比為6 ∶ 4。同時,大豬的收益比為7∶3;仔豬先到達低谷,大豬的收益比是9: 1。那麽,在兩頭豬都是明智的前提下,最後的結果是小豬選擇等待。
“智能豬博弈”是納什在1950提出的。事實上,豬選擇等待,讓大豬按下控制按鈕,而他選擇“乘船”(或搭便車)的原因很簡單:在大豬選擇行動的前提下,如果豬選擇等待,豬可以獲得4個單位的凈收入,而如果豬行動,只能獲得大豬留下的1個單位的凈收入,所以等待比行動好;在大豬選擇等待的前提下,如果小豬行動,小豬的收益將無法覆蓋成本,凈收益為-1單位。如果小豬也選擇等待,小豬的收益為零,成本為零。總之,等待勝於行動。
用博弈論中的報酬矩陣可以更清晰地刻畫小豬的選擇:
從矩陣中可以看出,當大豬選擇行動時,如果小豬行動,其收益為1,而如果小豬等待,其收益為4,所以小豬選擇等待;當大豬選擇等待時,如果小豬行動,其收益為-1,而如果小豬等待,其收益為0,所以小豬也選擇等待。綜合來看,無論大豬選擇行動還是等待,小豬的選擇都會是等待,即等待是小豬的優勢策略。
在小企業管理中,學會如何“搭便車”,是壹個精明的職業經理人最基本的素質。在某些時候,等待,讓其他大企業先開拓市場,是明智的選擇。這個時候,不做也可以做點什麽!聰明的管理者善於利用各種有利條件為自己服務。“搭便車”其實是職業經理人面對每壹筆開銷的另壹種選擇。關註和研究它可以為企業節省很多不必要的開支,從而使企業的管理和發展上壹個新臺階。這種現象在經濟生活中很常見,但小企業的管理者很少熟悉。在智能豬遊戲中,雖然豬“撿現成”的行為在道德上是可鄙的,但遊戲策略的主要目的不就是利用策略實現自身利益最大化嗎?
案例3:美麗的硬幣
壹個陌生的美女來找妳聊天,要求和妳玩壹個遊戲。美女建議道:“讓我們各自展示硬幣的壹面,要麽正面,要麽反面。如果我們都是頭,那我給妳3元,如果我們都是尾,我給妳1元,剩下的妳給我2元。”聽起來是個不錯的提議。如果我是男的,我無論如何都會玩,但是經濟上的考慮就是另壹回事了。這個遊戲真的足夠公平嗎?
假設我們正面的概率是x,反面的概率是1-x,為了利益最大化,我們應該在對手露出正面或者反面的時候獲得相等的收益,否則對手總是可以改變正面和反面的概率來減少我們的總收益,這裏列出的等式是3x+(-2)*(1-x)=(-2)* x+1 *(1-x)。壹般來說,這個等式意味著當妳的對手總是積極的時候,妳得到的好處和當妳的對手總是消極的時候,妳得到的好處是壹樣的,也是最大的。解方程得出x=3/8,這意味著每八次呈現三次正面,平均呈現五次反面是我們的最佳策略。將x=3/8代入收益表達式3*x+(-2)*(1-x)可以得到每次的預期收益,計算結果為-1/8元。
同樣,設正面出現美女的概率為y,反面出現美女的概率為1-y,等式-3y+2(1-y)= 2y+(-1)*(1-y)。y等於3/8,壹個美女的預期收益是2(1-y)-3y=1/8元。這告訴我們,在雙方都采取最優策略的情況下,平均每次美女贏1/8元。其實只要美女采用(3/8,5/8)的方案,無論妳采用什麽方案,都改變不了局面。如果都是人頭,每次的預期收益是(3+3+3-2-2-2-2)/8 =-1/8元。
如果把所有的尾部都顯示出來,那麽每次的預期收益是(-2-2-2+1+1)/8 =-1/8元。而任何策略無非是上述兩種策略的線性組合,所以期望仍然是-1/8元。但是當妳也采取最優策略的時候,至少可以保證妳損失最小。否則妳肯定會被美女采取的策略盯上,從而失去更多。這種博弈模型看似無用,但實際上可能涉及到金融市場定價中最重要的模型:定價權重模型。
總的來說,“博弈論”的本質是把日常生活中的競爭矛盾以遊戲的形式表現出來,運用數學和邏輯的方法分析事物的運行規律。既然有遊戲的參與者,就壹定有遊戲規則的制定者。深刻理解競爭行為的本質,有助於我們分析和掌握競爭中事物之間的關系,也更便於我們制定和調整規則,使其最終按照我們預期的目的運行。
來源:百度博弈論百科
案例4:正常範式遊戲
GOO公司和SAM公司是壹個手機產品生態的兩個重量級參與者。他們在產業鏈的不同位置履行職責,關系曖昧。有時候,因為商業利益和產品影響力的爭奪,他們往往會有不同的看法。兩者的好處是隨著遊戲的變化而不斷變化的。
上表模擬了兩家公司的博弈狀態,雙方各有“合作”和“背叛”兩種可選策略。網格中的四組數據代表四個遊戲結局的分數(收益),每組數據的第壹個數字代表GOO公司的收益,最後壹個數字代表SAM公司的收益。博弈同時進行,壹方參與者必須站在另壹方的角度思考我們的戰略選擇,才能實現利益最大化。這在博弈論中叫做設身處地為他人著想。
現在我們以GOO公司為第壹人稱視角來思考對付SAM公司的博弈策略。如果SAM公司選擇合作,那麽我們也選擇合作帶來3個收益,而選擇背叛帶來5個收益。基於利益的理性最大化,應該選擇背叛,這叫嚴格占優策略;如果SAM公司選擇背叛,那麽我們合作的收益是-3,而背叛的收益是-1。為了把損失降到最低,我們應該選擇背叛。最後,GOO公司的分析結果是,無論SAM公司選擇合作策略還是背叛策略,為了利益最大化,我們都必須選擇背叛策略。同理,當SAM公司也采用嚴格占優策略來處理GOO公司的戰略選擇時,重復上述分析過程,我們可以得出壹個結論:無論GOO公司選擇合作還是背叛策略,SAM公司為了利益最大化,都必須選擇背叛策略。
最後我們發現這個博弈雙方都采取了背叛策略,各自的收益是-1,這是壹個很糟糕的結局,雖然對任何壹方來說都不是最糟糕的。這種情況被稱為“囚徒困境”。但是,遊戲的次數往往不止壹次,就像首席運營官和薩姆之間可能有很多業務往來的機會壹樣。經過多次背叛策略的博弈,發現公式中存在(3,3)收益的雙贏情況,明顯比(-1,-1)的收益結果好很多,所以在後續的博弈過程中必然會試圖與對方建立信任,從而驅使雙方選擇合作策略。
這裏有壹個理想化的假設,就是假設雙方都知道博弈的次數是無限的,也就是說雙方的業務往來是無窮的,那麽他們的策略會繼續選擇合作,最終的博弈收益固定在(3,3),這是壹個納什均衡。既然博弈的次數是無限的,那麽任何壹方都沒有理由選擇背叛策略去冒險追求五個短期的收益,從而導致對方在下壹輪博弈中的報復(這種報復在博弈論中稱為“以牙還牙”策略)。還有壹種假設是,如果雙方都知道博弈次數有限,下壹局可能是最後壹局,那麽為了避免上壹局對方選擇背叛策略時損失-3,雙方再次采取背叛策略,最終博弈結果回到(-1,-1),形成第二個納什均衡。隨著時代(博弈性質)的變化,納什均衡點不是唯壹的。
案例五:餓獅遊戲
題目是六只獅子(力量從左到右)和壹只羊,A、B、C、D、E、f,假設獅子A吃完羊會午睡,那麽比A弱的獅子B會趁機吃掉獅子A,然後B會午睡,然後獅子C會吃掉獅子B,以此類推。那麽問題來了。獅子A敢吃羊嗎?
為了簡化說明,我們先給出這個問題的解決方法。問題必須逆向分析,即從最弱的獅子F開始,依次推進。假設獅子E睡著了,獅子F敢吃獅子E嗎?答案是肯定的,因為獅子F後面沒有其他獅子,所以獅子F可以放心地在午睡中吃掉獅子E。繼續往前推,既然獅子E睡著了會被獅子F吃掉,那麽獅子E壹定不敢吃前面睡著的獅子D。往前推,既然獅子E不敢吃獅子D,那D就可以放心吃午睡中的獅子C了。依次往前推,得到C不吃,B吃,A不吃。所以答案是獅子A不敢吃羊。細心的人可能會發現,如果增加或減少獅子的總數,遊戲的結果會完全不同。
我們在獅子F後面加了壹個獅子G,使總數達到七個。用逆向分析法按照上述步驟再推壹遍,很容易得出結論,獅子G吃,獅子F不吃,獅子E吃,獅子D不吃,獅子C吃,獅子B不吃,獅子A吃。這次的答案變成了獅子A敢吃羊。
對比兩個遊戲,我們發現獅子A敢不敢吃羊,取決於獅子總數的奇偶。總數為奇數時,A敢吃羊。當總數為偶數時,A不敢吃。因此,奇數獅子和偶數獅子之間的博弈形成了兩個穩定的納什均衡點。
通過以上案例的多輪博弈,初學者應該能隱約找到納什均衡的輪廓。當博弈不止壹次時,博弈結果會反復固定在某個狀態,這個狀態就是納什均衡點。公理化的解釋是,如果在某種情況下沒有壹個局中人可以通過單獨行動來增加收益,此時的策略組合就叫做納什均衡。
簡單的博弈案例看似有趣,但博弈論永遠是壹門高深復雜的學問,其復雜性在於博弈分析中使用的理想化模型永遠與現實有出入。比如,博弈論要求所有參與者必須是經濟學意義上的“理性人”,但實際上,完全的“理性人”並不存在。現實世界中博弈論之外的變量太多,很難建立壹個追求準確預測的博弈模型。
盡管如此,博弈論改變了世界,成為人類理性認識世界的重要工具。納什均衡無疑豐富了博弈論的理論體系,是人類文明的壹塊磚。可以肯定的是,壹百年後,人們依然不會忘記約翰?納什的名字永遠不會忘記那個神奇的納什均衡。來源:兩個經典的例子,揭示了博弈論和納什均衡的奧秘,作者寫的?水哥