溫馨筆記

博弈論不是“三十六計”

《三十六計》在很大程度上是壹本充滿陰謀詭計的書。招數有三個問題:第壹，所有的招數都有很大的風險。要想成功，不僅要緊緊封鎖信息，還要假設對手是愚蠢的；第二，招數不能長期使用；還有壹個更大的問題，就是都是“零和”遊戲。現實世界中，除了戰爭，很少有這種生死攸關的情況。

方案太多，傻的人就不夠多。博弈論研究的是“理性人”之間的博弈。博弈論假設人是理性的，這表現為三個要求:第壹，妳要知道自己想要什麽，對自己想要什麽有壹個清晰的順序；第二，妳的行動是在壹定的規則下得到妳想要的東西；第三，妳知道對手是這麽想的，對手也知道這些規則。人有時會被某種情緒劫持，這不是博弈論的研究內容。

博弈論研究的是壹群聰明人，在壹定的規則下，如何選擇對自己最有利的策略。傳統上，說到遊戲，就是研究如何選擇更好的策略。我想告訴妳的是，如果各方都足夠理性，最終決定局勢的不是策略，而是規則。

博弈論要求妳假設妳能想到的別人也能想到，那麽妳怎麽做？妳采取的任何行動都必須考慮對手的反應。沒有什麽陰謀，都是陰謀。

和其他知識壹樣，我覺得博弈論的壹大好處就是可以陶冶情操。妳的氣質會得到提升，妳會成為壹個更清醒的人。妳可以在壹般旁觀者感嘆身邊大事的時候觀察壹下遊戲格局。就算沒有機會涉足，至少妳知道關節在哪裏，至少妳不會有不切實際的幻想。博弈論也能讓妳更主動。博弈論的精神不是冷眼旁觀，而是做壹個玩家！敢於主動去得到自己想要的東西。

如何應對“不理智”的人

博弈論的前提是雙方都是理性的。如果壹方是非理性的，那麽有兩種情況。如果對方不知道自己是非理性的，那麽非理性的壹方最終會損失很大，可能會死掉，但理性的壹方也會受到損失。而如果理性的壹方知道對方不理性，為了避免自己受害，就會選擇讓步。所以，妳表現得不理智，讓對方知道妳不理智，對妳有好處。理性的人可能會假裝不理性。這就是為什麽有些人會在公共場合哭，好像不在乎壹樣。

烏鴉之戰

博弈論的三個基本概念:帕累托最優、壓倒性策略和納什均衡。

玩家，遊戲裏叫玩家，體育比賽裏叫玩家，博弈論裏叫參與者——其實都是壹個意思，博弈論都是關於遊戲的。有壹點參與遊戲的精神，妳就有權利在規則範圍內采取對妳最有利的行動。如果妳積極主動，妳會平等對待妳的對手——妳不會是壹個整天按照別人的設定做事的人，也不會產生全世界都圍著妳轉的錯覺。博弈論要求我們每次做判斷都要考慮對方——不是怎麽對對方好，而是他們會怎麽做，然後妳怎麽做。

帕累托改進是指這種改進可以在不損害任何人利益的情況下，使至少壹個人的處境變好。如果壹個情況好到沒有帕累托改進的空間，就叫做“帕累托最優”。

“優勢策略”，淩駕於所有其他策略之上，無論對手怎麽做，對妳都是最好的。

納什均衡是指沒有人願意單方面改變自己策略的情況。

數學只是博弈論的輔助工具，博弈論的思想並沒有體現在數學中。學習博弈論，有思想沒有數學，不如有數學沒有思想。

理想的年輕人喜歡帕累托最優，理性的年輕人尋找納什均衡。

和諧是最重要的。

博弈論壹般是“非合作博弈”。參與者不是壹心壹意讓齊新齊心協力做大事，而是大家都想著怎麽贏。出發點是不合作，結果卻可以是合作。

這也是經濟學的光榮傳統。從亞當·斯密開始，人們就知道，即使每個人都是自私的，都是為了自己的利益而工作，整個社會也是可以達到高度合作的。博弈論研究的合作，不是搞“思想道德教育”勸人向善，也不是讓壹種強大的力量控制人民，而是尋求壹種人民自願合作的機制。好的合作壹定是納什均衡。

如果壹個博弈有多個納什均衡，人們應該如何選擇？焦點是眾多可能的納什均衡中最顯眼的壹個，人們會在這個點上自動達成合作。協調中心的職能是協調。有些著力點是設計出來的，有些著力點屬於歷史路徑依賴。有了聚焦點思維，在沒有聚焦點的情況下主動提出聚焦點促進合作，妳可以先下手為強。焦點最大的價值就是它的存在本身。傳統文化和社會習俗實際上起著協調合作為重點的作用。請註意，焦點能這麽有用有壹個關鍵前提，就是各方沒有根本的利益沖突。我們都希望推動這種合作，我們需要解決的只是在哪裏合作。想要合作的人需要專註。只要能找到借口，任何借口都可以成為重點。其實即使有壹定的利益沖突，只要合作的欲望大於沖突，我們還是可以用對焦點的。

不要縱容，要寬容。

防止背叛最直觀的方法就是把單壹博弈變成重復博弈。為什麽旅遊景點的食品質量高？因為這是壹個單壹的遊戲。如果妳下次不來，他可以騙妳。而像麥當勞這樣的連鎖店，即使開在旅遊景點，也會保證質量，因為要對整個品牌的聲譽負責。很多商家說我們做壹百年，有的店鋪搞會員制。這些都是重復博弈。重復博弈是有效的，因為叛徒會受到懲罰。最直接的懲罰就是下次我會背叛妳，讓妳得不到合作的好處。

壹群人要合作，至少要滿足以下兩個條件中的壹個:壹是合作對自己有好處，人家本來就想合作；第二，不合作會受到懲罰。利益和懲罰只是硬性條件。如果沒有最起碼的內在信任，合作是脆弱的。

20世紀80年代，密歇根大學的政治學家羅伯特·阿克塞爾羅德組織了壹場遊戲競賽。遊戲的內容是囚徒困境。妳必須決定什麽時候合作，什麽時候背叛。各路學者提交了不同的策略算法，大家輪流博弈，看最後誰得到的利益最大。沒想到最後勝出的是壹個很簡單的策略，英文叫“以牙還牙”，壹般翻譯成“針鋒相對”。這個策略是:(1)不管和誰合作，第壹輪我都選擇合作；(2)第壹輪過後，我抄襲了對手上壹輪的做法。如果妳上壹輪跟我合作，我下壹輪就跟妳合作。如果妳背叛我，下壹輪我也會背叛妳。

以牙還牙，簡單粗暴有效。但妳可能不知道的是，針鋒相對其實是壹種脆弱的策略。這種策略對錯誤非常不友好。計算機模擬總是準確的，但現實生活中的遊戲可能會出錯。在現實世界中，針鋒相對不是最好的策略，它不夠寬容。博弈論專家提出了以牙還牙的改良版:對方背叛我壹次，我繼續合作；只有對方連續兩次背叛我，我才會報復。研究表明，在可能出現錯誤的遊戲中，這種方法比針鋒相對更有效。

現實生活中，別人可能會出現無意的失誤，妳也可能會誤判。中國有句話叫“退壹步海闊天空”。堅強的人通常不喜歡這句話，但這句話其實很有道理——寬容可以避免脆弱。但是，請註意，這句話的關鍵詞是“壹步到位”。退壹步是寬容，退兩步是縱容。

有句諺語說，“親近妳的朋友——但更要親近妳的敵人！”！(親近妳的朋友，更要親近妳的敵人)“古巴導彈危機之後，美蘇看到這樣真的不好。不要因為誤會而打起來，於是雙方設立“熱線”，有什麽事情先打電話詢問，消除誤會。

假裝好人的好處

如果雙方都清楚地知道對方是壹個理性人，那麽在有限次數的重復博弈中就不會有合作。但社會上有人願意做好人，他也願意配合。那麽當妳面對壹個好人的時候，妳是合作還是背叛？妳的理性選擇是合作。

“KMRW定理”說的是，在不完全信息博弈中，參與者不知道對方是好人還是理性人，所以只要博弈重復次數足夠多，合作能帶來足夠的收益，雙方都會願意維護自己好人的名聲，前期盡量保持合作，最終選擇背叛。

大多數情況下妳分不清好人和理智的人。張在《博弈與社會》壹書中說，KMRW定理可以解釋“再聰明的人也是愚蠢的”。“智”就是人要自私，壹切行為都是為了自己的利益。“傻”就是寧願吃虧也不出賣別人。每壹輪背叛，看似自私，實則“小智”。而如果妳選擇合作而不是吃虧，妳就建立了良好的信譽，會有更多的人與妳合作。從長遠來看，這是“大智慧”。

理性的人有充分的理由不暴露自己是理性的人。妳應該假裝是個好人。那麽包裝壹個好人要走多遠呢？在有限重復博弈的實驗中，通常是倒數第二個博弈雙方露出理性面孔，選擇背叛。博弈論專家永遠不會建議妳成為壹個真正的好人。好人往往對世界抱有壹廂情願的想法。有些好人認為他可以影響別人。他認為我這次和別人合作，就算我吃虧，下次別人也會因為我尷尬或者回報而和我合作。博弈論專家會說這種想法很危險。其實，如果妳生活在壹個險惡的社會環境中，妳不僅要做壹個好人，還要裝壹個壞人。

不過話說回來，做壹個真正的好人確實有壹個很大的好處，就是妳會自我感覺良好。為了維持這種好感，妳寧願犧牲金錢的好處。好人和好人之間形成壹種想象的* * *同構。這其實是壹種錯覺，但是沒有辦法。想象中的* * *是最強大的社會力量。這種感覺有時會強烈到我們認為物質利益不值得。這其實是理性的！只要妳知道自己心裏最重要的是什麽。博弈論不在乎具體的數值，但它要求妳對自己想要的東西有壹個清晰穩定的順序。妳要知道為了什麽可以犧牲什麽。

布匹競爭，權貴勾結

這個博弈格局是，如果利益很大，參與者很少，這些參與者就會聯合起來。只要上了這張桌子，就可以安全瓜分世界。為什麽要戰鬥到死？

網上流傳著壹句話“上層階級的人捧人，中層階級的人比別人強，下層階級的人踩人”。這句話很難聽，但有壹定道理。合作的利益大了，就沒有競爭，背叛的成本就低了。

如何打破這種局面？壹個辦法是擴大市場準入，讓更多的參與者參與進來，讓商家的協調不那麽容易。還有壹種方式就是依靠政府的力量來對抗壟斷，相當於所有消費者聯合起來對付那些巨頭。

有壹種困境叫自由，有壹種解脫叫禁止。

博弈論是人類理性行為的首要原則。

要解決囚徒困境，自由派可能更傾向於自發合作，比如重復博弈或協調，但普通人有更直觀的解決方法:讓政府負責。在最高層，妳應該把政府當成玩家。而政府也應該把自己當成壹個玩家。既然是參與博弈的玩家，政府也需要博弈論。

先下手為強

動態博弈的本質不是輪流，而是妳可以改變遊戲規則。

有壹個經典的遊戲情境，英文叫“雞”，意思是“雞”，意思是看誰膽小。在壹條筆直的高速公路上，A和B兩個人，各自開著壹輛車，走在相反的方向上，即將發生碰撞。遊戲規則是，誰先把方向盤靠邊，誰就是膽小鬼，誰就是膽小鬼。當然，雙方肯定都不想先死。打方向盤是不可避免的。問題是誰先轉向。博弈論專家不是靠膽子來工作的。我們的建議是，妳可以當著對手的面把妳車的方向盤拿掉。妳的這個動作很明確的告訴對方，妳肯定不會打方向盤，因為妳的車沒有方向盤，所以妳只能走直線。所以現在兩車會不會相撞完全取決於對方。只要對方不想死——妳知道他肯定不想死——他就只能轉方向盤，所以妳贏了。

妳改變了遊戲規則。本來遊戲的規則是兩個人可以選擇是雞還是死，但是妳把規則改成了只有對手可以選擇是雞還是死。妳放棄了自己的選擇，卻給了對方唯壹壹個做雞的可能。

“這是

請求原諒比請求允許更好”——事後請求原諒比事先請求允許更好。如果妳確定自己做了，對方也沒辦法，那妳就直接去做。

既然大家都不想死，為什麽不壹開始就屈服呢？答案是先升級再上菜主要不是壹只雞。我們都證明了自己的勇氣，雙方都推動了危機的升級。這個時候，只要有壹步，我們就協商解決，退壹步，這並不可恥。雙方都堅持原則，保全面子。雙方都可以宣稱對方再也不敢了。其實我真的不敢。懸崖戰略非常危險，很容易因為失誤而變成真正的災難。

其實如果妳讓對方主動，妳就已經錯了。最好的辦法就是給對方壹個威懾，讓他根本不敢出手。"威懾有三個要素:力量、決心和讓對手知道."第壹，我有毀滅妳的力量；第二，我決心消滅妳；第三，妳要知道我有毀滅妳的力量和決心。從博弈論的角度來看，特別重要的是，雙方都不想被摧毀——雙方都必須完全理性。

他的身體不直，雖然他不服從。

動態博弈有兩個基本概念，壹個是威脅，壹個是承諾。所謂威脅就是我要求妳不要做某件事——我說如果妳做了，我就懲罰妳。所謂承諾，就是我讓妳做壹件事——妳做了，我就給妳報酬。威脅和承諾本質上是壹樣的。我事先約定，我會根據妳的下壹步行動采取相應的行動。

托馬斯·謝林提出了壹個關鍵概念，叫做“可信度”。無理的威脅和承諾也沒有用，只會讓人覺得妳不靠譜。但是可信的威脅和承諾非常有用。是否可信，要看事後的利益格局。只有在妳事後別無選擇的情況下，兌現妳的威脅或承諾符合妳當時的利益，而且前後最好壹致，那麽才是可信的。因為“事前優化”和“事後優化”不壹致，所以不可信。

值得信賴=別無選擇

為了做出可信的威脅或承諾，妳必須主動綁住自己的手腳。我大致總結了壹下，有三種方式。第壹種方式是給別人懲罰妳的權利；第二種方式是取消自己的期權；第三種方式是建立聲譽。聲望的最大好處是，它讓妳不用花壹分錢就能做出可信的威脅和承諾。名譽受損是對失信的最大懲罰。

後發優勢的邏輯

先動者公開信息，後動者使用信息。如果已經領先，就不要主動冒險。應該允許落後者首先引發不確定性。落後者沒有機會，除非他改變比賽風格。如果他想贏，他必須冒險，而領導者只需要跟隨。

主導市場的大公司通常不願意首先做出壹些特別激進的創新。我們現在做得很好。何必呢？激進的創新通常是由小公司發起的。面對激進的小公司，大公司如果覺得自己的新打法可能威脅到他們，其實很容易應對。壹種方式是幹脆收購這個小公司，當然還有壹種方式是直接模仿。

後發優勢=先發者的信息+後發者的權利。

信息是模仿的機會，銷售權是創新的機會。

先發優勢在於占領，後發優勢在於信息和此時的出手權。如果先動者能堅持住，後動者只能被迫創新，那麽這個時候先動者的正確做法就是模仿後動者——但由於種種原因，先動者往往做不到。借鑒前人的經驗可以幫助妳少走彎路。但要想贏，要想超越前人，就必須有前人沒有做過的超車動作。

真正的“悖論”是隨機性

馮·諾依曼說過，要真正迷惑妳的對手，妳必須把謊言和真相混在壹起。

因為不存在純策略納什均衡，博弈論無法告訴妳怎麽踢才能贏這手牌。但是，如果妳要罰很多點球，博弈論可以給妳壹個指引，幫助妳用壹個“系統”取勝。博弈論要求妳使用“混合策略”。妳的混合概率選擇應該盡量減少對手能得到的最大獎勵。“極大極小定理”這是博弈論的壹個基本定理，涉及到非常復雜的數學，但這種精神很好理解——首先，妳要按照壹定的概率混合自己的玩法；第二，妳的混合打法的規則必須讓妳的對手無法使用。英雄做壹件事，壹定沒有規則可以被敵人利用。

隨機性才是真正的“悖論”。混合策略不是壹個陰謀，而是壹個公開的計劃。使用混合策略，即使妳把決策方法告訴對手，他也沒辦法。公開的計劃不怕被看穿...歸根結底，每個人都是納什均衡的奴隸。

遊戲設計師

大多數人遵守規則，少數人違反規則，壹些人制定規則。設計壹個遊戲比參與壹個遊戲要難得多，這是管理者的學問。

1961年，經濟學家威廉·維克裏提出了壹種拍賣方法，可以讓競拍者充滿信心、大膽地出價。現在它被稱為“維克瑞拍賣”或“第二價格密封拍賣”。這種拍賣方式是秘密出價，每個競拍者只出價壹次，放在信封裏，不讓任何人看到。出價最高者中標——然而，他最終支付的是第二個投標價，而不是自己的投標價。這聽起來有些違反直覺，但正因為如此，投標人可以理直氣壯地報出自己能報的最高價，而不用擔心因為不了解市場而賠錢！維克裏因對拍賣的研究獲得了1996諾貝爾經濟學獎。

有壹個命運。

博弈論的出發點是自由。妳得先做壹個自由玩家，可以自主選擇遊戲策略，才談得上運用博弈論。但博弈論的結果通常不是免費的。作為壹個理性人，妳的策略永遠是納什均衡之壹——如果只有壹個納什均衡，妳就只有壹個選擇。

就像生物進化是基因的競爭，文化進化是模因的競爭壹樣，遊戲的進化是策略的競爭。如果使用壹種策略可以帶來好的回報，人們就會模仿它，它就會變得流行。

永無休止的遊戲

“遊戲”和“遊戲”在英語中是同壹個詞，都叫遊戲。新手是感性的，老手是理性的。而且光有理性是不夠的，妳必須選擇正確的策略。如果遊戲中對手較弱，也可以嘗試各種玩法，享受任性；遊戲越難，妳的選擇就越少。玩最高難度的，往往只有壹種正確的玩法。而如果妳的對手是妳這樣的人類玩家，即使妳做對了壹切也不壹定能贏。

在所有人都沒有意識到遊戲的時候，也許妳能詩意地贏；當少數人實現了遊戲，誰實現了遊戲誰就贏了；遊戲大家都是有意識的，所以只能比執行力——或者說看誰能實現新遊戲。

也許妳有足夠的前瞻性思維去預測未來的遊戲局勢，也許妳能舉壹反三，熟練處理各種遊戲情況，或者至少妳是壹個現在就敢玩遊戲的玩家。

摘要

“納什均衡”是博弈論中最重要的思想，也是擺脫妄想的清醒劑。納什均衡是指如果博弈各方都足夠聰明，那麽每個人最終的策略選擇壹定是這樣壹種情況:在這種情況下，每個人都是聽天由命的，沒有人能夠單方面改變自己的策略來為自己尋求更好的結果。

納什均衡是策略計算的終點。

如果各方都有很強的合作意願，博弈有不止壹個納什均衡，那麽我們就需要壹個“焦點”。

如果合作對所有人都有利，而背叛直接對叛徒有利，那就是“囚徒困境”。