1.什麽是博弈論
博弈論有被稱為對策論(Games Theory),是研究具有鬥爭或競爭性 質現象的理論和方法,它既是現代數學的壹個新分支,也是運籌學的壹個重要學科。
2.囚徒困境博弈
兩個***同作案的小偷被帶進警局單獨關押,如果 壹方與警方合作,供出自己與對方所做違法之事,而對方不招認,則 招認方將被釋放,另壹方被判3年徒刑;如果雙方都招認,則各判1年徒刑;若雙方都不招認,則因警方證據不足只得雙方各判徒 刑1個月。這兩個小偷會如何作出選擇呢?
3.博弈論的發展
博弈論思想古已有之,我國古代的《孫子兵法》就不僅是壹部軍事著作,而且算是最早的壹部博弈論專著。博弈論最初主要研究象棋、橋牌、賭博中的勝負問題,人們對博弈局勢的把握只停留在經驗上,沒有向理論化發展,正式發展成壹門學科則是在20世紀初。1928年馮·諾意曼證明了博弈論的基本原理,從而宣告了博弈論的正是誕生。1944年,馮·諾意曼摩根斯坦***著的劃時代巨著《博弈論與經濟行為》將二人博弈推廣到n人博弈結構並將博弈論系統的應用於經濟領域,從而奠定了這壹學科的基礎和理論體系。談到博弈論就不能忽略博弈論天才納什,納什的開創性論文《n人博弈的均衡點》(1950),《非合作博弈》(1951)等等,給出了納什均衡的概念和均衡存在定理。 此外,塞爾頓、哈桑尼的研究也對博弈論發展起到推動作用。今天博弈論已發展成壹門較完善的的學科。
4.博弈論的基本概念
1)博弈要素
(1)局中人:在壹場競賽或博弈中,每壹個有決策權的參與者成為壹個局中人。只有兩個局中人的博弈現象稱為“兩人博弈”,而多於兩個局中人的博弈稱為“多人博弈”。
(2)策略:壹局博弈中,每個局中人都有選擇實際可行的完整的行動方案,即方案不是某階段的行動方案,而是指導整個行動的壹個方案,壹個局中人的壹個可行的自始至終全
局籌劃的壹個行動方案,稱為這個局中人的壹個策略。如果在壹個博弈中局中人都總***有有限個策略,則稱為“有限博弈”,否則稱為“無限博弈。
(3)得失:壹局博弈結局時的結果稱為得失。每個局中人在壹局博弈結束時的得失,不僅與該局中人自身所選擇的策略有關,而且與全局中人所取定的壹組策略有關。所以,壹局博弈結束時每個局中人的“得失”是全體局中人所取定的壹組策略的函數,通常稱為支付(payoff)函數。
(4)對於博弈參與者來說,存在著壹博弈結果
(5)博弈涉及到均衡:均衡是平衡的意思,在經濟學中,均衡意即相關量處於穩定值。在供求關系中,某壹商品市場如果在某壹價格下,想以此價格買此商品的人均能買到,而想賣的人均能賣出,此時我們就說,該商品的供求達到了均衡。所謂納什均衡,它是壹穩定的博弈結果。
納什均衡(Nash Equilibrium):在壹策略組合中,所有的參與者面臨這樣壹種情況,當其他人不改變策略時,他此時的策略是最好的。也就是說,此時如果他改變策略他的支付將會降低。在納什均衡點上,每壹個理性的參與者都不會有單獨改變策略的沖動。納什均衡點存在性證明的前提是“博弈均衡偶”概念的提出。所謂“均衡偶”是在二人零和博弈中,當局中人A采取其最優策略a*,局中人B也采取其最優策略b*,如果局中人仍采取b*,而局中人A卻采取另壹種策略a,那麽局中人A的支付不會超過他采取原來的策略a*的支付。這壹結果對局中人B亦是如此。
這樣,“均衡偶”的明確定義為:壹對策略a*(屬於策略集A)和策略b*(屬於策略集B)稱之為均衡偶,對任壹策略a(屬於策略集A)和策略b(屬於策略集B),總有:偶對(a, b*)≤偶對(a*,b*)≤偶對(a*,b)。
對於非零和博弈也有如下定義:壹對策略a*(屬於策略集A)和策略b*(屬於策略集B)稱為非零和博弈的均衡偶,對任壹策略a(屬於策略集A)和策略b(屬於策略集B),總有:對局中人A的偶對(a, b*) ≤偶對(a*,b*);對局中人B的偶對(a*,b)≤偶對(a*,b*)。
有了上述定義,就立即得到納什定理:
任何具有有限純策略的二人博弈至少有壹個均衡偶。這壹均衡偶就稱為納什均衡點。
納什定理的嚴格證明要用到不動點理論,不動點理論是經濟均衡研究的主要工具。通俗地說,尋找均衡點的存在性等價於找到博弈的不動點。
納什均衡點概念提供了壹種非常重要的分析手段,使博弈論研究可以在壹個博弈結構裏尋找比較有意義的結果。
但納什均衡點定義只局限於任何局中人不想單方面變換策略,而忽視了其他局中人改變策略的可能性,因此,在很多情況下,納什均衡點的結論缺乏說服力,研究者們形象地稱之為“天真可愛的納什均衡點”。
塞爾頓(R·Selten)在多個均衡中剔除壹些按照壹定規則不合理的均衡點,從而形成了兩個均衡的精煉概念:子博弈完全均衡和顫抖的手完美均衡。
2)博弈的類型
(1)合作博弈——研究人們達成合作時如何分配合作得到的收益,即收益分配問題。
(2)非合作博弈——研究人們在利益相互影響的局勢中如何選決策使自己的收益最大,即策略選擇問題。
(3)完全信息不完全信息博弈:參與者對所有參與者的策略空間及策略組合下的支付有充了解稱為完全信息;反之,則稱為不完全信息。
(4)靜態博弈和動態博弈
靜態博弈:指參與者同時采取行動,或者盡管有先後順序,但後行動者不知道先行動者的策略。
動態博弈:指雙方的的行動有先後順序並且後行動者可以知道先行動者的策略。
財產分配問題和夏普裏值(Shapley value)
考慮這樣壹個合作博弈:a、b、c、投票決定如何分配100萬,他們分別擁有50%、40%、10%的權力,規則規定,當超過50%的票認可了某種方案時才能通過。那麽如何分配才是合理的呢?按票力分配,a50萬、b40萬、c10萬c向a提出:a70萬、b0、c30萬b向a提出:a80萬、b20萬、c0……
權力指數:每個決策者在決策時的權力體現在他在形成的獲勝聯盟中的“關鍵加入者”的個數,這個“關鍵加入者”的個數就被稱為權利指數。
夏普裏值:在各種可能的聯盟次序下,參與者對聯盟的邊際貢獻之和除以各種可能的聯盟組合。
次序 abc acb bac bca cab cba
關鍵加入者 a c a c a b
由此計算出a,b,c的夏普裏值分別為4/6,1/6,1/6
所以a,b,c應分別獲得100萬的2/3,1/3,1/3。
5.博弈論的意義
弈論的研究方法和其他許多利用數學工具研究社會經濟現象的學科壹樣,都是從復雜的現象中抽象出基本的元素,對這些元素構成的數學模型進行分析,而後逐步引入對其形勢產影響的其他因素,從而分析其結果。
基於不同抽象水平,形成三種博弈表述方式,標準型、擴展型和特征函數型利用這三種表述形式,可以研究形形色色的問題。因此,它被稱為“社會科學的數學”從理論上講,博弈論是研究理性的行動者相互作用的形式理論,而實際上正深入到經濟學、政治學、社會學等等,被各門社會科學所應用。
1.博弈論是指某個個人或是組織,面對壹定的環境條件,在壹定的規則約束下,依靠所掌握的信息,從各自選擇的行為或是策略進行選擇並加以實施,並從各自取得相應結果或收益的過程,在經濟學上博奕論是個非常重要的理論概念。
什麽是博弈論?古語有雲,世事如棋。生活中每個人如同棋手,其每壹個行為如同在壹張看不見的棋盤上布壹個子,精明慎重的棋手們相互揣摩、相互牽制,人人爭贏,下出諸多精彩紛呈、變化多端的棋局。博弈論是研究棋手們 “出棋” 著數中理性化、邏輯化的部分,並將其系統化為壹門科學。換句話說,就是研究個體如何在錯綜復雜的相互影響中得出最合理的策略。事實上,博弈論正是衍生於古老的遊戲或曰博弈如象棋、撲克等。數學家們將具體的問題抽象化,通過建立自完備的邏輯框架、體系研究其規律及變化。這可不是件容易的事情,以最簡單的二人對弈為例,稍想壹下便知此中大有玄妙:若假設雙方都精確地記得自己和對手的每壹步棋且都是最“理性” 的棋手,甲出子的時候,為了贏棋,得仔細考慮乙的想法,而乙出子時也得考慮甲的想法,所以甲還得想到乙在想他的想法,乙當然也知道甲想到了他在想甲的想法…
面對如許重重迷霧,博弈論怎樣著手分析解決問題,怎樣對作為現實歸納的抽象數學問題求出最優解、從而為在理論上指導實踐提供可能性呢?現代博弈理論由匈牙利大數學家馮·諾伊曼於20世紀20年代開始創立,1944年他與經濟學家奧斯卡·摩根斯特恩合作出版的巨著《博弈論與經濟行為》,標誌著現代系統博弈理論的初步形成。對於非合作、純競爭型博弈,諾伊曼所解決的只有二人零和博弈--好比兩個人下棋、或是打乒乓球,壹個人贏壹著則另壹個人必輸壹著,凈獲利為零。在這裏抽象化後的博弈問題是,已知參與者集合(兩方) ,策略集合(所有棋著) ,和盈利集合(贏子輸子) ,能否且如何找到壹個理論上的“解” 或“平衡” ,也就是對參與雙方來說都最“合理” 、最優的具體策略?怎樣才是“合理” ?應用傳統決定論中的“最小最大” 準則,即博弈的每壹方都假設對方的所有功略的根本目的是使自己最大程度地失利,並據此最優化自己的對策,諾伊曼從數學上證明,通過壹定的線性運算,對於每壹個二人零和博弈,都能夠找到壹個“最小最大解” 。通過壹定的線性運算,競爭雙方以概率分布的形式隨機使用某套最優策略中的各個步驟,就可以最終達到彼此盈利最大且相當。當然,其隱含的意義在於,這套最優策略並不依賴於對手在博弈中的操作。用通俗的話說,這個著名的最小最大定理所體現的基本“理性” 思想是“抱最好的希望,做最壞的打算” 。
2.在經濟學中,“智豬博弈”(Pigs’payoffs)是壹個著名博弈論例子。
這個例子講的是:豬圈裏有兩頭豬,壹頭大豬,壹頭小豬。豬圈的壹邊有個踏板,每踩壹下踏板,在遠離踏板的豬圈的另壹邊的投食口就會落下少量的食物。如果有壹只豬去踩踏板,另壹只豬就有機會搶先吃到另壹邊落下的食物。當小豬踩動踏板時,大豬會在小豬跑到食槽之前剛好吃光所有的食物;若是大豬踩動了踏板,則還有機會在小豬吃完落下的食物之前跑到食槽,爭吃到另壹半殘羹。
那麽,兩只豬各會采取什麽策略?答案是:小豬將選擇“搭便車”策略,也就是舒舒服服地等在食槽邊;而大豬則為壹點殘羹不知疲倦地奔忙於踏板和食槽之間。
原因何在?因為,小豬踩踏板將壹無所獲,不踩踏板反而能吃上食物。對小豬而言,無論大豬是否踩動踏板,不踩踏板總是好的選擇。反觀大豬,已明知小豬是不會去踩動踏板的,自己親自去踩踏板總比不踩強吧,所以只好親力親為了。
“小豬躺著大豬跑”的現象是由於故事中的遊戲規則所導致的。規則的核心指標是:每次落下的事物數量和踏板與投食口之間的距離。
如果改變壹下核心指標,豬圈裏還會出現同樣的“小豬躺著大豬跑”的景象嗎?試試看。
改變方案壹:減量方案。投食僅原來的壹半分量。結果是小豬大豬都不去踩踏板了。小豬去踩,大豬將會把食物吃完;大豬去踩,小豬將也會把食物吃完。誰去踩踏板,就意味著為對方貢獻食物,所以誰也不會有踩踏板的動力了。
如果目的是想讓豬們去多踩踏板,這個遊戲規則的設計顯然是失敗的。
改變方案二:增量方案。投食為原來的壹倍分量。結果是小豬、大豬都會去踩踏板。誰想吃,誰就會去踩踏板。反正對方不會壹次把食物吃完。小豬和大豬相當於生活在物質相對豐富的“***產主義”社會,所以競爭意識卻不會很強。
對於遊戲規則的設計者來說,這個規則的成本相當高(每次提供雙份的食物);而且因為競爭不強烈,想讓豬們去多踩踏板的效果並不好。
改變方案三:減量加移位方案。投食僅原來的壹半分量,但同時將投食口移到踏板附近。結果呢,小豬和大豬都在拼命地搶著踩踏板。等待者不得食,而多勞者多得。每次的收獲剛好消費完。
對於遊戲設計者,這是壹個最好的方案。成本不高,但收獲最大。
原版的“智豬博弈”故事給了競爭中的弱者(小豬)以等待為最佳策略的啟發。但是對於社會而言,因為小豬未能參與競爭,小豬搭便車時的社會資源配置的並不是最佳狀態。為使資源最有效配置,規則的設計者是不願看見有人搭便車的,政府如此,公司的老板也是如此。而能否完全杜絕“搭便車”現象,就要看遊戲規則的核心指標設置是否合適了。
比如,公司的激勵制度設計,獎勵力度太大,又是持股,又是期權,公司職員個個都成了百萬富翁,成本高不說,員工的積極性並不壹定很高。這相當於“智豬博弈”
增量方案所描述的情形。但是如果獎勵力度不大,而且見者有份(不勞動的“小豬”也有),壹度十分努力的大豬也不會有動力了----就象“智豬博弈”減量方案壹所描述的情形。最好的激勵機制設計就象改變方案三----減量加移位的辦法,獎勵並非人人有份,而是直接針對個人(如業務按比例提成),既節約了成本(對公司而言),又消除了“搭便車”現象,能實現有效的激勵。
許多人並未讀過“智豬博弈”的故事,但是卻在自覺地使用小豬的策略。股市上等待莊家擡轎的散戶;等待產業市場中出現具有贏利能力新產品、繼而大舉仿制牟取暴利的遊資;公司裏不創造效益但分享成果的人,等等。因此,對於制訂各種經濟管理的遊戲規則的人,必須深諳“智豬博弈”指標改變的個中道理。
3.背景知識:納什博弈論的原理與應用
2002年03月21日17:44 北京晚報
1950年和1951年納什的兩篇關於非合作博弈論的重要論文,徹底改變了人們對競爭和市場的看法。他證明了非合作博弈及其均衡解,並證明了均衡解的存在性,即著名的納什均衡。從而揭示了博弈均衡與經濟均衡的內在聯系。納什的研究奠定了現代非合作博弈論的基石,後來的博弈論研究基本上都沿著這條主線展開的。然而,納什天才的發現卻遭到馮·諾依曼的斷然否定,在此之前他還受到愛因斯坦的冷遇。但是骨子裏挑戰權威、藐視權威的本性,使納什堅持了自己的觀點,終成壹代大師。要不是30多年的嚴重精神病折磨,恐怕他早已
站在諾貝爾獎的領獎臺上了,而且也絕不會與其他人分享這壹殊榮。
納什是壹個非常天才的數學家,他的主要貢獻是1950至1951年在普林斯頓讀博士學位時做出的。然而,他的天才發現———非合作博弈的均衡,即“納什均衡”並不是壹帆風順的。
1948年納什到普林斯頓大學讀數學系的博士。那壹年他還不到20歲。當時普林斯頓可謂人傑地靈,大師如雲。愛因斯坦、馮·諾依曼、列夫謝茨(數學系主任)、阿爾伯特·塔克、阿倫佐·切奇、哈羅德·庫恩、諾爾曼·斯蒂恩羅德、埃爾夫·福克斯……等全都在這裏。博弈論主要是由馮·諾依曼(1903—1957)創所立的。他是壹位出生於匈牙利的天才的數學家。他不僅創立了經濟博弈論,而且發明了計算機。早在20世紀初,塞梅魯(Zermelo)、鮑羅(Borel)和馮·諾伊曼已經開始研究博弈的準確的數學表達,直到1939年,馮·諾依曼遇到經濟學家奧斯卡·摩根斯特恩(Oskar Morgenstern),並與其合作才使博弈論進入經濟學的廣闊領域。
1944年他與奧斯卡·摩根斯特恩合著的巨作《博弈論與經濟行為》出版,標誌著現代系統博弈理論的的初步形成。盡管對具有博弈性質的問題的研究可以追溯到19世紀甚至更早。例如,1838年古諾(Cournot)簡單雙寡頭壟斷博弈;1883年伯特蘭和1925年艾奇沃奇思研究了兩個寡頭的產量與價格壟斷;2000多年前中國著名軍事家孫武的後代孫臏利用博弈論方法幫助田忌賽馬取勝等等都屬於早期博弈論的萌芽,其特點是零星的,片斷的研究,帶有很大的偶然性,很不系統。馮·諾依曼和摩根斯特恩的《博弈論與經濟行為》壹書中提出的標準型、擴展型和合作型博弈模型解的概念和分析方法,奠定了這門學科的理論基礎。合作型博弈在20世紀50年代達到了巔峰期。然而,諾依曼的博弈論的局限性也日益暴露出來,由於它過於抽象,使應用範圍受到很大限制,在很長時間裏,人們對博弈論的研究知之甚少,只是少數數學家的專利,所以,影響力很有限。正是在這個時候,非合作博弈———“納什均衡”應運而生了,它標誌著博弈論的新時代的開始!納什不是壹個按部就班的學生,他經常曠課。據他的同學們回憶,他們根本想不起來曾經什麽時候和納什壹起完完整整地上過壹門必修課,但納什爭辯說,至少上過斯蒂恩羅德的代數拓撲學。斯蒂恩羅德恰恰是這門學科的創立者,可是,沒上幾次課,納什就認定這門課不符合他的口味。於是,又走人了。然而,納什畢竟是壹位英才天縱的非凡人物,他廣泛涉獵數學王國的每壹個分支,如拓撲學、代數幾何學、邏輯學、博弈論等等,深深地為之著迷。納什經常顯示出他與眾不同的自信和自負,充滿咄咄逼人的學術野心。1950年整個夏天納什都忙於應付緊張的考試,他的博弈論研究工作被迫中斷,他感到這是莫大的浪費。殊不知這種暫時的“放棄”,使原來模糊、雜亂和無緒的若幹念頭,在潛意識的持續思考下,逐步形成壹條清晰的脈絡,突然來了靈感!這壹年的10月,他驟感才思潮湧,夢筆生花。其中壹個最耀眼的亮點就是日後被稱之為“納什均衡”的非合作博弈均衡的概念。納什的主要學術貢獻體現在1950年和1951年的兩篇論文之中(包括壹篇博士論文)。1950年他才把自己的研究成果寫成題為“非合作博弈”的長篇博士論文,1950年11月刊登在美國全國科學院每月公報上,立即引起轟動。說起來這全靠師兄戴維·蓋爾之功,就在遭到馮·諾依曼貶低幾天之後,他遇到蓋爾,告訴他自己已經將馮·諾依曼的“最小最大原理”(minimax solution)推到非合作博弈領域,找到了普遍化的方法和均衡點。蓋爾聽得很認真,他終於意識到納什的思路比馮·諾伊曼的合作博弈的理論更能反映現實的情況,而對其嚴密優美的數學證明極為贊嘆。蓋爾建議他馬上整理出來發表,以免被別人捷足先登。納什這個初出茅廬的小子,根本不知道競爭的險惡,從未想過要這麽做。結果還是蓋爾充當了他的“經紀人”,代為起草致科學院的短信,系主任列夫謝茨則親自將文稿遞交給科學院。納什寫的文章不多,就那麽幾篇,但已經足夠了,因為都是精品中的精品。這壹點也是值得我們深思的。國內提壹個教授,要求在“核心的刊物”上發表多少篇文章。按照這個標準可能納什還不壹定夠資格。
1996年諾貝爾經濟學獎得主莫爾裏斯當牛津大學艾奇沃思經濟學講座教授時也沒有發表過什麽文章,特殊的人才,必須有特殊的選拔辦法。
納什在上大學時就開始從事純數學的博弈論研究,1948年進入普林斯頓大學後更是如魚得水。20歲出頭已成為聞名世界的數學家。特別是在經濟博弈論領域,他做出了劃時代的貢獻,是繼馮·諾依曼之後最偉大的博弈論大師之壹。他提出的著名的納什均衡的概念在非合作博弈理論中起著核心的作用。後續的研究者對博弈論的貢獻,都是建立在這壹概念之上的。由於納什均衡的提出和不斷完善為博弈論廣泛應用於經濟學、管理學、社會學、政治學、軍事科學等領域奠定了堅實的理論基礎。
囚犯的兩難處境:
關於“囚徒困境”
在博弈論中,含有占優戰略均衡的壹個著名例子是由塔克給出的“囚徒困境”(prisoners’ dilemma)博弈模型。該模型用壹種特別的方式為我們講述了壹個警察與小偷的故事。假設有兩個小偷A和B聯合犯事、私入民宅被警察抓住。警方將兩人分別置於不同的兩個房間內進行審訊,對每壹個犯罪嫌疑人,警方給出的政策是:如果壹個犯罪嫌疑人坦白了罪行,交出了贓物,於是證據確鑿,兩人都被判有罪。如果另壹個犯罪嫌疑人也作了坦白,則兩人各被判刑8年;如果另壹個犯罪嫌人沒有坦白而是抵賴,則以妨礙公務罪(因已有證據表明其有罪)再加刑2年,而坦白者有功被減刑8年,立即釋放。如果兩人都抵賴,則警方因證據不足不能判兩人的偷竊罪,但可以私入民宅的罪名將兩人各判入獄1年。表2.2給出了這個博弈的支付矩陣。
表2.2 囚徒困境博弈
B
坦白 抵賴
A 坦白 –8, –8 0, –10
抵賴 –10, 0 –1, –1
我們來看看這個博弈可預測的均衡是什麽。對A來說,盡管他不知道B作何選擇,但他知道無論B選擇什麽,他選擇“坦白”總是最優的。顯然,根據對稱性,B也會選擇“坦白”,結果是兩人都被判刑8年。但是,倘若他們都選擇“抵賴”,每人只被判刑1年。在表2.2中的四種行動選擇組合中,(抵賴、抵賴)是帕累托最優的,因為偏離這個行動選擇組合的任何其他行動選擇組合都至少會使壹個人的境況變差。不難看出,“坦白”是任壹犯罪嫌疑人的占優戰略,而(坦白,坦白)是壹個占優戰略均衡。
------------------------------------------------------------荊祖民 整理提供
大理論中的小故事
要了解納什的貢獻,首先要知道什麽是非合作博弈問題。現在幾乎所有的博弈論教科書上都會講“囚犯的兩難處境”的例子,每本書上的例子都大同小異。
博弈論畢竟是數學,更確切地說是運籌學的壹個分支,談經論道自然少不了數學語言,外行人看來只是壹大堆數學公式。好在博弈論關心的是日常經濟生活問題,所以不能不食人間煙火。其實這壹理論是從棋弈、撲克和戰爭等帶有競賽、對抗和決策性質的問題中借用的術語,聽上去有點玄奧,實際上卻具有重要現實意義。博弈論大師看經濟社會問題猶如棋局,常常寓深刻道理於遊戲之中。所以,多從我們的日常生活中的凡人小事入手,以我們身邊的故事做例子,娓娓道來,並不乏味。話說有壹天,壹位富翁在家中被殺,財物被盜。警方在此案的偵破過程中,抓到兩個犯罪嫌疑人,斯卡爾菲絲和那庫爾斯,並從他們的住處搜出被害人家中丟失的財物。但是,他們矢口否認曾殺過人,辯稱是先發現富翁被殺,然後只是順手牽羊偷了點兒東西。於是警方將兩人隔離,分別關在不同的房間進行審訊。由地方檢察官分別和每個人單獨談話。檢察官說,“由於妳們的偷盜罪已有確鑿的證據,所以可以判妳們壹年刑期。但是,我可以和妳做個交易。如果妳單獨坦白殺人的罪行,我只判妳三個月的監禁,但妳的同夥要被判十年刑。如果妳拒不坦白,而被同夥檢舉,那麽妳就將被判十年刑,他只判三個月的監禁。但是,如果妳們兩人都坦白交代,那麽,妳們都要被判5年刑。”斯卡爾菲絲和那庫爾斯該怎麽辦呢?他們面臨著兩難的選擇——坦白或抵賴。顯然最好的策略是雙方都抵賴,結果是大家都只被判壹年。但是由於兩人處於隔離的情況下無法串供。所以,按照亞當·斯密的理論,每壹個人都是從利己的目的出發,他們選擇坦白交代是最佳策略。因為坦白交代可以期望得到很短的監禁———3個月,但前提是同夥抵賴,顯然要比自己抵賴要坐10年牢好。這種策略是損人利己的策略。不僅如此,坦白還有更多的好處。如果對方坦白了而自己抵賴了,那自己就得坐10年牢。太不劃算了!因此,在這種情況下還是應該選擇坦白交代,即使兩人同時坦白,至多也只判5年,總比被判10年好吧。所以,兩人合理的選擇是坦白,原本對雙方都有利的策略(抵賴)和結局(被判1年刑)就不會出現。這樣兩人都選擇坦白的策略以及因此被判5年的結局被稱為“納什均衡”,也叫非合作均衡。因為,每壹方在選擇策略時都沒有“***謀”(串供),他們只是選擇對自己最有利的策略,而不考慮社會福利或任何其他對手的利益。也就是說,這種策略組合由所有局中人(也稱當事人、參與者)的最佳策略組合構成。沒有人會主動改變自己的策略以便使自己獲得更大利益。“囚徒的兩難選擇”有著廣泛而深刻的意義。個人理性與集體理性的沖突,各人追求利己行為而導致的最終結局是壹個“納什均衡”,也是對所有人都不利的結局。他們兩人都是在坦白與抵賴策略上首先想到自己,這樣他們必然要服長的刑期。只有當他們都首先替對方著想時,或者相互合謀(串供)時,才可以得到最短時間的監禁的結果。“納什均衡”首先對亞當·斯密的“看不見的手”的原理提出挑戰。按照斯密的理論,在市場經濟中,每壹個人都從利己的目的出發,而最終全社會達到利他的效果。不妨讓我們重溫壹下這位經濟學聖人在《國富論》中的名言:“通過追求(個人的)自身利益,他常常會比其實際上想做的那樣更有效地促進社會利益。”從“納什均衡”我們引出了“看不見的手”的原理的壹個悖論:從利己目的出發,結果損人不利己,既不利己也不利他。兩個囚徒的命運就是如此。從這個意義上說,“納什均衡”提出的悖論實際上動搖了西方經濟學的基石。因此,從“納什均衡”中我們還可以悟出壹條真理:合作是有利的“利己策略”。但它必須符合以下黃金律:按照妳願意別人對妳的方式來對別人,但只有他們也按同樣方式行事才行。也就是中國人說的“己所不欲勿施於人”。但前提是人所不欲勿施於我。其次,“納什均衡”是壹種非合作博弈均衡,在現實中非合作的情況要比合作情況普遍。所以“納什均衡”是對馮·諾依曼和摩根斯特恩的合作博弈理論的重大發展,甚至可以說是壹場革命。
從“納什均衡”的普遍意義中我們可以深刻領悟司空見慣的經濟、社會、政治、國防、管理和日常生活中的博弈現象。我們將例舉出許多類似於“囚徒的兩難處境”這樣的例子。如價格戰、軍奮競賽、汙染等等。壹般的博弈問題由三個要素所構成:即局中人(players)又稱當事人、參與者、策略等等的集合,策略(strategies)集合以及每壹對局中人所做的選