不锈钢保温厂家_鑫诚防腐保温工程有限公司 > 产品中心 >

陵水罐体保温工程 令人震惊的数学发现,博弈论中的优策略,竟然是“以牙还牙”

  • 发布日期:2026-01-01 14:36:09
  • 点击次数:183
QQ咨询

18632699551

  • 内容详情
铁皮保温施工

你 23 岁,刚搬进一套朴素的两居室公寓,与一位室友租——一个关系中的熟人,你们分摊费用与责任。

为了确保一切公平而和睦,你们共同制定了公寓内谁做什么、何时做、如何做的规则:谁倒垃圾、谁擦地板与台面、谁洗碗,等等。你们决定每人每周洗一次碗。你负责星期天,他负责星期三。

不久,一个星期天到了,你如约洗了碗。接着一个星期三到来,你的室友也洗了。如此循环了几个星期。

图片

然后在某个星期三,你下班回家已是深夜,却发现水槽里堆满了碗碟。你什么也没说。出于慷慨的情,你认为这只是偶尔一次意外,你的室友明天自然会洗。然而,当星期天到来时,碗碟堆得比之前高出一倍,甚至溢出了水槽,占满了周围的台面——他们并没有洗。

你想告诉室友该轮到他洗碗了,但他不在家——一整天都没回来。于是你自己动手洗了。这样至少能让“排班”继续维持下去。

下一个星期三,室友洗了碗,一切似乎恢复了正常。直到再下一个星期三——又是深夜,你回家时,水槽里再度堆满了碗碟。你去问室友到底怎么回事。他们向你保证会去洗。你接受了这个说法。

但二天,碗碟依旧在那儿,堆得更高。再下一天,依然如此。你这才意识到问题存在。

到了星期天,你开始思考:该怎么办?要不要洗这些碗?还是任由那堆已经巨大的碗碟继续堆积?你已经树立了怎样的“先例”?又将树立怎样的“先例”?能否重置一切?

地址:大城县广安工业区

如果你不洗,而室友也不洗,那厨房就会一直一团糟。相反,如果你洗了,那会不会很快变成——每次都由你洗?你到底在和什么样的人打交道?又该如何有地应对?

你思索着:自己该作出怎样的决定,采用怎样的策略。

这正是博弈论中著名思想实验的一种变体,名为“囚徒困境”。在这种情境中,双方如果选择作,会得到更好的结果;但每一方同时又有动机背弃对方。而当双方都选择不作时,结果反而对两者都糟。

在这个例子里,个体的激励是:不用花时间洗碗。终的结果则是——要么厨房与室友关系一团糟,要么干净整洁。

广义而言,博弈论(game theory)是一门研究决策与策略的数学学科,关注那些结果取决于他人选择的情境。更具体地说,它考察在理决策者之间的冲突与作中,如何导致优或次优的收益。本质上,它是一门关于策略的科学。

在社会关系、商业、经济乃至政治中——无论是两个人之间,还是国家与国家之间——人们都在不断地做出影响彼此的决定。无论是个体还是群体,我们都拥有一种力量,不仅能改变自身的处境,也能改变他人的、乃至整个世界的处境。

这些决定与其结果,可以像租公寓里谁洗碗那样微不足道,也可以像国家与人民能否存续那样至关重要。

肾精是生命的 “能量库”,其盛衰决定生长发育与衰老速度,养生的核心是 “藏精、养精、护精”。

五脏是生命活动的核心枢纽:心主血脉与精神、肺主气与卫外、肝主疏泄与藏血、肾主藏精与生长、脾主运化与气血生成,共同维持生命活动的动态平衡。

博弈论认为:每一个带有特定目标的决策,都可以在原则上被表述并理解为一个数学模型。换句话说,只要目标明确、约束清晰,就总能导出一个理的正确选择。进一步说,面对多个选择,还能找出一种优策略。

通过各种计算机程序与模拟,博弈论研究者们发现,在社会与自然的诸多条件下,存在一种被证明其有且出人意料的策略。它为简单,却深具启发;更重要的是——它充满希望。而且,它是我们每一个人都能在生活中实践的。

在继续之前,须澄清一点:在博弈论的语境中,“游戏(game)”并不是我们通常意义上理解的“游戏”。虽然它也可以包括传统游戏,但“游戏”在此泛指——多个决策者之间发生的任何互动,只要该互动的结果与收益取决于各方的选择。

因此,它既包括象棋、扑克这样的传统博弈,也几乎涵盖了我们生活中的一切互动。当然,并非字面意义上的“所有”,但凡是人与人或群体之间存在竞争或作、并且结果会互相影响的情境,都属于“博弈”的范畴。

然而,博弈论特别区分出两种主要的互动或“游戏”类型:作型(cooperative)与非作型(non-cooperative)。

在作型博弈中,例如同一支球队的队员、理论上的室友、商业伙伴,或国际联盟与贸易协定,各方共享目标,资源与信息往往自由交流,公平与互利既被假定,也被积追求。

而非作型博弈,则在现实世界中更为普遍,甚至可以说更加有趣。

在非作型游戏中,通常存在赢家与输家。玩家们各自为己,在独立行动中追求自身利益,有时甚至故意以损害对方为代价来获益。

这种非作的张力关系,经常被用来、或被简化地再现于各种游戏节目之中。

例如,在 2000 年代后期英国的游戏节目《Golden Balls》(黄金球)中,两个陌生人面对面坐下,须决定——是否愿意与对方分享(split)或窃取(steal)一大笔奖金。

图片

每个人的选择,都会直接影响双方能否、以及能得到多少钱。但在结果揭晓前,双方都不知道对方的终选择。

如果两人都选择分享,奖金平分;如果一方选择分享、另一方选择偷取——偷取者得全部奖金,分享者一无所获。若双方都选择偷取,则两人都得不到任何东西。

在这种一次博弈(one-off game)中,当选择只有“作或背叛”、“分享或窃取”两种时,博弈论告诉我们:存在一个明确的理选择。

所谓的“占优策略(dominant strategy)”,即不论对方作何选择,都能让自己获得佳结果的选项。而这,永远是理的选择。

这种选择并非在追求“可能出现的好结果”,而是在对方任何决策下都能确保自身优结果的选择——因为你无法控制对方的决定。

因此,在《黄金球》节目中,理的做法就是——永远选择偷取。

理由是这样的:若对方选择分享,那么偷取的一方能得到更多;若对方选择偷取,那么自己若也偷取,虽然终得不到钱(和分享时的零收益相同),但至少不会被对方利用或欺骗。

严格意义上,这被称作“弱占优策略(weakly dominant strategy)”,因为在后一种情况下,收益只是与分享相等(零),而非更好。

当然,现实生活并不是一档游戏节目。人与人的互动几乎从来都不是“一次的”——不会在某个瞬间结束,而是持续地延展并留有余波。人们的决策,也很少像“分享或偷取”那样简单;结果更不可能仅仅是“全得、一半或全无”。

在现实生活中,设备保温施工总会存在更多的变量:时间的流动、反复的互动、不确定、博弈杠杆与资源变化。

例如,某人一次不洗碗或洗了碗——那场“游戏”并不会因此结束。接下来的关系与居住环境,都会因此受益或受损。

同样,当一家公司抹黑或与另一家公司作时,那场博弈也不会就此完结。报复行动、资源增长或市场变化都会随之而来。

再例如,当一个国家发动攻击、进行报复或建立同盟时,那场博弈也并不会结束——战争可能因此爆发或终结,国家本身也可能因此诞生或消亡。

考虑到这一切,我们不禁要问:在整体人生与决策中,有的策略或处世方式究竟是什么?是否真的存在这样一种普遍适用的策略?

1980 年,政治学家罗伯特·阿克塞尔罗德(Robert Axelrod)决定用实验证明这一点。他利用计算机程序来模拟不同的决策策略,设计了一场著名的实验。

图片

他邀请来自世界各地、不同学科的顶尖理论家们,各自编写一个程序——这些程序将在一场“重复囚徒困境锦标赛(iterated prisoner’s dilemma tournament)”中互相竞争。目标很简单:找出优策略,并赢得胜利。

比赛规则如下:每个参赛者(即程序)都要与所有其他选手对局一场,同时还要与自己的复制体对局一场。

在每场游戏中,双方都有两个选择:作(cooperate) 或 背叛(defect)。

计分规则为:

如果双方都选择作,各得 3 分;如果一方作、另一方背叛,则背叛者得 5 分,作方得 0 分;如果双方都背叛,各得 1 分。

每场比赛持续 200 轮,终以所有对局累计得分高者为冠军。

总共有 14 个程序 被提交。阿克塞尔罗德本人又额外添加了一个程序,它在每一轮中以 50% 的概率随机选择作或背叛。

多数参赛策略会在一轮选择作;少数则以早期背叛开局。

有些程序为复杂、善于计算,会先探测对手的弱点,然后加以利用——例如一个名为 “Grass Camp”(草地营) 的程序;也有些程序加入了随机动作,试图利用混乱与惊奇——例如一个名为 “Jaws”(鲨口) 的策略。而另一些则为直接、坦率。

这些程序总体上,正如阿克塞尔罗德所说,涵盖了从**“单纯而友善”到“狡猾而狠毒”**的全部谱系。

比赛结束后,阿克塞尔罗德与许多博弈论学者一样,对结果感到度震惊。为了确保结果可靠且可复现,他又将整场比赛重复运行了五次。每一次,结果都完全一致,冠军始终是同一个程序——名为 “以牙还牙”(Tit for Tat)。

这个策略是所有参赛程序中简单、友善的之一。

为了进一步提升实验复杂度,使之更接近真实世界,阿克塞尔罗德又举办了二场比赛。这一次,每局游戏的总轮数不再固定,改为一个随机的未知数。也就是说,玩家不再能“数着回”去算所谓的“终局策略”——这就更像现实生活。

这次共有 62 种策略 被提交,阿克塞尔罗德依然加入了一个随机策略作为参照。

结果依旧与一次其一致:再次获胜的,仍是 “以牙还牙”。

阿克塞尔罗德与众多博弈论家对此感到深深的惊讶——因为他们原本预期的赢家,应该是那种高度复杂、具竞争的策略——也就是所谓的“狡诈与狠毒”。然而事实恰恰相反,胜出的却是一个为简单、友好且宽容的策略。

具体来说,“以牙还牙” 的游戏逻辑如下:

它总是从 作 开始;此后,它完全复制对手的上一步动作。

也就是说,只要对手作,它就继续作;一旦对手背叛,它立即背叛回去,并持续如此,直到对方再次作为止。

而当对手重新选择作时,“以牙还牙” 就会立刻原谅——不再计较过去的行为,重新回到作模式,直到对方再次背叛。如此循环往复,不断延续。

有趣的是,这种策略在单场对局中从未赢得任何一场比赛。因为在一对一的情况下,它多只能打平或小输。但在整个锦标赛的总得分中,它却因为与大量其他选手保持持续作,稳定地取得了高的累计分数,从而赢得了整个比赛的胜利。

阿克塞尔罗德在其著作《作的演化》中写道:

“'以牙还牙’能够如此成功的原因,在于它兼具友善、报复、宽恕与清晰四种特质。它的友善使其避免了不要的冲突;它的报复让对方在尝试背叛时有所顾忌;它的宽恕能帮助双方恢复作;而它的清晰,使对手容易理解它的意图,从而引发长期的作。”

此外,几乎所有在比赛中表现出色的程序,都具有与“以牙还牙”相似的特质。在后来更复杂、更接近现实混乱条件的模拟中,一种更慷慨的“以牙还牙”变体——即偶尔在面对背叛时选择原谅而非报复——被证明果更好。

相反,那些“狠毒”的玩家,往往陷入持续的报复循环,终导致双方共同毁灭。

阿克塞尔罗德指出:

“让作得以出现的关键在于——玩家之间可能会再次相遇。”

换言之,可重复与关系的延续,正是作的根本土壤。

从中得到的启示十分清晰:在持续的、非作的竞争环境中,至少在一开始,表现出善意与作的姿态,往往更有利可图。

这并非软弱,而是一种力量。相反,那些习惯以背叛、挑衅开局的人,虽然短期内似乎占了上风,但长期来看更可能削弱自身并终失败。

此外,记仇是弱点,而宽恕是力量。但当然,软弱本身也是一种弱点。若放任他人伤害自己而不加任何后果,只会被不断利用、终输掉一切。

不过,如何“让对方承担后果”的方式,也同样重要——这种惩戒须是相称的、一致的、清晰的,而非模糊、操控或阴险的。

从道德与历史的角度看,“以牙还牙”的策略,本质上反映了“以眼还眼”的正义观:惩罚应与过错相称;而在相应的惩戒之后,平衡与作可以、也应当被恢复。

在个人层面上,它意味着:做一个善良、坦率、懂得理解他人的人——但永远不要成为任人欺凌的软柿子。

当然,阿克塞尔罗德的实验与整个博弈论框架,也都有其局限与问题。

程序、模拟与理论,终究无法完全再现或评估现实互动的真正规模与复杂。现实中的互动往往涉及更多参与者与更多议题,包含多重立场、多重目标、动态的想法与机会、不对称的力量与资源、已知与未知的信息、以及巨大的错误与混乱。

重要的是——它们还牵涉到人类心智中那部分情绪化、感、记仇、甚至非理的本。

作为人类,我们会感受、希望、相信,这些往往比我们计算、理与执行的部分还要强烈。

然而,总的来说,博弈论仍教会了我们许多深刻的道理。其中重要的一点,也许是:

“并非每一次博弈,都应该以'赢’为唯一目标。”

一个始终以“获胜”为中心的策略,反而可能成为整体上不擅长获胜的策略。而一个并不执着于每一次都赢的策略,却可能在长期中赢得更多、更大的胜利。

若我们想在生命的诸多领域中真正取得成功,就须接受许多“平局”与“失败”。但只要我们愿意一次次继续前行——以开放的心态、真诚的态度,迎接每一个新的互动,既捍卫自身的价值,又努力与世界接轨——我们终将稳步向着更大、更有意义的胜利迈进。

那是作、善意与互利的胜利之风。

我们永远无法真正预知或控制他人是否会与我们作、或是否会背叛。但我们可以掌控的是:我们是否选择作,以及我们为何而为。

我们可以确定的一点是:我们每一个决定,都可能影响我们所参与的所有“游戏”的质与结果——无论现在还是未来——它们可能成就或摧毁关系、目标、体系,甚至整个社会与星球。

因此,至少从自身出发,当那一天到来时——请务记得:把碗洗了。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报。

热点资讯

推荐资讯