进化博弈基本动态理论

[ 下载 ]

摘要本文主要介绍进化博弈理论的基本动态模型：对称博弈模仿者动态模型和非对称博弈模仿者动态模型及其相关结论。为了便于理解，在文中引用了一些简单的例子说明它们之间的区别与联系。在此基础上文中还介绍了理论家们对随机动态所进行的相关研究及其所取得的理论成果。最后本文比较了经典博弈理论② 与进化博弈理论在动态概念上的差别。

关键词：进化稳定策略⑩；模仿者动态；随机稳定均衡;。

;进化博弈理论至少自Lewontin（1960）用于解释生态现象就已经产生了，并被广泛应用于生态学、学及学等领域来研究群体行为的演化过程及其结果。进化博弈理论从有限理性的个体出发，以群体为研究对象，认为现实中个体并不是行为最优化者，个体的决策是通过个体之间模仿、学习和突变等动态过程来实现的。进化博弈理论强调系统达到均衡的动态调整过程，认为系统的均衡是达到均衡过程的函数，也就说均衡依赖于达到均衡的路径。动态概念在进化博弈理论中占有相当重要的地位，许多博弈理论家对群体行为调整过程进行了广泛而深入的研究，根据他们考虑问题的角度不同而提出了不同的动态模型，如Weibull(1995) 提出的模仿动态（Imitation Dynamics）模型；Brgers and Sarin(1995，1997)等提出的强化动态 ③（Reinforcement Dynamics）模型等等。但到目前为止，在进化博弈理论中应用最多的还是由Taylor and Jonker(1978)提出的模仿者动态（Replicator Dynamics）模型。模仿者动态是进化博弈理论的基本动态，它能较好地描绘出有限理性个体的群体行为变化趋势，由之得出的结论能够比较准确地预测个体的群体行为，因而倍受博弈论理论家们的重视。本文集中介绍确定性模仿者动态概念、模型及其与经典博弈动态概念的区别。一、确定性模仿者动态一般的进化过程都包括两个可能的行为演化机制：选择机制(Selection Mechanism)和突变机制（Mutation mechanism）。选择机制是指本期中能够获得较高支付的策略，在下期被更多参与者选择；突变是指参与者以随机（无目的性）的方式选择策略，因此突变策略可能获得较高支付也可能获得较低支付，突变一般很少发生。新的突变也必须经过选择，并且只有获得较高支付的策略才能生存（Survive）下来。按所研究的群体数目不同，进化博弈动态模型可分为两大类：单群体(Monomorphic Population)动态模型与多群体(Polymorphic Populations)动态模型。单群体动态模型是指所考察的对象只含有一个群体，并且群体中个体都有相同的纯策略集，个体与虚拟的参与人④ 进行对称博弈。多群体动态模型 ⑤是指所考察的对象中含有多个群体，不同群体个体可能有不同的纯策略集，不同群体个体之间进行的是非对称博弈。博弈中个体选择纯策略所得的支付不仅随其所在群体的状态变化而变化，而且也随其他群体状态的变化而变化。下面重点介绍单群体与多群体动态模仿者动态模型。 1.1、单群体确定性模仿者动态模型单群体模仿者动态模型是由Taylor and Jonker (1978)在考察生态演化现象时首次提出的。他们把一个生态中所有的种群看作为一个大群体，而把群体中每个种群都想象或程式化为一个特定的纯策略。群体在不同时刻所处的状态一般用混合策略来表示。所谓模仿者动态是指使用某一纯策略的人数所占比例的增长率等于使用该策略时所得支付 ⑥与群体平均支付之差，或者与平均支付成正比例。为了说明的方便，本文首先给出一些符号，然后给出Taylor and Jonker (1978)模仿者动态公式的推导过程。假定群体中每一个个体在任何时候只选择一个纯策略，比如，第j个个体在某时刻选择纯策略（当然由于突变或策略转移，同一个体在不同时刻可以选择不同的纯策略）。表示群体中各个体可供选择的纯策略集；N表示群体中个体总数；表示在时刻t选择纯策略i的个体数。表示群体在时刻t所处的状态，其中表示在该时刻选择纯策略i的人数在群体中所占的比例，即。表示群体中个体进行随机配对匿名博弈时，群体中选择纯策略的个体所得的期望支付。表示群体平均期望支付。下面给出连续时间模仿者动态公式，此时动态系统的演化过程可以用微分方程来表示。在对称博弈中每一个个体都认为其对手来自于状态为x 的群体。事实上，每个个体所面的对手是代表群体状态的虚拟个体 ⑦。假定选择纯策略的个体数的增长率等于⑧，那么可以得到如下的等式：由定义可知，两边对t微分可以 ⑨：两边同时除以N得到: 上式就是对称博弈模型中模仿者动态公式的微分形式。可以看出，如果一个选择纯策略的个体得到的支付少于群体平均支付，那么选择纯策略的个体在群体中所占比例将会随着时间的演化而不断减少；如果一个选择策略的个体得到的支付多于群体平均支付，那么选择策略的个体在群体中所占比例将会随着时间的演化而不断地增加；如果个体选择纯策略所得的支付恰好等群体平均支付，则选择该纯策略的个体在群体中所占比例不变。从上面的公式推导过程可以看出，Taylor and Jonker提出的模仿者动态仅仅考虑到纯策略的继承性，而没有考虑到混合策略的可继承性。Bomze（1986）证明了如果允许混合策略也可以被继承，那么在模仿者动态下，进化稳定策略等价于渐近稳定性。另外，下面不加证明⑾ 地给出Hofbauer et al. (1979); Zeeman (1980)提出并证明的一个命题，“在模仿者动态下，对称博弈中每一个ESS都是渐近稳定的”。这个命题的逆命题并不成立，下面用Fudenberg(1995)的一个反例来给予说明，考察表Ⅰ矩阵所示的对称博弈：该博弈有唯一对称的纳什均衡 ⑿（），且均衡时的期望支付为。这个均衡并不是进化稳定均衡，因为它能够被策略侵入；又因为在平衡点处雅可比行列式的特征根是和，该均衡状态是动态系统的汇⒀ （Sink），因此均衡是渐近稳定的，所以对称博弈的渐近稳定均衡并不一定是进化稳定均衡。从模拟者动态方程可以看出，支付函数的正向变换或者位移变换⒁只改变群体演化速度而不影响群体演化路径。因而，在进行分析时，可以对支付矩阵进行必要的简化处理。另外，由此还可以求出的两个种群相对增长率：上式说明：个体博弈时，获得相对较多支付的群体则具有更高的增长率。 1.2、多群体模仿者动态模型 Selten(1980)引入角色限制行为（Role Conditioned Behavior）而把群体分为单群体与多群体，不同群体根据个体可供选择的纯策略集不同来划分。多群体时，不同群体中的个体有不同纯策略集、不同群体平均支付及不同群体演化速度。因而，多群体模仿者动态公式推导比较复杂，下面给出多群体模仿者动态方程（参阅文献[24]）：其中，上标j表示第j个群体，其中K表示有K个群体；表示第j个群体中选择第个纯策略的个体数占该群体总数的百分比；表示群体j在某时刻所处的状态，表示第j个群体以外的其他群体在t时刻所处的状态；表示群体j中个体行为集中的第i个纯策略；x表示混合群体的混合策略组合，表示混合群体状态为x时群体j中个体选择纯策略时所能得到的期望支付；表示混合群体的平均支付。多群体模型并不是对单群体模型的简单改进，由单群体到多群体涉及到一系列的如均衡及稳定性等问题的变化。Selten(1980)证明了“在多群体博弈中进化稳定均衡都是严格纳什均衡⒂ ”的结论，这就说明在多群体博弈中，传统的进化稳定均衡概念就显示出其局限性了。同时，在模仿者动态下，同一博弈在单群体与多群体时也会有不同的进化稳定均衡。下面就利用一个例子来给予说明。 1.3、单群体与多群体的区别考察表Ⅱ矩阵所示的对称博弈：其中行代表虚拟参与人，也就是群体状态；列代表个体。由经典博弈理论知道，这个博弈有两个非对称。

2 次访问