运筹优化（十八）--对策论基础及其最优化求解

对策也叫博弈 , 是自古以来的政治家和军事家都很注意研究的问题。作为一门正式学科,是在20世纪40年代形成并发展起来的。直到1944年冯·诺依曼(von Neumann) 与摩根斯特恩(O .Morgenstern)的《博弈论与经济行为》一书出版,标志着现代系统博弈理论的初步形成。书中提出的标准型、扩展型和合作型博弈模型解的概念和分析方法 , 奠定了这门学科的理论基础 , 成为使用严谨的数学模型研究冲突对抗条件下最优决策问题的理论。然而 , 诺依曼的博弈论的局限性也日益暴露出来。由于它过于抽象 , 使应用范围受到很大限制,所以影响力很有限。20世纪50年代,纳什( Nash)建立了非合作博弈的“纳什均衡”理论, 标志着博弈的新时代开始 , 是纳什在经济博弈论领域划时代的贡献 , 是继冯·诺依曼之后最伟大的博弈论大师之一。1994年纳什获得了诺贝尔经济学奖。他提出的著名的纳什均衡概念在非合作博弈理论中起着核心作用。由于纳什均衡的提出和不断完善 , 为博弈论广泛应用于经济学、管理学、社会学、政治学、军事科学等领域奠定了坚实的理论基础。

对策论基础

对策论亦称竞赛论或博弈论, 是研究具有斗争或竞争性质现象的数学理论和方法。一般认为 , 它是现代数学的一个新分支 , 是运筹学的一个重要学科。对策论发展的历史并不长, 但由于它研究的问题与政治、经济、军事活动乃至一般的日常生活等有着密切联系,并且处理问题的方法具有明显特色 , 所以日益引起广泛注意。

在日常生活中, 经常会看到一些相互之间具有斗争或竞争性质的行为 , 如下棋、打牌、体育比赛等。还比如战争活动中的双方 , 都力图选取对自己最有利的策略, 千方百计去战胜对手。在政治方面 , 国际间的谈判 , 各种政治力量之间的斗争 , 各国际集团之间的斗争等无一不具有斗争的性质。在经济活动中, 各国之间、各公司企业之间的经济谈判 , 企业之间为争夺市场而进行的竞争等 , 举不胜举。

具有竞争或对抗性质的行为称为对策行为。在这类行为中 , 参加斗争或竞争的各方各自具有不同的目标和利益。为了达到各自的目标和利益 , 各方必须考虑对手的各种可能的行动方案 , 并力图选取对自己最有利或最合理的方案。对策论就是研究对策行为中斗争各方是否存在着最合理行动方案 , 以及如何找到最合理行动方案的数学理论和方法。

以下称具有对策行为的模型为对策模型或对策。对策模型的种类可以千差万别 , 但本质上都必须包括以下三个基本要素。

1. 局中人

在一个对策行为(或一局对策)中,有权决定自己行动方案的对策参加者, 称为局中人。通常用 I 表示局中人的集合。如果有n个局中人, 则 I = {1, 2, ⋯, n}。一般要求一个对策中至少要有两个局中人。对策中关于局中人的概念具有广义性，也就是不一定具体到人，也可以是组织，团地。需要强调的一点是 , 在对策中总是假定每一个局中人都是“ 理智的”决策者或竞争者 , 即对任一局中人来讲 , 不存在利用其他局中人决策的失误来扩大自身利益的可能性。

2. 策略集

一局对策中, 可供局中人选择的一个实际可行的完整的行动方案称为一个策略。参加对策的每一局中人i,i∈I,都有自己的策略集 Si。一般,每一局中人的策略集中至少应包括两个策略。

3. 赢得函数(支付函数)

在一局对策中,各局中人选定的策略形成的策略组称为一个局势, 即若Si是第i个局中人的一个策略,则 n个局中人的策略组：s=(s1 ,s2 ,⋯,sn)就是一个局势。全体局势的集合S可用各局中人策略集的笛卡儿积表示 , 即S= S1×S2×⋯×Sn，当一个局势出现后,对策的结果也就确定了。也就是说, 对任一局势 s∈ S, 局中人i可以得到一个赢得值 Hi (s)。显然, Hi (s)是局势 s的函数,称为第 i个局中人的赢得函数。

在齐王与田忌赛马的例子中,局中人集合为 I={1,2},齐王和田忌的策略集可分别用 S1 ={a1 ,a2 , a3 , a4 ,a5 ,a6 }和 S2 ={β1 ,β2 ,β3 ,β4 ,β5 ,β6 }表示。这样,齐王的任一策略 ai 和田忌的任一策略βj 就形成了一个局势sij。如果a1=(上,中,下),β1 =(上,中,下),则在局势 s11下齐王的赢得值为H1(s11) = 3 , 田忌的赢得值为H2(s11)=- 3, 如此等等。以上讨论了局中人、策略集和赢得函数这三个概念。当这三个基本要素确定后 , 一个对策模型也就给定了。

对策问题举例及对策的分类

对策论在经济管理的众多领域中有着十分广泛的应用 , 下面列举几个可以用对策论思想和模型进行分析的例子。

费用分摊问题：假设沿某一河流有相邻的 3 个城市 A、B、C,各城市可单独建立水厂, 也可合作兴建一个大水厂。经估算 , 合建一个大水厂 , 加上敷设管道的费用 , 要比单独建3个小水厂的总费用少。但合建大厂的方案能否实施, 要看总的建设费用分摊得是否合理。如果某个城市分摊到的费用比它单独建设水厂的费用还多的话 , 它显然不会接受合作的方案。问题是应如何合理地分摊费用, 使合作兴建大水厂的方案得以实现?

拍卖问题：最常见的一种拍卖形式是先由拍卖商把拍卖品描述一番,然后提出第一个报价。接下来由买者报价, 每一次报价都要比前一次高 , 最后谁出的价最高拍卖品即归谁所有。假设有n个买主给出的报价分别为p1 ,⋯, pn ,且不妨设 pn > pn - 1 > ⋯ >p1 ,则买主 n 只要报价略高于 pn - 1 , 就能买到拍卖品, 即拍卖品实际上是在次高价格上卖出的。现在的问题是 , 各买主之间可能知道他人的估价 , 也可能不知道他人的估价 , 每人应如何报价对自己能以较低的价格得到拍卖品最为有利 ? 最后的结果又会怎样 ?

囚犯难题：设有两个嫌疑犯因涉嫌作案被警官拘留,警官分别对两人进行审讯。根据法律,如果两个人都承认此案是他们干的, 则每人各判刑7年; 如果两人都不承认 , 则由于证据不足 , 两人各判刑1年 ; 如果只有一人承认并揭发对方, 则承认者予以宽大释放 , 而不承认者将判刑9年。因此, 对两个囚犯来说 , 面临着一个在“承认”和“不承认” 这两个策略间进行选择的难题。

上面几个例子都可看成是一个对策问题 , 所不同的是有些是二人对策 , 有些是多人对策;有些是有限对策, 有些是无限对策;有些是零和对策, 有些是非零和对策; 有些是合作对策, 有些是非合作对策等等。为了便于对不同的对策问题进行研究, 可以根据不同方式进行分类 , 通常的分类方式有 :

(1) 根据局中人的个数,分为二人对策和多人对策;
(2) 根据各局中人的赢得函数的代数和是否为零,分为零和对策与非零和对策;
(3) 根据各局中人间是否允许合作,分为合作对策和非合作对策;
(4) 根据局中人的策略集中的策略个数,分为有限对策和无限对策。
此外 , 还有许多其他的分类方式。例如根据策略的选择是否与时间有关, 可分为静态对策和动态对策 ; 根据对策模型的数学特征 , 可分为矩阵对策、连续对策、微分对策、阵地对策、凸对策、随机对策等。

在众多对策模型中,占有重要地位的是二人有限零和对策(finite two-person zero- sum game) , 又称为矩阵对策。这类对策是到目前为止在理论研究和求解方法方面都比较完善的一个对策分支。矩阵对策可以说是一类最简单的对策模型 , 其研究思想和方法十分具有代表性 , 体现了对策论的一般思想和方法 , 且矩阵对策的基本结果也是研究其他对策模型的基础。

矩阵对策的基本定理

矩阵对策的数学模型

二人有限零和对策就是矩阵对策 , 是指只有两个参加对策的局中人 , 每个局中人都只有有限个策略可供选择。在任一局势下, 两个局中人的赢得之和总是等于零 , 即双方的利益是激烈对抗的。“齐王赛马”就是一个矩阵对策的例子 , 齐王和田忌各有6个策略, 一局对策结束后 , 齐王的所得必为田忌的所失 , 反之亦然。

在矩阵对策中,一般用I、II分别表示两个局中人,并设局中人I有 m个纯策略α1 ,α2 , ⋯,αm ,局中人II有 n 个纯策略β1 ,β2 , ⋯,βn , 则局中人I、 II的策略集分别为：S1 ={α1 ,α2 ,⋯,αm}，S2 ={β1,β2,⋯,βn}，当局中人I选定纯策略αi 和局中人II选定纯策略βj 后,就形成了一个纯局势(αi ,βj )。可见这样的纯局势共有m×n个。对任一纯局势(αi,βj),记局中人I的赢得值为aij，并称：

$\begin{bmatrix} a_{11}\, a_{11}...\,a_{1n}\\ a_{21}\, a_{22}...\,a_{2n}\\ ...\, ...\...\\ a_{m1}\, a_{m2}...\,a_{mn}\\ \end{bmatrix}$

为局中人I的赢得矩阵(或为局中人II的支付矩阵)。由于假定对策为零和的,故局中人II的赢得矩阵就是 - A。

当局中人I、II和策略集 S1 、S2 及局中人I的赢得矩阵 A 确定后, 一个矩阵对策也就给定。通常 , 将一个矩阵对策记成G={I,II;S1,S2;A}或 G={S1,S2;A}

若 $\underset{i}{max}\, \underset{j}{min} a_{ij} =\underset{j}{min}\, \underset{i}{max}\, a_{ij} = a_{i^{*}j^{*}}$

等式成立 , 记 VG = ai*j*。则称VG为对策G的值, 称使该式成立的纯局势(αi*,βj*)为G在纯策略下的解(或平衡局势),αi*与βj*分别称为局中人I,II的最优纯策略。

矩阵对策的值是唯一的。即当局中人I采用构成解的最优纯策略时 , 能保证他的赢得VG不依赖于对方的纯策略。

矩阵对策的混合策略

对矩阵对策 G= { S1 , S2 ; A}来说,局中人I有把握的至少赢得是 $v1 = \underset{i}{max}\, \underset{j}{min} a_{ij}$ ,局中人II有把握的至多损失是 $v2 = \underset{j}{min}\, \underset{i}{max}\, a_{ij}$

一般，局中人I赢得值不会多于局中人II损失值，即总有v1 <= v2.

设有矩阵对策G={S1,S2;A},其中S1 ={α1,α2,⋯,αm},S2 ={β1,β2,⋯, βn},A=(aij )m×n记

$S_{1}^{*} = \left \{ x \in E^{m} / x_{i} \geqslant 0,i = 1,...,m,\sum_{i= 1}^{m}x_{i} = 1\right \} \ S_{2}^{*} = \left \{ y \in E^{n} / y_{j} \geqslant 0,j = 1,...,n,\sum_{j= 1}^{n}y_{j} = 1\right \}$

则s1,s2分别