群体智能与演化博弈

978-7-115-59492-1
作者: 张建磊
译者:
编辑: 刘盛平
分类: 其他

图书目录:

详情

本书总体目标是介绍群体智能与演化博弈交叉领域的现状、发展趋势和重要应用,为读者在群体智能、无人系统、仿生智能、对抗与博弈等领域开展跨学科研究和技术开发打下基础。全书共7章,主要内容包括绪论、基于粒子群优化算法的群体演化博弈、有限群体中任务分配博弈的动力学、带有破坏者的任务分配博弈演化动力学、基于演化博弈的多智能体覆盖控制、基于演化博弈理论的集群编队、基于深度优先策略的区域协同搜索等。通过本书的学习,读者可以了解群体智能的基础知识,学习如何应用博弈理论对集群的动力学属性进行建模分析、如何设计并实现群体智能的算法,实现群体的控制、建模、任务分配与协作。 本书既可作为自动化、计算机科学与技术、电子信息工程、机器人工程等专业研究生和高年级本科生的教材,也可作为相关行业科研人员的参考书。

图书摘要

Swarm Intelligence & Evolutionary Game Theory

群体智能与演化博弈

张建磊/编著

人民邮电出版社

北京

图书在版编目(CIP)数据

群体智能与演化博弈/张建磊编著.--北京:人民邮电出版社,2022.12

ISBN 978-7-115-59492-1

Ⅰ.①群… Ⅱ.①张… Ⅲ.①人工智能一研究 Ⅳ.①TP18

中国版本图书馆CIP数据核字(2022)第205112号

◆编著 张建磊

责任编辑 刘盛平

责任印制 焦志炜

◆人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 https://www.ptpress.com.cn

固安县铭成印刷有限公司印刷

◆开本:700×1000 1/16  彩插:8

印张:13.75  2022年12月第1版

字数:239千字  2022年12月河北第1次印刷

定价:99.80元

读者服务热线:(010)81055552 印装质量热线:(010)81055316

反盗版热线:(010)81055315

广告经营许可证:京东市监广登字20170147号

内容提要

本书的总体目标是介绍群体智能与演化博弈交叉领域的现状、技术发展趋势和重要应用,为读者在群体智能、无人系统、仿生智能、对抗与博弈等领域开展跨学科研究和技术开发打下基础。全书共7章,主要涉及绪论、基于粒子群优化算法的群体演化博弈、有限群体中任务分配博弈的动力学、带有破坏者的任务分配博弈的演化动力学、基于演化博弈论的多智能体系统覆盖控制、基于演化博弈论的集群编队、基于深度优先策略的区域协同搜索等内容。通过本书的学习,读者可以了解群体智能的基础知识,学习如何应用博弈理论对集群的动力学进行建模分析、如何设计并实现群体智能的算法,实现群体的控制、建模、任务分配与协作。

本书既可作为自动化、计算机科学与技术、电子信息工程、机器人工程等专业研究生和高年级本科生的教材,也可作为相关行业科研人员的参考书。

前言

群体智能一般是指由多个单一智能体构成的群体所展现出的、单一智能体不具备的高水平和形式复杂的智能。随着自动化、人工智能、计算机、传感器等领域技术的发展,无人系统的应用越来越广泛,而由多个个体组成的集群系统具有较高的智能水平,是当前的研究热点,也是新一代人工智能的重要发展方向。对群体进行设计、建模、分析和控制需要复杂的数学算法和知识。演化博弈借助博弈理论可以分析群体中的交互、合作、博弈、对抗等行为,并对群体中的个体之间、个体与群体之间的行为进行建模与分析,描述群体的动态属性。因此,群体智能与演化博弈已经成为无人系统、多机器人系统等研究和应用领域的重要理论分析工具和算法设计方法。

为了满足群体智能学科相关领域的人才培养需求,国外很多大学都开设了以群体智能和演化博弈为核心主题的课程。其中,国外具有代表性的大学有哈佛大学和东京大学,两校的相关课程均以讲述演化动力学为核心,主要介绍演化博弈的理论和方法,对于其在群体智能领域中的应用的介绍则比较浅显。我国尚缺乏相应的课程和教材,这制约了相关学科的人才培养。编者在国家自然科学基金(62073174、62073175、91848203)的资助下,持续多年开展群体智能与演化博弈的研究,并研制了陆地无人系统、蜂群决策系统等集群控制与协作系统。自2019年以来,编者在南开大学人工智能学院开设了面向研究生的集群智能控制课程。本书是作者根据课程讲义,并总结在群体智能与演化博弈方面研究工作的基础上,经过系统整理撰写而成的。

本书共7章。第1章是绪论,介绍群体智能的基本概念和主要应用以及演化博弈的相关知识;第2章介绍基于粒子群优化算法的群体演化博弈,这是一种群体智能基础算法与博弈理论结合的方法;第3、4章介绍群体中的任务分配机制和算法,包括有限群体中任务分配博弈的动力学和带有破坏者的任务分配博弈的演化动力学;第5~7章是基于演化博弈论的群体智能应用技术和理论,其中第5章介绍基于演化博弈论的多智能体系统覆盖控制,第6章介绍基于演化博弈论的集群编队,第7章介绍基于深度优先策略的区域协同搜索。

在本书的编写过程中,南开大学人工智能学院天津市智能机器人技术重点实验室、机器智能研究所、智能预测自适应控制研究室、复杂系统与群体智能研究组的同事和研究生提出了大量改进建议,促使本书结构和内容得以不断优化,尤其感谢王瑄毅、王子珩、林达生、焦文沛、赵正午、普显东等人在全书成稿阶段的内容检查和修订工作。此外,衷心感谢人民邮电出版社刘盛平编辑在书稿撰写过程中提出的宝贵建议。

由于作者水平有限,书中难免存在疏漏和不足,敬请读者批评指正。

张建磊

2022年2月

第1章 绪论

作为一种智能形态的高级表现方式,群体智能(swarm intelligence)在推动我国新一代人工智能的发展中占据了重要地位。此外,演化博弈论作为群体智能行为的分析工具,结合了经典博弈论与生物学的知识,展现了科学性和实用性。本章主要围绕群体智能及其应用和演化博弈论相关知识进行介绍。

|1.1 群体智能概述|

群体智能这一概念最早出现在1989年,用于描述细胞机器人系统,是研究人员受自然界中各类生物群体集群行为的启发而提出的。生物群体由多个单一智能体构成,并且展现出了单一智能体不具备的集体智能(collective intelligence) [1],群体智能的相关算法包括蚁群优化(ant colony optimization,ACO)算法、粒子群优化(particle swarm optimization,PSO)算法等。

群体智能有以下几个特点。

① 群体智能的控制是分布式的,不存在中心控制,更能够适应当前环境下的工作状态,并且具有较强的鲁棒性,即不会由于某一个或几个个体出现故障而影响群体对整个问题的求解。

② 群体中的每个个体都能够改变环境,这是个体之间间接通信的一种方式,这种方式被称为激发工作。群体智能可以通过间接通信的方式进行信息的传输与合作,并且随着个体数量的增加,通信开销的增幅较小,因而具有较好的可扩充性。

③ 群体中每个个体的能力或遵循的行为规则非常简单,因而群体智能的实现比较方便,具有简单性的特点。

④ 群体表现出来的复杂行为是通过简单个体的交互过程涌现出来的智能,因此,群体智能具有自组织性[2]。群体智能可以在适当的进化机制引导下通过个体交互以某种涌现形式发挥作用,这是个体以及可能的个体智能难以做到的。

|1.2 群体智能的主要应用|

鉴于群体智能所展现出的特点,其目前广泛应用于优化求解、协同搜索、编队控制、协同通信、大数据分析、图像处理等领域。

1.2.1 优化求解

优化求解涉及两个基本概念,即优化问题和优化方法。优化问题是指在满足一定的条件下,在众多方案或参数值中寻找最优方案或参数值,以使系统的某个或多个功能指标达到最优,或使系统的某些性能指标达到最大值或最小值。优化方法是一种以数学为基础,用于求解各类优化问题的技术。对于在电子、自动化、计算机等领域出现的众多组合优化问题,传统的优化方法(如牛顿法、单纯形法等)需要遍历整个搜索空间,无法在短时间内完成搜索,且容易产生搜索的“组合爆炸”。因此,鉴于实际工程优化问题的复杂性、非线性、约束性以及建模困难等诸多特点,基于生物群体行为规律的优化算法,如粒子群优化算法、蚁群优化算法、人工蜂群算法、狼群算法等,展现出了不错的求解性能。

1.粒子群优化算法

粒子群优化算法[3]是由社会心理学家Kennedy和Eberhart在1995年研究群鸟觅食行为时共同提出来的。鸟类捕食时,找到食物的最简单有效的策略就是搜寻当前距离食物最近的鸟的周围区域。

粒子群优化算法通过设计一种无质量的粒子来模拟鸟群中的鸟,粒子仅具有两种属性:速度和位置,速度代表移动的快慢,位置代表移动的方向。每个粒子在搜索空间中的单独搜寻最优解记为当前个体极值,将个体极值与整个粒子群里的其他粒子共享,找到最优的那个个体极值即为整个粒子群的当前全局最优解,粒子群中的所有粒子根据自己找到的当前个体极值和整个粒子群共享的当前全局最优解来调整自己的速度和位置。

假设在一个N维搜索空间中,种群X=(X1,X2,…,Xm)由m个粒子组成。其中,粒子i(i=1,2,…,m)在N维搜索空间中的位置向量Xi=(xi1,xi2,…,xiN)T,速度向量Vi=(vi1,vi2,…,viN)T。根据目标函数 f(Xi)可计算出每个粒子Xi对应的适合度,并根据适合度的大小衡量其优劣。粒子在每次迭代中有两个关键变量是非常重要的,这两个关键变量也是粒子速度更新的决定因素:一是粒子i(i=1, 2,…,m)自身的历史最优位置 Pi=(Pi1,Pi2,…,PiN)T;二是粒子群的全局最优位置Pg=(Pg1,Pg2,…,PgN)T

在每一次迭代过程中,粒子i可通过自身的历史最优位置和粒子群的全局最优位置来更新自己的速度和位置,即

式中,d=1,2,…,N; j=1,2,"表示迭代次数;c1c2表示信息权重。为防止粒子的盲目搜索,一般建议将其位置和速度限制在一定的区间内。

粒子群优化算法的具体实现步骤如下。

步骤1:对相关参数进行初始化,包括粒子群速度和位置、信息权重、最大迭代次数、算法终止的最小允许误差等。

步骤2:计算每个粒子的初始适合度。

步骤3:将各初始适合度作为对应的每个粒子的当前局部最优值,并将各初始适合度对应的位置作为当前每个粒子的局部最优位置。

步骤4:将最佳初始适合度作为当前全局最优值,并将最佳初始适合度对应的位置作为当前粒子群的全局最优位置。

步骤5:依据式(1-1)更新每个粒子当前的速度。

步骤6:对每个粒子的速度进行限幅处理,使之不能超过设定的最大速度。

步骤7:依据式(1-2)更新每个粒子当前所在的位置。

步骤 8:比较当前每个粒子的适合度是否比历史局部最优值好,如果是,则将当前粒子的适合度作为粒子的局部最优值,其对应的位置作为每个粒子的局部最优位置。

步骤 9:在当前粒子群中找出全局最优值,并将当前全局最优值对应的位置作为粒子群的全局最优位置。

步骤10:重复步骤5~9,直到满足设定的最小允许误差或达到最大迭代次数。

步骤 11:输出粒子群的全局最优值和其对应的位置以及每个粒子的局部最优值和其对应的位置。

2.蚁群优化算法

蚁群优化算法由意大利学者 Dorigo 等于1991年提出。蚁群优化算法受启发于自然界中蚁群的觅食行为,整个蚁群通过觅食行为就可以寻找到一条获取食物的最优路径。图1-1所示为蚁群的觅食过程,其中黑色圆点代表蚂蚁。

当蚁巢和食物之间不存在障碍物时,蚂蚁将沿着蚁巢和食物之间的直线路径进行觅食和返巢,如图1-1(a)所示。当出现一个矩形障碍物挡在蚁巢和食物之间时,蚂蚁需要转向绕过障碍物,由于蚂蚁在觅食过程中会以一定的挥发速度留下信息素以便同其他蚂蚁进行信息交换,并且直线路径两侧会残留相同浓度的信息素,故蚂蚁会以相同的概率选择向左或向右转向,如图1-1(b)所示。随着后续蚂蚁觅食过程的进行,障碍物左侧较长路径上的信息素浓度会降低,而右侧较短路径上的信息素浓度会越来越高,从而吸引更多的蚂蚁沿着这条路径行进,如图1-1(c)所示。

蚁群优化算法具有分布式特性、鲁棒性强并且容易与其他算法结合等优点,但是同时也存在收敛速度慢、容易陷入局部最优(local optimal)等缺点。蚁群优化算法最早用来求解旅行商问题(traveling salesman problem,TSP),并且表现出了很大的优越性。TSP 假设有一个旅行商人要拜访 n个城市,他必须选择要走的路径,对路径的限制是每个城市都要经历且仅经历一次,而且最后要回到最初出发的城市。选择路径的目标是要求所选路径路程为所有可选路径路程之中的最小值。这是一种NP困难问题,此类问题采用一般的算法是很难得到最优解的,所以一般需要借助一些启发式算法来求解。TSP可以表达为:求解遍历图G=(V,E,C)的所有节点一次并且回到起始节点,使连接这些节点的路径成本最低。其中,V是所有节点的集合;E是所有节点连接的集合;C是所有节点之间连接路径的成本度量。

下面以TSP为例介绍蚁群优化算法的具体实现步骤。

步骤1:对相关参数进行初始化,包括蚁群规模、信息素因子、启发函数因子、信息素挥发因子、信息素常数、最大迭代次数等。

步骤2:随机将蚂蚁放于不同的出发点(城市),并计算每个蚂蚁下一个访问的城市,直到有蚂蚁访问完所有城市。

步骤3:计算各蚂蚁经过的路径长度,记录当前迭代次数的最优解,并对路径上的信息素浓度进行更新。

步骤4:判断是否达到最大迭代次数,若否,返回步骤2;若是,则结束程序。

步骤5:输出结果,并根据需要输出寻优过程中的相关指标,如运行时间、收敛迭代次数等。

3.人工蜂群算法

人工蜂群(artifical bee colony,ABC)算法由Karaboga于2005年提出,是一种新兴的优化算法。其受启发于蜜蜂群的采蜜行为——蜜蜂群体按照各自的分工通过一系列有序的行为动作进行信息交流,从而获得最优(即蜜量最大)蜜源。

人工蜂群算法通过模拟实际蜜蜂的采蜜机制将人工蜂群分为三类:(1)采蜜蜂——利用已知蜜源的信息寻找新的蜜源,与此同时,传递蜜源信息(包括离蜂巢远近、采集难度等)给观察蜂;(2)观察蜂——在蜂巢中待命,在获取到采蜜蜂发出的信息后进行新蜜源的寻找工作;(3)侦察蜂——在蜂巢附近随机搜寻新的蜜源。

算法原理:假设问题的解空间是D维的,采蜜蜂与观察蜂的个数都是SN,采蜜蜂的数量或观察蜂的数量与蜜源的数量相等。则人工蜂群算法将优化问题的求解过程看成是在D维搜索空间中进行搜索。每个蜜源的位置代表问题的一个可能解,蜜源的蜜量对应于相应解的适合度。一个采蜜蜂与一个蜜源是相对应的。与第i个蜜源相对应的采蜜蜂依据式(1-3)寻找新的蜜源。

式中,i=1,2,…,SN;d=1,2,…,D;ϕid是区间[−1,1]上的随机数;k=1,2,…,SN,但ki。在人工蜂群算法中需要将新的可能解的适合度和原来的解Xi=(xi1, xi2,…,xiD) T的适合度进行比较,并采用贪心策略(若新的可能解的适合度优于原来的解,则采蜜蜂记住新的可能解而忘记原来的解。反之,它将保留原来的解)对解进行选择。

在所有采蜜蜂完成搜寻过程之后,采蜜蜂会把解的信息与观察蜂分享。观察蜂根据下面的概率式选择一个蜜源。

式中,fiti为可能解Xi(t)的适合度。对于被选择的蜜源,观察蜂根据式(1-4)搜寻新的可能解。当所有的采蜜蜂和观察蜂都搜索完整个搜索空间时,如果一个蜜源的适合度在给定的步骤内(定义为控制参数limit)没有被提高,则丢弃该蜜源,而与该蜜源相对应的采蜜蜂变成侦察蜂。侦察蜂通过式(1-5)搜索新的可能解。

式中,分别为第d维蜜源的最大值、最小值;r为区间[0,1]内的随机数。

人工蜂群算法的具体实现步骤如下。

步骤1:初始化各个参数,包括采蜜蜂个数SN、蜜源被采集次数(即最大迭代次数)及控制参数 limit,确定问题搜索范围,并且在搜索范围内随机产生初始解(蜜源)Xi(i=1,2,…,SN)。

步骤2:计算并评估每个初始解的适合度。

步骤3:设定循环条件并开始循环。

步骤 4:采蜜蜂对解Xi按照式(1-3)进行邻域搜索产生新解(蜜源),并计算其适合度。

步骤5:采蜜蜂根据贪心策略选择蜜源。

步骤6:根据式(1-4)计算蜜源的概率Pi

步骤7:观察蜂依照概率Pi选择解(蜜源),按照式(1-3)搜索产生新解(蜜源),并计算其适合度。

步骤8:观察蜂根据贪心策略选择蜜源。

步骤9:判断是否有要放弃的解(蜜源)。若有,则侦察蜂按照式(1-5)随机产生新解(蜜源)将其替换。

步骤10:记录到目前为止的最优解。

步骤11:判断是否满足循环终止条件。若满足,循环结束,输出最优解,否则返回步骤4继续搜索。

4.狼群算法

狼群搜索(wolf pack search,WPS)算法是基于狼群行为特征设计的,最早由Yang等提出[4],并将其应用于解决蜜蜂婚姻的优化问题。为了求解优化问题, Liu等[5]又提出了新的狼群算法(wolf colony algorithm,WCA),WCA成功地对狼群的搜索、围攻等行为进行了模拟。WCA与其他智能算法相比具有很大的优势,这种优势体现在算法的收敛速度更快,并且精度更高。虽然WCA近几年才被提出,但是其卓越的性能使大量学者对其做了众多深入而细致的研究,同时受关注度也越来越高。

例如,吴虎胜[6]对WCA进行了更加细致而全面的改进,并于2013年正式提出了一种更新的狼群算法(wolf pack algorithm,WPA)。该算法将狼分为三类:头狼、猛狼和探狼,将智能行为归纳提炼为游走、召唤、奔袭与围攻,并且对头狼的产生规则以及整个狼群的更新机制做了详尽的阐述及说明。WPA相比其他智能算法更适合实际应用,更具发展前景和应用价值。

WPA的具体实现步骤如下。

步骤1:在解空间中随机初始化狼群的空间坐标,依据目标函数值的大小角逐出头狼。

步骤2:探狼开始随机游走搜索猎物,若发现某个位置的目标函数值大于头狼的目标函数值,将更新头狼位置,同时头狼发出召唤行为;若未发现,探狼则继续游走直到达到最大游走次数,头狼在原本的位置发出召唤行为。

步骤3:听到头狼召唤的猛狼以较大的步长快速向头狼奔袭,若奔袭途中猛狼的目标函数值大于头狼的目标函数值,则对头狼位置进行更新;否则,猛狼将继续奔袭直到进入围攻范围。

步骤4:靠近头狼的猛狼将联合探狼对猎物(把头狼位置视为猎物)进行围攻,围攻过程中若其他狼(猛狼或探狼)的目标函数值大于头狼的目标函数值,则对头狼位置进行更新,直到捕获猎物。

步骤5:淘汰狼群中目标函数值较小的狼,并在解空间中随机生成新的狼,实现狼群的更新。

步骤6:最后判断头狼的目标函数值是否达到精度要求或算法是否达到最大迭代次数。若达到,则输出头狼的位置(即所求问题的最优解),否则转步骤2继续搜索。

在求解优化的过程中,通过狼群中分工明确的游走、召唤和围攻行为,不断求解比较当前头狼的位置信息,从而得到最优决策方案及收益。

1.2.2 协同搜索

协同搜索是指多智能体在一定的约束条件下能够完成对目标区域的遍历搜索,其本质是一种路径规划问题,应用领域主要包括安全监控、战场侦察、目标搜索、地形测绘、矿藏勘测等。目前,常见的搜索策略有随机搜索、平行搜索(“Z”字形或“之”字形)、网格搜索等。

① 随机搜索:指智能体以恒定的方向在搜索区域内行动到达区域边界后,再以最小转弯半径转弯进入搜索区域,此时智能体沿该方向继续前行,如此往复。

② 平行搜索:指受性能的约束,从能量、路程、时间角度表明转弯过程比直线飞行过程的效率要低,因此,智能体在平行于区域长度或宽度的方向上进行平行线式的搜索。

③ 网格搜索:指搜索区域被离散为一系列的小正方形区域,当一个小正方形区域被搜索完后,智能体选择另一个小正方形区域作为起点继续搜索。初始时,所有的小正方形的值都为1,当小正方形区域进入智能体的搜索范围时,该值变为0。当一个小正方形区域被搜索完后,智能体选择另一个小正方形区域作为搜索起点。选择的原则是离其最近且为1的小正方形区域。一旦选择了,这个信息将会共享给搜索区域内的所有智能体。

在智能体协同搜索过程中,搜索精度、碰撞类型、避障策略、路径平滑化等均可作为优化目标。除以上传统搜索策略外,还有多种算法,包括粒子群优化算法、细菌觅食优化算法、人工蜂群算法等均展现出了不俗的搜索效果。

从算法特点来看,粒子群优化算法的核心模型是一组位置与速度状态方程,计算简单、易于实现,但该模型的随机性大、群体智能性低、算法优化精度低,粒子易早熟;2002年,Passino遵循最优觅食原则,模拟人体内大肠杆菌或黏细菌的觅食行为,提出了细菌觅食优化算法(bacterial foraging optimization algorithm, BFOA),它可以以一种自然的方式结束算法,即在没有任何迭代次数和精度要求的前提下,算法会随着菌落的消失而自然结束,并能保持一定的精度,其主要包括趋化、繁殖和驱散三个基本操作步骤,具有突出的平行搜索优点;人工蜂群算法参数少,简单灵活,具有较好的探索能力,但由于人工蜂群的搜索随机性大,导致算法在寻优的过程中容易陷入局部最优,具有全局搜索能力不强和局部搜索精度低等缺点。

下面介绍细菌觅食优化算法在协同搜索中的应用,其三个基本操作步骤中的趋化操作是指模拟菌群的移动和转向,循环计算适合度,若适合度得到提升,则沿该方向继续移动,至适合度不发生改变时,此操作结束;繁殖操作是指按照适合度排列,淘汰适合度低的,以适合度更高的代替,并保持细菌总量的不变;驱散操作是指以一定的概率用新的个体代替原有个体,当陷入局部极值时,可通过将细菌向其他解空间随机分配以提高全局搜索能力。细菌觅食优化算法的具体步骤如下。

步骤1:初始化各参数及种群。

步骤2:驱散操作循环。

步骤3:繁殖操作循环。

步骤4:趋化操作循环,至达到趋化结束条件。

步骤 5:执行繁殖操作,至循环次数达到繁殖次数设定值,否则返回步骤3循环。

步骤 6:执行驱散操作,至循环次数达到驱散次数设定值,否则返回步骤2循环。

步骤7:将所有非支配解加到外部存放最优解的集合S中(非支配解:定义一个确定半径r的圆区域为个体的支配区域,该半径范围内的解均为支配解,之外的为非支配解,半径为r与2r的两个圆范围之间的区域称为个体的支配区域外围;集合 S指支配解与该个体的非支配区域内的解之间的函数距离最小值的集合)。

步骤8:采取以下区域搜索策略。

① 将当前种群的非支配解依次加到未被处理的列表中,保证列表中的所有解不被其他解支配。

② 计算列表中的解在集合S中支配区域内的个数,按支配区域内的个体数量从小到大排列。

③ 设定循环次数的循环操作:计算集合中解v的支配区域中的个体数n。若个体数n大于设定值N,则取出N个个体生成新的菌群进行区域搜索,否则,在解v的支配区域内随机生成Nn个个体,并与原n个个体形成新的菌群进行区域搜索。搜索结束后,所有非支配解更新到外部存放最优解的集合 S中;找到解 v的所有非支配解加到列表中,并保证互相不支配。

步骤9:结束优化协同搜索过程。

实验表明:细菌觅食优化算法这类信息仿生算法具有普遍适用性,模型简单、易于实现,但算法控制参数较多且没有明确的取值标准,只能依据经验设置,算法在不同的搜索时期不能匹配到最优参数,同时传统的信息仿生算法缺乏信息交流,收敛缓慢且易陷入局部最优。为此,许多学者引入了精英策略,使用融合算法增加种群的多样性,避免算法在搜索路径时陷入局部最优;通过引入自适应搜索机制、改进算法参数等办法扩大算法的搜索范围,减少无效搜索的次数,提高算法的收敛速度和搜索精度。

1.2.3 编队控制

许多学者对基于群体的无人机自主编队控制进行了相关研究,在取得进展的同时也遇到了不少阻碍,目前实现无人机集群控制还需要解决下面的一些关键问题。

(1)无人机集群协同态势感知

协同态势感知是无人机集群控制和决策的基础[7]。各无人机利用所携带的传感器设备对环境信息与目标信息进行探测,同时通过通信网络实现无人机之间的信息共享,从而能对当前所检测到的环境信息与目标信息进行协同评估,做出合理的分析,以开展下一步的决策工作。通过这样的协同态势感知,信息不再局限于单个个体或单个平台,这样更有利于实现对无人机的集群控制。当然,对于无人机集群的分布式控制,要想实现这样的协同通信网络就需要充分考虑网络拓扑结构的通信性能,在面对干扰、破坏等情况下仍能保证集群网络通信良好,并结合控制技术,提高通信网络的鲁棒性。

(2)无人机集群自主编队控制

类似大自然中生物群体的飞行,无人机集群执行任务时也需要有一定的构型即飞行编队以适应场景、任务的需求。但是要实现无人机集群自主编队控制,需要解决以下问题:一是编队的形成,即无人机之间如何通过通信网络的信息交互达成一个构型目标,并实现由“无形”到“有形”的移动;二是编队的保持,即无人机集群在形成编队结构之后如何保持在当前通信网络下的一致飞行,并能始终保持同一频率的信息交互;三是编队重构,即无人机集群在飞行过程中遇到障碍物或有无人机脱离编队时,无人机集群能通过通信网络感知到变化信息并对当前编队构型进行调整,重新形成一定的结构以适应新的环境和满足任务需求。当然,无人机集群并非必须形成一定的几何形状才叫无人机编队,只要无人机集群内部各无人机能保持通信,各自都能做出避障决策并朝着同一目标飞行,就可称为广义上的无人机编队。

(3)无人机集群协同智能决策

无人机集群协同智能决策是指每架无人机对自身进行探测、评估后,结合任务的要求和环境的需要,在同一通信网络下协同进行下一步的决策。无人机集群协同智能决策包括对威胁的判断、目标优先权的排序及目标分配等任务的动态分配与调度[7]。在强对抗环境中出现多机飞行冲突、目标变换、环境变化和无人机战损等不确定情况时,无人机能够对当前的策略进行实时的调整,重新规划任务以做出回应,采取集群协同智能决策以提高任务的完成率。厦门大学航空航天学院的罗德林对空战中的无人机集群对抗做了相关研究。他指出,无人机集群对抗即各无人机之间的评估、监察、攻击等作战行为,是未来空中作战的主要方式之一。在对抗中,每架无人机个体按照既定的规则完成动作,在整体上展现出集群对抗系统的动态特性[8],体现出群体智能的自组织特点,并由此构建了无人机集群对抗决策总体框架,将多智能体系统(multi-agent system,MAS)结构分为上下两层 [9]:上层为多智能体层,该层中多架无人机间相互联系形成多智能体网络;下层为单智能体决策层,该层中单架无人机自己根据当前评估、监察信息做出行为决策,实现单智能体对抗。由于MAS结构上层中无人机之间存在通信,友机能够根据实时态势支援处于不利态势的无人机,展现出宏观的集群对抗效果。其中,对多架无人机的协作采用分布式控制,其构成要素不受统一的外部控制;各无人机间的交互仅依赖其局部观测信息,而不依赖全局信息;各无人机通过通信与协作实现系统层的整体功能。

可以看到,我们期望无人机集群呈现的分布式控制、自适应特点与自然界生物群体所呈现的行为机制有相类似的地方。自然界中生物个体有着极强的自学习能力,生物个体能够通过自身对环境的感知进行觅食、游走、交流等行为,在自然发展中不断进化使种群能更好地适应社会。同样地,我们也希望无人机集群中的个体能有自我感知的能力,并通过通信网络传递信息、做出决策以促进整个集群系统向更优目标的进化。此外,对生物群体所表现出的如分级分工、编队飞行、障碍躲避等行为特性的分析有助于我们理解生物种群中的内部关系,通过将这些行为特性迁移到无人机集群中,可以使无人机集群具备仿生特征。因此,我们可以将对生物群体的研究转移到对无人机集群控制上来,建立起二者之间的联系,通过群体中单一个体简单行为的协作以实现群体更复杂的行为动作,这也是群体智能这一概念的主要表现之一。

从具体的仿生物群体来看,鸟群的集群机制,即大多数小型鸟类所采用的集群编队飞行方式,是很好的研究对象[10]。鸟群的集群行为同无人机集群行为机制存在以下诸多相似之处。

① 二者所处的生存、运行环境类似。鸟群所面对的气流、阳光、降水、噪声等干扰也是无人机集群在实际飞行中所面临的,研究鸟群如何抗干扰飞行对无人机集群控制飞行来说相当重要。

② 二者的通信方式类似。鸟群在空中飞行的过程中会面临视野受限、飞行间距超过通信范围以及要求鸟与鸟之间只能在运动中进行交互等状况[11],此时鸟群中就不仅仅是领头的鸟与其他鸟间存在领导作用,而且每只鸟在其通信范围内与其他鸟均有一定的联系,从而在未能与头鸟建立通信的情况下仍能通过与附近鸟的信息交流实现编队的跟随,保持编队的构型。由此可见,鸟群通信是以非集中的方式进行的,在无人机集群中也同样会面临这样的情况,此时无人机数量较多,要想保持编队飞行就需要无人机个体间保持良好的通信状况,即采用分布式的控制。

③ 二者内部的通信结构类似。鸟群需要每个个体间保持一定的距离,同时还需要尽可能地靠近以保证群体的聚集性。它们有一定的自适应能力,当出现环境变化、成员受伤等情况时,鸟群内部会做出整体的决策,个体往往会根据群体做出的决策相应调整自己以适应新的环境,此时就需要鸟群中有一个稳定的通信机制,即一个层级网络,通过层级网络进行通信并对编队成员做出指导。同样地,在环境变化、任务变化、无人机战损等情况发生时,无人机集群内部也能做出决策,如改变编队构型、重新分配任务等,这种行为有利于实现无人机的动态调整,使无人机集群编队控制有一定的鲁棒性,同时利用层级网络进行通信,改变传统的一对一通信拓扑结构,节省通信资源,降低通信成本。

④ 二者的协调决策行为类似。鸟群在遇到障碍物时,通过分布式的结构形成协调性的避障策略使鸟群内部在不发生碰撞的同时仍能形成多个分离编队或重构出一个新的紧密编队以完成集群的避障动作,在躲避障碍后再重新进行编队重构以适应新的环境。同样地,在遇到障碍物时,无人机集群也能通过将局部范围无人机的感知将信息传递到整个无人机集群内部,从而做出协调性的决策来重构编队以实现避障。

从古至今,饲养鸽子传递书信的传统在各个国家都存在,这不仅是因为鸽子易于饲养并且性格温顺,更因为鸽子具有众多出色的其他鸟类所不具备的优点,如极强的导航能力、特殊的眼部结构、有利于远距离飞行的群体飞行机制等。鸽子的这些特性也引起了研究人员的关注。研究表明:与陆地动物,如狼群、非洲野犬的集体运动形式不同,鸽群具有独特的领导机制—其中的成员不仅听从头鸽的指挥,也会受其他上级随鸽的影响;鸽群存在明显的层级关系,头鸽具有绝对的指挥权,下级随鸽听命于上级且无法影响上级,比较特殊的是,下级随鸽不仅听命于头鸽,而且也会受其上级随鸽的影响,这种影响随着鸽子之间距离的缩短而加大。

为描述鸽群这种特殊关系,可采用图论的方法对上述鸽群的行为及其之间的层级关系进行数学建模,并采用人工势场法描述鸽群上下级之间的关系。所要达到的建模效果:避免鸽群之间发生碰撞,尽量缩短鸽群(上下级)之间的距离并且让鸽群内部个体之间的速度相差不大。有研究认为:鸽群领导机制与陆地动物领导机制的差异是飞行条件所限导致的。在鸽群飞行过程中,个体之间距离比较大且视野经常受到影响,每只鸽子不能保证能随时找到头鸽且跟随,因此,必须根据临近的鸽子来进行决策。同样地,无人机集群协同自主编队飞行时,每架僚机也不能保证随时都能与长机取得联系,因此,必须根据附近僚机的行为进行决策。此外,鸽群内部存在严格的等级关系,且个体与群体之间的联络方式并不单一,此机制给了无人机编队行为很多启示,通过应用此种机制,可降低无人机为通信所付出的空间成本,同时提升通信的有效性及整个编队系统的可靠性。通过以下步骤可实现基于鸽群行为机制的无人机集群自主编队控制。

步骤1:给定当前长机的控制输入。

步骤2:将鸽群层级关系应用于无人机集群中,由上级无人机的未来状态输出产生僚机的理想位置输入。

步骤3:得到僚机的未来状态输出。

步骤4:鸽群模型的输入由无人机实际状态输出产生,由此形成闭环控制。

步骤 5:重复上述步骤,以实现无人机集群自主编队控制,且能保证无人机群聚集、不发生碰撞和速度匹配。

无人机集群自主编队控制也可采用另一种空中生物的飞行机制,即雁群的飞行机制。大雁南飞之后北归是我国每年常见的大雁的迁徙行为,在大雁飞行过程中,常常会组成“一”或“V”字等队形,此种现象非常常见且只存在于大雁群体飞行过程中,这引起了各国研究人员的关注。经研究表明:雁群之所以经常以“一”或“V”字等队形飞行,是因为这样可以节省体力,保存能量,进而飞得更远。采取此种方式飞行的候鸟之所以能够飞得更远,是因为借助了队形中其他候鸟产生的上洗气流。具体来说,大雁在飞行过程中,鸟翼下方因为不断上下扇动翅膀,产生了一对细长涡流,尾涡内侧产生下洗气流,外侧产生上洗气流。其后的大雁如果位于适当的位置,就能获得由上洗气流产生的额外动力,从而飞得更远,这个适当位置是随着前方大雁飞行而变化的,需要其后大雁精准把握。研究人员还发现,雁群中领头的大雁不是固定的,而是相互轮换的(这种轮换过程相当迅捷),每只大雁位于雁群内领头或尾随的时间几乎是相当的,这表明它们是整体都在合作且效果即时。

可将雁群飞行的原理应用于无人机集群飞行中,设计领导者-跟随者(leaderfollower)结构的“V”字编队队形。与雁群相似,采用这种编队队形的无人机集群获得了更长的飞行距离,这是由于在飞行过程中,无人机之间的飞行气流将会影响各无人机,改变它们所受到的力和力矩,这可以降低无人机集群中间位置的无人机所受到的阻力,在整个编队轮换的状态下,还可以降低每架无人机的油耗量,达到延长飞行距离的效果。若飞行距离较长,则采取编队最前和最后端位置上的无人机定时按顺序调整到中间位置的轮换方式来降低无人机集群的油耗量。

无人机集群飞行过程中各架无人机之间产生的涡流效应虽然能够降低集群的油耗量,延长飞行距离,但也会导致无人机飞行状态不稳定且编队需随时发生变化等问题。长机飞行过程中会产生上洗气流与侧洗气流。此时,涡轮效应会在长机与僚机之间产生位置偏差,为消除此偏差,就需要借助僚机上的飞控系统,以保证无人机集群平稳安全飞行。通过以下步骤可实现基于雁群编队行为机制的无人机集群自主编队控制。

步骤1:给定当前长机的控制输入。

步骤2:将长机实际输出作为僚机的输入信号。

步骤3:将长机实际输出(作为扰动量)、当前僚机状态信息、长机和僚机之间的实际间距及期望间距输入给编队控制器,产生另一个僚机的输入信号。

步骤 4:形成集群飞行闭环控制,模仿雁群编队特点实现无人机集群飞行低油耗与飞行距离延长。

1.2.4 协同通信

受生物群体活动的启发,无人机集群开始应用于遥感探测、信息中继、智能对抗等各个领域,表现出了比单架无人机更强大的环境适应性、更可靠的系统鲁棒性和更丰富的任务执行能力。作为集群行为的前提和保障,无人机集群需要依赖稳健可靠的集群内部通信。稀缺的通信资源、复杂的对抗环境也对无人机集群内部通信提出了更高的要求。然而,关于无人机集群通信的现有研究,在通信的有效性、可靠性、安全性等方面仍然较为薄弱,无人机集群系统的自主性、协同性、智能化水平还有待优化提升。

科研人员设想了一个无人机集群通信场景:无人机集群在受领任务后,完成集结起飞、分配任务、执行任务、集结返航等一系列活动。在此过程中,无人机集群无须受到或极少受到地面指挥中心的控制,自主进行接入组网、资源分配,集群内部还可以进行高效的信息交互,保证在外部环境发生动态变化或无人机相对位置发生变化时,仍能自适应地调整网络拓扑、优化资源分配,保持智能、稳健、可靠的无人机集群通信。

针对上述场景,可采用自组织网状网,这样就不会因为单架无人机的故障而使整个无人机集群无法正常工作,该网络的自组织特性也保证了无人机集群的分布式架构,无人机可以随时离开或者加入网络,并且网络内的任意两架无人机都可以通过中间多架无人机进行信息交互。但无人机数量众多会使网络规模极其庞大,同时集群内无人机之间相对位置的不断改变,也会造成网络拓扑动态变化以及通信链路频繁中断和建立,故无人机集群需要及时感知外部环境变化并做出最优决策,以实现通信资源的高效共享。

引入认知无线电技术对实现无人机集群通信尤为关键。认知无线电技术主要完成三个认知任务:无线电场景分析;信道识别;发射功率控制和动态频谱管理。前两个任务在接收机中进行,第三个任务在发射机中进行,接收机和发射机之间建立起一个反馈通道,将接收机从通信环境中感知到的信息进行分析处理后传送给发射机,就能指导后续的通信活动。外部环境、接收机、发射机之间构成一个认知环路,使通信拥有了自主观察、学习和决策的能力。

由此可以建立群体智能协同通信模型:无人机先对通信环境进行感知,感知的对象包括但不局限于频谱态势、网络拓扑等通信环境变量。然后,无人机根据感知结果进行自主决策,如分配频谱资源、控制发射功率等。受任务导向、自然地理因素以及无人机执行决策带来的影响,通信环境会动态变化,无人机将重新执行感知任务,以此循环往复,最终可实现灵活智能的无人机无线通信。

1.2.5 大数据分析

大数据分析是针对在一定时间范围内无法用传统计算机技术获取、管理和处理的规模巨大的数据,通过提取有用信息对现有数据加以详细研究和概括总结的过程。通过将大规模计算和机器学习相关算法(如监督学习、非监督学习、强化学习等)应用于大数据分析中,解决了数据的聚类、分类、搜索等问题。相较于传统智能算法,现代群体智能算法展现出了全局最优收敛快、适应性强的特点。在大数据背景下,群体智能在互联网上的新应用形式有:①利用群体智能来制造密钥生成器;②网络攻击源的定位并制定相应的分类规则;③基于融媒体系统,通过群体智能算法对信息数据进行整合、分析,对可视化数据进行信息跟踪。这里以数据迁移为例对相关算法进行介绍。

数据迁移是指在数据中心出现负载异常时,将数据流量向其他服务器迁移以实现负载均衡的过程,这一技术融合了离线和在线两种情况下的存储。数据迁移的效率决定了云计算的能力,在现代大数据分析中起重要作用。

人工鱼群算法是李晓磊等于2002年提出的,主要通过模拟鱼的聚群、追尾以及觅食行为构建起的一种群体智能算法。利用人工鱼群算法实现了对服务器I/O位置选择的优化和带宽利用率的提升,从而解决了大数据处理中的服务器节点负载不平衡和带宽问题。

具体的算法流程介绍如下[12]

步骤 1:随机初始化种群, 表示第 k代人工鱼i(i=1, 2,…,n)的位置,代表着第i条数据的存储位置。

步骤2:定义人工鱼i的适合度。式中,Ri分别表示第i个服务器的可支配资源、数据从服务器i迁移到服务器j的代价,且该代价可由单位时间迁移成本α和迁移时间表示。接着,每条鱼分别执行聚群和追尾行为。

步骤3:聚群行为。该行为指人工鱼会在可视范围S内向鱼群的中心位置xo聚集,如果适合度Eo>Ei,则人工鱼 i向鱼群中心移动,其代表的含义分别为:当前数据存储位置xi,服务器中随机分配的热门存储位置xo,数据可存储位置的最大范围S。人工鱼(数据位置)的更新规则为:

式中,rand(1)表示产生0~1之间的随机数,step为移动步长,||xoxi||为xo的邻域。

步骤4:追尾行为。该行为指人工鱼会在可视范围S内向有着最大适合度Emax (且Emax>Ei)的位置xmax移动,否则追尾失败。若在xmaxS范围内能感知到的人工鱼数量为m,且,则该位置为最优且宽松位置,同理为存储最优且非拥挤空间位置。人工鱼(数据位置)更新规则为:

步骤5:觅食行为。若解没有得到改善,则执行觅食行为,即人工鱼i在可视范围 S内找寻优于当前适合度的位置xj,并向其方向移动。人工鱼(数据位置)更新规则为:

若无更优位置,则在可视范围S内任意方向随机移动rand(1)×step的步长以更新位置。

步骤6:判断迭代结束并输出最优位置,即大数据迁移服务器节点,同时选取最后 N轮计算的最优解关联带宽目标函数,就可得到占用带宽最小的解。至此,大数据迁移流程结束。

1.2.6 图像处理

随着计算机视觉和人工智能的发展,图像处理相关技术(如图像增强、图像恢复、图像识别、图像编码、图像分割等)被广泛应用于航空航天、工业生产、生物医学等多个领域,这里我们以图像分割为例,对群体智能算法在图像分割中的应用做相关介绍。

图像分割是指将图像中具有相同或相似性质的多个特征区域分割出来用于分类、识别等研究。在图像分割领域中,经典的图像分割方法有以下几种。

① 阈值法:通过设置最佳阈值将图像分割为背景和目标两部分,得到其二值化图像。

② 直方图法:利用直方图中显示出的灰度峰值区分背景和目标,将较大灰度值像素归为背景,较小灰度值像素归为目标。

③ 边缘检测法:将图像中亮度明显变化或亮度不连续的边界标记出来,并描绘该边缘实现分割。

④ 人工神经网络法:通过训练数据样本得到决策函数,然后用决策函数对像素进行分类以实现分割。

上述经典的图像分割方法虽然在多个领域已得到应用,但同时也表现出了一些固有的弊端。例如,阈值法虽然计算简单且速度较快,但由于没有考虑空间特征,导致该方法对噪声比较敏感,当目标和背景灰度相差不大时,得到的分割效果不佳;边缘检测法也类似,虽然能够较快地检测到特征目标边缘,但其精度和抗噪性很难同时达到最优;在提取特征和抗噪性方面有良好表现的人工神经网络法结构复杂,而且需要处理大量数据,故比其他分割方法消耗的时间更多。

目前,已有多种群体智能算法在图像分割中得到应用,利用其较强的寻优能力,能够在保持经典图像分割方法优势的同时实现对图像的快速、高效处理。结合人工蜂群算法的图像分割具体流程如下[13]

步骤1:对原图像进行形态学闭运算得到抗噪图像。

步骤2:根据图像的均值和灰度信息构造出图像的二维直方图。

步骤 3:采用二维最大类间方差法[14],根据像素点灰度值和其邻域像素的平均灰度值来计算分割阈值,即对应设计人工蜂群算法中的蜜蜂适合度函数,其值对应蜜源的花蜜量。

步骤4:应用人工蜂群算法寻找最优蜜源,即可得到进行图像分割的最佳阈值。

步骤5:应用阈值法处理得到分割后的二值化图像。

此外,群体智能算法也常结合聚类算法使用或同神经网络、机器学习结合使用。结合聚类算法时,与上述结合阈值分割的方法类似,通过算法自动得出聚类中心,但在算法应用之前需要人为设定参数;同神经网络或机器学习结合使用时,通过算法自身优势对其进行优化,或在进行识别分割前进行预处理。在群体智能算法结合图像分割技术的使用场景中,大部分研究者将其应用在医学图像(如CT图像、MRI 图像)分割领域,也有一些研究人员将其应用于分割红外图像、合成孔径雷达图像等。可见,群体智能算法是一种优秀的优化方法和工具,它能有效地解决原有方法的部分缺陷,从而得到更好的结果。

|1.3 演化博弈论及相关知识|

1.3.1 演化博弈论

在物质社会中,个体之间的交互模式往往是建立在彼此有利益冲突的前提下,这是因为,根据生物学家达尔文的生物进化论,最初的生物在自然界中的生存法则就是物竞天择,适者生存[15-16]。由此可见,利益冲突在人类社会建立之前就是自然界和生物社会的主旋律,这是因为,个体本质上是自私的,它们会以自身的利益为出发点,探求最大化自身收益的生存和行为模式。实现自身利益的最优化可被视作个体生存的基本法则。自然界中的个体离不开各种互相之间的交互,例如竞争、合作、甚至矛盾,演化博弈论是一门起源于现实生活的学科,其主要工作就在于研究智能理性决策者之间冲突与合作的数学模型。对自然界与人类社会的各种交互建立博弈模型,就可以用数学语言描述其中的微观动力学机制。

1.演化博弈论概述

无论是在自然界还是人类社会中,由简单智能体所构建的复杂系统往往能呈现出一系列复杂且更高级的集群行为。对这样大规模群体的群智能行为进行研究可以借助演化博弈论这一工具。演化博弈论起源于经典博弈论与生物进化论,是二者的融合,能很好地刻画和解释大规模群体内个体间的交互行为及此群体的演化过程,因此被科学家广泛使用。在现实世界里,个体的利益与集体的利益大多是一致的,但有时也存在冲突,当冲突现象发生时,个体与群体之间可能出现竞争或合作甚至破坏现象,演化博弈论可以对合作现象的涌现与演化做出令人信服的解释,具有现实意义[17-20]

博弈(game)最初源于游戏和比赛,如下棋、球类比赛、打赌等。在我国,人们很早就已用上了博弈论的智慧,如田忌赛马、丁谓建宫等。博弈论(game theory)又叫对策论,成为一门专门的学科被人们提炼出来是在20世纪上半叶,是运筹学的一个重要分支[15]。Von Neumann与 Morgenstern[15]在1944年合著的《博弈论与经济行为》标志着博弈论的初步形成。1950年,Nash 引入了一个非常重要的概念——纳什均衡(Nash equilibrium,NE)[16],这成为博弈论从数学领域过渡到经济学领域的一个重要的里程碑。纳什均衡定义了由所有博弈参与者策略构成的一种最优的情景,在这种均衡态下,所有博弈参与者的策略都是对其他所有对手策略的最优响应(best response)[21]。一般而言,一个完整的博弈需要包含以下三部分[22-23]

① 两个或两个以上的博弈参与者。其中,由两个博弈参与者组成的博弈称为“两人博弈”,由两个以上的博弈参与者组成的博弈称为“多人博弈”。

② 博弈参与者进行博弈时可选择的全部策略集合或行为集合。

③ 博弈规则和收益函数,即在所有的博弈参与者根据博弈规则进行博弈之后,按照收益函数可获得的相应的收益。

在博弈论的早期研究中,研究人员主要侧重于两人双策略的博弈类型,即2×2博弈。这里首先给出两人双策略博弈模型的基本设定:参与者可选用的两个策略分别为合作策略C和背叛策略D,那么此时的收益矩阵可以表示为:

式中,矩阵中的元素R为博弈双方选择合作策略时可获得的收益;当博弈双方都选择背叛策略时会受到惩罚,两人可获得的收益值用参数P表示;考虑博弈双方采取策略不同的情况,采取策略D的个体可以获得最高的收益为T,而采取策略C的个体可以获得最低的收益为S

下面介绍博弈论中两个具有代表性的模型:囚徒困境博弈(prisoner's dilemma game,PDG)[24-25]和雪堆博弈(snowdrift game,SDG)[26-27],这两个模型的形式虽然并不复杂,但是可以很好地反映博弈论中的相关问题。囚徒困境博弈代表这样一个情景:两名共同犯罪的人作案后被警察关入监狱,警察由于缺乏足够的证据对两名嫌犯进行指证,所以分别对两人进行隔离审查。此时,每名罪犯有两个可选择的策略:坦白(指控同伙)和沉默(拒绝招认)。警方提供了相关的认罪说明:如果两个人都选择沉默(相互合作),那么每个人都会获得一年的刑期;如果一个人选择坦白,而另一个人选择沉默,则坦白者会立刻被无罪释放,而沉默者会被判刑十年;如果两个人都选择坦白(相互背叛),那么两个人都会被判刑八年。在这种情况下,无论博弈对手选择采取哪种策略,对自己最佳的策略选择都是坦白。但是,如果博弈双方都选择沉默,那么每人仅会被判刑一年,这无疑是对两人这个集体最好的结果,但这种情况将与完全理性的假设发生冲突。可以说,在囚徒困境博弈中,由于个人理性做出的决定往往会导致集体的非理性,以致损害集体的利益。因此,通过囚徒困境博弈模型可以很好地刻画个人利益与集体利益之间的冲突。在囚徒困境博弈模型中,收益矩阵中的参数满足T>R>P>S且2R>T+S。为简化模型,可将式(1-9)的收益矩阵简化为只含有参数bc,具体为:

式中,参数 c表示博弈参与者采取合作策略时需要支付的成本,而参数 b表示博弈参与者采取合作策略时可以为对方带来的收益。

雪堆博弈的现实模型是这样的:在一个下雪的夜晚,路面积雪,两个人开车相向而行,但是在路上被一个雪堆挡住了去路。此时,每个人都有两个可选择的策略:自己下车清理雪堆(合作)或者待在车里等待对方清理雪堆(背叛)。假设清理雪堆使道路通畅所需付出的成本c>0,而道路通畅使每个人可以及时回家给每个人带来的收益b>0,且b>c,那么现在考虑以下几种可能出现的情况:如果两位司机一起下车清理雪堆,那么他们获得的收益R=bc/2,相当于每人只需承担一半的代价;如果只有一个人选择下车清理雪堆,而另一个人选择留在车上坐享其成,那么清理雪堆所需的成本要一人承担,即对于该合作者,可获得的收益S=bc,而另一个背叛者虽逃避了劳动但可以顺利通过道路回家,所以收益T=b;最后一种情况,如果两人都选择不合作而不去主动清理雪堆,那么两人都会由于雪堆挡住无法回家而获得0收益。那么,可以用下面的收益矩阵描述雪堆博弈。

此时,模型参数之间满足以下关系:T>R>S>P。可以看出,在雪堆博弈模型中,要使个人收到最好的博弈结果,则其策略选择须依照对手采取的策略确定:如果对方采取合作策略,那么个体的最佳策略是背叛;反之,若对方采取背叛策略,那么个体的最佳策略是合作。此外,对比雪堆博弈和囚徒困境博弈还可以发现,雪堆博弈中,合作者与背叛者博弈时的收益要高于博弈双方都采取背叛策略时的收益,所以合作现象在雪堆博弈中更容易涌现。除了上述两个博弈模型外,经典博弈论中还有许多博弈模型深受研究人员的关注,如公共物品博弈(public goods game,PGG)[28-29]、猎鹿博弈 (stag hunt game,SHG)[18]、石头剪子布博弈(rock paper scissors game)[30]等。

在经典博弈论中有一重要的假设,即要求参与博弈的个体是完全理性的[31]。基于该假设,每个个体在博弈过程中都会尽可能地使自己获得的利益最大。然而,由于参与者个人能力和信息收集的局限性,且容易受到内在情绪和外在条件的影响,在执行决定时并不能保证完全的理性。演化博弈论则打破了经典博弈论这一脱离实际的假设[32],将有限理性的博弈参与者作为分析的基础。有限理性意味着允许参与者在博弈过程中通过不断地学习进行决策,是一个动态调整的过程,这一设定也更加贴合现实的情况。演化博弈论的核心思想直接体现了达尔文关于物种进化的自然选择学说,即适合度更高的物种(或策略)才能产生更多的后代,从而拥有较快的繁殖速度,适合度低的物种因无法保证后代的数量最终会面临淘汰。由此可见,演化博弈论与经典博弈论有明显的不同:经典博弈论的研究对象是理性、自私的个体,着重研究当个体能通过调整策略来优化自身收益这一前提下的策略均衡点;而演化博弈论的研究重点是处于策略不断演化中的群体动态,是一种更宏观的、动态的理论。概括地说,演化博弈论研究的对象是一个群体(或种群),群体中的个体都持有相应的策略,这是他们获得收益的基础。群体中收益(或适合度)较高的策略就会被越来越多的个体选中,从而得到更快的演化(传播)[33]。一般来说,个体的收益会受群体中的策略分布的影响,而群体中的策略分布同时又会被策略的收益函数影响。显然,群体的收益和个体策略分布之间通过个体的博弈和决策相互作用,推动群体状态的不断更新和动态演化。

1973年,Smith与 Price在国际重要期刊 Nature上发表文章,提出了稳定进化对策(evolutionary stable strategy,ESS)这一重要的概念,这一概念的提出也标志着演化博弈论的正式诞生[34]。所谓稳定进化对策,是指群体中大部分个体所采取的策略,该策略的收益为其他策略所不及,所以该群体能够抵挡少数突变策略个体的入侵。随后,生态学家Taylor和Jonker于1978年提出了演化博弈论中的一个重要动态概念—复制动力学(replicator dynamics),该概念的提出是演化博弈论发展史上又一突破性的发展[35]。复制动力学与稳定进化对策是演化博弈论中一对最重要的基础概念,它们分别代表了策略演化的动态收敛过程和系统的稳定策略。一般来说,在不考虑个体策略突变的情况下,复制动力学常用来分析大规模无结构的群体中策略的演化。具体的策略动态方程可表示为:

式中,xi代表群体中策略i所占的比例,πi代表群体中策略i的平均适合度,代表整个群体(即所有个体)的平均适合度。根据式(1-12)可以知道,策略i的单位增长率正比于该种策略的平均适合度与群体的平均适合度之差。也就是说,当某一类策略的平均适合度高于群体的平均适合度时,该策略的比例会呈现增加的趋势;而当某一类策略的平均适应低于群体的平均适合度时,则该策略的比例会相应地减少。对于两人博弈而言,种群策略演化会出现以下三种情况:①占优情况,此时系统只存在一个稳定的边界平衡点;②共存情况,此时系统只存在一个稳定的内部平衡点;③双稳态情况,此时系统有两个稳定的边界平衡点,而且该类博弈模型最终稳态的收敛结果与系统中策略的初始分布有关[36]

演化博弈论中有很多不同的用于研究策略演化的动力学方法,上面介绍的复制动力学是模仿动力学(imitative dynamics)[37]中一个常见的模式,除此之外,还有许多其他不同的动力学方法,如最佳响应动力学(best response dynamics)[38-40]、成对比较动力学(pairwise comparison dynamics)[41-43]等。

演化博弈论是针对无限大均匀混合的种群进行研究的,通常借助微分方程来描述群体中策略的演化情况。考虑到现实情况中任何种群的规模都是有限的,所以要探究随机性对演化的影响,于是产生了基于随机过程理论的随机演化博弈论,该理论可专门用于研究有限群体中的演化博弈[44-45]。时至今日,随机演化博弈论在生物学、社会学、经济学等领域都已有了充分的研究。一般情况下,需要设定微观机制来描述策略扩散的模式,常见的方法有Moran过程(Moran processes)[46]、Wright-Fisher过程(Wright-Fisher processes)[47]和成对比较过程(pairwise comparison processes)[45]

2.博弈中的合作

博弈论作为现代数学的一个重要的分支和运筹学的重要组成部分,常被用来分析两个或多个博弈参与者之间建立在相互利益冲突前提下的决策行为。然而,尽管存在一定的利益冲突,智能个体之间除了竞争关系,还存在相互合作的关系。合作以及利他行为是推动生物和人类社会不断进化和发展的重要的内部因素。在生物的进化过程中,为了克服恶劣的外在自然环境,生物种群内部的互助乃至不同物种之间的合作行为均广泛存在。例如,当危险来临时,汤普森瞪羚受到惊吓会做出反应,它们会突然跳得很高,身体腾空向空中跃起且四肢向下伸长,通过此种被称为腾跃的方式警告同伴附近有危险,但却暴露了自身,于是常被称作“死亡之舞”,这是一种典型的自然界中的利他行为;蜜蜂通过彼此之间的分工和协作来完成十分复杂的巢穴的建造工程;海洋中的鱼类通过相互协作从而使整个鱼群保持指定的队形来抵御天敌的捕食,如图1-2所示。在人类文明和人类社会的形成和发展进程中,离不开个体之间相互合作的支持,甚至可以说,合作和分工是人类社会向更高层级进化和发展的基础。也正是基于合作,自然界中才演化出了如菌落、群体等复杂的生命组织,并形成了如今丰富多彩的物质世界[48-49]。自然界中广泛存在的相互协作行为从侧面证实了竞争或许并不是生物生存的主旋律,合作和利他行为对于生物群体的演化和发展也必不可少。

合作会使个体的简单行为在群体中发挥最大的效果,从而使整个群体自组织地表现出复杂的群体智能行为[50-51]。如何理解这种广泛存在于简单个体之间的合作以及通过个体之间分工协作所产生的群体智能现象引起了各个领域研究人员的高度重视[52-53]。借助经典博弈论和演化博弈论这一数学工具有助于对群体中合作行为的涌现进行解释,并可以从演化博弈论的角度来研究复杂系统和复杂网络中大规模的独立个体之间的相互协作与竞争。许多学者的相关研究将重点放在群体长期的动态演化上,分析个体行为和策略对于群体状态和群体稳态的影响和作用。这是一个交叉学科的研究问题,涉及物理学、工程科学、心理学、医学和社会学等众多学科领域[54-57],具体研究包括人类社会分工产生的根源、交通拥塞问题、语言的传播、网络谣言的传播、癌症的产生和发展等问题[58-62]。通过演化博弈论能够从更深层次的角度来解读合作行为的产生和维持,这将有利于预测和干预许多事物的发展进程,为一些社会规律和流行趋势的产生和形成提供合理的解释,为政府和国家的政策以及各种制度的制定提供相应的理论参考[63-64]

从大量的现实例子可发现,理性的个体总是会从自身的利益出发来执行有利于自身的决策,但这往往会违背整个群体的利益,于是就导致了合作困境的产生。合作行为如何在由大量自私个体组成的群体中出现并维持逐渐成为近年来研究人员关注的重点之一。2006年,Nowak[65]在吸收和发展了众多学者的研究成果之后,总结出了五种合作促进机制:亲缘选择(kin selection)、直接互惠(direct reciprocity)、间接互惠(indirect reciprocity)、群组选择(group selection)和网络互惠(network reciprocity),如图1-3所示。到目前为止,已经有大量工作对以上这些合作促进机制开展了研究[66-72]。Haldane最早曾做出过这样的表述“我愿意跳进河里去营救两个亲兄弟或者八个表亲”。这句话预示着后来由学者Hamilton提出的Hamilton原则[73]:如果合作成本是c,给有血缘关系的亲人带来的收益记为b,亲缘系数用r来表示,当时,自然选择将会更加倾向于合作[65]。于是能够得到相应的结论:合作行为在含有亲缘关系的个体之间可以得到促进,这种通过血缘关系维持个体合作的机制被称为亲缘选择[74-75],如图1-3(a)所示。

然而,现实生活中的合作关系不仅建立于有血缘关系的亲属之间。例如,公司之间存在的贸易往来与经济合作、国与国之间建立的政治伙伴关系等。合作有时甚至会发生在完全不认识的陌生人之间。基于这些情况,美国进化生物学家Trivers于1971年提出了直接互惠[见图1-3(b)]这一机制,直接互惠假定参与博弈的个体之间会进行多轮重复的博弈,同时会将对手和自身的历史表现作为自身选择博弈策略的参考。这一机制对应的典型的博弈论模型是重复囚徒困境(repeated prisoner's dilemma)[76-79]。直接互惠为研究这种广泛存在于不含亲缘关系的人类之间的合作互助提供了依据,并从中衍生出了大量新的概念,如零行列式(zero-determinant,ZD)策略[80-82]。直接互惠能够促进合作的一个重要的衡量标准就是:个体之间再次相遇的概率W超过损益比(也称合作者的支出成本c和收入b的比例)。

图1-3 五种合作促进机制

注:图中表示博弈者采取的合作策略;表示博弈者采取的背叛策略

通常情况下,人与人之间的互动往往是不对称的和临时的。间接互惠[83-84][见图1-3(c)]指的是这种情况:一个人帮助了其他人,但几乎不可能立即得到一份实时的回报。例如,在路上对有困难的陌生人给予帮助、向慈善机构捐款等。相比而言,直接互惠就像贸易,强调的是利益的即时交换,而间接互惠则相当于是给自身声誉预先投入的成本。在社会生活中,人们不仅在意一些会直接影响自身利益的事物,并且会在意围绕自身所建立的声誉(他人对自己的看法)。虽然是无形的影响,但人们会为了获得良好的声誉而帮助他人(合作)。简单来说,在间接互惠的作用下,合作得以建立的条件是。式中,q表示已知对手声誉的概率, 则表示损益比。人类的语言是用来接收信息以及传播与间接互惠相关的声誉的重要途径,从这一点来看,间接互惠不仅会促进合作行为的产生,还会对人类认知、道德和语言的形成及发展产生不可忽视的影响[85-87]

自然选择不仅会作用在单个个体身上,有时也会以群组为单位进行[88],如图 1-3(d)所示。一般来说,某个全为合作者的群组一定会比全为背叛者的群组更成功。如果同时将某个群体分为若干个小组,并且其中所有个体均会以正比于收益的概率产生后代(后代仍处于同一群组),规模超过一定阈值的群组将会一分为二,同时会有另外的某小组被取代。虽然在群组的内部,背叛者会取得比合作者更高的收益,然而从整个群组的角度来讲,由合作者构成的群组一定会战胜由背叛者构成的群组。在自然选择的作用下,总收益更高的群组将会被留下,而总收益较低的群组就会面临被淘汰。在群组选择的框架下,合作行为被促进的条件是:。式中,n为规模最大的群组中的个体数,m为整个群体中总的群组的数量[65]

在亲缘选择、直接互惠和间接互惠中都暗含了一个假定:群体是充分混合的(称为混合群体或非网络群体),个体都是以相同概率相遇并进行博弈。但在现实中,真正的群体混合是不充分的,个体间的相互联系可能受制于空间或社会网络因素。捕捉这一效应的一种方法是进化图论,群体中的个体占据图形的顶点,顶点之间的连线代表谁与谁互动。以合作者和背叛者为例,不考虑其他复杂战略,在一个群体中,合作者付出了,他周围的个体都会得到好处,而背叛者没有付出,他周围的个体都得不到好处。在这种情况下,合作者可以通过形成网络集群来获得胜利,这就是网络互惠,如图1-3(e)所示。

3.策略演化分析工具

研究群体合作演化动力学的重要的理论工具就是演化博弈论。其核心概念是由Smith和Price所提出的稳定进化对策[89],稳定进化对策能抵御任意突变策略(物种)的入侵,它既可以是某种确定的纯策略,又可以是以某一概率采取特定策略的混合策略。如果用 x来表示稳定进化对策,y表示其他任意策略,且yx,那么有:

式中,u(x,y)是策略x在与另一种策略y进行交互时所取得的收益。由式(1-13)可知,稳定进化对策是指当群体中所有个体均采取这一策略时,不会有其他任何的突变策略能够在自然选择的作用下成功入侵这一群体。

在演化博弈论的框架之下,除了前面所提到的复制动力学方程,比较重要的分析工具还包括捕食竞争模型[90]、比较动力学[91]、自适应动态以及针对有限群体策略演化分析所采用的随机过程理论等。

① 为研究捕食模型中捕食者和猎物数量在群体中的变化情况,相关学者提出了Lotka-Volterra方程[92-93]。假设群体中捕食者和猎物的个数分别为npredatornprey,则相应的Lotka-Volterra方程为:

式中,α表示猎物的出生率;β表示捕食者对猎物的猎杀所造成的猎物数量的损失;γ代表捕食者的死亡率;δ表示由捕食者内部竞争所产生的对种群数量的影响。

② 比较动力学方程[94]主要用于分析无限大均匀混合群体中的策略演化情况。群体中的不同策略通过比较收益来实现个体策略的相互转化。例如,在某个含 n种不同策略的群体中,用xi(i=1,2,…,n)表示群体中的第i种策略。在比较动力学的作用下,群体中的策略演化按照以下方程来进行。

式中,ρij表示策略i的所有个体向策略j转化的速率;ρji表示策略j的所有个体向策略i转化的速率。ρji的取值如下:

式中,aik是策略i与策略k进行博弈时所得到的收益,且(aikajk)+采取下面的形式:

③ 自适应动态是另一种基于确定性动力学的分析工具[95-96]。在演化博弈论中,个体的属性往往是理性自私的,于是这种沿着收益最大的方向进行策略更新的规则在演化博弈论中也得到了充分应用。如果考虑混合策略的形式,用0≤xi≤1表示个体i采取某种策略(如合作)的概率,则相应的自适应动态方程的具体形式给定如下:

式中,xi(t)是指个体i(i=1,2,…,N)在时刻t选择的策略(个体i选择合作策略)的概率;fi(t)是个体i的收益;γ表示演化步长,满足γ>0。对于个体i在时刻t+1的状态,有:

式中,Δi(t)用来描述个体的状态由时刻 t到时刻 t+1的变化量,它确保个体的状态(策略)永远处于闭区间。

④ 用于研究复杂网络中的策略演化动态的方法主要借助费米函数(Fermi function)[97]。即网络中的个体在进行策略更新时,为使自身的收益最大化,会根据邻居的收益情况,以一定的概率选择学习其中的策略。每个博弈者(假设其收益为P1)都会随机选择某一个邻居(假设其收益为P2),并以一定的概率W模仿他的策略[98]

式中,Pi(i=1,2)表示节点i的收益。当λ→0时,表示策略进行完全随机的更新,即随机地选择是否学习邻居的策略。若λ→∞,则表示确定性的模仿规则,即当邻居的累积收益高于自身时,则必然采取与邻居相同的策略。

1.3.2 复杂网络

无论是人类社会还是自然界都充斥着各种各样的复杂系统,大到全球的经济网、互联网、电力网,小到生物蛋白质、细胞网络[99-102]。这些现实中普遍存在的复杂群体的智能行为往往可被视为由大量简单个体通过相互作用和相互博弈所引发。从20世纪80年代以来,人们对复杂系统的探索从未止步,对复杂网络上集群行为动力学的建模与研究已成为当下众多研究热点中令人瞩目的前沿领域[103-105]。这是因为,随着社会的发展,无论是人与人之间、社会团体之间还是不同国家之间,交互方式都正朝着多边化、复杂化、高效化、网络化的方向发展[106-109]。因此,研究这样一系列由复杂的关系网络所构成的复杂系统也就愈发必要,这就促使人们希望从更深刻、更全面和更理性的角度来认识我们所接触的外部环境,掌握和了解其内部运行规律,从而反过来造福于人们的生活[110-114]。借助复杂网络的知识可以进一步模拟出不同性质的网络结构,以探究网络结构对群体策略演化的影响。

1.复杂网络概述

复杂网络(complex network)是指具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络。近年来,随着复杂网络的蓬勃发展,描述群体间复杂的交互关系的困难程度降低了许多,可以借助复杂网络的知识将各种不同的交互结构抽象成由多个相互作用的个体组成的网络[115]。不可否认的是,现如今的我们也的确生活在各种各样的复杂网络——交错的神经网络、复杂的人际关系网中,信息在人和物之间的传递从未间断。运用复杂网络可以模拟真实社会环境的复杂结构,以便探究不同的网络结构对任务分配及分工合作现象的涌现和演化产生的影响。

(1)复杂网络的主要统计特性

一个具体的复杂网络可抽象表示为一个由点集V和边集G组成的图或网络:G=(V,E)。其中,顶点数,边数。根据图中的边有无方向可将图划分为有向网络和无向网络,所谓无向网络,是指图中任意的点对(i,j)和(j,i)实属同一条边;反之,则为有向网络。此外,还可以为每条边赋予相应的权值,用以表示对应两个顶点间连接的强度,这样的图称为加权网络;相应地,若每条边没有权值或权值相等,则将该图称为无权网络[103]。本书所涉及的复杂网络均为无向无权网络。下面介绍几个描述网络基本拓扑性质的相关参数。

① 度(degree)与度分布(degree distribution)。一个节点的度通常被定义为所有与该节点直接相连的边的数量。无向网络中一个节点的度也可以称为与该节点相连的邻居节点数量之和。根据边连接方向的不同,有向网络中节点的度可以进一步地划分为出度(out-degree)和入度(in-degree)。一般而言,度越大的节点在网络中的重要性和作用越大,否则作用越小[103]。这里将无向网络中节点 i的度表示为ki,那么网络的平均度可表示为:

对于节点度分布的描述,人们常借用分布函数P(k)来表示,从数理统计的角度看,P(k)还可以看作从网络中随机选择一个节点度为k的概率。一般情况下,由于网络不同的内在属性,其度分布P(k)往往会呈现不同的特性。

② 平均路径长度(average path length)。针对无向无权的网络,ij是网络中的两个节点,则连接这两个节点的边数最少的路径称为两个节点之间的最短路径。而两个节点之间的距离就可以定义为连接这两个节点的最短路径的边的数量,通常用 dij表示。那么,整个网络的平均路径长度是指网络中所有节点对距离的平均值,用参数L表示,具体可定义为:

此外,网络中任意两个节点间距离的最大值称为网络的直径D(diameter),即

③ 聚类系数(clustering coefficient)。节点的聚类系数是指该节点的邻居节点之间实际存在的连边数量占这些邻居节点之间最多可能存在的连边数量的比例。以节点i为例,假设该节点有ki个邻居,那么在不考虑重复连接和自连接的情况下,这ki个节点之间最多可能存在的连边数量为。如果用Ei表示这ki个邻居节点间实际存在的边数,那么节点i的聚类系数的具体计算式可以表示为:

整个网络的聚类系数C等于网络中所有节点聚类系数的平均值,即

(2)典型网络拓扑及其生成规则

① 规则网络。规则网络是指节点按一定规则连线所得的网络,其中网络中每个节点的度是一样的,这是复杂网络中最简单的一种网络形式。规则网络中有几种常见的网络结构,如全局耦合网络、最近邻耦合网络、星形耦合网络、方格网络等。全局耦合网络中任意两个节点都相连;最近邻耦合网络是指在一个由N个节点围成的环中,每个节点都与它左右各k为偶数)个邻居相连接;星形耦合网络中只有一个中心节点,其余的节点都要与中心节点相连;方格网络中节点只与最近的邻居相连。在本书中,所使用的二维方格网络(Lattice网络)[116]即为方格网络,该网络中每个节点只与其最近邻的4个节点连接,其中,该网络的周期性边界条件可使网络结构完整和均匀分布。

② ER随机网络。ER随机网络是1960年由匈牙利的数学家Erdős和Rényi[117]共同提出的,该网络的提出也成了复杂网络研究史上重要的转折点。ER随机网络的构造方法可表述为:在节点总数为N的网络中,任意两个节点以p的概率连接,形成一个最终有条边的网络。ER随机网络中的节点度服从二项分布,即平均度。当网络规模足够大时,可将度分布近似看作服从泊松分布。

③ WS小世界网络。1998年,Watts及其导师Strogatz在规则网络中引入了少量随机性进而产生了WS小世界网络模型[114],该网络是介于完全规则和完全随机网络之间的一种网络结构。研究表明,在现实中有很多网络体现出了小世界特性,即虽然网络具有较大的规模,但是网络的平均路径较短,聚类系数较大。下面介绍 WS 小世界网络的构造规则:考虑一个含有N个节点的最近邻耦合网络,其中每个节点都与它左右各k为偶数)个邻居连接,然后以概率p随机地重新连接网络中的每条边。在重连的过程中,要保证边的一个节点不变,另一个节点则在网络中随机选择。值得注意的是,在重连的过程中要避免重复连接和形成自环。重连概率p=0时对应完全规则的最近邻耦合网络,p=1时对应完全随机网络,0<p<1时则为介于这两种网络之间的网络。考虑到WS小世界网络模型的断边重连机制会破坏网络的连通性,Newman和Wattst提出了另一种被广泛应用的小世界模型——NW小世界模型[118],该模型利用随机加边替换了原来的随机重连。

④ BA无标度网络。1999年,Barabási和Albertt基于增长和优先连接的机制提出了BA无标度网络[119],该网络中的度分布服从幂律分布,即网络中有些节点之间的距离很短,而有些却很长,且有相当部分节点集中于一个节点周围,而不再像ER随机网络和WS小世界网络一样集中在平均度附近。构建BA无标度网络的模型要从一个具有m0个节点的网络开始,然后每次加入一个新的节点,新加入的节点要在m0个节点中选择 m个节点进行连接,这里m0m。这里,新加入的节点选择某个已存在节点进行连接的概率与该已存在节点的度成正比。假设选择的旧节点是i,对应的节点度为ki,那么选择与i节点连接的概率∏i为:

BA 无标度网络的优先连接机制就体现在这里,即新加入的节点会更加倾向于与那些有较大度的节点相连接。

2.复杂网络的研究现状

在均匀混合的群体之中,所有的个体均会以同等的概率与其他的个体进行交互,并且理性个体所进行的决策往往会使整个群体的状态演化至完全背叛。实际上,均匀混合群体属于一种近似的假设,起初这一假设几乎被所有演化博弈论框架下的方法所采用[16]。然而,许多实际的群体并非处于完全均匀混合这一理想的假设下。空间结构和社会网络意味着处在其中的个体存在着某种特定的连接关系,从而使一些个体之间的连接更为紧密,而另外一些个体之间的连接较为松散[120]。用来研究这些含有特定空间结构群体的基本工具是图论(graph theory)[103]。借助复杂网络理论、图论等相关工具研究空间结构如何对合作行为的演化产生影响是一个跨学科的难题,同时又是近年来的热点问题。

1992年,Nowak 和 May[120]率先将演化博弈与复杂网络相结合,针对囚徒困境博弈,将其置于二维方格内并研究合作策略在二维方格上的演化情况。他们将群体中的个体与网络中的节点互相对应,节点通过连边进行交互,博弈就发生在不同个体之间的这些连边上。这一工作使越来越多的研究投入到复杂网络及演化博弈的相关研究中。根据收益矩阵(1-10),收益参数取值分别为R=1,P=S=0, T=b。这里参数T是唯一的可调参数。显然,T=b>1时,对应的是囚徒困境博弈的情况。二维方格上的个体将采取如下最简单的最优规则进行策略更新:网络个体在每轮博弈结束后,就会学习周围所有邻居(包含自身)中收益最高的个体的策略。研究发现,与均匀混合群体中囚徒困境博弈情况下合作行为最终被背叛替代这一结果有所不同,合作现象能够在二维方格所构成的群体中涌现。

关于网络博弈的研究,许多都需要借助计算机仿真才能得到相关的结论。实际上,受个体相互连接关系以及个体策略和收益的影响,复杂网络的演化博弈很难借助数学工具进行准确的理论分析。尽管如此,2006年,Ohtsuk和Hauert通过采用对估计(pair-approximation)[121]的方法,提出了合作行为能够在网络群体中得以促进的一个十分简单的规则:。其中,是损益比,而k表示网络的平均度。Ohtsuk和Hauert分别在含有N个个体的环形网络、二维方格网络、随机规则网络、规则网络和无标度网络中进行了大量仿真实验,对几种网络结构下的固定概率ρ进行大小比较后发现:若合作策略的固定概率,则群体合作就会得到促进。

根据有限均匀混合的群体中相应的策略入侵和固定的概念可知,某种突变策略能够成功入侵一个含有N个个体的群体的前提是,ρ是突变策略的固定概率(群体由仅含有一个突变策略的初始状态演化至全为突变策略状态的概率)。后来一些研究对这一概念进行了迁移和扩展,如果某一策略在群体中的固定概率大于N是群体规模),即认为自然选择会更倾向于这种策略。

与上述网络博弈在囚徒困境博弈模型下进行研究的相关结论不同,将空间结构理论应用于雪堆博弈,能够产生令人惊讶的结果:在二维方格上,雪堆博弈的合作频率低于均匀混合群体中合作策略的比例。这表明:不同的空间结构抑制了雪堆博弈情况下合作的涌现,从而使人们重新审视空间结构对博弈的作用。

实际社会网络往往具有小世界特性或无标度特性,或者二者兼具。当网络拓扑结构具有上述结构特性时,网络的演化博弈就需要借助特定的复杂网络模型进行研究。尽管该网络模型较环形、二维方格等规则网络更加复杂,但研究这类网络的演化博弈却具有更为重要的现实意义。正则小世界网络(regular small-world network,RSN)又被称作均质小世界网络(homogeneous small-world network):通过与最近邻的一个网络随机交换一定比例的边生成新的网络。Santos等在囚徒困境博弈的框架之下,应用均质小世界网络模型进行研究,他们发现,就单纯的小世界效应而言,异质小世界网络(WS小世界模型)促进了合作的涌现。

此外,Santos 等进一步研究了无标度网络的异质性对群体合作水平的影响。在模仿动力学演化规则的条件下,他们分别比较了多种无标度网络和规则网络中囚徒困境博弈和雪堆博弈的合作水平。结果表明,无标度网络对这两种博弈条件下的合作均具有明显的促进作用,即认为无标度网络能促进网络合作的涌现,从而使合作策略在异质网络中占据主导地位。

1.3.3 任务分配

随着演化博弈论的不断发展,其应用可以延伸到任务分配的研究领域。将描述群体策略演化的框架用于对任务分配现象的抽象建模,并且借助演化博弈论的思想解释群体中分工合作行为的涌现,可以清楚地展示群体中每个个体的交互情况以及每个策略随时间变化的趋势,进而可以确定系统到达的稳定状态,进一步基于对稳定状态的分析就可以得到影响实现任务分配的因素并提炼出相关的促进机制。

1.任务分配概述

任务分配是一种广泛存在于自然界中的生物集群行为[122-124]。例如,社会性昆虫成员之间通常按照等级分化来实现分工[125-126],多细胞生物也表现出高度的细胞分化[127-128],甚至细菌也会通过分工维持菌落的生存[129]。分工合作模式为群体活动提供了有效率的支撑,很多群体的正常运转对分工合作具有依赖性。最初分工合作现象的研究被看作生物学中的一个重要课题,在一些社会性昆虫的群体中,微观层面的每个个体根据不同的行为刺激和从同伴那里获得的信息做出策略选择[130-132],通过与周围个体不断地交互最终导致宏观的集群行为的出现。所以,群体层面任务分配现象的产生其实依赖个体的行为决策,群体中的个体通过反复且非随机地执行特定的任务使群体实现分工合作的效果,这在自然界是普遍存在的[133-135]。现如今,在经济、军事、社会等系统中同样也可以找到分工合作的发展形式。例如,交通配时问题就是研究如何将合适的信号绿灯时间分配给合适的相位以实现整个交叉口的交通性能最优,其等同于研究如何将合适的任务分配给合适的智能个体以实现整体执行效果最优[136]。无人机集群协同飞行是目前军事领域和消费者商用领域都在关注的热点,在作战行动或执行任务的过程中,任务系统根据它们的实时角色进行分配调度,这里的分配调度机制同样属于分工合作研究的范畴[137-138]。合作是一种带有利他性质的行为,它的表现形式多种多样,但是都具有一个共同的性质,即选择合作行为的个体会付出一定的代价而使他人从中获益。分工现象可以看作是一种特殊的或进一步发展的合作形式,但由于自私个体的存在,每个个体为实现自身利益的最大值都倾向于选择获利较高的任务,而这往往会伤害群体的利益,进而产生分工合作困境[139-141]。所以,在分工合作的模式下,研究获利较低的任务如何在由自私个体组成的群体中得以幸存是一个非常吸引人的课题。在众多分析方法中,演化博弈论为解决这个问题提供了强有力的理论框架[142]

2.任务分配模型

2001年,Besher和Fewell基于对任务分配成因主要假设的不同将其划分成反应阈值模型、自我强化模型、觅食工作模型和网络任务分配模型等。

① 反应阈值模型[143-144]中每个个体对相应的任务都具有各自内部的反应阈值,群体中个体之间通过任务阈值的变化产生分工。具体来说,只有当给定任务的刺激超过自身任务阈值水平时,个体才会执行该任务。此外,该任务的刺激水平也会受到相关参数的影响,即当个体选择执行该项任务时,该任务的刺激水平将基于执行该任务的个体子集的反应阈值逐渐降低;若不执行,则该任务的刺激水平将增加。一般情况下,当执行任务的个体数量与任务的刺激水平相匹配且每个个体保持恒定的任务执行概率时,说明系统达到了稳定状态。但是,反应阈值模型也存在一定的局限性[145-146],例如阈值的设定、群体中的个体如何感知任务刺激、任务的空间分布和个体流动对模型的影响等问题。

② 进一步地,可以将反应阈值模型中阈值的设定改为自适应的模式,而自适应阈值模型中一种常见的形式就是自我强化模型[147]。自我强化模型是将基于经验的任务执行的变化集成到阈值模型,所以阈值的设定不再是固定不变的。自我强化是一种假设机制,在这种机制下,成功执行某项任务会增加再次执行该任务的概率,而执行失败则会降低再次执行该任务的概率,这种机制可以用来解释各种生物系统中专家的出现。

③ 觅食工作模型[148]不同于前面两个模型的假设,在该模型中,个体任务的执行取决于工作机会而不是内在的任务偏好,即个体在可能的情况下都会重复之前的工作机会,当没有任务要执行时,他们才会主动地寻找工作机会。所以这种模型假设每个个体的本质都是相同的,即所有遇到工作机会的个体都会做出相同的反应,而事实上并非如此。此外,该模型假设空间结构是径向对称的一个形状,较年轻的个体在巢的中心,而较年老的个体将更多地靠近巢的外围。该模型虽与蚁穴的设定较为一致,但有人认为,单一的行为算法不太能解释在许多其他不同的生态环境中任务分配现象的演化[149]

④ 网络任务分配模型[150-151]探究的是如何通过个体之间简单的交互来解释任务分配和群体行为动力学。该模型也假设个体之间没有内在的差异,任务执行的变化通过个体之间的交互产生。当系统到达稳定点时,每个任务以及分配给每个任务的个体存在活跃和不活跃的平衡。在网络分配模型中,可以通过更改个体接收到的局部信息来进行分工的生成或维护。

通过对上述模型的简单回顾可以发现,通过简单的行为规则可以得到群体层面的任务分配现象的产生,但是上述模型产生的灵感多出自蜂群、蚁群等昆虫的社会行为,而对于其他领域的任务分配现象的解释可能并不具有较强的普适性。此外,大多数的模型尚属于探索阶段,旨在揭示某个特定假设条件下群体中个体状态改变的规律和性质,所以还不能完全地对模型进行定量的解释。

|本章小结|

本章是全书的概述部分,首先介绍群体智能的概念以及特点,然后分别介绍群体智能在优化求解、协同搜索、编队控制、协同通信、大数据分析、图像处理等领域的应用情况,最后介绍了演化博弈论、复杂网络和任务分配的相关知识。

相关图书

Flask Web应用开发项目实战 基于Python和统信UOS
Flask Web应用开发项目实战 基于Python和统信UOS
T20天正建筑V8.0实战从入门到精通
T20天正建筑V8.0实战从入门到精通
Marc 非线性有限元分析标准教程
Marc 非线性有限元分析标准教程
大数据安全治理与防范——网址反欺诈实战
大数据安全治理与防范——网址反欺诈实战
Effective Java (第3版 英文版)
Effective Java (第3版 英文版)
电力安全生产典型事故集——变电检修专业
电力安全生产典型事故集——变电检修专业

相关文章

相关课程