CN114154611B

CN114154611B - 一种支持图灵测试模式的人机对抗系统及智能体测试方法

Info

Publication number: CN114154611B
Application number: CN202111328333.3A
Authority: CN
Inventors: 倪晚成; 徐佳乐; 王士贤; 黄凯奇; 杨旭阳
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-12-06
Anticipated expiration: 2041-11-10
Also published as: CN114154611A

Abstract

本发明提供一种支持图灵测试模式的人机对抗系统及智能体测试方法，所述系统包括：人机对抗模块，用于完成人机对抗；其中，通过人类对抗者和智能体在双盲环境下完成人机对抗；对抗数据采集模块，用于获取人机对抗结果以及人机对抗的复盘对抗数据；对抗数据分析模块，用于根据复盘对抗数据获取智能体的效能数据；图灵问卷模块，用于通过图灵问卷的形式，采集智能体的外界评价信息；对抗成绩管理模块，用于接收并存储人机对抗结果、智能体的外界评价信息和智能体的效能数据，并根据人机对抗结果、智能体的外界评价信息和智能体的效能数据获取智能体的能力测试结果。本发明实现了对智能体决策能力的全面有效地测试。

Description

一种支持图灵测试模式的人机对抗系统及智能体测试方法

技术领域

本发明涉及人机对抗技术领域，尤其涉及一种支持图灵测试模式的人机对抗系统及智能体测试方法。

背景技术

人工智能技术正在经历着从感知智能向认知智能的演化，致力于让机器从能够理解数据发展为能够理解现实世界，从能听会说、能看会认发展为能像人类一样思考。感知智能通常以机器学习为技术路线，从大规模数据集中学习能够显著拟合期望目标的特征表示，其最终输出往往是即时的、明确的，能够与已知标准答案匹配比较，因此便于使用准确率、误差值等指标量化评价。而在认知智能领域，智能体往往处于各种各样灵活的应用场景中，通过持续的“感知-判断-决策- 行动”认知决策过程，达到某种行动目的。这种认知决策过程是持续且动态变化的，充满不确定性，有时很难获得短期决策行为的“奖赏(Reward)”，传统测试方法通常定义一个最终的客观指标(例如裁定得分)进行评价，但是这样的方法忽略了对智能体中间过程决策的评价，不能全方位地反映智能体在各方面的能力水平，也容易带来以提高分数为主导的功利性“钻空子”行为，从而无法保证智能体决策能力测试结果的准确性。因此，如何全面有效的测试认知与决策类智能体的决策能力，是认知智能时代面临的迫切性问题。

艾伦·图灵于1950年提出了“图灵测试”这样一种评判机器是否具备人类智能的测试方式，以对抗和类比来判断机器是否具备智能。“图灵测试”定义：测试者与被测试者(一个人和一台机器)隔开的情况下，通过一些装置向被测试者随意提问。多次测试后，如果机器让平均每个参与者做出超过30％的误判，那么这台机器被认为具有人类智能。

然而，现有技术中并没有一种支持图灵测试模式的人机对抗系统，有必要提供一种支持图灵测试模式的人机对抗系统来获取智能体的性能测试数据，并根据该测试数据对智能体的认知与决策能力进行全面有效地测试。

发明内容

本发明提供一种支持图灵测试模式的人机对抗系统及智能体测试方法，用以解决现有技术中无法全方位地反映智能体在各方面的能力水平的缺陷，实现了对智能体认知与决策能力的全面有效地测试。

本发明提供一种支持图灵测试模式的人机对抗系统，包括：

人机对抗模块，用于完成人机对抗；其中，通过人类对抗者和智能体在双盲环境下完成所述人机对抗；

对抗数据采集模块，用于获取人机对抗结果以及人机对抗的复盘对抗数据；

对抗数据分析模块，用于根据所述复盘对抗数据，获取所述智能体的效能数据；

图灵问卷模块，用于通过图灵问卷的形式，采集所述智能体的外界评价信息；

对抗成绩管理模块，用于接收并存储所述人机对抗结果、所述智能体的外界评价信息和所述智能体的效能数据，并根据所述人机对抗结果、所述智能体的外界评价信息和所述智能体的效能数据，获取所述智能体的能力测试结果。

根据本发明提供的一种支持图灵测试模式的人机对抗系统，所述人机对抗模块包括：

对抗赛程生成模块，用于生成对抗的循环赛程，还用于对所述人类对抗者和所述智能体的系统代号进行编码；其中，对所述人类对抗者和所述智能体的系统代号进行编码用于创建所述双盲环境；

对抗调度管理模块，用于根据所述循环赛程，自动调度所述人机对抗的进程；

人机对抗功能模块，用于在所述人机对抗的进程调度下，通过所述人类对抗者和所述智能体在模拟环境中完成所述人机对抗。

根据本发明提供的一种支持图灵测试模式的人机对抗系统，所述人机对抗功能模块包括：

对抗环境模拟模块，用于生成所述模拟环境；

引擎内核模块，用于接收所述人类对抗者和所述智能体发出的动作指令，根据所述动作指令更新所述模拟环境的环境状态和战场态势，并生成实时推演数据；

UI模块，用于向所述人类对抗者解析并展示所述实时推演数据，还用于将所述人类对抗者发出的动作指令发送至所述引擎内核模块，还用于过滤所述人类对抗者的身份信息；

AI模块，用于向所述智能体解析所述实时推演数据，还用于将所述智能体发出的动作指令发送至所述引擎内核模块，还用于过滤所述智能体的身份信息。

根据本发明提供的一种支持图灵测试模式的人机对抗系统，所述对抗数据分析模块根据所述复盘对抗数据，获取所述智能体的效能数据包括：

根据所述复盘对抗数据，获取所述智能体在所述人机对抗过程中的操作数据，根据所述操作数据分别从若干个不同的方面获取所述智能体的效能数据；其中，所述智能体的操作数据包括：己方资源运用类数据、己方策略类数据、对敌感知类数据和人机分辨特征类数据。

根据本发明提供的一种支持图灵测试模式的人机对抗系统，还包括对抗观摩模块；

其中，所述对抗数据采集模块还用于获取所述人机对抗过程中的实时对抗数据；

所述对抗观摩模块用于对所述实时对抗数据和/或所述复盘对抗数据进行解析，并根据所述实时对抗数据和/或所述复盘对抗数据的解析结果，进行匿名的2D或3D对抗图形展示，以及进行不同战场态势的切换展示。

本发明还提供一种智能体测试方法，包括如下步骤：

获取人机对抗结果以及人机对抗的复盘对抗数据；其中，通过人类对抗者和智能体在双盲环境下完成所述人机对抗；

根据所述复盘对抗数据，获取所述智能体的效能数据，并通过图灵问卷的形式，采集所述智能体的外界评价信息；

根据所述人机对抗结果、所述智能体的外界评价信息和所述智能体的效能数据，获取所述智能体的能力测试结果。

根据本发明提供的一种智能体测试方法，通过人类对抗者和智能体在双盲环境下完成所述人机对抗包括：

生成对抗的循环赛程，并对所述人类对抗者和所述智能体的系统代号进行编码；其中，对所述人类对抗者和所述智能体的系统代号进行编码用于创建所述双盲环境；

根据所述循环赛程自动调度所述人机对抗的进程，并在所述人机对抗的进程调度下，通过所述人类对抗者和所述智能体在模拟环境中完成所述人机对抗。

根据本发明提供的一种智能体测试方法，通过所述人类对抗者和所述智能体在模拟环境中完成所述人机对抗包括：

环境生成步骤：生成所述模拟环境；

对抗步骤：接收所述人类对抗者和所述智能体发出的动作指令，根据所述动作指令更新所述模拟环境的环境状态和战场态势，并生成实时推演数据；

循环所述对抗步骤，直至完成所述人机对抗；

其中，在所述对抗步骤之前，还包括：过滤所述人类对抗者和所述智能体的身份信息。

根据本发明提供的一种智能体测试方法，根据所述复盘对抗数据，获取所述智能体的效能数据包括：

根据本发明提供的一种智能体测试方法，在所述人机对抗的过程中和/或所述人机对抗完成后，还包括：

获取所述人机对抗过程中的实时对抗数据；

对所述实时对抗数据和/或所述复盘对抗数据进行解析，并根据所述实时对抗数据和/或所述复盘对抗数据的解析结果，进行匿名的 2D或3D对抗图形展示，以及进行不同战场态势的切换展示。

本发明提供的支持图灵测试模式的人机对抗系统及智能体测试方法，创造性地在人机对抗系统中引入图灵问卷模块，通过图灵问卷模块采集智能体的外界评价信息，并通过对人机对抗过程中的对抗数据的分析，获取智能体的效能数据，结合人机对抗结果、智能体的外界评价信息、智能体的效能数据对智能体的决策能力进行测试，实现了对智能体认知与决策能力的全面有效测试；同时，本发明人机对抗的过程是在双盲环境下完成的，进一步保证了智能体认知与决策能力测试过程中数据的公平性，提高了智能体决策能力测试结果的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的支持图灵测试模式的人机对抗系统的结构示意图；

图2是本发明提供的智能体测试方法的流程示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1描述本发明的支持图灵测试模式的人机对抗系统，支持图灵测试模式的人机对抗系统如图1所示，包括：

人机对抗模块710，用于完成人机对抗；其中，通过人类对抗者和智能体在双盲环境下完成人机对抗；

对抗数据采集模块720，用于获取人机对抗结果以及人机对抗的复盘对抗数据；

对抗数据分析模块730，用于根据复盘对抗数据，获取智能体的效能数据；

图灵问卷模块740，用于通过图灵问卷的形式，采集智能体的外界评价信息；即，图灵问卷模块740以电子问卷的人机交互方式采集外界对智能体的猜测与评价信息；

对抗成绩管理模块750，用于接收并存储人机对抗结果、智能体的外界评价信息和智能体的效能数据，并根据人机对抗结果、智能体的外界评价信息和智能体的效能数据，获取智能体的能力测试结果。

作为可选方案，本发明支持图灵测试模式的人机对抗系统还包括对抗观摩模块；对抗数据采集模块720还用于获取人机对抗过程中的实时对抗数据；对抗观摩模块用于对实时对抗数据和/或复盘对抗数据进行解析，并根据实时对抗数据和/或复盘对抗数据的解析结果，进行匿名的2D或3D对抗图形展示，以及进行不同战场态势的切换展示。该模块的主要特点在于匿名，即屏蔽掉对战双方的身份信息，观摩时无法得知对抗选手真实的人机情况和用户信息，仅能知晓对抗选手的匿名系统代号。对抗观摩模块包括实时观战单元和复盘观战单元；实时观战单元用于解析人机对抗过程中的实时对抗数据，根据对抗过程提供实时的图形展示界面；复盘观战单元用于解析人机对抗的复盘对抗数据，在对抗结束后提供图形展示界面；复盘观战单元还具有灵活的进度条拖拽和倍速播放功能。

本发明中，人机对抗模块710包括：

对抗赛程生成模块711，用于生成对抗的循环赛程，通过生成的循环赛程，以实现人机混合双盲循环对抗的赛制；本实施例中，所生成的循环赛程中，参赛选手之间互相轮流对抗，以保证比赛方案的公平性和合理性。其中，循环赛程的生成过程中，根据选手的数量制定不同方式的循环对抗赛制，例如，当选手数量较少时，采用单循环或双循环赛制；当选手数量过多时，采用分组循环赛制。在循环赛程制定完成后，对抗赛程生成模块711还用于对人类对抗者和智能体的系统代号进行编码，例如，对人类对抗者和智能体进行统一命名；通过编码，使得只有系统知晓对抗者的身份，而不同的对抗者无法相互获知对方的身份信息，观摩者也无法得知对抗者的身份信息。统一命名的方法有多种，例如，通过对抗赛程生成模块711将参与人机对抗的 m1名人类对抗者和m2名智能体进行混合，并分别赋予匿名的系统代号“1～(m1+m2)号选手”，使得前端界面仅能显示选手的系统代号。

对抗调度管理模块712，用于根据循环赛程，自动调度人机对抗的进程，即，对抗调度管理模块712根据赛程安排，自动生成多个对抗房间，并调度选手直达相应房间对应席位的操作界面，进入对抗过程，无需对抗人员介入实施选择场景、对手、席位等常规操作，有效避免了选手在流程操作中获得对手的一些操作信息，从而辅助判断对手身份，保证了双盲对抗的条件，进一步提高了图灵问卷模块740所采集的智能体的外界评价信息的准确性和有效性。例如，在兵棋推演系统中，对抗的形式为一定想定下红蓝两个席位的博弈对抗，以想定概括对抗的场景。想定指出了对抗的具体条件，包含地图选择、战斗类型、夺控点位置、双方兵力配置及初始位置等，一些常见的兵棋推演想定有：山地通道夺控战、水网稻田遭遇战和中等起伏地遭遇战等。例如，按照赛程安排，1号选手和2号选手在山地通道夺控战的想定下开展对抗，1号选手执红方，2号选手执蓝方，则对抗调度管理模块712生成一个该想定下的对抗房间，并直接调度1号选手进入该房间红方席位的操作界面，2号选手进入该房间蓝方席位的操作界面。

人机对抗功能模块713，用于在人机对抗的进程调度下，通过人类对抗者和智能体在模拟环境中完成人机对抗；人机对抗功能模块 713是本发明支持图灵测试模式的人机对抗系统的基础模块，用于人类对抗者和智能体在模拟环境中开展认知和决策的博弈对抗。人机对抗功能模块713包括：

对抗环境模拟模块714，用于生成模拟环境；例如，在兵棋推演系统中，模拟环境体现为一块具有不同地形地势的仿真地图区域，多个对抗环境可并行运行于兵棋推演系统中。

引擎内核模块715，用于接收人类对抗者和智能体发出的动作指令，根据动作指令更新模拟环境的环境状态和战场态势，并生成实时推演数据；其中，引擎内核模块715连接有规则知识库和裁决知识库，根据规则知识库和裁决知识库更新模拟环境的环境状态和战场态势，计算生成实时推演数据。

UI模块716，用于对抗环境与人类对抗者进行交互和信息交换，向人类对抗者解析并展示实时推演数据，并将人类对抗者发出的动作指令发送至引擎内核模块715；其中，UI模块716通过图像界面对解析后的实时推演数据进行展示；同时，UI模块716还用于过滤人类对抗者的身份信息，使得人机对抗功能模块713无法获知选手的真实身份信息，保证人机对抗的匿名性。其中，UI模块716包括第一对抗单元和第一环境单元，第一对抗单元用于进行战前部署、动作生成、资源清空，以实现人类对抗者对抗前部署动作列表，对抗中接收战场态势并输出动作指令，以及对抗后清空数据资源的对抗全流程；第一环境单元用于操作对抗环境，以实现环境的重置、推进、保存以及还原。

AI模块717，用于对抗环境与智能体进行交互和信息交换，向智能体解析实时推演数据，并将智能体发出的动作指令发送至引擎内核模块715；同时，AI模块717还用于过滤智能体的身份信息，使得人机对抗功能模块713无法获知选手的真实身份信息，保证人机对抗的匿名性。其中，AI模块717包括第二对抗单元和第二环境单元，第二对抗单元用于进行初始化、战前部署、动作生成、资源清空，以实现智能体初始化对抗基本信息，对抗前部署动作列表，对抗中接收战场态势并输出动作指令，以及对抗后清空数据、模型等资源的对抗全流程；第二环境单元用于操作对抗环境，以实现环境的重置、推进、保存以及还原。

其中，UI模块716和AI模块717采用掩码技术手段，过滤掉人类对抗者和智能体的身份信息。

对抗数据分析模块730根据复盘对抗数据，获取智能体的效能数据包括：

根据复盘对抗数据，获取智能体在人机对抗过程中的操作数据，根据操作数据分别从若干个不同的方面获取智能体的效能数据；其中，若干个不同的方面包括：可用对抗资源运用能力、对抗部署与规划能力、对敌方动作与态势变化的感知与应对能力和智能体显著特征；各方面所对应的智能体的操作数据分别为：己方资源运用类数据(例如，在兵棋推演系统中，包括：智能体操作不同算子的动作数量、智能体的所有打击行动中不同武器的使用数量)、己方策略类数据(例如，在兵棋推演系统中，包括：智能体操作的算子的运动轨迹及轨迹位置的热度、智能体在算子间协同火力打击的行动数量)、对敌感知类数据(例如，在兵棋推演系统中，包括：智能体动作与对手动作的平均时间间隔、智能体单位时间的动作数量)和人机分辨特征类数据(例如，在兵棋推演系统中，包括：智能体的违规操作数量)。

图灵问卷模块740包括对抗人员问卷单元和观摩人员问卷单元；其中，对抗人员问卷单元通过UI模块716，以电子问卷的人机交互方式，在每场对抗结束后，采集人类对抗者对对手的猜测与评价信息；观摩人员问卷单元通过对抗观摩模块(已屏蔽对抗者的真实身份信息)，以电子问卷的人机交互方式，在每局对抗的观摩结束后，采集观摩人员对对抗者的猜测与评价信息。作为可选方案，本发明图灵问卷的设计方案为：图灵问卷中包括测评人员对对抗者身份的猜测，以及对对抗者表现的多方面评分；对对抗者身份的猜测为：猜测对抗者为人类还是智能体；对对抗者表现的多方面评分为：在标准的0～P 分数范围内，对对抗者的可用对抗资源运用能力、对抗部署与规划能力、对敌方动作与态势变化的感知与应对能力和智能体显著特征进行打分评价。

对抗成绩管理模块750包含系统裁定分数管理单元、效能数据管理单元、图灵问卷结果管理单元和统计单元；系统裁定分数管理单元用于存储人机对抗结果，即系统裁定得分，人机对抗结果包括：攻击得分、夺控得分、剩余算子得分、总分和净胜分；效能数据管理单元用于存储智能体的效能数据；图灵问卷结果管理单元用于存储人类对抗者及智能体的外界评价信息；统计单元用于对人机对抗结果、智能体的外界评价信息和智能体的效能数据进行统计分析，并根据统计分析结果获取智能体的能力测试结果。

作为可选方案，本发明支持图灵测试模式的人机对抗系统还包括对抗数据库模块，对抗数据库模块用于对复盘对抗数据进行存储和管理；对抗数据库模块在每局对抗结束后，生成一个文件，该文件记录整局对抗的全过程，该文件包括若干帧数据，每帧数据包含多个字段，分为基础字段和动作字段两部分，基础字段记录该时间步下的基本信息，动作字段记录该时间步执行动作的情况。例如，在兵棋推演系统中，复盘对抗数据为json文件形式，每局对抗结束后生成一个json 文件记录整局对抗的全过程。复盘对抗数据按照时间顺序存储推演态势信息，每隔1秒，记录一帧数据，每帧数据包含多个字段，分为基础字段和动作字段两部分。基础字段记录该时间步下的基本信息，如算子信息、时间信息、夺控点信息、系统裁决分数等字段；动作字段记录该时间步执行动作的情况，与特定动作相关，如间瞄点信息和射击裁决等字段。若该时间步无动作发生，则该帧中的动作字段为空，只保留基础字段。

下面结合图2对本发明提供的智能体测试方法进行描述，下文描述的智能体测试方法与上文描述的支持图灵测试模式的人机对抗系统可相互对应参照。智能体测试方法如图2所示，包括：

S100、获取人机对抗结果以及人机对抗的复盘对抗数据；其中，通过人类对抗者和智能体在双盲环境下完成人机对抗；该步骤中，通过人类对抗者和智能体在双盲环境下完成人机对抗包括：

S110、生成对抗的循环赛程，并对人类对抗者和智能体的系统代号进行编码；其中，对人类对抗者和智能体的系统代号进行编码用于创建双盲环境；该步骤中，在生成对抗的循环赛程之前，还包括确定参与人机对抗的人类对抗者和智能体；本实施例中，选择通过各类赛事已知其能力水平的选手，并且具有不同的能力水平，以便于作为智能体能力的类比；具体地，选择的人类对抗者在该对抗应用场景中具有较高的对抗水平和丰富的对抗经验，以便有效的与智能体做对比评估，可通过精英选手邀请的方式获得。在本实施例中，由人机对抗系统根据用户历史对抗总积分，向前m名人类精英选手发送邀请函，从而确定参与人机对抗的人类对抗者。同时，挑选的智能体也要具有较高的推演水平，以便使得智能体测试过程更有挑战，也能够获取对智能体更全面、更有价值的评价。本实施例中，智能体的挑选采用机机对抗的方式，假设报名参与评估的智能体数量较多，因此采用选拔赛和晋级赛两个阶段的机机对抗得到最终入选人机对抗的智能体选手，其主要特征在于两个阶段的对抗条件难度逐渐增加，以筛选出决策算法更加自主智能的智能体。具体步骤包括：

S111，在初始配置确定不变的对抗环境中开展机机对抗的分组循环赛，根据积分选拔出前N名智能体入选晋级赛；

本实施例中，在步骤S111的选拔赛阶段，采用分组循环积分赛制，在给定不变的初始想定下进行机机对抗。为减小机机对抗偶然性和博弈不对称性的影响，规定同一对手间对战多场，每场对战两局，一局结束后双方换手交换席位，例如每场第一局1号选手执蓝方，2 号选手执红方，则第二局换手后1号选手执红方，2号选手执蓝方。如此，每个选手均与对手开展多场对抗，最终选拔出前N名智能体进入第二阶段的晋级赛。

S112，在初始配置动态调整的对抗环境中开展机机对抗的双循环赛，根据积分选择前n名智能体晋级图灵测试人机对抗决赛，n小于 N。

本实施例中，在步骤S112的晋级赛阶段，采用双循环积分赛制，在动态调整的临机想定下进行机机对抗。同样采用同一对手间对战多场，每场对战两局，一局结束后双方换手交换席位的方式开展对抗。最终选择前n强晋级，与人类对抗者开展人机对抗决赛。本阶段的临机想定在初始想定的基础上随机增加突发状况，如随机设置路障、更改夺控点位置、更改兵力初始位置、对抗过程中增援兵力等。临机想定的设置能够为对抗实施提供灵活的场景选择，不失合理性的增加对抗难度，并且更加考验智能体的自主应变能力，对智能体的研发提出更高的要求。

生成对抗的循环赛程的过程中，包括：将人类对抗者和智能体不区分身份的混编为一个大组，通过对抗赛程生成模块711设置对抗的场景并生成对抗的循环赛程；例如，以兵棋推演为例：对抗的具体场景以想定概括，分为初始想定和临机想定。初始想定是指每场对抗条件中的各种配置固定不变，而临机想定则是指每场对抗的条件均会出现一定的随机配置，如增加位置随机的路障、更改夺控点位置等。本实施例中，比赛的形式确定为循环对抗，开展多轮对抗，使得所有选手间均能相互开展一场对抗。每轮次同时进行多场，为不同选手间的两两对抗，且每场对抗均采用一场两局，一局结束后双方换手交换席位的方式。赛程的具体内容包括对抗场景、对抗轮次以及每轮的对手安排。在本实施例中，由系统管理员通过对抗赛程生成模块711设置对抗的场景，例如可设置为临机想定下的山地通道夺控战。进而对抗赛程生成模块711根据双循环赛制自动确定对抗轮次及每轮的对手安排，生成对抗的循环赛程。

对人类对抗者和智能体的系统代号进行编码的方法有多种，例如，对人类对抗者和智能体进行统一命名；通过编码，使得只有系统知晓对抗者的身份，而不同的对抗者无法相互获知对方的身份信息，观摩者也无法得知对抗者的身份信息。统一命名的方法有多种，例如，通过对抗赛程生成模块711将参与人机对抗的m1名人类对抗者和m2 名智能体进行混合，并分别赋予匿名的系统代号“1～(m1+m2)号选手”，使得前端界面仅能显示选手的系统代号。

S120、根据循环赛程自动调度人机对抗的进程，并在人机对抗的进程调度下，通过人类对抗者和智能体在模拟环境中完成人机对抗。该步骤中，在前期工作保证人机双盲循环的条件下，由对抗调度管理模块712按照赛程的安排，中心调度对抗的整体进程。对抗调度管理模块712首先根据对抗的具体条件启动引擎内核模块715，生成符合条件的对抗房间，进而根据赛程安排匹配所有选手进入相应房间的对应席位，调度选手直接进入对抗过程，直至所有轮次对抗结束。

通过人类对抗者和智能体在模拟环境中完成人机对抗包括：

S121、通过对抗环境模拟模块714生成模拟环境；

S122、接收人类对抗者和智能体发出的动作指令，根据动作指令更新模拟环境的环境状态和战场态势，并生成实时推演数据，完成人机对抗；具体为：接收到双方选手准备完成的信号后，系统开始计时，正式进入对抗状态；双方选手感知判断当前的环境状态和战场态势，根据感知结果，在可选动作集中选择，做出行动决策；引擎内核模块 715接收选手的动作指令，并根据动作指令更新模拟环境的环境状态和战场态势，并通过UI模块716和AI模块717反馈给用户端。重复步骤S122，直到满足对抗结束条件，结束本局对抗；本局对抗结束后，对抗调度管理模块712调度双方选手交换席位，进入指定的对抗过程进行换手对抗，重复步骤S121～S122，直至完成一场(两局)的对抗。

其中，在人机对抗开始之前，还包括：分别通过UI模块716和 AI模块717过滤人类对抗者和智能体的身份信息，使得参与对抗的选手不能获知对手的身份信息；UI模块716和AI模块717采用掩码技术手段，过滤掉人类对抗者和智能体的身份信息。

S130、对抗完成后，通过引擎内核模块715将人机对抗结果传递给对抗成绩管理模块750，同时，将复盘数据传递给对抗数据库模块进行持久化存储。本实施例中，在对抗完成后，引擎内核模块715将人机对抗结果，即选手获得的系统裁定分数发送至对抗成绩管理模块750进行统一存储管理，其中，系统裁定分数包括：攻击得分、夺控得分、剩余算子得分、总分和净胜分；对抗成绩管理模块750中的统计单元根据系统裁定分数对人类对抗者和智能体进行成绩排行，具体为：统计单元根据选手在每局对抗中获得的系统裁定分数，统计选手在所有参与对局中的大积分和小积分，进而根据积分对所有选手进行排名。其中，大积分为选手在参与的所有对抗中获胜的局数，小积分为选手在参与的所有对抗中系统裁定净胜分的总和。

S200、根据实复盘对抗数据，获取智能体的效能数据，并通过图灵问卷的形式，采集智能体的外界评价信息；

该步骤中，根据复盘对抗数据，获取智能体的效能数据包括：

通过对抗数据分析模块730读取存储于对抗数据库模块中的复盘对抗数据，并根据复盘对抗数据，获取智能体在人机对抗过程中的操作数据，根据操作数据分别从若干个不同的方面获取智能体的效能数据；作为可选方案，将获取的操作数据按照程度大小映射到0～P 的分数范围内，作为选手在对应维度下的评价得分S_j，0表示选手表现在该维度下的最低水平，P表示选手表现在该维度下的最高水平， P>0。若干个不同的方面包括：可用对抗资源运用能力、对抗部署与规划能力、对敌方动作与态势变化的感知与应对能力和智能体显著特征。其中，各方面所对应的智能体的操作数据分别为：己方资源运用类数据、己方策略类数据、对敌感知类数据和人机分辨特征类数据。

不同方面的效能数据的获取包括：

根据智能体己方资源运用类数据得到智能体可用对抗资源运用能力的评价得分；例如，在兵棋推演系统中，智能体可用对抗资源运用能力体现在算子综合运用能力和武器综合运用能力两方面；算子综合运用能力根据智能体操作不同算子的动作数量来获取，不同算子间的动作比例越均衡，算子综合运用能力越强；例如，由选手操作的作战算子包括步兵、战车、坦克、巡飞弹和炮兵等多种类型，统计整局对抗中不同类型算子的动作数量，以动作数量的比例作为量化数据，比例越均衡，算子综合运用能力越强；武器综合运用能力根据智能体的所有打击行动中不同武器的使用数量来获取，武器间的使用比例越均衡，武器综合运用能力越强；例如，射击的武器分为直瞄炮、速射炮、导弹、步兵轻武器、车载轻武器等多种类型，统计整局对抗中该选手所有的射击行动使用不同武器的数量，以不同武器使用数量的比例作为量化数据，比例越均衡，武器综合运用能力越强。

根据智能体己方策略类数据得到智能体对抗部署与规划能力的评价得分；例如，在兵棋推演系统中，智能体对抗部署与规划能力体现在战术新颖性和行动协同控制能力两方面；战术新颖性根据智能体操作的算子的运动轨迹及轨迹位置的热度来获取，将智能体操作的算子的运动轨迹及轨迹位置的热度与历史轨迹热度对比，匹配度越低，战术越新颖；例如，移动是算子执行高等级动作的基础，移动路径是选手战术策略最直观的体现，因此统计隶属于该选手的所有算子在整张地图上的运动轨迹，以及轨迹上每个位置的热度(以总时间长度衡量)，算子处于某一位置的时间越长，该位置的热度越高；统计完毕后，将该局对抗的轨迹热度表与相同对抗条件下所有历史对抗的轨迹热度对比，匹配度越低，该场对抗战术越新颖；行动协同控制能力根据智能体在算子间协同火力打击的行动数量来获取，协同行动越多，行动协同控制能力越强；例如，将协同火力打击行动定义为：两个(及以上)算子发出的攻击行为，其各自的火力射击行动发生时间间隔不超过阈值T，且相邻两次火力射击的目标之间距离不超过阈值D，统计整局对抗中，选手执行的协同火力打击行动数量，协同行动越多，行动协同控制能力越强。

根据智能体对敌感知类数据得到智能体对敌方动作与态势变化的感知与应对能力的评价得分；例如，在兵棋推演系统中，智能体对敌方动作与态势变化的感知与应对能力体现在对手感知判断能力和临机应变能力两方面；对手感知判断能力根据智能体动作与对手动作的平均时间间隔来获取，时间间隔越小，选手越能感知对手行动的变化，及时做出应对；具体地，统计处于该选手视野范围内的敌方算子动作列表，和紧跟敌方相应动作的我方算子动作列表，计算两个动作列表对应索引处动作的时间间隔，进而求得所有间隔的平均值；平均时间间隔越小，我方越能够及时发现敌方的行动并做出响应，即对手感知判断能力越强；临机应变能力根据智能体单位时间的动作数量来获取，动作密度越大，应变能力越强；例如，临机应变体现在射击、夺控和移动等多种动作类型上，选手是否能够在当前态势下做出合理的、及时的动作决策是衡量应变能力的重要因素。

根据智能体人机分辨特征类数据得到智能体显著特征的评价得分；例如在兵棋推演系统中，根据智能体的违规操作数量，得到智能体显著特征的评价得分，若对抗过程中出现有违人类操作常理的动作，则对评价得分做出惩罚，不合理情况的类型越多，惩罚力度越大；例如，在兵棋推演中，若选手出现多个算子同一时刻射击或步兵和巡飞弹算子同一时刻下车等人类手动操作速度难以达到的理想情况，则可显著的判断该选手为智能体。统计整场对抗中不合理情况的种类数量，数量越多，分数惩罚力度越大。

因此，从4个不同的方面得到的智能体的效能数据表示为 [S₁,S₂,S₃,S₄]。

通过图灵问卷的形式，采集智能体的外界评价信息的方法包括：

在每场对抗结束后，通过图灵问卷模块740采集对抗人员对对手以及观摩人员对对抗者的猜测与评价信息。图灵问卷中包括测评人员对对抗者身份的猜测，以及对对抗者表现的多方面评分；对对抗者身份的猜测为：猜测对抗者为人类还是智能体；对对抗者表现的多方面评分为：在标准的0～P分数范围内，对对抗者的可用对抗资源运用能力、对抗部署与规划能力、对敌方动作与态势变化的感知与应对能力和智能体显著特征进行打分评价。其中，通过对抗成绩管理模块750 读取并存储来自图灵问卷模块740的猜测与评价信息，进而由统计单元统计每个选手在所有图灵问卷中被猜测为人类的次数和被猜测为机器的次数，计算智能体的人机猜测误判率；其中，人机猜测误判率根据选手在所有图灵问卷中被猜测为人类的次数和被猜测为机器的次数计算得到，具体为：

其中，P_误判为人机猜测误判率，t_人类为被猜测为人类的次数，t_机器为被猜测为机器的次数。

S300、根据人机对抗结果、智能体的外界评价信息和智能体的效能数据，获取智能体的能力测试结果。该步骤中，智能体的能力测试结果包括综合评价得分、人机猜测误判率和系统得分；其中，综合评价得分根据智能体的效能数据和智能体的外界评价信息得到，例如，求取智能体的效能数据在可用对抗资源运用能力、对抗部署与规划能力、对敌方动作与态势变化的感知与应对能力和智能体显著特征四方面的得分总和作为效能得分，并求取智能体的外界评价信息在可用对抗资源运用能力、对抗部署与规划能力、对敌方动作与态势变化的感知与应对能力和智能体显著特征四方面的得分总和作为外界评价得分，求取效能得分与外界评价得分的总和或均值，作为综合评价得分。系统得分根据人机对抗结果即系统裁定分数得到，包括：系统裁定分数的总分和均分、总积分、胜利场次、战败场次、胜率、热度和ELO (埃洛)分值；其中，总积分为每场对抗中的获胜次数，热度为用户总计参加的对抗场次。

在人机对抗的过程中和/或人机对抗完成后，还包括：

获取人机对抗过程中的实时对抗数据；

对实时对抗数据和/或复盘对抗数据进行解析，并根据实时对抗数据和/或复盘对抗数据的解析结果，进行匿名的2D或3D对抗图形展示，以及进行不同战场态势的切换展示。

通过对抗图像展示和不同战场态势的切换展示，便于观摩人员进行观摩，其中智能体的外界评价信息包括人类对抗者做出的评价信息和观摩人员做出的评价信息。

本发明提供的支持图灵测试模式的人机对抗系统及智能体测试方法，创造性地在人机对抗系统中引入图灵问卷模块，通过图灵问卷模块采集智能体的外界评价信息，并通过对人机对抗过程中的对抗数据的分析，获取智能体的效能数据，结合人机对抗结果、智能体的外界评价信息、智能体的效能数据对智能体的决策能力进行测试，实现了对智能体认知与决策能力的全面有效测试；同时，本发明通过对抗调度管理模块进行系统中心调度，通过对选手系统代号进行统一编码完成前端匿名处理，通过UI模块和AI模块进行后端接口信息过滤，实现了人机双盲对抗环境，保证了人机对抗的过程是在双盲环境下完成的，从而保证了智能体认知与决策能力测试过程中数据的公平性；另外，通过匿名观摩(观摩界面显示系统代号，不显示对抗者的真实身份)进一步提高了智能体认知与决策能力测试过程中数据的公平性，从而提高了智能体决策能力测试结果的准确性。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行智能体测试方法，该方法包括：获取人机对抗结果以及人机对抗的复盘对抗数据；其中，通过人类对抗者和智能体在双盲环境下完成人机对抗；

根据复盘对抗数据，获取智能体的效能数据，并通过图灵问卷的形式，采集智能体的外界评价信息；

根据人机对抗结果、智能体的外界评价信息和智能体的效能数据，获取智能体的能力测试结果。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的智能体测试方法，该方法包括：获取人机对抗结果以及人机对抗的复盘对抗数据；其中，通过人类对抗者和智能体在双盲环境下完成人机对抗；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的智能体测试方法，该方法包括：获取人机对抗结果以及人机对抗的复盘对抗数据；其中，通过人类对抗者和智能体在双盲环境下完成人机对抗；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种支持图灵测试模式的人机对抗系统，其特征在于，包括：

对抗数据分析模块，用于根据所述复盘对抗数据，获取所述智能体在所述人机对抗过程中的操作数据，根据所述操作数据分别从若干个不同的方面获取所述智能体的效能数据；其中，所述智能体的操作数据包括：己方资源运用类数据、己方策略类数据、对敌感知类数据和人机分辨特征类数据；

2.根据权利要求1所述的一种支持图灵测试模式的人机对抗系统，其特征在于，所述人机对抗模块包括：

3.根据权利要求2所述的一种支持图灵测试模式的人机对抗系统，其特征在于，所述人机对抗功能模块包括：

对抗环境模拟模块，用于生成所述模拟环境；

4.根据权利要求1所述的一种支持图灵测试模式的人机对抗系统，其特征在于，还包括对抗观摩模块；

5.一种智能体测试方法，其特征在于，包括如下步骤：

根据所述复盘对抗数据，获取所述智能体在所述人机对抗过程中的操作数据，根据所述操作数据分别从若干个不同的方面获取所述智能体的效能数据；其中，所述智能体的操作数据包括：己方资源运用类数据、己方策略类数据、对敌感知类数据和人机分辨特征类数据；

通过图灵问卷的形式，采集所述智能体的外界评价信息；

6.根据权利要求5所述的一种智能体测试方法，其特征在于，通过人类对抗者和智能体在双盲环境下完成所述人机对抗包括：

7.根据权利要求6所述的一种智能体测试方法，其特征在于，通过所述人类对抗者和所述智能体在模拟环境中完成所述人机对抗包括：

环境生成步骤：生成所述模拟环境；

循环所述对抗步骤，直至完成所述人机对抗；

8.根据权利要求5所述的一种智能体测试方法，其特征在于，在所述人机对抗的过程中和/或所述人机对抗完成后，还包括：

获取所述人机对抗过程中的实时对抗数据；

对所述实时对抗数据和/或所述复盘对抗数据进行解析，并根据所述实时对抗数据和/或所述复盘对抗数据的解析结果，进行匿名的2D或3D对抗图形展示，以及进行不同战场态势的切换展示。