CN113887807B

CN113887807B - 基于机器学习和证据理论的机器人博弈战术预测方法

Info

Publication number: CN113887807B
Application number: CN202111170446.5A
Authority: CN
Inventors: 宗群; 卢燕梅; 窦立谦; 张秀云; 张睿隆
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2024-04-30
Anticipated expiration: 2041-10-08
Also published as: CN113887807A

Abstract

本发明涉及机器学习、信息融合、战术预测、机器人博弈等领域，为提出一种应用于机器人博弈过程的不确定条件下的对手战术预测方法。为此，本发明采取的技术方案是，基于机器学习和证据理论的机器人博弈战术预测方法，利用机器学习方法构造模型表示机器人状态数据和战术结果之间的关系，考虑到博弈环境的不确定性，利用D‑S证据理论对不确定性进行处理，将三种机器学习算法获得的预测结果处理作为D‑S证据理论的基本概率赋值函数，利用D‑S证据理论在信息融合方面的优势，融合多方信息，得出最终的预测结果，达到预测对手战术的目的。本发明主要应用于机器人博弈场合。

Description

基于机器学习和证据理论的机器人博弈战术预测方法

技术领域

本发明涉及机器学习、信息融合、战术预测、机器人博弈等领域，尤其涉及一种基于机器学习和D-S证据理论的机器人博弈战术预测方法。具体涉及基于机器学习和D-S证据理论的机器人博弈战术预测方法。

背景技术

机器人通常处在动态、实时、复杂、随机、对抗的环境中，需要根据自身所携带的传感器对环境信息进行探测，提取环境中有效的特征信息并进行分析处理，最终通过建立所在环境的模型来表达环境信息。在多机器人博弈系统中，攻防双方需要对获取的对方信息进行分析处理，预测对方战术意图，评估攻防形势，最终制定己方行动决策。其中，对于对手战术的预测是正确把握博弈态势和制定正确战略决策的基础。然而，双方博弈是一个动态变换的复杂过程，博弈环境瞬息万变、信息源众多，同时对方刻意施加的干扰和欺骗也会增加所获取信息的复杂程度，使博弈环境充满了高度不确定性、动态性和高对抗性。因此，在机器人博弈过程中，如何在不确定感知条件下克服对手干扰并准确预测对手战术，已经成为影响博弈态势迫切需要解决的重要问题，具有非常重要的研究意义。

机器人博弈战术预测，通常是基于传感器获取对手数据，对获取信息进行分析处理，提取关键特征进行建模，进而预测对手行动，包括对手是否实施某项攻击行为，对手武器是否发射等。目前对目标意图识别和战术行为预测的研究比较多，如基于模板匹配的方法，首先依据领域专家的军事知识构建模板库，之后基于特定的对手行动数据提取关键特征，计算特征与模板库的匹配程度从而得到对应的对手行为意图；相似的思想在专家系统中也有体现，首先依据领域专家的知识构建知识库，建立数据与对手意图之间的对应规则表达，之后基于特定数据利用推理机进行推理得到对手意图；而贝叶斯网络方式则是依据领域专家知识构建贝叶斯网络，在已知先验概率的基础上基于特征转移推理得到特征和意图之间的对应关系。上述方法虽然在一定程度上解决了对手战术预测和意图识别等方面的问题，但是缺点在于均需要大量领域专家的先验知识建立模板和规则、获取先验概率等，在机器人博弈的复杂环境中，由于机器人对抗策略的不断变化，机器人对抗双方不断施加不同强度的干扰和欺骗等，领域专家往往很难短时间内全面掌握对手的全面信息，因而无法对战术预测给出较为精确的估计。

针对上述问题，本发明采取基于机器学习和D-S证据理论结合的对手战术预测方法。机器学习智能方法具有较强的自适应和自学习能力，在有大量攻防双方博弈历史数据的情况下，能够自动从训练数据中提取识别规则，建立模型进行后期预测，因此，可以在机器人博弈复杂性高、不确定性强且领域专家先验知识不足的情况下很好地解决对手战术预测问题。特别地，针对对手施加干扰、欺骗等造成的不确定性影响，采取Dempster-Shafer证据理论(简称D-S证据理论)进行不确定推理，具有直接表达“不确定”和“不知道”的能力，可对不确定信息进行智能处理和数据融合，且基于D-S合成规则可以融合多源信息，分析得出最终决策。本发明将机器学习算法和D-S证据理论结合起来，首先基于机器人博弈的历史数据构造多种机器学习算法，分别学习机器人状态数据和机器人战术行为之间的对应关系，之后将多种机器学习算法利用D-S证据理论进行融合，得出对手战术行为的最终预测，方法优点在于既解决了领域专家知识不足的情况下的模型自适应、自学习问题，也解决了不确定感知条件下的决策推理和信息融合问题，由此实现机器人博弈过程中对手战术预测，具体为预测对手是否实施了某项攻击行为。

发明内容

为克服现有技术的不足，本发明旨在提出一种应用于机器人博弈过程的不确定条件下的对手战术预测方法。为此，本发明采取的技术方案是，基于机器学习和证据理论的机器人博弈战术预测方法，利用机器学习方法构造模型表示机器人状态数据和战术结果之间的关系，考虑到博弈环境的不确定性，利用D-S证据理论对不确定性进行处理，将三种机器学习算法获得的预测结果处理作为D-S证据理论的基本概率赋值函数，利用D-S证据理论在信息融合方面的优势，融合多方信息，得出最终的预测结果，达到预测对手战术的目的。

具体步骤如下：

第一部分，数据预处理，包括数据缺失值和异常值处理，文本数据替换，数据类别不平衡问题解决，数据类别标注：对采集的甲乙双方博弈过程的历史数据进行数据预处理，去掉和战术预测无关的一些参数，同时剔除数据中的无效值和错误值，原始数据特征含有二值文本型数据，需要替换成数值型数据0或1，对少数类样本进行扩充，使行为“发生”与“不发生”的比率为1:1，并将行为结果标注到数据集后面，便于进行机器学习算法的输入；

第二部分，机器学习模型构建，基于人工神经网络、决策树、逻辑回归三种单模型：本发明中，选取12维甲方状态数据作为特征输入，攻击行为发生或不发生作为输出，基于人工神经网络、决策树模型、逻辑回归模型三种单模型进行学习，12维输入特征主要包括甲方速度、加速度、高度、雷达锁定信号、中制导信号，基于机器学习库sklearn库进行模型搭建：对于人工神经网络和逻辑回归模型，首先将训练数据进行归一化处理，之后输入模型进行训练，基于K折交叉验证方式调整模型参数，得到预测准确度较高的模型；决策树模型则不需进行数据归一化处理，直接基于原始数据进行学习，调整得到最优参数模型，由此得到三种不同机器学习方法下的预测模型；

第三部分，基于D-S证据理论将三种单模型进行融合：基于D-S证据理论在信息融合、不确定性处理方面的优势，融合三种机器学习模型的输出得到最终的预测结果，基于sklearn库的预测某类结果的概率predict_proba()方法可得到每个模型输出值的概率，代表预测为每个结果的可能性，故将其作为三种模型输出的基本概率赋值，得到三个证据体，之后基于D-S证据融合公式计算出最终的对方战术行为预测结果。

详细步骤如下：

第一步，数据预处理，包括数据缺失值和异常值处理，文本数据替换，数据类别不平衡问题解决，数据类别标注：

对采集的甲乙双方博弈过程的历史数据进行预处理，包括数据清洗、特征处理，剔除无效值和异常值，利用Python语言对缺失值进行替换，替换成该字段的平均值或中位值，将二值文本型数据替换成数值型数据1/0，针对数据类别不平衡问题，利用合成少数过采样SMOTE(Synthetic Minority Oversampling Technique)算法进行少数样本扩充，SMOTE算法流程如下：

1)对于少数类中每一个样本x，以欧式距离为标准计算它到少数类样本集S_min中所有样本的距离，得到其K近邻；

2)根据样本不平衡比例设置一个采样比例以确定采样倍率N，对于每一个少数类样本x，从其K近邻中随机选择若干个样本，假设选择的近邻为xn；

3.对于每一个随机选出的近邻xn，分别与原样本按照如下的公式构建新的样本

x_new＝x+rand(0,1)*|x-xn| (1)

最终得到的数据样本中，甲方攻击行为发生：不发生＝1:1，最后将行为结果标注到数据集后面，便于进行机器学习算法的输入；

第二步，机器学习模型构建，基于人工神经网络、决策树、逻辑回归三种单模型

是受生物神经网络启发而构建的算法模型，对噪声数据有较强的鲁棒性和容错能力，能充分逼近复杂的非线性关系等优点，但是同时具有需要训练大量参数，模型黑盒特性难以解释内部机制，学习时间过长，训练不到位预测结果较差等缺点；是if-then规则的集合，基于训练数据集学习使用一个决策树作为预测模型，其中每个内部节点代表一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别，相比其他机器学习算法，其优点在于决策树易于理解和实现，不需要数据归一化，能够同时处理数据型和常规型属性，对缺失值不敏感，训练时间短等特点，缺点在于对连续性字段比较难以预测，对于有时间顺序的数据需要许多预处理的工作，容易趋向过拟合及陷入局部最小值等；逻辑回归算法是针对分类问题建立代价函数，然后通过优化方法迭代求解出最优的模型参数，之后利用模型进行分类，其优点在于实现简单且易于理解，尤其适合于二分类问题，缺点在于要求严格的假设，对数据和场景的适应能力有局限性，容易欠拟合导致分类精度一般不高等。

基于人工神经网络、决策树模型和逻辑回归算法分别建立预测模型，之后利用D-S证据进行融合，最终建立模型相关参数；

第三步，基于D-S证据理论将三种单模型进行融合。基于机器学习库sklearn分别建立三种模型，之后基于predict_proba()方法获取三种模型的概率输出值，作为每种方法的证据体，通过D-S证据融合公式计算出最终的预测模型对攻击行为是否发生的预测结果，基于D-S证据理论进行融合决策的基本步骤：

1)定义识别框架

D-S证据理论建立在一个通用的非空集合上，该集合包括人们对某一决策问题所能考虑到的所有结果，称之为识别框架(Frame of Discernment,FoD)，定义识别框架Θ为一组包含M个互斥且穷举的命题集合，且该集合为有限集；

Θ＝{H₁,H₂,...,H_M} (2)

其中M为总的命题个数，H_i(i＝1,2,...,M)表示FoD中的第i个命题；

可能的结果为攻击行为“发生”或“不发生”，则FoD为Θ＝{H₁,H₂}＝{不发生,发生}。

在FoD的基础上，定义其幂集2^Θ：

其中，表示空集。由公式(3)可以看出，FoD的子集都属于其幂集，即幂集包含2^M个元素；

2)基本概率赋值函数与证据体获取

基本概率赋值BPA(Basic Probability Assignment)函数表示证据体对命题的最初信任程度，是证据理论描述命题的基本单元，在决策系统中，任意命题H都是FoD的子集，属于幂集2^Θ，即BPA的定义为m:2^Θ→1，即从FoD的幂集到[0,1]的映射，满足

其中，m(H)表示证据对命题H的基本支持度，从公式(4)易得，BPA能够保证空集的支持度为0，且所有命题的支持度之和为1，这也是D-S证据理论融合结果需要满足的基本要求—非负性和归一性，如果m(H)＞0，称命题H为证据焦元，所有焦元的集合称为核，在此基础上，引入证据理论进行决策融合的基本结构—证据体，证据体是由决策系统的FoD和BPA构成的，能够充分描述某一信息源对决策结果的识别情况，表示为证据体表示命题及其支持程度；

由三种机器学习单模型的预测结果获取证据体，通过sklearn库中的predict_proba()方法获取每个模型的预测结果概率输出，分别为

m₁＝{不发生,发生}＝{α₁,β₁}

m₂＝{不发生,发生}＝{α₂,β₂}

m₃＝{不发生,发生}＝{α₃,β₃} (5)

3)D-S多证据合成

证据理论的核心是D-S证据合成，关键在于合成公式，决定了如何将多个信息源的决策信息进行融合的方法，假设多个信息源提供的证据体m₁,m₂,...m_N处于同一FoD下，且证据体间不完全冲突且相互独立，则融合公式为：

其中，1/(1-K)为归一化因子，能够保证新的证据体对空集的支持度为0且对所有命题支持度之和为1，即保证非负性和归一性，K是冲突因子，表示证据体之间的总体冲突，

在本发明中，三种机器学习模型预测结果归一化得到证据体，故可用证据体为m₁,m₂,m₃，采用两两合成的方式对证据体进行融合，则公式(6)-(7)转化为：

以攻击行为“发生”为例，计算证据体m₁和m₂的融合结果

同理可得攻击行为“不发生”的融合结果之后将/>与m₃继续进行融合，得到最终融合后的证据体

m₄＝{不发生,发生}＝{α,β} 满足α+β＝1 (11)

4)D-S证据理论决策

通过公式(8)-(9)对三种机器学习模型预测得到的证据体m₁,m₂,m₃依次进行两两融合，得到融合模型对甲方战术的预测结果m₄，最后选取融合模型对攻击行为发生或不发生的预测概率较高者作为最后的预测结果，即若α＞β，攻击行为“不发生”，否则，攻击行为“发生”。

本发明的特点及有益效果是：

本发明提出了一种基于机器学习和D-S证据理论的机器人博弈战术预测方法，本发明的优点与积极效果如下：

(1)本发明基于甲乙双方机器人博弈的历史数据，构造了三种机器学习模型，对甲方战术进行预测，具体为预测甲方是否实施某项攻击行为，取得了不错的预测结果，实现了现代智能方法在博弈对抗方面的迁移应用，为后期真实博弈环境中智能对抗决策辅助模块的搭建提供了理论依据。

(2)本发明基于D-S证据理论处理对手战术预测过程中的不确定信息融合问题，甲乙双方博弈过程中，甲方施加的干扰、欺骗等使乙方获取的数据充满了高度不确定性，D-S证据理论具有直接表达“不确定”和“不知道”的能力，能够对不确定信息做智能处理和数据融合，减轻了甲方干扰欺骗信号造成的数据不确定性影响。

(3)传统的预测模型一般仅采用单个机器学习方法进行预测，如单独使用神经网络、决策树等模型，然而不同机器学习模型均有其局限性如容易过拟合、可能或陷入局部最小值中、模型黑箱难以理解内部机制等，且在数据噪声大的情况下，不同模型都会将一些样本误分类。利用D-S证据理论可以结合不同机器学习算法的优点，利用其对多源信息进行融合处理的能力，可以综合多方意见，提高最终预测结果的准确率。

(4)本方法建立的预测模型可以存储下来，不需要对历史数据进行反复提取训练，在甲乙双方博弈过程中，可以很快地给出实时预测结果，预测效率高。同时可以建立通用的解决方案，若双方博弈初始环境改变，可以方便地对模型进行重新训练，模型可移植性强。

附图说明：

附图1总体技术方案。

附图2D-S证据理论基本框架。

具体实施方式

本发明涉及机器学习、D-S证据融合和机器人博弈领域。具体来说，在机器人博弈过程中，设定甲方为攻击方，乙方为防御方，由于甲方施加干扰信号使得乙方所获取的数据不确定性较大，为基于甲方数据预测甲方战术，推测甲方是否实施某项攻击行为，提出了一种基于机器学习和D-S证据理论的机器人博弈战术预测方法。首先基于大量机器人博弈历史数据进行建模，构造了三种不同的机器学习模型，对甲方状态数据和甲方攻击行为发生与否进行规则学习，基于智能方法预测对手战术行为结果，之后基于D-S证据理论对三种机器学习模型的结果进行融合，利用D-S证据理论在处理不确定性和信息融合方面的优势，减轻了对手施加干扰对战术预测结果的影响，在不确定感知条件下实现了精确的机器人博弈对手战术预测。

本发明的目的在于提出一种应用于机器人博弈过程的不确定条件下的对手战术预测方法。具体而言，考虑到多机器人博弈过程积累有大量历史数据，可以利用机器学习方法构造模型表示机器人状态数据和战术结果之间的关系，考虑到博弈环境的不确定性，利用D-S证据理论对不确定性进行处理，将三种机器学习算法获得的预测结果处理作为D-S证据理论的基本概率赋值函数，利用D-S证据理论在信息融合方面的优势，融合多方信息，得出最终的预测结果，达到预测对手战术的目的。

本发明提出了一种基于机器学习和D-S证据理论的机器人博弈战术预测方法。总体技术方案如图1所示，具体技术方案如下：

第一部分，数据预处理，包括数据缺失值和异常值处理，文本数据替换，数据类别不平衡问题解决，数据类别标注等：对采集的甲乙双方博弈过程的历史数据进行数据预处理，去掉和战术预测无关的一些参数，同时剔除数据中的无效值和错误值。原始数据特征含有二值文本型数据，需要替换成数值型数据0或1。因为历史数据是根据时间顺序记录下来的，大部分情况下对手并未实施某项攻击行为，故存在数据类别不平衡的问题。SMOTE算法是解决数据类别不平衡问题的常用算法，其基本思想是对少数类样本进行分析和模拟，并将人工模拟的新样本添加到数据集中，进而使原始数据中的类别不再严重失衡。采用SMOTE算法思想，对少数类样本进行扩充，使行为“发生”与“不发生”的比率为1:1，并将行为结果标注到数据集后面，便于进行机器学习算法的输入。

第二部分，机器学习模型构建，基于人工神经网络、决策树、逻辑回归三种单模型：本发明中，选取12维甲方状态数据作为特征输入，攻击行为发生或不发生作为输出，基于人工神经网络、决策树模型、逻辑回归模型三种单模型进行学习。12维输入特征主要包括甲方速度、加速度、高度、雷达锁定信号、中制导信号等。本发明中基于机器学习库sklearn库进行模型搭建：对于人工神经网络和逻辑回归模型，首先将训练数据进行归一化处理，之后输入模型进行训练，基于K折交叉验证方式调整模型参数，得到预测准确度较高的模型；决策树模型则不需进行数据归一化处理，直接基于原始数据进行学习，调整得到最优参数模型。由此得到三种不同机器学习方法下的预测模型。

第三部分，基于D-S证据理论将三种单模型进行融合：基于D-S证据理论在信息融合、不确定性处理方面的优势，融合三种机器学习模型的输出得到最终的预测结果。基于D-S证据融合的关键在于基本概率赋值函数的获取。基于sklearn库的predict_proba()方法可得到每个模型输出值的概率，代表预测为每个结果的可能性，故将其作为三种模型输出的基本概率赋值，得到三个证据体，之后基于D-S证据融合公式计算出最终的对方战术行为预测结果。为验证各个模型的泛化能力，选取新的实例进行预测准确度测试，分别选取100组、200组、500组、1000组甲乙双方博弈历史数据，预测甲方是否实施某项攻击行为，实验结果显示本发明所提方法准确率在90％以上。

下面结合附图对本发明做进一步描述。

本发明实现方法的总体技术方案如图1所示。该方法主要分为三个部分，下面结合说明书附图分别对各个部分进行详细阐述：

第一步，数据预处理，包括数据缺失值和异常值处理，文本数据替换，数据类别不平衡问题解决，数据类别标注等。

采集到的样本数据说明如表1所示。

表1样本数据集说明

对采集的甲乙双方博弈过程的历史数据进行预处理，包括数据清洗、特征处理等，剔除无效值和异常值，利用Python语言对缺失值进行替换，替换成该字段的平均值或中位值，将二值文本型数据(如True/False)替换成数值型数据1/0。针对数据类别不平衡问题，利用SMOTE算法进行少数样本扩充，SMOTE算法流程如下：

1.对于少数类中每一个样本x，以欧式距离为标准计算它到少数类样本集S_min中所有样本的距离，得到其K近邻。

2.根据样本不平衡比例设置一个采样比例以确定采样倍率N，对于每一个少数类样本x，从其K近邻中随机选择若干个样本，假设选择的近邻为xn。

x_new＝x+rand(0,1)*|x-xn| (1)

最终得到的数据样本中，甲方攻击行为发生：不发生＝1:1。最后将行为结果标注到数据集后面，便于进行机器学习算法的输入。

第二步，机器学习模型构建，基于人工神经网络、决策树、逻辑回归三种单模型。

人工神经网络是受生物神经网络启发而构建的算法模型，对噪声数据有较强的鲁棒性和容错能力，能充分逼近复杂的非线性关系等优点，但是同时具有需要训练大量参数，模型黑盒特性难以解释内部机制，学习时间过长，训练不到位预测结果较差等缺点；决策树模型是if-then规则的集合，基于训练数据集学习使用一个决策树作为预测模型，其中每个内部节点代表一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别，相比其他机器学习算法，其优点在于决策树易于理解和实现，不需要数据归一化，能够同时处理数据型和常规型属性，对缺失值不敏感，训练时间短等特点，缺点在于对连续性字段比较难以预测，对于有时间顺序的数据需要许多预处理的工作，容易趋向过拟合及陷入局部最小值等；逻辑回归算法是针对分类问题建立代价函数，然后通过优化方法迭代求解出最优的模型参数，之后利用模型进行分类，其优点在于实现简单且易于理解，尤其适合于二分类问题，缺点在于要求严格的假设，对数据和场景的适应能力有局限性，容易欠拟合导致分类精度一般不高等。

基于上述三种方法分别建立预测模型，之后利用D-S证据进行融合，可以很好地利用三种方法的优点.最终建立模型的相关参数如表2所示。

表2三种机器学习模型主要参数

第三步，基于D-S证据理论将三种单模型进行融合。基于机器学习库sklearn分别建立三种模型，之后基于predict_proba()方法获取三种模型的概率输出值，作为每种方法的证据体，通过D-S证据融合公式计算出最终的预测模型对攻击行为是否发生的预测结果。下面结合图2介绍基于D-S证据理论进行融合决策的基本步骤：

1.定义识别框架

D-S证据理论建立在一个通用的非空集合上，该集合包括人们对某一决策问题所能考虑到的所有结果，称之为识别框架。定义识别框架Θ为一组包含M个互斥且穷举的命题集合，且该集合为有限集。

Θ＝{H₁,H₂,...,H_M} (2)

其中M为总的命题个数，H_i(i＝1,2,...,M)表示FoD中的第i个命题。

在本发明中，可能的结果为攻击行为“发生”或“不发生”，则FoD为Θ＝{H₁,H₂}＝{不发生,发生}。

在FoD的基础上，定义其幂集2^Θ：

其中，表示空集。由公式(3)可以看出，FoD的子集都属于其幂集，即幂集包含2^M个元素。

2.基本概率赋值函数与证据体获取

基本概率赋值BPA函数表示证据体对命题的最初信任程度，是证据理论描述命题的基本单元。

在决策系统中，任意命题H都是FoD的子集，属于幂集2^Θ，即BPA的定义为m:2^Θ→1，即从FoD的幂集到[0,1]的映射，满足

其中，m(H)表示证据对命题H的基本支持度。从公式(4)易得，BPA能够保证空集的支持度为0，且所有命题的支持度之和为1，这也是D-S证据理论融合结果需要满足的基本要求—非负性和归一性。如果m(H)＞0，称命题H为证据焦元，所有焦元的集合称为核。在此基础上，引入证据理论进行决策融合的基本结构—证据体。证据体是由决策系统的FoD和BPA构成的，能够充分描述某一信息源对决策结果的识别情况，表示为证据体表示命题及其支持程度。

本发明中，由三种机器学习单模型的预测结果获取证据体，通过sklearn库中的predict_proba()方法获取每个模型的预测结果概率输出，分别为

m₁＝{不发生,发生}＝{α₁,β₁}

m₂＝{不发生,发生}＝{α₂,β₂}

m₃＝{不发生,发生}＝{α₃,β₃} (5)

3.D-S多证据合成

证据理论的核心是D-S证据合成，关键在于合成公式，决定了如何将多个信息源的决策信息进行融合的方法。假设多个信息源提供的证据体m₁,m₂,...m_N处于同一FoD下，且证据体间不完全冲突且相互独立，则融合公式为：

其中，1/(1-K)为归一化因子，能够保证新的证据体对空集的支持度为0且对所有命题支持度之和为1，即保证非负性和归一性。K是冲突因子，表示证据体之间的总体冲突。

以攻击行为“发生”为例，计算证据体m₁和m₂的融合结果

m₄＝{不发生,发生}＝{α,β} 满足α+β＝1 (11)

4.D-S证据理论决策

通过公式(8)-(9)对三种机器学习模型预测得到的证据体m₁,m₂,m₃依次进行两两融合，得到融合模型对甲方战术的预测结果m₄，最后选取融合模型对攻击行为发生或不发生的预测概率较高者作为最后的预测结果。即若α＞β，攻击行为“不发生”，否则，攻击行为“发生”。

为验证预测模型的泛化能力，分别选取100组、200组、500组和1000组甲乙双方博弈新样例进行测试，对甲方攻击行为是否发生的预测结果如表3所示。

表3甲方攻击行为预测结果

实验结果显示，基于D-S证据融合三种机器学习模型的方法对甲方攻击行为的预测准确率为90％以上，证明了本发明中方法的实用性。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于机器学习和证据理论的机器人博弈战术预测方法，其特征是，利用机器学习方法构造模型表示机器人状态数据和战术结果之间的关系，考虑到博弈环境的不确定性，利用D-S证据理论对不确定性进行处理，将三种机器学习算法获得的预测结果处理作为D-S证据理论的基本概率赋值函数，利用D-S证据理论在信息融合方面的优势，融合多方信息，得出最终的预测结果，达到预测对手战术的目的；详细步骤如下：

对采集的甲乙双方博弈过程的历史数据进行预处理，包括数据清洗、特征处理，剔除无效值和异常值，利用Python语言对缺失值进行替换，替换成字段的平均值或中位值，将二值文本型数据替换成数值型数据1/0，针对数据类别不平衡问题，利用合成少数过采样SMOTE(Synthetic Minority Oversampling Technique)算法进行少数样本扩充，SMOTE算法流程如下：

x_new＝x+rand(0,1)*|x-xn| (1)

是受生物神经网络启发而构建的算法模型，对噪声数据有较强的鲁棒性和容错能力，能充分逼近复杂的非线性关系，但是同时具有需要训练大量参数，模型黑盒特性难以解释内部机制，学习时间过长，训练不到位预测结果较差；是if-then规则的集合，基于训练数据集学习使用一个决策树作为预测模型，其中每个内部节点代表一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别；逻辑回归算法是针对分类问题建立代价函数，然后通过优化方法迭代求解出最优的模型参数，之后利用模型进行分类；

第三步，基于D-S证据理论将三种单模型进行融合，基于机器学习库sklearn分别建立三种模型，之后基于predict_proba()方法获取三种模型的概率输出值，作为每种方法的证据体，通过D-S证据融合公式计算出最终的预测模型对攻击行为是否发生的预测结果，基于D-S证据理论进行融合决策的基本步骤：

1)定义识别框架

Θ＝{H₁,H₂,...,H_M} (2)

可能的结果为攻击行为“发生”或“不发生”，则FoD为Θ＝{H₁,H₂}＝{不发生,发生}，在FoD的基础上，定义其幂集2^Θ：

其中，表示空集，由公式(3)可以看出，FoD的子集都属于其幂集，即幂集包含2^M个元素；

2)基本概率赋值函数与证据体获取

基本概率赋值BPA(Basic Probability Assignment)函数表示证据体对命题的最初信任程度，是证据理论描述命题的基本单元，在决策系统中，任意命题H都是FoD的子集，属于幂集2^Θ，即H∈2^Θ，BPA的定义为m:2^Θ→1，即从FoD的幂集到[0,1]的映射，满足

其中，m(H)表示证据对命题H的基本支持度，从公式(4)易得，BPA能够保证空集的支持度为0，且所有命题的支持度之和为1，这也是D-S证据理论融合结果需要满足的基本要求—非负性和归一性，如果m(H)＞0，称命题H为证据焦元，所有焦元的集合称为核，在此基础上，引入证据理论进行决策融合的基本结构—证据体，证据体是由决策系统的FoD和BPA构成的，能够充分描述某一信息源对决策结果的识别情况，表示为m:[H,m(H)],证据体表示命题及其支持程度；

m₁＝{不发生,发生}＝{α₁,β₁}

m₂＝{不发生,发生}＝{α₂,β₂}

m₃＝{不发生,发生}＝{α₃,β₃} (5)

3)D-S多证据合成

三种机器学习模型预测结果归一化得到证据体，故采用证据体为m₁,m₂,m₃，采用两两合成的方式对证据体进行融合，则公式(6)-(7)转化为：

以攻击行为“发生”为例，计算证据体m₁和m₂的融合结果

m₄＝{不发生,发生}＝{α,β}满足α+β＝1 (11)

4)D-S证据理论决策