CN117151246B

CN117151246B - 智能体决策方法、控制方法、电子设备及存储介质

Info

Publication number: CN117151246B
Application number: CN202311406886.5A
Authority: CN
Inventors: 杨健; 李龙辉; 谢晨; 杨海波
Original assignee: Guanglun Intelligent Beijing Technology Co ltd
Current assignee: Guanglun Intelligent Beijing Technology Co ltd
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2024-02-20
Anticipated expiration: 2043-10-27
Also published as: CN117151246A

Abstract

本发明涉及计算机领域，具体提供一种智能体决策方法、控制方法、电子设备及存储介质，旨在解决现有的仿真技术控制智能体时不够逼近现实真人驾驶行为的问题。为此目的，本发明的方法包括：获取环境信息和待决策智能体的驾驶意图；将环境信息和待决策智能体的驾驶意图输入训练好的智能体决策模型，得到智能体决策结果；其中，智能体决策模型至少基于以下步骤进行训练：基于大语言模型构建初始智能体决策模型；基于交通环境数据对初始智能体决策模型进行训练，得到训练好的所述智能体决策模型。通过上述实施方式，能够有效地控制智能体执行多种行为，并且多种行为的因果关联性较强，决策灵活度较高，实现了仿真数据对真实世界驾驶行为更好的覆盖。

Description

智能体决策方法、控制方法、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，具体涉及一种智能体决策方法、控制方法、电子设备及存储介质。

背景技术

目前，在机器人或智能驾驶仿真技术领域，主要是基于规则算法或基于强化学习（Reinforcement Learning）控制其他智能体与被测仿真主体对象产生交互。但是使用这两种方法控制智能体都不够逼近现实真人驾驶行为，主要表现为被控对象行为较为单一、可控性较差、行为前后因果关联较差等，导致使用仿真技术进行算法测试或模型训练时，无法对真实世界产生足够充分的覆盖。

相应地，本领域需要一种新的技术方案来解决上述问题。

发明内容

为了克服上述缺陷，提出了本发明，以提供解决或至少部分地解决现有的仿真技术控制智能体时不够逼近现实真人驾驶行为的技术问题的一种智能体决策方法、控制方法、电子设备及存储介质。

在第一方面，提供一种智能体决策方法，所述方法包括：

获取环境信息和待决策智能体的驾驶意图；

将所述环境信息和待决策智能体的驾驶意图输入训练好的智能体决策模型，得到智能体决策结果；

其中，所述智能体决策模型至少基于以下步骤进行训练：

基于大语言模型构建初始智能体决策模型；

基于交通环境数据对所述初始智能体决策模型进行训练，得到所述训练好的所述智能体决策模型。

在上述智能体决策方法的一个技术方案中，所述基于交通环境数据对所述初始智能体决策模型进行训练包括：

获取所述交通环境数据；

基于所述交通环境数据生成交通行为描述信息；

基于所述交通行为描述信息对所述初始智能体决策模型进行训练；

其中，所述交通行为描述信息包括所述待决策智能体、所述待决策智能体周围预设区域内的其他智能体以及其他生命体的移动轨迹和动作语义中至少一种。

在上述智能体决策方法的一个技术方案中，所述交通环境数据包括动态交通环境数据和静态交通环境数据；所述获取所述交通环境数据包括：

基于仿真模拟器和/或传感器获取所述动态交通环境数据和静态交通环境数据；

其中，所述动态交通环境数据包括待决策智能体的驾驶意图数据、其他智能体和其他生命体的行为状态数据，所述静态交通环境数据包括交通信号数据、交通标志数据中至少一种。

在上述智能体决策方法的一个技术方案中，所述基于所述交通环境数据生成交通行为描述信息包括：

对所述交通环境数据进行预处理；

基于预处理后的交通环境数据提取特征数据；

对所述特征数据进行聚类分析；

基于聚类分析结果和预设规则生成所述交通行为描述信息。

在上述智能体决策方法的一个技术方案中，所述环境信息包括动态环境信息和静态环境信息，所述驾驶意图包括待决策智能体所在位置、目标位置和行为状态信息；所述获取环境信息和待决策智能体的驾驶意图包括：

获取所述动态环境信息和静态环境信息，并获取所述待决策智能体所在位置、目标位置和行为状态信息；

其中，所述动态环境信息包括其他智能体和其他生命体的行为状态信息；所述静态环境信息包括交通信号信息和交通标志信息中至少一种。

在上述智能体决策方法的一个技术方案中，所述将所述环境信息和待决策智能体的驾驶意图输入训练好的智能体决策模型，得到智能体决策结果包括：

对所述环境信息和待决策智能体的驾驶意图进行分析，获取交通状况信息、障碍物信息和可行驶区域信息中至少一种；

基于所述交通状况信息和/或所述障碍物信息和/或所述可行驶区域信息制定行驶规划策略；所述行驶规划策略包括当前行驶状态、行驶速度和行驶路线中至少一种；

基于所述行驶规划策略生成所述智能体决策结果。

在上述智能体决策方法的一个技术方案中，所述智能体决策结果包括行为规划结果和路径规划结果；所述基于所述行驶规划策略生成所述智能体决策结果包括：

基于所述行驶规划策略生成所述行为规划结果和/或所述路径规划结果；

其中，所述行为规划结果包括所述当前行驶状态；所述路径规划结果包括所述行驶速度和所述行驶路线。

在第二方面，本发明提供一种智能体控制方法，所述方法包括：

基于上述智能体决策方法的技术方案中任一项技术方案所述的智能体决策方法获取待控制智能体周围预设区域内的其他智能体决策结果；

基于上述智能体决策方法的技术方案中任一项技术方案所述的智能体决策方法和所述其他智能体决策结果获取待控制智能体的决策结果；

基于所述待控制智能体的决策结果对所述待控制智能体进行评价；

基于评价结果对所述待控制智能体的决策结果进行修正，并基于修正的决策结果对所述待控制智能体进行控制。

在第三方面，提供一种电子设备，该电子设备包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行上述智能体决策方法的技术方案中任一项技术方案所述的智能体决策方法或上述智能体控制方法的技术方案中任一项技术方案所述的智能体控制方法。

在第四方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行上述智能体决策方法的技术方案中任一项技术方案所述的智能体决策方法或上述智能体控制方法的技术方案中任一项技术方案所述的智能体控制方法。

本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：

在实施本发明的技术方案中，首先获取环境信息和待决策智能体的驾驶意图，然后将环境信息和待决策智能体的驾驶意图输入训练好的智能体决策模型，得到智能体决策结果；其中，对智能体决策模型训练时，先基于大语言模型构建初始智能体决策模型，再基于交通环境数据对初始智能体决策模型进行训练，得到训练好的智能体决策模型。通过上述实施方式，通过大语言模型进行调整训练得到的智能体决策模型可以利用大语言模型的思维链能力模拟人类驾驶时的思考过程，根据环境信息和智能体的驾驶意图输出决策结果，能够有效地控制智能体执行多种行为，并且多种行为的因果关联性较强，决策灵活度较高，实现了仿真数据对真实世界驾驶行为更好的覆盖。

附图说明

参照附图，本发明的公开内容将变得更易理解。本领域技术人员容易理解的是：这些附图仅仅用于说明的目的，而并非意在对本发明的保护范围组成限制。其中：

图1是根据本发明的一个实施例的智能体决策方法的主要步骤流程示意图；

图2是根据本发明的一个实施例的智能体决策模型的训练方法的主要步骤流程示意图；

图3是根据本发明的一个实施例的基于交通环境数据对初始智能体决策模型进行训练的主要步骤流程示意图；

图4是根据本发明的一个实施例的将环境信息和待决策智能体的驾驶意图输入训练好的智能体决策模型，得到智能体决策结果的主要步骤流程示意图；

图5是根据本发明的一个实施例的仿真场景示意图；

图6是根据本发明的一个实施例的智能体控制方法的主要步骤流程示意图；

图7是根据本发明的一个实施例的电子设备主要结构示意图。

附图标记列表：

701：处理器；702：存储装置。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明的描述中，“处理器”可以包括硬件、软件或者两者的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

这里先解释本发明涉及到的一些术语。

智能体（Agent）：在人工智能领域中，智能体是指一种能够模拟人类智能行为、具有交互能力的程序或机器，它们可以感知环境信息、理解语言和语义、推理和决策，并执行各种任务。

大语言模型（Large Language Model，LLM）：是指使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务，如文本分类、问答、对话等。

仿真模拟器：是一种计算机程序，用于模拟真实世界的某些场景或过程，通常用于训练和测试复杂系统的性能和行为。仿真模拟器可以模拟各种不同的系统，包括物理系统、社会系统、经济系统、交通系统等。

如背景技术所述，在机器人或智能驾驶仿真技术领域，主要是基于规则算法或基于强化学习（Reinforcement Learning）控制其他智能体与被测仿真主体对象产生交互。但是使用这两种方法控制智能体都不够逼近现实真人驾驶行为，主要表现为被控对象行为较为单一、可控性较差、行为前后因果关联较差等，导致使用仿真技术进行算法测试或模型训练时，无法对真实世界产生足够充分的覆盖。

为了解决上述问题，本发明提供了一种智能体决策方法、控制方法、电子设备及存储介质。

参阅附图1，图1是根据本发明的一个实施例的智能体决策方法的主要步骤流程示意图。如图1所示，本发明实施例中的智能体决策方法主要包括下列步骤S101至步骤S102。

步骤S101：获取环境信息和待决策智能体的驾驶意图；

步骤S102：将环境信息和待决策智能体的驾驶意图输入训练好的智能体决策模型，得到智能体决策结果。

其中，智能体决策模型的训练方法参阅附图2，图2是根据本发明的一个实施例的智能体决策模型的训练方法的主要步骤流程示意图。如图2所示，智能体决策模型至少基于以下步骤S1021至步骤S1022进行训练：

步骤S1021：基于大语言模型构建初始智能体决策模型；

步骤S1022：基于交通环境数据对初始智能体决策模型进行训练，得到训练好的所述智能体决策模型。

基于上述步骤S101至步骤S102所述的方法，通过大语言模型进行调整训练得到的智能体决策模型可以利用大语言模型的思维链能力模拟人类驾驶时的思考过程，根据环境信息和智能体的驾驶意图输出决策结果，能够有效地控制智能体执行多种行为，并且多种行为的因果关联性较强，决策灵活度较高，实现了仿真数据对真实世界驾驶行为更好的覆盖。

下面对上述智能体决策方法作进一步说明。

在一些实施方式中，执行上述智能体决策方法之前，需要构建并训练智能体决策模型，具体地，参阅附图2所示的步骤S1021至步骤S1022。

在上述步骤S1021的一些实施方式中，可以基于GPT、Llama、ChatGLM、Falcon等大语言模型构建初始智能体决策模型。

进一步地，在上述步骤S1022的一些实施方式中，可以基于交通环境数据对初始智能体决策模型进行训练。

参阅附图3，图3是根据本发明的一个实施例的基于交通环境数据对初始智能体决策模型进行训练的主要步骤流程示意图。如图3所示，主要包括下列步骤S301至步骤S303：

步骤S301：获取交通环境数据；

其中，交通环境数据包括动态交通环境数据和静态交通环境数据。

进一步地，在步骤S301的一些实施方式中，获取交通环境数据包括：基于仿真模拟器和/或传感器获取动态交通环境数据和静态交通环境数据。

其中，仿真模拟器是一种计算机程序，可以模拟真实交通环境并生成虚拟的交通环境数据，在使用仿真技术进行模型训练时，可以将智能体嵌入到仿真模拟器中，基于仿真模拟器获取交通环境数据。

传感器是一种真实的物理设备，可以感知交通环境并采集真实的交通环境数据，在进行模型训练时，可以基于摄像头，激光雷达，惯性测量单元（Inertial MeasurementUnit，IMU）、定位系统GPS等传感器获取交通环境数据。

通过仿真模拟器和传感器都可以获取交通环境数据，在实际应用中，本领域技术人员可以根据具体场景及需求获取交通环境数据，此处不做限定。

在步骤S301的一些实施方式中，获取的交通环境数据的动态交通环境数据包括待决策智能体的驾驶意图数据、其他智能体和其他生命体的行为状态数据；静态交通环境数据包括交通信号数据、交通标志数据中至少一种。

其中，待决策智能体可以为各种类型的驾驶设备，如轿车、卡车、公交车等；其他智能体可以为各种类型的驾驶设备和障碍物等；其他生命体可以为其他交通参与者，如行人、动物等。

进一步地，待决策智能体的驾驶意图数据包括待决策驾驶设备的所在位置、目标位置和行为状态信息，行为状态信息包括行驶速度、加速度、制动状态、转向角度等。

其他智能体的行为状态数据包括待决策智能体周围预设区域（如20米）内的其他驾驶设备的行驶速度、加速度、制动状态、转向角度，障碍物所在位置等。

其他生命体的行为状态数据包括行人、动物的行为，如横穿马路、等待过街、走路等。

交通信号数据为道路中各种交通信号的控制规则、信号灯的状态等，包括交通信号灯的类型（如红绿灯、箭头灯等）、颜色（如红灯、绿灯、黄灯等）、配时方案（如每个交叉口的绿灯时间、黄灯时间、红灯时间等）。

交通标志数据为道路中各种交通标志的类型、位置、图案和含义等，包括交通标志的类型（如禁止标志、指示标志、警示标志、服务设施标志等）、位置（如在道路的起点、终点、交叉口、路口、收费站等位置）、图案和颜色（如禁止标志的红色圆圈、指示标志的箭头、警示标志的三角形等）、含义和作用（如禁止标志的作用是禁止某些交通行为，指示标志的作用是指示方向和距离等）。

需要指出的是，以上关于获取的交通环境数据的举例只是示意性说明，在实际应用中，本领域技术人员可以根据具体场景获取相应的交通环境数据，相关可获取的交通环境数据均在本发明的保护范围之内，此处不作限定。

以上是对步骤S301的进一步说明。

步骤S302：基于交通环境数据生成交通行为描述信息；

在一些实施方式中，步骤S302包括下列步骤S3021至步骤S3024：

步骤S3021：对交通环境数据进行预处理；

可以对原始的交通环境数据进行清洗、去噪、插值等预处理操作，提高数据的质量和准确性。

步骤S3022：基于预处理后的交通环境数据提取特征数据；

从预处理后的交通环境数据中提取出生成交通行为描述信息所需要的特征数据。

步骤S3023：对特征数据进行聚类分析；

将特征数据中相似的数据归为一类，其中聚类分析可以使用K均值聚类、层次聚类等算法，此处不做限定。

步骤S3024：基于聚类分析结果和预设规则生成交通行为描述信息。

具体地，是将聚类分析的结果与预设规则相结合，生成交通行为描述信息。其中，预设规则可以根据实际需求制定，比如可以规定在某个时间段内，驾驶设备应该遵守的速度限制、车道规则等。

在一些实施方式中，交通行为描述信息包括待决策智能体、待决策智能体周围预设区域内的其他智能体以及其他生命体的移动轨迹和动作语义中至少一种。

其中，待决策智能体的移动轨迹可以为一条路径，动作语义可以为左右转弯或变道等；其他智能体和其他生命体的移动轨迹和动作语义可以为在待决策智能体的周围移动等。

进一步地，根据上述交通行为描述信息，可以获取道路状况、交通流量、障碍物信息等。

以上是对步骤S302的进一步说明。

步骤S303：基于交通行为描述信息对初始智能体决策模型进行训练。

具体地，可以基于交通行为描述信息对初始智能体决策模型不断进行微调训练，将交通行为描述信息作为模型的输入，将智能体决策结果作为模型的输出，训练过程中根据实际情况调整模型参数和优化算法，直到满足预设训练次数或初始智能体决策模型收敛至预设误差时，得到训练好的智能体决策模型。

通过上述实施方式，智能体决策模型可以利用大语言模型的思维链能力模拟人类驾驶时的思考过程，决策灵活度较高。

以上是对构建及训练智能体决策模型的说明，进一步地，可以基于智能体决策模型执行智能体决策方法。

在上述步骤S101的一些实施方式中，环境信息包括动态环境信息和静态环境信息，驾驶意图包括待决策智能体所在位置、目标位置和行为状态信息。

进一步地，获取环境信息和待决策智能体的驾驶意图包括：获取动态环境信息和静态环境信息，并获取待决策智能体所在位置、目标位置和行为状态信息。

其中，动态环境信息包括其他智能体和其他生命体的行为状态信息；静态环境信息包括交通信号信息和交通标志信息中至少一种。其他相关可获取的环境信息和待决策智能体的驾驶意图均在本发明的保护范围之内，此处不作限定。

在一些实施方式中，可以基于仿真模拟器和/或传感器获取待决策智能体的驾驶意图、其他智能体和其他生命体的行为状态信息，以及交通信号信息、交通标志信息。为了描述的方便和简洁，获取环境信息和待决策智能体的驾驶意图的相关说明可以参考上述步骤S301的实施例所描述的内容，此处不再赘述。

以上是对步骤S101的进一步说明，下面继续对步骤S102作进一步说明。

在上述步骤S102的一些实施方式中，参阅附图4，图4是根据本发明的一个实施例的将环境信息和待决策智能体的驾驶意图输入训练好的智能体决策模型，得到智能体决策结果的主要步骤流程示意图。如图4所示，步骤S102主要包括下列步骤S401至步骤S403：

步骤S401：对环境信息和待决策智能体的驾驶意图进行分析，获取交通状况信息、障碍物信息和可行驶区域信息中至少一种；

获取交通状况信息、障碍物信息和可行驶区域信息即可以获取当前驾驶环境状态和可行驶的路线。

步骤S402：基于交通状况信息和/或障碍物信息和/或可行驶区域信息制定行驶规划策略；

其中，行驶规划策略包括当前行驶状态、行驶速度和行驶路线中至少一种。

通过制定行驶规划策略，待决策智能体可以在不同的行驶情况下选择最佳的行驶路线和速度，以实现安全、高效的行驶。

步骤S403：基于行驶规划策略生成智能体决策结果。

智能体可以根据当前的行驶环境和任务需求，做出最优的决策，以实现安全、高效的行驶。其中，智能体决策结果包括行为规划结果和路径规划结果。

进一步地，步骤S403包括：基于行驶规划策略生成行为规划结果和/或路径规划结果。

在一些实施方式中，行为规划结果包括当前行驶状态；路径规划结果包括行驶速度和行驶路线。

其中，当前行驶状态包括当前车速、当前转向角度，以及智能体将要执行的行为，如转弯、变道、减速等；行驶速度为预设路径的行驶速度、行驶路线为规划好的行驶路线。

进一步地，在一些实施方式中，使用仿真技术进行智能算法测试时，参阅附图5，图5是根据本发明的一个实施例的仿真场景示意图。如图5所示，待决策智能体基于仿真模拟器获取环境信息和待决策智能体的驾驶意图之后，可以将智能体决策模型输出的决策结果传回仿真模拟器进行下一步仿真，并由仿真模拟器接入被测智能算法进行测试或直接保存决策结果作为合成数据产出。

在一些实施方式中，在真实环境进行智能算法测试时，可以由待决策智能体基于决策结果执行相应操作，此处不做限定。

以上是对智能体决策方法的说明。

进一步，本发明还提供了一种智能体控制方法。

在一些实施方式中，可以构建一个智能体的控制系统，该系统中具有多个智能体，包括待控制智能体和其周围预设区域内的多个其他智能体。

其中，待控制智能体中设置有智能算法，该智能算法主要用于控制智能体（即驾驶设备）实现路径规划、自主导航、障碍物检测、自适应巡航、车道保持、自动泊车等决策结果。例如，通过智能算法计算出最优的行驶路线，并根据驾驶设备周围的交通状况自动调整行驶速度和行驶方向，以便驾驶设备能够及时避让其他车辆及行人，提高行驶的安全性和交通的流畅度。

控制系统中的其他智能体用于与待控制智能体进行交互，以测试并评价待控制智能体中智能算法的性能和效果，进一步对智能算法进行修正，提升智能算法的性能和稳定性。

具体来说，每个其他智能体都设有相应的任务，并且基于对应的智能体决策模型进行控制。其中，其他智能体的任务包括提供不同的驾驶行为、生成不同的道路环境、提供干扰和攻击、收集仿真数据等。其中，提供的驾驶行为包括加速、减速、转弯、变道等，以测试智能算法在不同场景下的控制效果；生成的道路环境包括城市街道、高速公路、乡村小路等，以测试智能算法在不同路况下的适应能力；提供的干扰和攻击包括突然变道、闯红灯、突然停车等，以测试智能算法在复杂情况下的反应能力和安全性；收集的仿真数据包括驾驶设备位置、速度、加速度等，以便进行数据分析和评价智能算法的性能。

在一些实施方式中，参阅附图6，图6是根据本发明的一个实施例的智能体控制方法的主要步骤流程示意图。如图6所示，主要包括下列步骤S601至步骤S604：

步骤S601：基于上述智能体决策方法实施例中的所述的智能体决策方法获取待控制智能体周围预设区域内的其他智能体决策结果；

在智能体的控制系统中，待控制智能体周围预设区域内的其他智能体可以通过对应的智能体决策模型根据当前的行驶环境和相应的任务做出决策结果，包括行为规划结果和路径规划结果。

步骤S602：基于上述智能体决策方法实施例中的所述的智能体决策方法和其他智能体决策结果获取待控制智能体的决策结果；

具体地，可以将待控制智能体周围预设区域内多个其他智能体的决策结果作为环境信息中的一部分，进一步基于待控制智能体中设置的智能算法，根据获取的环境信息和待控制智能体的驾驶意图得到待控制智能体的决策结果。

其中，待控制智能体的决策结果包括待控制智能体的行为规划结果和路径规划结果，例如待控制智能体与其他智能体距离较近时产生的躲避行为（如转弯、变道、减速等）、待控制智能体的行驶速度和行驶路线等。

步骤S603：基于待控制智能体的决策结果对待控制智能体进行评价；

即评价待控制智能体中智能算法的性能和效果，具体可以包括智能算法的准确性、安全性、效率、鲁棒性等评价指标。

其中，准确性指待控制智能体的决策结果与实际情况是否相符；安全性指待控制智能体的决策结果是否安全，是否会对环境造成损害；效率指待控制智能体的决策结果生成的时间等；鲁棒性指待控制智能体的决策结果对于外部干扰和噪声的抵抗能力。另外，根据具体的应用场景和需求，可能还需要考虑其他评价指标，例如可靠性、可扩展性、可维护性等。

步骤S604：基于评价结果对待控制智能体的决策结果进行修正，并基于修正的决策结果对待控制智能体进行控制。

通过对待控制智能体中智能算法进行全面的评价，可以对智能算法做出的决策结果进行修正和优化，提升智能算法的性能和稳定性，进一步地，可以使用修正后的智能算法做出决策结果，对待控制智能体进行控制，实现更加准确、高效、安全的行驶。

通过上述实施方式，能够有效地控制智能体执行多种行为，并且多种行为的因果关联性较强，决策灵活度较高，实现了仿真数据对真实世界驾驶行为更好的覆盖

需要指出的是，尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述，但是本领域技术人员可以理解，为了实现本发明的效果，不同的步骤之间并非必须按照这样的顺序执行，其可以同时（并行）执行或以其他顺序执行，这些变化都在本发明的保护范围之内。

本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。

进一步，本发明还提供了一种电子设备。参阅附图7，图7是根据本发明的一个实施例的电子设备主要结构示意图。如图7所示，本发明实施例中的电子设备主要包括处理器701和存储装置702，存储装置702可以被配置成存储执行上述方法实施例的智能体决策方法或智能体控制方法的程序，处理器701可以被配置成用于执行存储装置702中的程序，该程序包括但不限于执行上述方法实施例的智能体决策方法或智能体控制方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。

在本发明的一些可能的实施方式中，电子设备可以包括多个处理器701和多个存储装置702。而执行上述方法实施例的智能体决策方法或智能体控制方法的程序可以被分割成多段子程序，每段子程序分别可以由处理器701加载并运行以执行上述方法实施例的智能体决策方法或智能体控制方法的不同步骤。具体地，每段子程序可以分别存储在不同的存储装置702中，每个处理器701可以被配置成用于执行一个或多个存储装置702中的程序，以共同实现上述方法实施例的智能体决策方法或智能体控制方法，即每个处理器701分别执行上述方法实施例的智能体决策方法或智能体控制方法的不同步骤，来共同实现上述方法实施例的智能体决策方法或智能体控制方法。

上述多个处理器701可以是部署于同一个设备上的处理器，例如上述电子设备可以是由多个处理器组成的高性能设备，上述多个处理器701可以是该高性能设备上配置的处理器。此外，上述多个处理器701也可以是部署于不同设备上的处理器，例如上述电子设备可以是服务器集群，上述多个处理器701可以是服务器集群中不同服务器上的处理器。

进一步，本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的智能体决策方法或智能体控制方法的程序，该程序可以由处理器加载并运行以实现上述智能体决策方法或智能体控制方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

需要说明的是，本发明公开实施例所涉及的信息和数据均为经用户授权或者经过各方充分授权的信息和数据。

本发明公开实施例中涉及到的数据的获取、采集等动作，均为经用户、对象授权或者经过各方充分授权后执行。

至此，已经结合附图所示的一个实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种智能体决策方法，其特征在于，所述方法包括：

获取环境信息和待决策智能体的驾驶意图；

其中，所述智能体决策模型至少基于以下步骤进行训练：

基于大语言模型构建初始智能体决策模型；所述大语言模型为具有思维链能力的深度学习模型；

基于仿真模拟器获取虚拟的交通环境数据、基于传感器获取真实的交通环境数据；

基于所述虚拟的交通环境数据、所述真实的交通环境数据和预设规则生成交通行为描述信息；

基于所述交通行为描述信息对所述初始智能体决策模型进行微调训练，得到所述训练好的智能体决策模型；

其中，所述虚拟的交通环境数据和所述真实的交通环境数据均包括动态交通环境数据和静态交通环境数据；所述动态交通环境数据包括待决策智能体的驾驶意图数据、其他智能体和其他生命体的行为状态数据，所述静态交通环境数据包括交通信号数据、交通标志数据中至少一种。

2.根据权利要求1所述的智能体决策方法，其特征在于，所述基于所述交通行为描述信息对所述初始智能体决策模型进行微调训练，得到所述训练好的智能体决策模型包括：

基于所述交通行为描述信息对所述初始智能体决策模型进行微调训练，直到所述初始智能体决策模型收敛至预设误差时，得到所述训练好的智能体决策模型；

3.根据权利要求2所述的智能体决策方法，其特征在于，所述基于所述虚拟的交通环境数据、所述真实的交通环境数据和预设规则生成交通行为描述信息包括：

对所述虚拟的交通环境数据和所述真实的交通环境数据进行预处理；

基于预处理后的交通环境数据提取特征数据；

对所述特征数据进行聚类分析；

基于聚类分析结果和所述预设规则生成所述交通行为描述信息。

4.根据权利要求1所述的智能体决策方法，其特征在于，所述环境信息包括动态环境信息和静态环境信息，所述驾驶意图包括待决策智能体所在位置、目标位置和行为状态信息；所述获取环境信息和待决策智能体的驾驶意图包括：

5.根据权利要求1所述的智能体决策方法，其特征在于，所述将所述环境信息和待决策智能体的驾驶意图输入训练好的智能体决策模型，得到智能体决策结果包括：

基于所述行驶规划策略生成所述智能体决策结果。

6.根据权利要求5所述的智能体决策方法，其特征在于，所述智能体决策结果包括行为规划结果和路径规划结果；所述基于所述行驶规划策略生成所述智能体决策结果包括：

7.一种智能体控制方法，其特征在于，所述方法包括：

基于权利要求1至6中任意一项所述的智能体决策方法获取待控制智能体周围预设区域内的其他智能体决策结果；

基于权利要求1至6中任意一项所述的智能体决策方法和所述其他智能体决策结果获取待控制智能体的决策结果；

8.一种电子设备，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至6中任一项所述的智能体决策方法或权利要求7所述的智能体控制方法。

9.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至6中任一项所述的智能体决策方法或权利要求7所述的智能体控制方法。