[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN112836036B - 针对智能体的交互式训练方法、装置、终端和存储介质 - Google Patents

针对智能体的交互式训练方法、装置、终端和存储介质 Download PDF

Info

Publication number
CN112836036B
CN112836036B CN202110288790.8A CN202110288790A CN112836036B CN 112836036 B CN112836036 B CN 112836036B CN 202110288790 A CN202110288790 A CN 202110288790A CN 112836036 B CN112836036 B CN 112836036B
Authority
CN
China
Prior art keywords
interaction
simulator
target
agent
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110288790.8A
Other languages
English (en)
Other versions
CN112836036A (zh
Inventor
毋杰
周凯捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110288790.8A priority Critical patent/CN112836036B/zh
Publication of CN112836036A publication Critical patent/CN112836036A/zh
Application granted granted Critical
Publication of CN112836036B publication Critical patent/CN112836036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种针对智能体的交互式训练方法、装置、终端和存储介质,属于智能决策技术领域,其中,方法包括,基于第一交互目标子集调用规则模拟器和规则智能体进行交互,得到第一交互数据集合,基于第一交互数据集合对初始模拟器和初始智能体进行训练,得到基础模拟器和基础智能体,基于第二交互目标子集调用规则智能体和基础智能体的组合对基础模拟器进行交互训练,得到目标模拟器,基于第三交互目标子集调用规则模拟器和目标模拟器的组合对基础智能体进行交互训练,得到目标智能体。通过实施上述方法,可以基于模拟器组合与智能体交互的形式,对模拟器和智能体进行交替式训练,提升针对智能体的训练效率。

Description

针对智能体的交互式训练方法、装置、终端和存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种针对智能体的交互式训练方法、装置、终端和存储介质。
背景技术
基于目标导向的对话系统(Task-oriented Dialogue System)一直是一个重要的研究领域,并具有很高的应用价值。对话系统可以协助用户通过自然语言的对话来高效的完成指定的任务。目前基于目标导向的任务型对话系统已经在很多应用中实现,比如电影票购买、机票及酒店预订。
当前,基于目标导向的对话系统运行过程中具体由一个智能体(agent)与用户进行交互,在智能体训练过程中,需要和用户进行大量的实时交互,并通过与大量用户交互进行智能体的训练,然而上述训练方式需要用户的不断参与,将导致训练成本高且训练时间过长。
发明内容
本发明实施例提供了一种针对智能体的交互式训练方法、装置、终端和存储介质,可以基于模拟器组合与智能体交互的形式,对模拟器和智能体进行交替式训练,提升针对智能体的训练效率。
一方面,本发明实施例提供了一种针对智能体的交互式训练方法,所述方法包括:
获取交互目标集合,并从所述交互目标集合中筛选出第一交互目标子集;
基于所述第一交互目标子集调用规则模拟器和规则智能体进行交互,得到第一交互数据集合,所述规则模拟器为基于第一预设规则构建的模拟器,所述规则智能体为基于第二预设规则构建的智能体;
基于所述第一交互数据集合对初始模拟器和初始智能体进行训练,得到基础模拟器和基础智能体,所述初始模拟器为基于第一深度学习算法构建的模拟器,所述初始智能体为基于第二深度学习算法构建的智能体;
从所述交互目标集合中筛选出第二交互目标子集,并基于所述第二交互目标子集调用智能体组合对所述基础模拟器进行交互训练,以对所述基础模拟器中的参数进行更新,得到目标模拟器,所述智能体组合中包括所述规则模拟器和所述基础模拟器;
从所述交互目标集合中筛选出第三交互目标子集,并基于所述第三交互目标子集调用模拟器组合对所述基础智能体进行交互训练,以对所述基础智能体中的参数进行更新,得到目标智能体,所述模拟器组合包括所述规则模拟器和所述目标模拟器。
一方面,本发明实施例提供了一种针对智能体的交互式训练装置,所述装置包括:
获取模块,用于获取交互目标集合;
筛选模块,用于从所述交互目标集合中筛选出第一交互目标子集;
调用模块,用于基于所述第一交互目标子集调用规则模拟器和规则智能体进行交互,得到第一交互数据集合,所述规则模拟器为基于第一预设规则构建的模拟器,所述规则智能体为基于第二预设规则构建的智能体;
训练模块,用于基于所述第一交互数据集合对初始模拟器和初始智能体进行训练,得到基础模拟器和基础智能体,所述初始模拟器为基于第一深度学习算法构建的模拟器,所述初始智能体为基于第二深度学习算法构建的智能体;
所述筛选模块,还用于从所述交互目标集合中筛选出第二交互目标子集,
所述训练模块,还用于基于所述第二交互目标子集调用智能体组合对所述基础模拟器进行交互训练,以对所述基础模拟器中的参数进行更新,得到目标模拟器,所述智能体组合中包括所述规则模拟器和所述基础模拟器;
所述筛选模块,还用于从所述交互目标集合中筛选出第三交互目标子集;
所述训练模块,还用于基于所述第三交互目标子集调用模拟器组合对所述基础智能体进行交互训练,以对所述基础智能体中的参数进行更新,得到目标智能体,所述模拟器组合包括所述规则模拟器和所述目标模拟器。
一方面,本发明实施例提供了一种终端,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,其特征在于,所述处理器被配置用于调用所述程序指令,执行所述针对智能体的交互式训练方法。
一方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行所述针对智能体的交互式训练方法。
本发明实施例中,终端基于第一交互目标子集调用规则模拟器和规则智能体进行交互,得到第一交互数据集合,基于第一交互数据集合对初始模拟器和初始智能体进行训练,得到基础模拟器和基础智能体,基于第二交互目标子集调用规则智能体和基础智能体的组合对基础模拟器进行交互训练,得到目标模拟器,基于第三交互目标子集调用规则模拟器和目标模拟器的组合对基础智能体进行交互训练,得到目标智能体。通过实施上述方法,可以基于模拟器组合与智能体交互的形式,对模拟器和智能体进行交替式训练,提升针对智能体的训练效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种针对智能体的交互式训练方法的流程示意图;
图2是本发明实施例提供的另一种针对智能体的交互式训练方法的流程示意图;
图3是本发明实施例提供的一种针对智能体的交互式训练装置的结构示意图;
图4是本发明实施例提供的一种终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的针对智能体的交互式训练方法实现于终端,所述终端包括智能手机、平板电脑、数字音视频播放器、电子阅读器、手持游戏机或车载电子设备等电子设备。
图1是本发明实施例中一种针对智能体的交互式训练方法的流程示意图,如图1所示,本实施例中的针对智能体的交互式训练方法的流程可以包括:
S101、获取交互目标集合,并从交互目标集合中筛选出第一交互目标子集。
本发明实施例中,交互目标集合中包括了多交互目标,交互目标具体为一次与智能体交互过程中需要到达的目标,例如,针对机票订购场景,一个交互目标可以为:定礼拜六上午,从上海到重庆的,从浦东机场出发的,东方航空的机票。其中,智能体具体可以为机票订购系统、保险购买系统、智能客服等的执行装置,实际过程中具体可以与用户进行交互,并完成用户的需求。智能体可以通过深度学习的方式训练得到,具体可以采用深度学习中强化学习的方式,以模拟器和智能体之间的交互对智能体进行训练,使得智能体具备良好的应答能力。在此,针对智能体的训练过程,则需从交互目标集合中筛选出多个交互目标,并基于交互目标调用模拟器和智能体进行交互,以达到对智能体训练的目的。
具体实现中,终端可以获取到预先构建的交互目标集合,并从交互目标集合中筛选出第一交互目标子集,第一交互目标子集可以为交互目标集合中的多个交互目标,每个交互目标都可以用于后续构建规则模拟器和规则智能体的交互。
在一个实施例中,终端从交互目标集合中筛选出第一交互目标子集的具体方式可以为,终端获取待训练的初始智能体对应的目标应用场景;从历史记录中获取目标应用场景下的目标交互记录,目标交互记录中包括用户与智能体在目标应用场景下的交互记录;从目标交互记录中获取至少一个历史交互目标,并从交互目标集合中筛选出与历史交互目标相匹配的K个交互目标,作为第一交互目标子集,K为正整数。其中,应用场景可以为机票订购场景、保险购买场景、网上购物场景等,不同的应用场景下包括有不同的用户与智能体之间交互记录,智能体可以为历史训练完成的智能体,或者基于规则构建的智能体,用于与用户进行交互,目标应用场景可以为任一应用场景。
S102、基于第一交互目标子集调用规则模拟器和规则智能体进行交互,得到第一交互数据集合。
本发明实施例中,终端确定第一交互目标子集后,可以基于第一交互目标子集调用规则模拟器和规则智能体进行交互,其中,规则模拟器为基于第一预设规则构建的模拟器,规则智能体为基于第二预设规则构建的智能体。
在一种实现方式中,规则模拟器用于模拟用户与智能体进行交互时用户会对智能体输出的内容,规则模拟器具体可以按照预先制定的规则向规则智能体进行提问。如构建规则模拟器的第一预设规则为,基于获取到的关键词,输出对应的对话内容,例如,当获取到的内容中包含词组地点时,输出交互目标中的地点信息(如从上海到重庆),当获取到的内容包含时间时,输出交互目标中的时间信息(如礼拜六上午)。规则智能体预先不知道用户需要的目标信息,通过提问的方式收集用户的需求槽位,同时按照需求进行相应的数据库查询,并回复用户的问题。具体的,其可以在检测到输入的对话内容时,基于预设的规则执行相应的操作。如构建规则智能体的第二预设规则为,基于获取到的关键词,从数据库中查询相应信息,并向相应信息进行反馈,如获取到的内容中的关键词为“周六、上午、票”,则智能体可以从数据库中查询到所有周六上午的票,当票的数量小于阈值时,将票进行显示,当票的数量大于阈值时,返回“请问出发地点在哪”的反馈信息。其中,基于第一交互目标子集调用规则模拟器和规则智能体进行交互的具体方式可以为,由规则模拟器向规则智能体输出第一交互目标子集中任一目标中的全部或部分内容,并获取到规则智能体返回的内容,以及基于返回的内容与规则模拟器继续进行交互。直至交互达成预设目标时停止交互,或者,交互的轮数达到预设轮数后停止交互。针对各个交互目标,都可以采用上述方式调用规则模拟器和规则智能体进行交互,得到N轮交互数据,其中,一轮交互数据包括“规则模拟器输出的内容、规则智能体反馈的内容、回报值”,该回报值可以由规则模拟器输出的内容和规则智能体反馈的内容之间的关联度确定,如可以提取内容中的实体,通过实体间在知识图谱中的距离确定内容间的关联度,该知识图谱中包括了多个实体,并基于各个实体间的关联关系将实体进行连接,当多个实体出现在同一文本中时,确定该多个实体具备关联关系,或者,回报值也可以由人为进行标注确定。进一步的,将上述N轮交互数据存储与经验存储区(Replaybuff)中,作为第一交互数据集合。
在一种实现方式中,第一预设规则为基于获取到反馈信息中的关键词输出对应的咨询信息,第二预设规则为基于获取到的咨询信息中的关键词输出对应的反馈信息,终端基于第一交互目标子集中各个交互目标,调用规则模拟器和规则智能体进行交互的方式为相同的方式,在此仅以基于第一交互目标子集中任一参考交互目标,调用规则模拟器和规则智能体进行交互的方式进行说明,具体的,终端基于第一交互目标子集中任一参考交互目标,调用规则模拟器和规则智能体进行交互的方式具体为,基于参考交互目标确定第一咨询信息,并调用规则模拟器将第一咨询信息发送至规则智能体;调用规则智能体基于第一咨询信息中的关键词,向规则模拟器输出对应的第一反馈信息;将第一咨询信息和第一反馈信息确定为第一轮交互数据,并基于第一反馈信息与参考交互目标之间的匹配度确定第一轮交互数据对应的第一回报值;若第一反馈信息与参考交互目标之间的匹配度小于预设匹配度,则调用规则模拟器基于第一反馈信息中的关键词,向规则智能体输出对应的第二咨询信息;调用规则智能体基于第二咨询信息中的关键词,向规则模拟器输出对应的第二反馈信息;将第二咨询信息和第二反馈信息确定为第二轮交互数据,并基于第二反馈信息与参考交互目标之间的匹配度确定第二轮交互数据对应的第二回报值;若第二反馈信息与参考交互目标之间的匹配度大于预设匹配度,则停止调用规则模拟器和规则智能体进行交互,并将第一轮交互数据、第一回报值、第二轮交互数据和第二回报值添加至第一交互数据集合中。同理,若第二反馈信息与参考交互目标之间的匹配度小于预设匹配度,则可以继续调用规则模拟器与规则智能体进行交互,直至多轮交互后规则智能体输出的反馈信息与参考交互目标之间的匹配度大于预设匹配度时,停止交互;或者,规则智能体与规则模拟器交互的轮数达到预设轮数时,停止交互。该交互过程中每轮咨询信息、反馈信息和回报值都会添加至第一交互数据集合中,通过采用上述方式,可以基于第一交互目标子集中各个交互目标,调用规则模拟器和规则智能体进行交互,并将交互产生的数据添加至第一交互数据集合中,得到完整的第一交互数据集合。其中,第一反馈信息与参考交互目标之间的匹配度的具体计算方式可以为,获取第一反馈信息与参考交互目标之间相同字符的数量,并将相同字符数量与参考交互目标中总字符数量的比值确定为匹配度,或者,提取出第一反馈信息中包括的至少一个第一实体,以及参考交互目标中的至少一个第二实体,获取至少一个第一实体和至少一个第二实体中相同实体的数量,以及第一实体和第二实体中实体的总数量,并将相同实体的数量与总数量之间的比值确定为匹配度,实体具体可以基于预设规则进行提取,提取出目标实体的具体方式可以基于规则和字典的方法,如利用手工编写的规则,提取特征,比如关键词,指示词,位置词作为实体,或者,基于统计的传统机器学习方法,基于深度学习的方法等。或者,匹配度可以由研发人员预先标注。
S103、基于第一交互数据集合对初始模拟器和初始智能体进行训练,得到基础模拟器和基础智能体。
本发明实施例中,终端获取到第一交互数据集合之后,将基于第一交互数据集合对初始模拟器和初始智能体进行训练,得到基础模拟器和基础智能体。其中,初始模拟器为基于第一深度学习算法构建的模拟器,初始智能体为基于第二深度学习算法构建的智能体。深度学习算法可以为卷积神经网络算法(Convolutional Neural Networks,CNN)、长短期记忆网络(LSTM,Long Short-Term Memory)算法等,如使用单层LSTM+多层感知器+softmax分类层,作为策略生成初始模拟器和初始智能体和初始模拟器。
在一种实现方式中,第一交互数据集合中包括至少一轮交互数据,终端基于第一交互数据集合对初始模拟器进行训练的具体方式可以为,从第一交互集合中筛选出N轮交互数据,N轮交互数据中每轮交互数据包括规则模拟器输出的咨询信息、规则智能体输出的反馈信息以及回报值,N为正整数;基于强化学习的训练方式调用N轮交互数据对初始模拟器进行迭代训练,以对初始模拟器中的参数进行更新;若参数更新后的初始模拟器满足预设条件,则将参数更新后的初始模拟器确定为基础模拟器,其中,预设条件包括与规则智能体进行交互得到的回报值高于预设回报值。或者,预设条件可以为与规则智能体进行交互得到的成功率高于预设成功率,其中,当交互得到完成问题目标时,确定交互成功。预设条件具体可以由研发人员预先设置。
在一种实现方式中,第一交互数据集合中包括至少一轮交互数据,终端基于第一交互数据集合对初始智能体进行训练的具体方式可以为,从第一交互集合中筛选出N轮交互数据,N轮交互数据中每轮交互数据包括规则模拟器输出的咨询信息、规则智能体输出的反馈信息以及回报值,N为正整数;基于强化学习的训练方式调用N轮交互数据对初始智能体进行迭代训练,以对初始智能体中的参数进行更新;若参数更新后的初始智能体满足预设条件,则将参数更新后的初始智能体确定为基础智能体,其中,预设条件包括与规则模拟器进行交互得到的回报值高于预设回报值。或者,预设条件可以为与规则模拟器进行交互得到的成功率高于预设成功率,其中,当交互得到完成问题目标时,确定交互成功。预设条件具体可以由研发人员预先设置。
通过上述方式,可以使得训练得到的基础模拟器和基础智能体具备基础的交互能力。
S104、从交互目标集合中筛选出第二交互目标子集,并基于第二交互目标子集调用智能体组合对基础模拟器进行交互训练,以对基础模拟器中的参数进行更新,得到目标模拟器。
本发明实施例中,终端训练得到基础模拟器和基础智能体之后,可以从交互目标集合中筛选出第二交互目标子集,并基于第二交互目标子集调用智能体组合对基础模拟器进行交互训练,以对基础模拟器中的参数进行更新,得到目标模拟器,其中,智能体组合中包括规则模拟器和基础模拟器,第二交互目标子集可以为交互目标集合中的多个交互目标,每个交互目标都可以用于后续构建基础模拟器和智能体组合的交互。
在一种实现方式中,终端基于第二交互目标子集调用智能体组合对基础模拟器进行交互训练的具体方式可以为,终端基于第二交互目标子集调用智能体组合与基础模拟器进行至少一次交互;在至少一次交互的任一第I次交互过程中,获取智能体组合中规则智能体对应的第一交互轮数U以及基础智能体对应的第二交互轮数V,I、U和V为正整数;基于第二交互目标子集中的U个交互目标,调用规则智能体与基础模拟器进行交互,得到第一交互数据子集;基于第二交互目标子集中的V个交互目标,调用基础智能体与基础模拟器进行交互,得到第二交互数据子集;基于第一交互数据子集和第二交互数据子集对基础模拟器中的参数进行更新;若参数更新后的基础模拟器不满足第一预设条件,则调整智能体组合中规则智能体对应的第一交互轮数以及基础智能体对应的第二交互轮数,得到交互轮数更新后的智能体组合,并在第I+1次交互过程中基于交互轮数更新后的智能体组合对基础模拟器进行交互训练;若参数更新后的基础模拟器满足第一预设条件,则将参数更新后的基础模拟器确定为目标模拟器。其中,终端确定参数更新后的基础模拟器是否满足第一预设条件的具体方式可以为,终端从交互目标集合中筛选出测试交互目标,并基于测试交互目标,调用参数更新后的基础模拟器与智能体组合进行交互,得到测试交互数据;若测试交互数据指示对于测试交互目标的完成度高于预设完成度,则确定参数更新后的基础模拟器满足一预设条件,完成度具体可以由研发人员进行判定,或者,基于交互数据中反馈信息与测试交互目标之间的匹配度确定。上述方式中,通过将智能体进行组合,并在每轮训练中不断调整智能体组合中规则智能体和基础智能体的使用频次,可以使得模拟器更好的得到训练,提升训练得到的目标模拟器的性能,即使得训练得到的目标模拟器已具备良好的模拟真实用户对话的能力。
在一种实现方式中,终端基于第二交互目标子集调用智能体组合对基础模拟器进行交互训练的具体方式可以为,终端可以基于第二交互目标子集调用智能体组合与基础模拟器进行交互,得到第二交互数据集合,以及基于第二交互数据集合对基础模拟器进行训练,得到目标模拟器,其中,智能体组合为规则智能体和基础智能体的组合,在每次训练过程中,可以调整智能体组合中规则智能体和基础智能体使用比例,并不断与基础模拟器进行交互,并基于交互产生的交互数据对基础模拟器中的参数进行不断更新,当参数更新后的基础模拟器满足条件时,将参数更新后的基础模拟器确定为目标模拟器。通过上述方式,训练得到的目标模拟器已具备良好的模拟真实用户对话的能力。其中,调整智能体组合中规则智能体和基础智能体使用比例的方式可以为,基于规则进行调整,如调整规则为每次提高基础智能体10%的使用比例,直到成功率不再提高为止,如第二交互目标包括100个交互目标,初始比例为规则智能体90%和基础智能体10%,则在一次训练过程中,调用基础智能体完成10次问答,规则智能体完成90次问答。在下次训练过程中,调用基础智能体完成20次问答,规则智能体完成80次问答。以及基于各个交互问答情况对基础模拟器中参数进行更新,得到目标模拟器。
S105、从交互目标集合中筛选出第三交互目标子集,并基于第三交互目标子集调用模拟器组合对基础智能体进行交互训练,以对基础智能体中的参数进行更新,得到目标智能体。
本发明实施例中,终端训练得到目标模拟器之后,可以将目标模拟器和规则模拟器进行组合,得到模拟器组合,并从交互目标集合中筛选出第三交互目标子集,以及基于第三交互目标子集调用模拟器组合对基础智能体进行交互训练,以对基础智能体中的参数进行更新,得到目标智能体,模拟器组合包括规则模拟器和目标模拟器。其中,第三交互目标子集可以为交互目标集合中的多个交互目标,每个交互目标都可以用于后续构建模拟器组合和基础智能体的交互。
在一种实现方式中,终端基于第三交互目标子集调用模拟器组合对基础智能体进行交互训练的具体方式可以为,终端基于第三交互目标子集调用模拟器组合与基础智能体进行多次交互;在多次交互的第J次交互过程中,终端获取模拟器组合中规则模拟器对应的第三交互轮数X以及目标模拟器对应的第四交互轮数Y,J、X和Y为正整数;基于第三交互目标子集中的X个交互目标,调用规则模拟器与基础智能体进行交互,得到第三交互数据子集;基于第三交互目标子集中的Y个交互目标,调用目标模拟器与基础智能体进行交互,得到第四交互数据子集;基于第三交互数据子集和第四交互数据子集对基础智能体中的参数进行更新;若参数更新后的基础智能体不满足第二预设条件,则调整模拟器组合中规则模拟器对应的第三交互轮数以及目标模拟器对应的第四交互轮数,得到交互轮数更新后的模拟器组合,并在第J+1次交互过程中基于交互轮数更新后的模拟器组合对基础智能体进行交互训练;若参数更新后的基础智能体满足第二预设条件,则将参数更新后的基础智能体确定为目标智能体。其中,终端确定参数更新后的基础智能体是否满足预设条件的具体方式可以为,终端从交互目标集合中筛选出测试交互目标,并基于检验交互目标,调用参数更新后的基础智能体与模拟器组合进行交互,得到检验交互数据;若检验交互数据指示对于检验交互目标的完成度高于预设完成度,则确定参数更新后的基础智能体满足第二预设条件。上述方式中,通过将规则模拟器和训练完成的目标模拟器进行组合,并在每轮训练中不断调整模拟器组合中规则模拟器和目标模拟器的使用频次,可以使得基础智能体更好的得到训练,提升训练得到的目标智能体的性能,即使得训练得到的目标智能体已具备良好的与真实用户进行对话的能力。
在一种实现方式中,终端基于第三交互目标子集调用智能体组合对基础智能体进行交互训练的具体方式可以为,终端基于第三交互目标子集调用智能体组合与基础智能体进行交互,得到第三交互数据集合,以及基于第三交互数据集合对基础智能体进行训练,得到目标智能体,其中,智能体组合为规则模拟器和目标模拟器的组合,在每次训练过程中,可以调整智能体组合中规则模拟器和目标模拟器使用比例,并不断与基础智能体进行交互,并基于交互产生的交互数据对基础智能体中的参数进行不断更新,当参数更新后的基础智能体满足条件时,将参数更新后的基础智能体确定为目标智能体。此时的目标智能体已具备良好的响应用户输入内容的能力。
本发明实施例中,终端基于第一交互目标子集调用规则模拟器和规则智能体进行交互,得到第一交互数据集合,基于第一交互数据集合对初始模拟器和初始智能体进行训练,得到基础模拟器和基础智能体,基于第二交互目标子集调用规则智能体和基础智能体的组合对基础模拟器进行交互训练,得到目标模拟器,基于第三交互目标子集调用规则模拟器和目标模拟器的组合对基础智能体进行交互训练,得到目标智能体。通过实施上述方法,可以基于模拟器组合与智能体交互的形式,对模拟器和智能体进行交替式训练,提升针对智能体的训练效率。
图2是本发明实施例中另一种针对智能体的交互式训练方法的流程示意图,如图2所示,本实施例中的针对智能体的交互式训练方法的流程可以包括:
S201、获取交互目标集合,并从交互目标集合中筛选出第一交互目标子集。
本发明实施例中,交互目标集合中包括了多交互目标,交互目标具体为一次与智能体交互过程中需要到达的目标,具体可以由研发人员预先设定交互目标集合。
S202、基于第一交互目标子集调用规则模拟器和规则智能体进行交互,得到第一交互数据集合。
本发明实施例中,终端确定第一交互目标子集后,可以基于第一交互目标子集调用规则模拟器和规则智能体进行交互,得到第一交互数据集合。其中,规则模拟器为基于第一预设规则构建的模拟器,规则智能体为基于第二预设规则构建的智能体。
S203、基于第一交互数据集合对初始模拟器和初始智能体进行训练,得到基础模拟器和基础智能体。
本发明实施例中,终端获取到第一交互数据集合之后,将基于第一交互数据集合对初始模拟器和初始智能体进行训练,得到基础模拟器和基础智能体。其中,初始模拟器为基于第一深度学习算法构建的模拟器,初始智能体为基于第二深度学习算法构建的智能体。
S204、从交互目标集合中筛选出第二交互目标子集,并基于第二交互目标子集调用智能体组合对基础模拟器进行交互训练,以对基础模拟器中的参数进行更新,得到目标模拟器。
本发明实施例中,智能体组合中包括规则模拟器和基础模拟器,第二交互目标子集可以为交互目标集合中的多个交互目标,每个交互目标都可以用于后续构建基础模拟器和智能体组合的交互。交互训练的过程为N轮,每个训练过程中智能体组合中规则智能体和基础智能体的使用占比不同,如第一轮训练中,由规则智能体与基础模拟器完成第二交互目标子集中90个的交互目标的交互,基础智能体与基础模拟器完成第二交互目标子集中10个的交互目标的交互;每轮训练后,得到该轮训练的目标完成率,并将规则智能体与基础模拟器需完成的交互目标的数量减t,且基础智能体与基础模拟器需完成的交互目标的数量加t,直至每轮训练的目标完成率不再提升,t为正整数。
S205、从交互目标集合中筛选出第三交互目标子集,并基于第三交互目标子集调用模拟器组合对基础智能体进行交互训练,以对基础智能体中的参数进行更新,得到目标智能体。
本发明实施例中,模拟器组合包括规则模拟器和目标模拟器。其中,第三交互目标子集可以为交互目标集合中的多个交互目标,每个交互目标都可以用于后续构建模拟器组合和基础智能体的交互。交互训练的过程为N轮,每个训练过程中模拟器组合中规则模拟器和目标模拟器的使用占比不同,如第一轮训练中,由规则模拟器与基础智能体完成第三交互目标子集中90个的交互目标的交互,目标模拟器与基础智能体完成第三交互目标子集中10个的交互目标的交互;每轮训练后,得到该轮训练的目标完成率,并将规则模拟器与基础智能体需完成的交互目标的数量减t,且目标模拟器与基础智能体需完成的交互目标的数量加t,直至每轮训练的目标完成率不再提升,t为正整数。
S206、获取至少一个测试用户与目标智能体进行交互得到的第二交互数据集合。
本发明实施例中,第二交互数据集合中包括至少一轮交互数据,每轮交互数据包括测试评分、测试用户输出的咨询信息、目标智能体输出的反馈信息。各个测试用户可以向目标智能体输入信息,以和目标智能体之间进行交互,测试用户可以在交互过程中输出咨询信息,目标智能体输出相应的反馈信息,交互完成之后,测试用户可以针对该轮交互中智能体输出的反馈信息进行评分,即得到测试评分。
S207、基于第二交互数据集合对目标智能体进行训练,以使得目标智能体中的参数进行更新,得到参数更新后的目标智能体。
本发明实施例中,终端获取到第二交互数据集合之后,可以基于强化学习的训练方式调用第二交互数据集合中N轮交互数据对目标智能体进行迭代训练,以对目标智能体中的参数进行更新;并调用第二交互数据集合中K轮交互数据对参数更新后的目标智能体进行测试,若测试结果指示参数更新后的目标智能体满足预设条件,则执行步骤S208。
S208、调用参数更新后的目标智能体与目标用户进行交互。
本发明实施例中,终端得到参数更新后的目标智能体之后,可以将参数更新应用于实际与用户的交互过程中,并可以采用后续与用户之间的实际交互生成的交互数据,不断对智能体进行更新,以提升智能体的性能。上述方案中,可以基于不同类型的数据完成对智能体的不同阶段的训练,第一阶段为基于构造的交互数据对智能体进行训练,使得智能体具备初步的应答能力,并后续采用与真实用户的交互数据对智能体进行训练调优,实现不断提升智能体的性能。
本发明实施例中,终端基于第一交互目标子集调用规则模拟器和规则智能体进行交互,得到第一交互数据集合,基于第一交互数据集合对初始模拟器和初始智能体进行训练,得到基础模拟器和基础智能体,基于第二交互目标子集调用规则智能体和基础智能体的组合对基础模拟器进行交互训练,得到目标模拟器,基于第三交互目标子集调用规则模拟器和目标模拟器的组合对基础智能体进行交互训练,得到目标智能体,并采用与用户的真实交互对目标智能体进行训练调优,使得智能体具备更优的性能。通过实施上述方法,可以基于模拟器组合与智能体交互的形式,对模拟器和智能体进行交替式训练,并后续基于少量与真实用户的交互样本进行训练调优,提升针对智能体的训练效率。
下面将结合附图3对本发明实施例提供的针对智能体的交互式训练装置进行详细介绍。需要说明的是,附图3所示的针对智能体的交互式训练装置,用于执行本发明图1-图2所示实施例的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,经参照本发明图1-图2所示的实施例。
请参见图3,为本发明提供的一种针对智能体的交互式训练装置的结构示意图,该针对智能体的交互式训练装置30可包括:获取模块301、筛选模块302、调用模块303、训练模块304。
获取模块301,用于获取交互目标集合;
筛选模块302,用于从所述交互目标集合中筛选出第一交互目标子集;
调用模块303,用于基于所述第一交互目标子集调用规则模拟器和规则智能体进行交互,得到第一交互数据集合,所述规则模拟器为基于第一预设规则构建的模拟器,所述规则智能体为基于第二预设规则构建的智能体;
训练模块304,用于基于所述第一交互数据集合对初始模拟器和初始智能体进行训练,得到基础模拟器和基础智能体,所述初始模拟器为基于第一深度学习算法构建的模拟器,所述初始智能体为基于第二深度学习算法构建的智能体;
所述筛选模块302,还用于从所述交互目标集合中筛选出第二交互目标子集,
所述训练模块304,还用于基于所述第二交互目标子集调用智能体组合对所述基础模拟器进行交互训练,以对所述基础模拟器中的参数进行更新,得到目标模拟器,所述智能体组合中包括所述规则模拟器和所述基础模拟器;
所述筛选模块302,还用于从所述交互目标集合中筛选出第三交互目标子集;
所述训练模块304,还用于基于所述第三交互目标子集调用模拟器组合对所述基础智能体进行交互训练,以对所述基础智能体中的参数进行更新,得到目标智能体,所述模拟器组合包括所述规则模拟器和所述目标模拟器。
在一种实现方式中,筛选模块302,具体用于:
获取待训练的初始智能体对应的目标应用场景;
从历史记录中获取所述目标应用场景下的目标交互记录,所述目标交互记录中包括用户与智能体在所述目标应用场景下的交互记录;
从所述目标交互记录中获取至少一个历史交互目标,并从所述交互目标集合中筛选出与各个历史交互目标相匹配的K个交互目标,作为第一交互目标子集,K为正整数。
在一种实现方式中,所述第一预设规则为基于获取到反馈信息中的关键词输出对应的咨询信息,所述第二预设规则为基于获取到的咨询信息中的关键词输出对应的反馈信息,调用模块303,具体用于:
基于参考交互目标确定第一咨询信息,并调用所述规则模拟器将所述第一咨询信息发送至所述规则智能体;
调用所述规则智能体基于所述第一咨询信息中的关键词,向所述规则模拟器输出对应的第一反馈信息;
将所述第一咨询信息和所述第一反馈信息确定为第一轮交互数据,并基于所述第一反馈信息与所述参考交互目标之间的匹配度,确定所述第一轮交互数据对应的第一回报值;
若所述第一反馈信息与所述参考交互目标之间的匹配度小于预设匹配度,则调用所述规则模拟器基于所述第一反馈信息中的关键词,向所述规则智能体输出对应的第二咨询信息;
调用所述规则智能体基于所述第二咨询信息中的关键词,向所述规则模拟器输出对应的第二反馈信息;
将所述第二咨询信息和所述第二反馈信息确定为第二轮交互数据,并基于所述第二反馈信息与所述参考交互目标之间的匹配度,确定所述第二轮交互数据对应的第二回报值;
若所述第二反馈信息与所述参考交互目标之间的匹配度大于预设匹配度,则停止调用所述规则模拟器和所述规则智能体进行交互,并将所述第一轮交互数据、所述第一回报值、所述第二轮交互数据和所述第二回报值添加至第一交互数据集合中。
在一种实现方式中,所述第一交互数据集合中包括至少一轮交互数据,训练模块304,具体用于:
从所述第一交互集合中筛选出N轮交互数据,所述N轮交互数据中每轮交互数据包括所述规则模拟器输出的咨询信息、所述规则智能体输出的反馈信息以及回报值,N为正整数;
基于强化学习的训练方式调用所述N轮交互数据对初始智能体进行迭代训练,以对初始智能体中的参数进行更新;
若参数更新后的初始智能体满足预设条件,则将参数更新后的初始智能体确定为基础智能体,其中,所述预设条件包括与所述规则模拟器进行多轮交互得到的平均回报值高于预设回报值。
在一种实现方式中,训练模块304,具体用于:
基于所述第二交互目标子集调用智能体组合与所述基础模拟器进行至少一次交互;
在所述至少一次交互的第I次交互过程中,获取所述智能体组合中规则智能体对应的第一交互轮数U以及所述基础智能体对应的第二交互轮数V,I、U和V为正整数;
基于所述第二交互目标子集中的U个交互目标,调用所述规则智能体与所述基础模拟器进行交互,得到第一交互数据子集;
基于所述第二交互目标子集中的V个交互目标,调用所述基础智能体与所述基础模拟器进行交互,得到第二交互数据子集;
基于所述第一交互数据子集和所述第二交互数据子集对所述基础模拟器中的参数进行更新;
若参数更新后的基础模拟器不满足第一预设条件,则调整所述智能体组合中规则智能体对应的第一交互轮数以及所述基础智能体对应的第二交互轮数,得到交互轮数更新后的智能体组合,并在第I+1次交互过程中基于所述交互轮数更新后的智能体组合对所述基础模拟器进行交互训练;
若所述参数更新后的基础模拟器满足第一预设条件,则将所述参数更新后的基础模拟器确定为目标模拟器。
在一种实现方式中,训练模块304,具体用于:
基于所述第三交互目标子集调用模拟器组合与所述基础智能体进行多次交互;
在所述多次交互的第J次交互过程中,获取所述模拟器组合中规则模拟器对应的第三交互轮数X以及所述目标模拟器对应的第四交互轮数Y,J、X和Y为正整数;
基于所述第三交互目标子集中的X个交互目标,调用所述规则模拟器与所述基础智能体进行交互,得到第三交互数据子集;
基于所述第三交互目标子集中的Y个交互目标,调用所述目标模拟器与所述基础智能体进行交互,得到第四交互数据子集;
基于所述第三交互数据子集和所述第四交互数据子集对所述基础智能体中的参数进行更新;
若参数更新后的基础智能体不满足第二预设条件,则调整所述模拟器组合中规则模拟器对应的第三交互轮数以及所述目标模拟器对应的第四交互轮数,得到交互轮数更新后的模拟器组合,并在第J+1次交互过程中基于所述交互轮数更新后的模拟器组合对所述基础智能体进行交互训练;
若所述参数更新后的基础智能体满足所述第二预设条件,则将所述参数更新后的基础智能体确定为目标智能体。
在一种实现方式中,训练模块304,还用于:
获取至少一个测试用户与所述目标智能体进行交互得到的第二交互数据集合,所述第二交互数据集合中包括至少一轮交互数据,每轮交互数据包括测试评分、所述测试用户输出的咨询信息和所述目标智能体输出的反馈信息;
基于所述第二交互数据集合对所述目标智能体进行训练,以使得所述目标智能体中的参数进行更新,得到参数更新后的目标智能体;
调用所述参数更新后的目标智能体与目标用户进行交互。
本发明实施例中,获取模块301获取交互目标集合,筛选模块302从所述交互目标集合中筛选出第一交互目标子集,调用模块303基于第一交互目标子集调用规则模拟器和规则智能体进行交互,得到第一交互数据集合,训练模块304基于第一交互数据集合对初始模拟器和初始智能体进行训练,得到基础模拟器和基础智能体,训练模块304基于第二交互目标子集调用规则智能体和基础智能体的组合对基础模拟器进行交互训练,得到目标模拟器,训练模块304基于第三交互目标子集调用规则模拟器和目标模拟器的组合对基础智能体进行交互训练,得到目标智能体。通过实施上述方法,可以基于模拟器组合与智能体交互的形式,对模拟器和智能体进行交替式训练,提升针对智能体的训练效率。
请参见图4,为本发明实施例提供了一种终端的结构示意图。如图4所示,该终端包括:至少一个处理器401,输入设备403,输出设备404,存储器405,至少一个通信总线402。其中,通信总线402用于实现这些组件之间的连接通信。其中,输入设备403可以是控制面板或者麦克风等,输出设备404可以是显示屏等。其中,存储器405可以是高速RAM存储器,也可以是非不稳定的存储器(non-voIatiIe memory),例如至少一个磁盘存储器。存储器405可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以结合图3所描述的装置,存储器405中存储一组程序代码,且处理器401,输入设备403,输出设备404调用存储器405中存储的程序代码,用于执行以下操作:
处理器401,用于获取交互目标集合,并从所述交互目标集合中筛选出第一交互目标子集;
处理器401,用于基于所述第一交互目标子集调用规则模拟器和规则智能体进行交互,得到第一交互数据集合,所述规则模拟器为基于第一预设规则构建的模拟器,所述规则智能体为基于第二预设规则构建的智能体;
处理器401,用于基于所述第一交互数据集合对初始模拟器和初始智能体进行训练,得到基础模拟器和基础智能体,所述初始模拟器为基于第一深度学习算法构建的模拟器,所述初始智能体为基于第二深度学习算法构建的智能体;
处理器401,用于从所述交互目标集合中筛选出第二交互目标子集,并基于所述第二交互目标子集调用智能体组合对所述基础模拟器进行交互训练,以对所述基础模拟器中的参数进行更新,得到目标模拟器,所述智能体组合中包括所述规则模拟器和所述基础模拟器;
处理器401,用于从所述交互目标集合中筛选出第三交互目标子集,并基于所述第三交互目标子集调用模拟器组合对所述基础智能体进行交互训练,以对所述基础智能体中的参数进行更新,得到目标智能体,所述模拟器组合包括所述规则模拟器和所述目标模拟器。
在一种实现方式中,处理器401,具体用于:
获取待训练的初始智能体对应的目标应用场景;
从历史记录中获取所述目标应用场景下的目标交互记录,所述目标交互记录中包括用户与智能体在所述目标应用场景下的交互记录;
从所述目标交互记录中获取至少一个历史交互目标,并从所述交互目标集合中筛选出与各个历史交互目标相匹配的K个交互目标,作为第一交互目标子集,K为正整数。
在一种实现方式中,处理器401,具体用于:
基于参考交互目标确定第一咨询信息,并调用所述规则模拟器将所述第一咨询信息发送至所述规则智能体;
调用所述规则智能体基于所述第一咨询信息中的关键词,向所述规则模拟器输出对应的第一反馈信息;
将所述第一咨询信息和所述第一反馈信息确定为第一轮交互数据,并基于所述第一反馈信息与所述参考交互目标之间的匹配度,确定所述第一轮交互数据对应的第一回报值;
若所述第一反馈信息与所述参考交互目标之间的匹配度小于预设匹配度,则调用所述规则模拟器基于所述第一反馈信息中的关键词,向所述规则智能体输出对应的第二咨询信息;
调用所述规则智能体基于所述第二咨询信息中的关键词,向所述规则模拟器输出对应的第二反馈信息;
将所述第二咨询信息和所述第二反馈信息确定为第二轮交互数据,并基于所述第二反馈信息与所述参考交互目标之间的匹配度,确定所述第二轮交互数据对应的第二回报值;
若所述第二反馈信息与所述参考交互目标之间的匹配度大于预设匹配度,则停止调用所述规则模拟器和所述规则智能体进行交互,并将所述第一轮交互数据、所述第一回报值、所述第二轮交互数据和所述第二回报值添加至第一交互数据集合中。
在一种实现方式中,处理器401,具体用于:
从所述第一交互集合中筛选出N轮交互数据,所述N轮交互数据中每轮交互数据包括所述规则模拟器输出的咨询信息、所述规则智能体输出的反馈信息以及回报值,N为正整数;
基于强化学习的训练方式调用所述N轮交互数据对初始智能体进行迭代训练,以对初始智能体中的参数进行更新;
若参数更新后的初始智能体满足预设条件,则将参数更新后的初始智能体确定为基础智能体,其中,所述预设条件包括与所述规则模拟器进行多轮交互得到的平均回报值高于预设回报值。
在一种实现方式中,处理器401,具体用于:
基于所述第二交互目标子集调用智能体组合与所述基础模拟器进行至少一次交互;
在所述至少一次交互的第I次交互过程中,获取所述智能体组合中规则智能体对应的第一交互轮数U以及所述基础智能体对应的第二交互轮数V,I、U和V为正整数;
基于所述第二交互目标子集中的U个交互目标,调用所述规则智能体与所述基础模拟器进行交互,得到第一交互数据子集;
基于所述第二交互目标子集中的V个交互目标,调用所述基础智能体与所述基础模拟器进行交互,得到第二交互数据子集;
基于所述第一交互数据子集和所述第二交互数据子集对所述基础模拟器中的参数进行更新;
若参数更新后的基础模拟器不满足第一预设条件,则调整所述智能体组合中规则智能体对应的第一交互轮数以及所述基础智能体对应的第二交互轮数,得到交互轮数更新后的智能体组合,并在第I+1次交互过程中基于所述交互轮数更新后的智能体组合对所述基础模拟器进行交互训练;
若所述参数更新后的基础模拟器满足第一预设条件,则将所述参数更新后的基础模拟器确定为目标模拟器。
在一种实现方式中,处理器401,具体用于:
基于所述第三交互目标子集调用模拟器组合与所述基础智能体进行多次交互;
在所述多次交互的第J次交互过程中,获取所述模拟器组合中规则模拟器对应的第三交互轮数X以及所述目标模拟器对应的第四交互轮数Y,J、X和Y为正整数;
基于所述第三交互目标子集中的X个交互目标,调用所述规则模拟器与所述基础智能体进行交互,得到第三交互数据子集;
基于所述第三交互目标子集中的Y个交互目标,调用所述目标模拟器与所述基础智能体进行交互,得到第四交互数据子集;
基于所述第三交互数据子集和所述第四交互数据子集对所述基础智能体中的参数进行更新;
若参数更新后的基础智能体不满足第二预设条件,则调整所述模拟器组合中规则模拟器对应的第三交互轮数以及所述目标模拟器对应的第四交互轮数,得到交互轮数更新后的模拟器组合,并在第J+1次交互过程中基于所述交互轮数更新后的模拟器组合对所述基础智能体进行交互训练;
若所述参数更新后的基础智能体满足所述第二预设条件,则将所述参数更新后的基础智能体确定为目标智能体。
在一种实现方式中,处理器401,具体用于:
获取至少一个测试用户与所述目标智能体进行交互得到的第二交互数据集合,所述第二交互数据集合中包括至少一轮交互数据,每轮交互数据包括测试评分、所述测试用户输出的咨询信息和所述目标智能体输出的反馈信息;
基于所述第二交互数据集合对所述目标智能体进行训练,以使得所述目标智能体中的参数进行更新,得到参数更新后的目标智能体;
调用所述参数更新后的目标智能体与目标用户进行交互。
本发明实施例中,处理器401获取交互目标集合,处理器401从所述交互目标集合中筛选出第一交互目标子集,处理器401基于第一交互目标子集调用规则模拟器和规则智能体进行交互,得到第一交互数据集合,处理器401基于第一交互数据集合对初始模拟器和初始智能体进行训练,得到基础模拟器和基础智能体,处理器401基于第二交互目标子集调用规则智能体和基础智能体的组合对基础模拟器进行交互训练,得到目标模拟器,处理器401基于第三交互目标子集调用规则模拟器和目标模拟器的组合对基础智能体进行交互训练,得到目标智能体。通过实施上述方法,可以基于模拟器组合与智能体交互的形式,对模拟器和智能体进行交替式训练,提升针对智能体的训练效率。
本发明实施例中所述模块,可以通过通用集成电路,例如CPU(CentraIProcessing Unit,中央处理器),或通过ASIC(AppIication Specific IntegratedCircuit,专用集成电路)来实现。
应当理解,在本发明实施例中,所称处理器401可以是中央处理模块(CentraIProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitaISignaI Processor,DSP)、专用集成电路(AppIication Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieId-ProgrammabIe Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
总线402可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互联(PeripheraI Component,PCI)总线或扩展工业标准体系结构(EItendedIndustry Standard Architecture,EISA)总线等,该总线402可以分为地址总线、数据总线、控制总线等,为便于表示,图4仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的计算机存储介质可为磁碟、光盘、只读存储记忆体(Read-OnIy Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种针对智能体的交互式训练方法,其特征在于,所述方法包括:
获取交互目标集合,并从所述交互目标集合中筛选出第一交互目标子集;
基于所述第一交互目标子集调用规则模拟器和规则智能体进行交互,得到第一交互数据集合,所述规则模拟器为基于第一预设规则构建的模拟器,所述规则智能体为基于第二预设规则构建的智能体;所述第一预设规则为基于获取到的关键词输出对应的咨询信息,所述第二预设规则为基于获取到的关键词输出对应的反馈信息;所述交互包括:由规则模拟器向规则智能体输出第一交互目标子集中任一参考交互目标确定的咨询信息,并获取到规则智能体返回的反馈信息,基于返回的反馈信息与规则模拟器继续进行交互,直至交互达成预设目标或交互的轮数达到预设轮数后停止交互,得到至少一轮交互数据;其中,一轮交互数据包括:规则模拟器输出的咨询信息、规则智能体返回的反馈信息和回报值,所述回报值由规则智能体返回的反馈信息与参考交互目标之间的匹配度确定;
基于所述第一交互数据集合对初始模拟器和初始智能体进行训练,得到基础模拟器和基础智能体,所述初始模拟器为基于第一深度学习算法构建的模拟器,所述初始智能体为基于第二深度学习算法构建的智能体;
从所述交互目标集合中筛选出第二交互目标子集,并基于所述第二交互目标子集调用智能体组合对所述基础模拟器进行交互训练,以对所述基础模拟器中的参数进行更新,得到目标模拟器,所述智能体组合中包括所述规则智能体和所述基础智能体;
从所述交互目标集合中筛选出第三交互目标子集,并基于所述第三交互目标子集调用模拟器组合对所述基础智能体进行交互训练,以对所述基础智能体中的参数进行更新,得到目标智能体,所述模拟器组合包括所述规则模拟器和所述目标模拟器。
2.根据权利要求1所述的方法,其特征在于,所述从所述交互目标集合中筛选出第一交互目标子集,包括:
获取待训练的初始智能体对应的目标应用场景;
从历史记录中获取所述目标应用场景下的目标交互记录,所述目标交互记录中包括用户与智能体在所述目标应用场景下的交互记录;
从所述目标交互记录中获取至少一个历史交互目标,并从所述交互目标集合中筛选出与各个历史交互目标相匹配的K个交互目标,作为第一交互目标子集,K为正整数。
3.根据权利要求1所述的方法,其特征在于,所述第一预设规则为基于获取到反馈信息中的关键词输出对应的咨询信息,所述第二预设规则为基于获取到的咨询信息中的关键词输出对应的反馈信息,基于所述第一交互目标子集中任一参考交互目标调用规则模拟器和规则智能体进行交互的方式,包括:
基于参考交互目标确定第一咨询信息,并调用所述规则模拟器将所述第一咨询信息发送至所述规则智能体;
调用所述规则智能体基于所述第一咨询信息中的关键词,向所述规则模拟器输出对应的第一反馈信息;
将所述第一咨询信息和所述第一反馈信息确定为第一轮交互数据,并基于所述第一反馈信息与所述参考交互目标之间的匹配度,确定所述第一轮交互数据对应的第一回报值;
若所述第一反馈信息与所述参考交互目标之间的匹配度小于预设匹配度,则调用所述规则模拟器基于所述第一反馈信息中的关键词,向所述规则智能体输出对应的第二咨询信息;
调用所述规则智能体基于所述第二咨询信息中的关键词,向所述规则模拟器输出对应的第二反馈信息;
将所述第二咨询信息和所述第二反馈信息确定为第二轮交互数据,并基于所述第二反馈信息与所述参考交互目标之间的匹配度,确定所述第二轮交互数据对应的第二回报值;
若所述第二反馈信息与所述参考交互目标之间的匹配度大于预设匹配度,则停止调用所述规则模拟器和所述规则智能体进行交互,并将所述第一轮交互数据、所述第一回报值、所述第二轮交互数据和所述第二回报值添加至第一交互数据集合中。
4.根据权利要求3所述的方法,其特征在于,所述第一交互数据集合中包括至少一轮交互数据,基于所述第一交互数据集合对初始智能体进行训练,得到基础智能体的方式,包括:
从所述第一交互数据集合中筛选出N轮交互数据,所述N轮交互数据中每轮交互数据包括所述规则模拟器输出的咨询信息、所述规则智能体输出的反馈信息以及回报值,N为正整数;
基于强化学习的训练方式调用所述N轮交互数据对初始智能体进行迭代训练,以对初始智能体中的参数进行更新;
若参数更新后的初始智能体满足预设条件,则将参数更新后的初始智能体确定为基础智能体,其中,所述预设条件包括与所述规则模拟器进行多轮交互得到的平均回报值高于预设回报值。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第二交互目标子集调用智能体组合对所述基础模拟器进行交互训练,包括:
基于所述第二交互目标子集调用智能体组合与所述基础模拟器进行至少一次交互;
在所述至少一次交互的第I次交互过程中,获取所述智能体组合中规则智能体对应的第一交互轮数U以及所述基础智能体对应的第二交互轮数V,I、U和V为正整数;
基于所述第二交互目标子集中的U个交互目标,调用所述规则智能体与所述基础模拟器进行交互,得到第一交互数据子集;
基于所述第二交互目标子集中的V个交互目标,调用所述基础智能体与所述基础模拟器进行交互,得到第二交互数据子集;
基于所述第一交互数据子集和所述第二交互数据子集对所述基础模拟器中的参数进行更新;
若参数更新后的基础模拟器不满足第一预设条件,则调整所述智能体组合中规则智能体对应的第一交互轮数以及所述基础智能体对应的第二交互轮数,得到交互轮数更新后的智能体组合,并在第I+1次交互过程中基于所述交互轮数更新后的智能体组合对所述基础模拟器进行交互训练;
若所述参数更新后的基础模拟器满足第一预设条件,则将所述参数更新后的基础模拟器确定为目标模拟器。
6.根据权利要求1所述的方法,其特征在于,所述基于所述第三交互目标子集调用模拟器组合对所述基础智能体进行交互训练,包括:
基于所述第三交互目标子集调用模拟器组合与所述基础智能体进行多次交互;
在所述多次交互的第J次交互过程中,获取所述模拟器组合中规则模拟器对应的第三交互轮数X以及所述目标模拟器对应的第四交互轮数Y,J、X和Y为正整数;
基于所述第三交互目标子集中的X个交互目标,调用所述规则模拟器与所述基础智能体进行交互,得到第三交互数据子集;
基于所述第三交互目标子集中的Y个交互目标,调用所述目标模拟器与所述基础智能体进行交互,得到第四交互数据子集;
基于所述第三交互数据子集和所述第四交互数据子集对所述基础智能体中的参数进行更新;
若参数更新后的基础智能体不满足第二预设条件,则调整所述模拟器组合中规则模拟器对应的第三交互轮数以及所述目标模拟器对应的第四交互轮数,得到交互轮数更新后的模拟器组合,并在第J+1次交互过程中基于所述交互轮数更新后的模拟器组合对所述基础智能体进行交互训练;
若所述参数更新后的基础智能体满足所述第二预设条件,则将所述参数更新后的基础智能体确定为目标智能体。
7.根据权利要求1所述的方法,其特征在于,所述基于所述第三交互目标子集调用模拟器组合对所述基础智能体进行交互训练,以对所述基础智能体中的参数进行更新,得到目标智能体之后,所述方法还包括:
获取至少一个测试用户与所述目标智能体进行交互得到的第二交互数据集合,所述第二交互数据集合中包括至少一轮交互数据,每轮交互数据包括测试评分、所述测试用户输出的咨询信息和所述目标智能体输出的反馈信息;
基于所述第二交互数据集合对所述目标智能体进行训练,以使得所述目标智能体中的参数进行更新,得到参数更新后的目标智能体;
调用所述参数更新后的目标智能体与目标用户进行交互。
8.一种针对智能体的交互式训练装置,其特征在于,所述装置包括:
获取模块,用于获取交互目标集合;
筛选模块,用于从所述交互目标集合中筛选出第一交互目标子集;
调用模块,用于基于所述第一交互目标子集调用规则模拟器和规则智能体进行交互,得到第一交互数据集合,所述规则模拟器为基于第一预设规则构建的模拟器,所述规则智能体为基于第二预设规则构建的智能体;所述第一预设规则为基于获取到的关键词输出对应的咨询信息,所述第二预设规则为基于获取到的关键词输出对应的反馈信息;所述交互包括:由规则模拟器向规则智能体输出第一交互目标子集中任一参考交互目标确定的咨询信息,并获取到规则智能体返回的反馈信息,基于返回的反馈信息与规则模拟器继续进行交互,直至交互达成预设目标或交互的轮数达到预设轮数后停止交互,得到至少一轮交互数据;其中,一轮交互数据包括:规则模拟器输出的咨询信息、规则智能体返回的反馈信息和回报值,所述回报值由规则智能体返回的反馈信息与参考交互目标之间的匹配度确定;
训练模块,用于基于所述第一交互数据集合对初始模拟器和初始智能体进行训练,得到基础模拟器和基础智能体,所述初始模拟器为基于第一深度学习算法构建的模拟器,所述初始智能体为基于第二深度学习算法构建的智能体;
所述筛选模块,还用于从所述交互目标集合中筛选出第二交互目标子集,
所述训练模块,还用于基于所述第二交互目标子集调用智能体组合对所述基础模拟器进行交互训练,以对所述基础模拟器中的参数进行更新,得到目标模拟器,所述智能体组合中包括所述规则智能体和所述基础智能体;
所述筛选模块,还用于从所述交互目标集合中筛选出第三交互目标子集;
所述训练模块,还用于基于所述第三交互目标子集调用模拟器组合对所述基础智能体进行交互训练,以对所述基础智能体中的参数进行更新,得到目标智能体,所述模拟器组合包括所述规则模拟器和所述目标模拟器。
9.一种终端,其特征在于,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,其特征在于,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
CN202110288790.8A 2021-03-18 2021-03-18 针对智能体的交互式训练方法、装置、终端和存储介质 Active CN112836036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110288790.8A CN112836036B (zh) 2021-03-18 2021-03-18 针对智能体的交互式训练方法、装置、终端和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110288790.8A CN112836036B (zh) 2021-03-18 2021-03-18 针对智能体的交互式训练方法、装置、终端和存储介质

Publications (2)

Publication Number Publication Date
CN112836036A CN112836036A (zh) 2021-05-25
CN112836036B true CN112836036B (zh) 2023-09-08

Family

ID=75930225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110288790.8A Active CN112836036B (zh) 2021-03-18 2021-03-18 针对智能体的交互式训练方法、装置、终端和存储介质

Country Status (1)

Country Link
CN (1) CN112836036B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806512B (zh) * 2021-09-30 2024-08-09 中国平安人寿保险股份有限公司 机器人对话模型的训练方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789732A (zh) * 2012-08-08 2012-11-21 四川大学华西医院 用于教学及临床技能培训的经食管超声可视化仿真系统与方法
CN110882542A (zh) * 2019-11-13 2020-03-17 广州多益网络股份有限公司 游戏智能体的训练方法、装置、设备及存储介质
CN111488992A (zh) * 2020-03-03 2020-08-04 中国电子科技集团公司第五十二研究所 一种基于人工智能的模拟器对手加强装置
CN112420125A (zh) * 2020-11-30 2021-02-26 腾讯科技(深圳)有限公司 分子属性预测方法、装置、智能设备和终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789732A (zh) * 2012-08-08 2012-11-21 四川大学华西医院 用于教学及临床技能培训的经食管超声可视化仿真系统与方法
CN110882542A (zh) * 2019-11-13 2020-03-17 广州多益网络股份有限公司 游戏智能体的训练方法、装置、设备及存储介质
CN111488992A (zh) * 2020-03-03 2020-08-04 中国电子科技集团公司第五十二研究所 一种基于人工智能的模拟器对手加强装置
CN112420125A (zh) * 2020-11-30 2021-02-26 腾讯科技(深圳)有限公司 分子属性预测方法、装置、智能设备和终端

Also Published As

Publication number Publication date
CN112836036A (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
WO2022095380A1 (zh) 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN111444952A (zh) 样本识别模型的生成方法、装置、计算机设备和存储介质
CN109215630B (zh) 实时语音识别方法、装置、设备及存储介质
CN111182162A (zh) 基于人工智能的电话质检方法、装置、设备和存储介质
CN109690581A (zh) 用户指导系统及方法
EP3839800A1 (en) Recommending multimedia based on user utterances
CN110689359A (zh) 对模型进行动态更新的方法及装置
CN112836036B (zh) 针对智能体的交互式训练方法、装置、终端和存储介质
CN112995690A (zh) 直播内容品类识别方法、装置、电子设备和可读存储介质
CN112818689B (zh) 一种实体识别方法、模型训练方法及装置
CN113887214B (zh) 基于人工智能的意愿推测方法、及其相关设备
CN115221306A (zh) 自动应答评价方法及装置
CN110610697B (zh) 一种语音识别方法及装置
CN115423600B (zh) 数据筛选方法、装置、介质及电子设备
CN111143529A (zh) 一种与对话机器人进行对话的方法与设备
CN113312445B (zh) 数据处理方法、模型构建方法、分类方法及计算设备
CN117131401A (zh) 对象识别方法、装置、电子设备和存储介质
CN115129863A (zh) 意图识别方法、装置、设备、存储介质和计算机程序产品
CN115334362B (zh) 弹幕问题的处理方法、装置、存储介质、服务设备及系统
CN115795289B (zh) 特征识别方法、装置、电子设备及存储介质
CN116702785B (zh) 关系标签的处理方法和装置、存储介质及电子设备
CN109740671B (zh) 一种图像识别方法及装置
CN114328797B (zh) 内容搜索方法、装置、电子设备、存储介质及程序产品
CN112434136B (zh) 性别分类方法、装置、电子设备以及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant