CN114048299A

CN114048299A - 对话方法、装置、设备、计算机可读存储介质及程序产品

Info

Publication number: CN114048299A
Application number: CN202111393299.8A
Authority: CN
Inventors: 杨海军; 徐倩; 杨强
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-02-15

Abstract

本申请提供一种对话方法、装置、设备、计算机可读存储介质及程序产品，所述方法包括：获取终端发送的对话请求，对话请求携带有对话问题和用户标识；根据用户标识和对话问题，在预先建立的对话知识库中筛选出目标知识子库，目标知识子库用于存储与用户对话的目标对象的参考知识；在目标知识子库中，根据对话问题获取对话视频，对话视频为目标对象答复对话问题的动态画面；将对话视频发送至终端，以在终端上输出对话视频。如此，实现用户与目标对象的视频对话，满足用户个性化的情感需求。

Description

对话方法、装置、设备、计算机可读存储介质及程序产品

技术领域

本申请涉及人工智能技术领域，涉及但不限于一种对话方法、装置、设备、计算机可读存储介质及程序产品。

背景技术

随着人工智能、互联网等技术的不断发展，机器人功能变得日益强大，与此同时，机器人与用户的交流互动方式的需求也变得日益多样。现有技术中，机器人与用户进行交谈时，一般是从离线或在线语料库或聊天数据库中搜索出与用户问题相关的答复，答复内容千篇一律，且不具备感情色彩。

人类都有需要感情慰籍的时候，特别是与亲人间对话，但因为各种各样的原因导致不能和某些想说话的人对话。比如孩子还小的时候父母去世，孩子这辈子都失去了与父母对话的机会；父母在外不在孩子身边，孩子情感无法及时地得到释放；夫妻一方去世，另一方无法缓解思念等。与不具备感情色彩的机器人交流，无法满足用户个性化情感需求。

发明内容

本申请实施例提供一种对话方法、装置、设备、计算机可读存储介质及计算机程序产品，能够实现人机视频对话，满足用户个性化的情感需求。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种对话方法，所述方法包括：

获取终端发送的对话请求，所述对话请求携带有对话问题和用户标识；

根据所述用户标识和所述对话问题，在预先建立的对话知识库中筛选出目标知识子库，所述目标知识子库用于存储与用户对话的目标对象的参考知识；

在所述目标知识子库中，根据所述对话问题获取对话视频，所述对话视频为所述目标对象答复所述对话问题的动态画面；

将所述对话视频发送至所述终端，以在所述终端上输出所述对话视频。

本申请实施例提供一种对话装置，所述装置包括：

第一获取模块，用于获取终端发送的对话请求，所述对话请求携带有对话问题和用户标识；

筛选模块，用于根据所述用户标识和所述对话问题，在预先建立的对话知识库中筛选出目标知识子库，所述目标知识子库用于存储与用户对话的目标对象的参考知识；

第二获取模块，用于在所述目标知识子库中，根据所述对话问题获取对话视频，所述对话视频为所述目标对象答复所述对话问题的动态画面；

发送模块，用于将所述对话视频发送至所述终端，以在所述终端上输出所述对话视频。

本申请实施例提供一种电子设备，所述设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的对话方法。

本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的对话方法。

本申请实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本申请实施例提供的对话方法。

本申请实施例具有以下有益效果：

在本申请实施例提供的对话方法中，用户预与目标对象进行对话时，利用终端输入对话问题，终端将携带有对话问题和用户标识的对话请求发送至服务端；服务端根据用户标识和对话问题，在预先建立的对话知识库中筛选出存储目标对象的参考知识的目标知识子库，在该目标知识子库中，根据对话问题获取该目标对象答复对话问题的对话视频，最后将对话视频发送至终端进行播放，用户观看该对话视频，实现用户与目标对象的视频对话，满足用户个性化的情感需求。

附图说明

图1为本申请实施例提供的对话系统的一种网络架构示意图；

图2是本申请实施例提供的电子设备的一种组成结构示意图；

图3为本申请实施例提供的对话方法的一种实现流程示意图；

图4为本申请实施例提供的对话方法的另一种实现流程示意图；

图5为本申请实施例提供的对话方法的又一种实现流程示意图；

图6为本申请实施例提供的收集情感问题集的示意图；

图7为本申请实施例提供的对话知识库的框架示意图；

图8为本申请实施例提供的情感对话处理流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)智能问答系统，以一问一答形式，精确的定位网站用户所需要的提问知识，通过与网站用户进行交互，为网站用户提供个性化的信息服务。

2)语音合成和语音识别技术是实现人机语音通信，建立一个有听和讲能力的口语系统所必需的两项关键技术。语音识别，指让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术，语音合成，指通过机械的、电子的方法产生人造语音的技术。

3)人脸识别，是基于人的脸部特征信息进行身份识别的一种生物识别技术，用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部识别的一系列相关技术，通常也叫做人像识别、面部识别。

基于上述对本申请实施例中涉及的名词和术语的解释，首先对本申请实施例提供的对话系统进行说明，参见图1，图1是本申请实施例提供的对话系统的一种网络架构示意图，该对话系统包括终端100、服务端200和网络300，其中终端100至少为一个，图1中以1个终端100为例示出。终端100通过网络300连接服务端200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

在一些实施例中，终端100可以是智能手机，车载终端，笔记本电脑，平板电脑，台式计算机，专用消息设备，便携式游戏设备，智能音箱，智能手表等，但并不局限于此。服务端200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。网络300可以是广域网或者局域网，又或者是二者的组合。终端100以及服务端200可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

终端100，用于获取用户标识，接收用户输入的对话问题，根据对话问题和用户标识生成对话请求，将该对话请求发送至服务端200。

服务端200，用于获取终端发送的携带有对话问题和用户标识的对话请求；根据用户标识和对话问题，在预先建立的对话知识库中筛选出目标知识子库，该目标知识子库用于存储与用户对话的目标对象的参考知识；在目标知识子库中，根据对话问题获取对话视频，该对话视频为目标对象答复对话问题的动态画面；将对话视频发送至终端100。

终端100，还用于输出对话视频，用户观看该对话视频，基于人机交互实现与目标对象的视频对话，满足用户个性化的情感需求。

参见图2，图2是本申请实施例提供的电子设备的一种组成结构示意图，在实际应用中，电子设备10可以实施为图1中的终端100或服务端200，以电子设备10为图1所示的服务端200为例，对实施本申请实施例的对话方法的电子设备进行说明。图2所示的电子设备10包括：至少一个处理器110、存储器150、至少一个网络接口120和用户接口130。电子设备10中的各个组件通过总线系统140耦合在一起。可以理解，总线系统140用于实现这些组件之间的连接通信。总线系统140除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统140。

处理器110可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口130包括使得能够呈现媒体内容的一个或多个输出装置131，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口130还包括一个或多个输入装置132，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器150可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器150可选地包括在物理位置上远离处理器110的一个或多个存储设备。

存储器150包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器150旨在包括任意适合类型的存储器。

在一些实施例中，存储器150能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统151，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块152，用于经由一个或多个(有线或无线)网络接口120到达其他计算设备，示例性的网络接口120包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块153，用于经由一个或多个与用户接口130相关联的输出装置131(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块154，用于对一个或多个来自一个或多个输入装置132之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的对话装置可以采用软件方式实现，图2示出了存储在存储器150中的对话装置155，其可以是程序和插件等形式的软件，包括以下软件模块：第一获取模块1551、筛选模块1552、第二获取模块1553和发送模块1554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的对话装置可以采用硬件方式实现，作为示例，本申请实施例提供的对话装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的对话方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Spe cific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件。

下面说明本申请实施例提供的对话方法。在一些实施例中，本申请实施例提供的对话方法可以由图1所示网络架构的终端或服务端单独实施，或者由终端及服务端协同实施，接下来以服务端实施为例，参见图3，图3是本申请实施例提供的对话方法的一种实现流程示意图，将结合图3示出的步骤进行说明。

步骤S301，获取终端发送的对话请求。

现实生活中，用户可能由于距离、时间、去世等各种原因导致无法与想要沟通的特定用户进行沟通交流，本申请实施例为解决该问题给出一种利用机器人模拟目标对象，实现视频对话，弥补现实生活的遗憾，能够对用户心理进行有效的安慰和鼓励。

在实际应用中，用户通过终端访问对话系统，在终端上输入对话问题，终端将该对话问题携带于对话请求中发送至服务端。为了实现有针对性的个性化对话，终端获取用户标识，将该用户标识也携带于对话请求中发送至服务端。

步骤S302，根据用户标识和对话问题，在预先建立的对话知识库中筛选出目标知识子库。

服务端获取到终端发送的对话请求后，对对话请求进行解析，得到该对话请求携带的对话问题和用户标识。然后根据用户标识和对话问题，在预先建立的对话知识库中筛选出目标知识子库。

不同用户的对话问题一般不同，即使相同，其对话的目标对象也是不同的，如用户A和用户B均说“爸爸，您辛苦了”，虽然对话问题相同，但用户A和用户B的“爸爸”不同，得到的答复可能就是不同的。基于此场景，根据用户标识和对话问题，在对话知识库中筛选出与当前用户对话的目标对象对应的目标知识子库。

在实际实现时，可以先根据用户标识在预先建立的对话知识库中筛选出该用户标识对应的对话知识子库，该对话知识子库中包括该用户对话的人物关系(如父母、配偶、子女、朋友等)的知识子库。再根据当前对话的对话问题确定当前对话的人物关系，如用户A输入的对话问题为“爸爸，您辛苦了”可以确定目标对象为用户A的爸爸，在所有人物关系的知识子库中，筛选出目标对象为“爸爸”的知识子库，得到目标知识子库，该目标知识子库用于存储用户A的爸爸的参考知识。

在实际实现时，也可以先根据当前对话的对话问题确定当前对话的人物关系，在预先建立的对话知识库中筛选出该人物关系的对话知识子库；然后再根据用户标识确定出目标知识子库。如先根据“爸爸，您辛苦了”在对话知识库中筛选出所有用户的爸爸的知识子库，再在所有用户的知识子库中，筛选出用户标识为“用户A”的知识子库，得到目标知识子库，该目标知识子库存储的参考知识与上述第一种方法得到的目标知识子库存储的参考知识相同，均是用户A的爸爸的参考知识。

步骤S303，在目标知识子库中，根据对话问题获取对话视频。

本申请实施例中，目标知识子库中，可以存储有目标对象的问题和答复，问题和答复可以为视频、音频、文本以及图像等形式的信息。在该目标对象的目标知识子库中，根据对话问题，确定出对话视频，该对话视频为目标对象答复对话问题的动态画面。该对话视频可以为目标知识子库中原有的视频，也可以为根据目标对象的图像与音频或文本合成的视频。

步骤S304，将对话视频发送至终端，以在终端上输出对话视频。

服务端将对话视频传输至终端，终端在其显示界面上输出该对话视频，用户观看该视频，视频中目标对象答复用户的对话问题，犹如用户与目标对象在面对面对话。本申请实施例通过对话视频使得目标对象生动逼真，使得用户与想对话的人实现实时视频对话，满足用户个性化的情感需求。

本申请实施例提供的对话方法，服务端获取终端发送的对话请求，对话请求携带有对话问题和用户标识；根据用户标识和对话问题，在预先建立的对话知识库中筛选出目标知识子库，目标知识子库用于存储与用户对话的目标对象的参考知识；在目标知识子库中，根据对话问题获取对话视频，对话视频为目标对象答复对话问题的动态画面；将对话视频发送至终端，以在终端上输出对话视频。如此，实现用户与目标对象的视频对话，满足用户个性化的情感需求。

在一种实现方式中，上述步骤S302“根据用户标识和对话问题，在预先建立的对话知识库中筛选出目标知识子库”可以实现为以下步骤：

步骤S302a1，在预先建立的对话知识库中筛选出用户标识对应的对话知识子库。

步骤S302a2，根据对话问题，确定用户与目标对象的人物关系。

该人物关系可以指相对于用户的身份或者社会属性等身份信息。根据该人物关系能够确定出唯一的一个目标对象。在实际应用中，该目标对象可以包括爸爸、妈妈、某个特定身份的朋友、儿子、女儿、妻子、丈夫等等。

步骤S302a3，根据人物关系，在对话知识子库中筛选出目标对象对应的目标知识子库。

根据用户标识在预先建立的对话知识库中筛选出该用户标识对应的对话知识子库，该对话知识子库中包括该用户对话的所有人物关系(如父母、配偶、子女、朋友等)的知识子库。再根据当前对话的对话问题确定当前对话的人物关系，如用户A输入的对话问题为“爸爸，您辛苦了”可以确定目标对象为用户A的爸爸，在所有人物关系的知识子库中，筛选出人物关系为“爸爸”的知识子库，得到目标知识子库，该目标知识子库用于存储用户A的爸爸的参考知识。

在另一种实现方式中，上述步骤S302“根据用户标识和对话问题，在预先建立的对话知识库中筛选出目标知识子库”也可以实现为以下步骤：

步骤S302b1，在预先建立的对话知识库中筛选出用户标识对应的对话知识子库。

步骤S302b2，根据对话问题，确定用户与目标对象的人物关系。

步骤S302b3，根据人物关系，在对话知识子库中筛选出目标对象对应的目标知识子库。

根据当前对话的对话问题确定当前对话的人物关系，在预先建立的对话知识库中筛选出该人物关系的对话知识子库；然后再根据用户标识确定出目标知识子库。如先根据“爸爸，您辛苦了”在对话知识库中筛选出所有用户的爸爸的知识子库，再在所有用户的知识子库中，筛选出用户标识为“用户A”的知识子库，得到目标知识子库，该目标知识子库存储的参考知识与上述第一种方法得到的目标知识子库存储的参考知识相同，均是用户A的爸爸的参考知识。

在一些实施例中，上述步骤S303“在目标知识子库中，根据对话问题获取对话视频”可以实现为以下步骤：

步骤S3031，在目标知识子库包括的参考问题集中，获取与对话问题对应的目标参考问题。

由于用户输入的对话问题可能是以文字、语音或其他输入方式输入的，并且，不同的语义可能表述相同或相近的含义。知识库中存储所有的对话问题显然不实际，在实际应用中，可以根据语义等将相同或相近含义的问题合并，这些相同或相近含义的问题对应同一个答复，能够大大节省存储空间。

获取目标参考问题时，可以对对话问题进行语义分析，得到分析结果，计算该分析结果与目标知识子库包括的参考问题集中每一参考问题的相似度，将相似度最大的参考问题确定为目标参考问题。

步骤S3032，根据目标参考问题获取对话视频。

确定出目标参考问题后，根据该目标参考问题，在目标知识子库包括的参考答复集中，查找答复素材，根据答复素材确定出对话视频。这里的答复素材包括视频、音频和文本中至少一个。

在一些实施例中，当在参考答复集中获取对话视频失败时，服务端还可以从在线语料库或聊天数据库中搜索出与目标参考问题相关的答复。

在一种实现方式中，步骤S3032可以通过以下步骤来实现：

步骤S0321，在目标知识子库包括的参考答复集中，查找与目标参考问题对应的参考视频，得到第一查找结果。

在获取答复素材时，视频优先级大于音频优先级，音频优先级大于文本优先级。首先在参考答复集中查找参考视频，得到第一查找结果。

步骤S0322，判断第一查找结果是否不为空。

当第一查找结果不为空时，表明查找成功，至少存在一个对应于参考问题的参考视频，此时进入步骤S0323；当第一查找结果为空，表明查找失败，目标知识子库中不存在于参考问题对应的参考视频，此时进入步骤S0324，根据目标对象的图像来合成视频。

步骤S0323，将第一查找结果中包括的参考视频确定为对话视频。

该参考视频就是目标对象答复用户的对话问题的对话视频，无需进行其他处理操作。得到对话视频后，进入步骤S304。

步骤S0324，在目标知识子库中，查找目标对象的图像。

这里当在目标知识子库中查找到目标对象的图像时，表明用户预先将对象对话的图像上传至服务端，服务端将其存储到目标知识子库中，此时进入步骤S0325；当在目标知识子库中未查找到目标对象的图像时，表明用户未将目标对象的图像上传至服务端或者服务端存储失败，使得目标知识子库中未存储该目标对象的图像，此时进入步骤S30213。

步骤S0325，在参考答复集中查找与目标参考问题对应的参考音频，得到第二查找结果。

若参考答复集中未查找到参考视频，继续查找与目标参考问题对应的参考音频，得到第二查找结果。

步骤S0326，判断第二查找结果是否不为空。

当第二查找结果不为空时，表明查找成功，至少存在一个对应于参考问题的参考音频，此时进入步骤S0327，根据目标对象的图像和参考音频来合成对话视频；当第二查找结果为空，表明查找失败，目标知识子库中不存在于参考问题对应的参考音频，此时进入步骤S0329，根据目标对象的图像和参考文本来合成视频。

步骤S0327，将第二查找结果中包括的参考音频确定为对话音频。

该参考音频就是目标对象答复用户的对话问题的对话音频。为了使用户不止能够听到亲属声音，还能够看到亲属，本申请实施例中对对话音频和目标对象的图像进行融合处理，以获得对话视频，实现用户与目标对象“面对面”的视频聊天，满足其情感需求。

步骤S0328，将目标对象的图像和对话音频进行融合处理，得到对话视频。

在实现融合时，可以直接将静态的图像与对话音频进行融合处理，也可以结合对话音频的语义、情绪等信息，将静态的图像动态化，使得对话视频更加生动逼真。在一种实现方式中，服务端可以根据对话问题和对话音频，对目标对象的表情进行预估，得到第一表情信息；然后根据第一表情信息和对话音频，对图像中目标对象的面部特征进行调整，得到第一有序动态图像；将第一有序动态图像和对话音频进行合成处理，得到对话视频。例如，若对话音频有“哈哈、开心、高兴”等词，或者语气轻松愉快时，表明目标对象是开心的答复对话问题，确定第一表情信息为开心，可以将图像中嘴角上调，口型根据音频内容开合，合成开心地朗读对话音频的对话视频。得到对话视频后，进入步骤S304。

步骤S0329，在参考答复集中查找与目标参考问题对应的参考文本，得到第三查找结果。

若在参考答复集中未查找到参考音频，继续查找与目标参考问题对应的参考文本，得到第三查找结果。

步骤S03210，判断第三查找结果是否不为空。

当第三查找结果不为空时，表明查找成功，至少存在一个对应于参考问题的参考文本，此时进入步骤S03211，根据目标对象的图像和参考文本来合成对话视频；当第三查找结果为空时，表明查找失败，目标知识子库中不存在参考问题对应的参考文本，此时进入步骤S03213，确定对话视频获取失败。

步骤S03211，将第三查找结果中包括的参考文本确定为对话文本。

该参考文本就是目标对象答复用户的对话问题的对话文本。若只是看对话文本，无法使用户切身体会到目标对象的给予的情感。本申请实施例中对对话文本和目标对象的图像进行融合处理，以获得对话视频，实现用户与目标对象“面对面”的视频聊天，满足其情感需求。

步骤S03212，将目标对象的图像和对话文本进行融合处理，得到对话视频。

在实现融合时，可以直接将静态的图像与对话文本进行融合处理，也可以结合目标对象的音色、说话语气等将对话文本合成为模拟对话音频，再结合语义、情绪等信息，将静态的图像动态化，使得对话视频更加生动逼真。在一种实现方式中，服务端可以根据对话问题和对话文本，对目标对象的表情进行预估，得到第二表情信息；获取目标对象的音频信息，根据音频信息和对话文本，生成模拟对话音频；根据第二表情信息和模拟对话音频，对图像中目标对象的面部特征进行调整，得到第二有序动态图像；将第二有序动态图像和模拟对话音频进行合成处理，得到对话视频。例如，若对话文本有“不开心、呜呜”等词，表明目标对象是伤心的答复对话问题，确定第二表情信息为伤心，可以将图像中嘴角下调，口型根据音频内容开合，合成伤心地朗读对话音频的对话视频。得到对话视频后，进入步骤S304。

步骤S03213，确定对话视频获取失败。

当在参考答复集中未查找到对话问题对应的参考视频、参考音频和参考文本时，确定服务端未成功获取到对话视频，此时可以向终端发送提示信息，以提示用户上传该目标对象的参考知识；可能用户也未保存目标对象的参考知识，此时服务端也可以根据其他数据生成非目标对象的对话视频，以尽可能地满足用户情感需求。

在图3所示实施例的基础上，本申请实施例再提供一种对话方法，图4为本申请实施例提供的对话方法的另一种实现流程示意图，如图4所示，该方法包括以下步骤：

步骤S401，获取终端发送的对话请求。

该对话请求携带有对话问题和用户标识，该用户标识为登录对话系统的用户的标识。

本申请实施例中，步骤S401至步骤S403以及步骤S405，分别与图3所示实施例中的步骤S301至步骤S304一一对应，步骤S401至步骤S403和步骤S405的实现方式，可以参见上述步骤S301至步骤S304的详细说明。

步骤S402，根据用户标识和对话问题，在预先建立的对话知识库中筛选出目标知识子库。

该目标知识子库用于存储与用户对话的目标对象的参考知识。

步骤S403，在目标知识子库中，根据对话问题获取对话视频。

该对话视频为目标对象答复对话问题的动态画面。

步骤S404，判断对话视频是否获取成功。

当管理员或用户预先在目标知识子库中已经上传目标对象的图像以及该目标对象关于对话问题的视频、音频或文本时，能够成功地从目标知识子库中获取到对话视频，此时进入步骤S405；当无法成功地获取到对话视频时，进入步骤S406。

步骤S405，将对话视频发送至终端，以在终端上输出对话视频。

步骤S406，生成对话响应。

该对话响应中携带有提示信息，该提示信息用于提示目标对象的参考知识查找失败。具体的，当目标对象的图像查找失败时，提示用户“请上传目标对象的图像”；当目标参考问题对应的参考文本查找失败时，可以提示用户“请上传目标参考问题对应的参考知识，如参考视频、参考音频或参考文本”等等。

在另一些实施例中，当目标参考问题对应的参考文本查找失败时，可以从在线语料库或聊天数据库中搜索出与目标参考问题相关的答复，无需用户输入文本、音频、视频等信息即可实现自动答复。

步骤S407，将对话响应发送至终端，以使用户根据提示信息上传目标对象的参考知识至服务器。

本申请实施例提供的对话方法，当服务端能够成功地从目标知识子库中获取到对话视频，将其发送至终端输出；当无法成功地获取到对话视频时，可以向终端杆发送对话响应，以便用户根据对话响应携带的提示信息上传目标对象的参考知识，如此实现对对话知识库的更新，以灵活地满足用户更多的个性化的情感需求。

基于前述的实施例，本申请实施例再提供一种对话方法，图5为本申请实施例提供的对话方法的又一种实现流程示意图，应用于图1所示的网络架构，如图5所示，该对话方法包括以下步骤：

步骤S501，终端获取用户标识，并接收用户输入的对话问题。

这里用户标识可以为用户在对话系统上注册时，服务端生成的唯一的身份标识，或者为用户注册时填写的手机号或身份证号等具有唯一性的能够确定用户身份的信息。用户可以打开终端上安装的应用程序(App，Application)，登录账号进入对话系统，选择想要对话的人(如“爸爸”)，进入对话界面，并在对话界面中输入对话问题。该对话问题可以为语音输入(对应的对话问题为音频信息)，可以为文字输入(对应的对话问题为文本信息)，还可以为其他方式的输入，如视频输入(对应的对话问题为视频信息)，当为视频信息时，终端或服务端可以根据视频对用户的身份进行认证，以确保是登录对话系统的用户是用户本人，在认证通过时再进行正常对话，避免非法用户侵入导致用户信息泄露，提高数据的安全性。

步骤S502，终端根据对话问题和用户标识生成对话请求。

该对话请求携带有用户输入的对话问题和用户标识。

步骤S503，终端将对话请求发送至服务端。

步骤S504，服务端根据用户标识和对话问题，在预先建立的对话知识库中筛选出目标知识子库。

该目标知识子库用于存储与用户对话的目标对象的参考知识，该参考知识包括参考视频、参考音频和参考文本中至少一个。在一种实现方式中，该步骤可以实现为：在预先建立的对话知识库中筛选出用户标识对应的对话知识子库；根据对话问题，确定用户与目标对象的人物关系；根据人物关系，在对话知识子库中筛选出目标对象对应的目标知识子库。

步骤S505，服务端在目标知识子库中，根据对话问题获取对话视频。

该对话视频为目标对象答复对话问题的动态画面。

服务端在目标知识子库包括的参考问题集中，获取与对话问题对应的目标参考问题；然后根据目标参考问题获取对话视频。

在获取对话视频时，服务端首先在目标知识子库包括的参考答复集中，查找与目标参考问题对应的参考视频，得到第一查找结果；当第一查找结果不为空时，将第一查找结果中包括的参考视频确定为对话视频。当第一查找结果为空时，在目标知识子库中查找目标对象的图像；在参考答复集中查找与目标参考问题对应的参考音频，得到第二查找结果；当第二查找结果不为空时，将第二查找结果中包括的参考音频确定为对话音频；将目标对象的图像和对话音频进行融合处理得到对话视频。当第二查找结果为空时，在参考答复集中查找与目标参考问题对应的参考文本，得到第三查找结果；当第三查找结果不为空时，将第三查找结果中包括的参考文本确定为对话文本；将目标对象的图像和对话文本进行融合处理得到对话视频。

在一些实施例中，当第三查找结果为空时，生成携带有提示信息的对话响应，该提示信息用于提示目标对象的参考知识查找失败；将对话响应发送至终端，以使用户根据提示信息上传目标对象的参考知识至服务器。

步骤S506，服务端将对话视频发送至终端。

步骤S507，终端输出对话视频。

本申请实施例提供的对话方法，终端获取用户标识，接收用户输入的对话问题，根据对话问题和用户标识生成对话请求，将该对话请求发送至服务端。服务端根据用户标识和对话问题，在预先建立的对话知识库中筛选出目标知识子库，该目标知识子库用于存储与用户对话的目标对象的参考知识；在目标知识子库中，根据对话问题获取对话视频，该对话视频为目标对象答复对话问题的动态画面；然后将对话视频发送至终端。终端接收并输出对话视频，用户观看该对话视频，实现与目标对象的视频对话，满足用户个性化的情感需求。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

随着人工智能、智能硬件等领域的发展，基于语音识别的人机交互方式越来越得到用户的认可。人类都有需要感情慰籍的时候，特别是与亲人间对话，但因为各种各样的原因导致不能和某些想说话的人对话。比如孩子还小的时候父母去世，孩子这辈子都失去了与父母对话的机会；父母在外不在孩子身边，孩子情感无法及时地得到释放；夫妻一方去世，另一方无法缓解思念等。有鉴于人类的此类场景下的情感需求，本申请实施例给出了一种主要针对亲人间的情感视频对话的解决方案。本申请实施例集成了多个智能模块，包括智能问答引擎(支持单轮、多轮对话)、语音合成、语音识别、人脸识别等。

智能问答引擎：对使用者的提问内容进行语义分析，并从知识库中查找到该问题对应的正确答案。支持一问一答的单论对话，以及支持围绕某个主题的多轮交互对话。

语音识别：将用户说话的语音转换为对应的文字，便于对话内容存储，便于智能对话引擎进行语义分析，便于智能质检进行质检项检测。

语音合成：将要传达给用户的文字内容转换为语音播放给用户收听，使对话流程更自然顺畅，提供了场景沉浸式对话体验，进一步模拟现实客服场景，提高培训质量。

人脸识别：通过摄像头抓拍的人脸照片识别出使用者的身份，并将身份返回给系统，用于判断后续对话的处理逻辑。

本申请实施例可通过智能视频对话服务帮助解决某些人群因为各种原因不能沟通交流带来的遗憾，对对话者的心理进行有效的安慰和鼓励。

图6为本申请实施例提供的收集情感问题集的示意图，如图6所示，情感问题集60按找角色对象(即上文人物关系)可以分为：

父对子问题集601、父对女问题集(未示出)、母对子问题集602、母对女问题集(未示出)、夫对妻问题集603、妻对夫问题集(未示出)等等。

比如父对子回答的问题集中可以包括如下问题：

爸爸，我谈恋爱了。

爸爸，我下个月要结婚了。

爸爸，我被老师批评了，很难过。

爸爸，一起玩个游戏吧。

……

情感问题集60的收集方式可以包括两种：产品管理员预置问题集和用户自行编辑上传问题集。

图7为本申请实施例提供的对话知识库的框架示意图。有了情感问题集后，需要针对问题集编辑对应的知识库70，每个知识条包括问题和答案，每个问题包括标准问题、相似问题、问题对应的录音(可选，主要解决方言难以识别问题，便于训练方言模型)；答案包括三种类型：视频、录音、文本，首选视频，因为可以看到亲人的视频带来的震撼、感动最强，其次是录音，然后是文本。知识库70的管理渠道可有两种：一种是定制的终端设备71，这类设备专本做知识的管理、对话等，体验更真实、震撼；一种是手机72上的App或h5，可以登录账号后对知识库进行管理、对话等，体验不如定制终端。

图8为本申请实施例提供的情感对话处理流程示意图。有了知识库70之后就是在智能问答引擎80的协调下，完成亲人间的跨时空的、拟真的情感对话了。首先定制终端71或手机72的App通过人脸识别得到对话者身份或者使用者选择对话者身份，比如父对子、父对女等。然后使用者说出一段话，通过语音识别引擎81将语音转成文字，智能问答引擎80在知识库70中对问题进行检索，如果找寻不到答案则返回默认回复话术(可配置)，如果找到答案则将答案返回。然后如果答案类型是视频则直接在定制终端71或手机72上播放，如果是录音则配上照片和录音一起播放，如果是文字则先根据语音合成引擎82将文字进行语音合成，然后配上照片合成视频。

本申请实施例中，借助机器学习、深度学习、迁移学习、自然语言处理等人工智能技术，编程实现智能化的视频情感对话系统，该系统集成了智能问答引擎、语音识别、语音合成、人脸识别等智能模块。该方案可智能识别使用者的身份，选择适应的对话模式；智能查找合适的答案解答使用者的提问；支持多种答案模式，满足各类回复场景；帮助解决某些人群因为各种原因不能沟通交流带来的遗憾，对人们的心理进行有效的安慰和鼓励。

下面继续说明本申请实施例提供的对话装置的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器150的对话装置155应用于终端，所述对话装置155中的软件模块可以包括：

第一获取模块1551，用于获取终端发送的对话请求，所述对话请求携带有对话问题和所述用户标识；

筛选模块1552，用于根据所述用户标识和所述对话问题，在预先建立的对话知识库中筛选出目标知识子库，所述目标知识子库用于存储与用户对话的目标对象的参考知识；

第二获取模块1553，用于在所述目标知识子库中，根据所述对话问题获取对话视频，所述对话视频为所述目标对象答复所述对话问题的动态画面；

发送模块1554，用于将所述对话视频发送至所述终端，以在所述终端上输出对话视频。

在一些实施例中，所述筛选模块1552，包括：

第一筛选单元，用于在预先建立的对话知识库中筛选出所述用户标识对应的对话知识子库；

确定单元，用于根据所述对话问题，确定所述用户与所述目标对象的人物关系；

第二筛选单元，用于根据所述人物关系，在所述对话知识子库中筛选出所述目标对象对应的目标知识子库。

在一些实施例中，所述第二获取模块1553，包括：

第一获取单元，用于在所述目标知识子库包括的参考问题集中，获取与所述对话问题对应的目标参考问题；

第二获取单元，用于根据所述目标参考问题获取对话视频。

在一些实施例中，所述第二获取单元，还用于：

在所述目标知识子库包括的参考答复集中，查找与所述目标参考问题对应的参考视频，得到第一查找结果；

当所述第一查找结果不为空时，将所述第一查找结果中包括的参考视频确定为对话视频。

在一些实施例中，所述第二获取单元，还用于：

当所述第一查找结果为空时，在所述目标知识子库中，查找所述目标对象的图像；

在所述参考答复集中查找与所述目标参考问题对应的参考音频，得到第二查找结果；

当所述第二查找结果不为空时，将所述第二查找结果中包括的参考音频确定为对话音频；

将所述目标对象的图像和所述对话音频进行融合处理，得到对话视频。

在一些实施例中，所述第二获取单元，还用于：

根据所述对话问题和所述对话音频，对所述目标对象的表情进行预估，得到第一表情信息；

根据所述第一表情信息和所述对话音频，对所述图像中目标对象的面部特征进行调整，得到第一有序动态图像；

将所述第一有序动态图像和所述对话音频进行合成处理，得到对话视频。

在一些实施例中，所述第二获取单元，还用于：

当所述第二查找结果为空时，在所述参考答复集中查找与所述目标参考问题对应的参考文本，得到第三查找结果；

当所述第三查找结果不为空时，将所述第三查找结果中包括的参考文本确定为对话文本；

将所述目标对象的图像和所述对话文本进行融合处理，得到对话视频。

在一些实施例中，所述第二获取单元，还用于：

根据所述对话问题和所述对话文本，对所述目标对象的表情进行预估，得到第二表情信息；

获取所述目标对象的音频信息，根据所述音频信息和所述对话文本，生成模拟对话音频；

根据所述第二表情信息和所述模拟对话音频，对所述图像中目标对象的面部特征进行调整，得到第二有序动态图像；

将所述第二有序动态图像和所述模拟对话音频进行合成处理，得到对话视频。

在一些实施例中，所述对话装置155，还包括：

生成模块，用于当所述第三查找结果为空时，生成对话响应，所述对话响应中携带有提示信息，所述提示信息用于提示所述目标对象的参考知识查找失败；

所述发送模块，还用于将所述对话响应发送至所述终端，以使所述用户根据所述提示信息上传所述目标对象的参考知识至服务器。

这里需要指出的是：以上对话装置实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果。对于本申请对话装置实施例中未披露的技术细节，本领域的技术人员请参照本申请方法实施例的描述而理解。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的对话方法。

本申请实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图3至图5示出的方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种对话方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述用户标识和所述对话问题，在预先建立的对话知识库中筛选出目标知识子库，包括：

在预先建立的对话知识库中筛选出所述用户标识对应的对话知识子库；

根据所述对话问题，确定所述用户与所述目标对象的人物关系；

根据所述人物关系，在所述对话知识子库中筛选出所述目标对象对应的目标知识子库。

3.根据权利要求1所述的方法，其特征在于，所述在所述目标知识子库中，根据所述对话问题获取对话视频，包括：

在所述目标知识子库包括的参考问题集中，获取与所述对话问题对应的目标参考问题；

根据所述目标参考问题获取对话视频。

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标参考问题获取对话视频，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述目标参考问题获取对话视频，还包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述目标对象的图像和所述对话音频进行融合处理，得到对话视频，包括：

7.根据权利要求5所述的方法，其特征在于，所述根据所述目标参考问题获取对话视频，还包括：

8.根据权利要求7所述的方法，其特征在于，所述将所述目标对象的图像和所述对话文本进行融合处理，得到对话视频，包括：

9.根据权利要求7所述的方法，其特征在于，所述方法还包括：

当所述第三查找结果为空时，生成对话响应，所述对话响应中携带有提示信息，所述提示信息用于提示所述目标对象的参考知识查找失败；

将所述对话响应发送至所述终端，以使所述用户根据所述提示信息上传所述目标对象的参考知识至服务器。

10.一种对话装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，所述设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至9任一项所述的对话方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有可执行指令，用于引起处理器执行时，实现权利要求1至9任一项所述的对话方法。

13.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9任一项所述的对话方法。