CN116229977A

CN116229977A - 基于虚拟数字人实现智能化实时交互问答的系统及其处理方法

Info

Publication number: CN116229977A
Application number: CN202211646236.3A
Authority: CN
Inventors: 俞枫; 周素珍; 江慧慧; 唐登龙; 王�琦
Original assignee: Guotai Junan Securities Co Ltd
Current assignee: Guotai Junan Securities Co Ltd
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-06-06

Abstract

本发明涉及一种基于虚拟数字人实现智能化实时交互问答的系统，其中，该系统包括：语音识别模块，用于接收用户输入的语音音频，将相应的音频进行转写处理；前端H5，用于抓取用户的语音音频并将其传输给语音识别模块，并将传输转写/输入后的文本发送给数字人业务中控；数字人服务模块，用于在进行人像渲染的同时进行语音合成处理；智能服务后台，用于利用系统的知识图谱能力解析客户问题，并针对不同的问题以卡片模板的形式展现给客户。本发明还涉及一种相应的方法。采用了本发明的该基于虚拟数字人实现智能化实时交互问答的系统及其方法，为行业树立数字化财富管理服务提供范本，对提升行业智能投顾服务的整体金融科技水平具有良好的示范作用。

Description

基于虚拟数字人实现智能化实时交互问答的系统及其处理方法

技术领域

本发明涉及智能AI技术领域，尤其涉及虚拟数字人技术领域，具体是指一种基于虚拟数字人实现智能化实时交互问答的系统及其处理方法。

背景技术

在人工智能和虚拟现实等技术高速发展的推动下，虚拟数字人在制作和性能等方面得到了巨大的优化，其发展逐渐从简单的外观数字化向深入到行为交互的智能化转变。

目前，用于访谈业务的虚拟数字人的访谈话术需要人工提前进行配置，在与用户的交互过程中，虚拟数字人按照预设的访谈话术与用户进行交流，降低了用户与虚拟数字人交互的灵活性，大大影响了用户的交互体验。

当前的AI虚拟数字人技术、文本解析技术、语音识别技术目前均是人工智能领域较为成熟的技术，关于其典型的应用有软件类智能客服、硬件类智能音箱等等，而结合了数字人技术的应用，目前以元宇宙概念为主，能够做到与数字主播、投资理财问答、金融业务办理等场景相融合，并且实现用户多场景、沉浸式、口语化的投顾咨询实时交互解答的应用是现有技术所缺乏的。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种基于虚拟数字人实现智能化实时交互问答的系统及其处理方法。

为了实现上述目的，本发明的基于虚拟数字人实现智能化实时交互问答的系统及其处理方法如下：

该基于虚拟数字人实现智能化实时交互问答的系统，其主要特点是，所述的系统包括：

语音识别模块，用于接收用户输入的语音音频，将相应的音频进行转写处理，并返回转写的文本；

前端H5，与所述的语音识别模块相连接，用于抓取用户的语音音频并将其传输给所述的语音识别模块，并将传输转写/输入后的文本发送给数字人业务中控，同时接收后台解析的结果，并向用户展示数字人的交互能力；

数字人服务模块，与所述的前端H5相连接，用于在进行人像渲染的同时进行语音合成处理，并对数字人进行综合服务管理，以完成相应的业务功能；以及

智能服务后台，与所述的数字人服务模块相连接，用于利用系统的知识图谱能力解析客户问题，获取客户的真实意图，并针对不同的问题以卡片模板的形式展现给客户，同时支持数字人的实时播报。

较佳地，所述的语音识别模块具体包括：

基础语音识别单元，用于检测用户输入的音频流，并通过基础语音识别模型将语音转写成文字；

端点检测单元，用于对输入的音频流进行分析，确定用户说话的起始和终止的处理过程；

后处理功能单元，用于将识别引擎输出的文本结果以更加符合人类说话习惯的方式展现给调用者。

较佳地，所述的后处理功能单元，具体包括以下功能：

顺滑处理：将识别结果文本中将不合理的语气词进行替换；

标点处理：根据识别结果给文本内容加上标点符号；

数字规整处理：将识别结果中的中文数字更换成合理的阿拉伯数字；

替换列表处理：将识别结果中的某些指定文字替换成列表中映射的文字。

较佳地，所述的数字人服务模块主要包括语音合成处理TTS、人像渲染以及业务服务功能，其中，

所述的语音合成处理TTS设置在CPU2中，用于在进行人像渲染时依赖TTS语音合成技术的输入，生产视频；以及

设置在GPU中的人像渲染集群，所述的人像渲染集群中包括渲染网关、唇动算法以及渲染引擎，其用于负责渲染资源的管理和分配，通过输入渲染指令，使用指定的渲染引擎，并对相应的指令进行解析，并以此实施渲染。

较佳地，所述的业务服务功能设置在CPU1中，其包括业务中控、客服接管平台、业务平台、流媒体服务器以及视频合成服务，且所述的业务服务功能用于：

提供业务中控前端接口，用于数字人与用户之间的交互；

提供业务中控后端接口，用户数字人与智能服务对话机器人之间的交互；

提供后台管理服务，用于管理数字人的人像配置、用户配置、会话配置，并利用相应的画布平台进行流程管理和配置，同时针对不同的业务场景配置不同的业务流程。

较佳地，所述的数字人服务模块中还设置有：

数字人业务中控，其用于完成数字人的业务控制，包括账号校验、RTC信息生成、渲染服务调用，以及提供对外对内的接口；且所述的数字人业务中控还包括进行以下处理：

(a)创建连接

(a1)接收数字人创建请求，建立长连接；

(a2)账号检验；

(a3)生成RTC房间信息；

(a4)向渲染网关发起渲染请求；

(a5)返回RTC信息至调用端；

(b)渲染过程

(b1)调用端通过长连接发送渲染信息；

(b2)接收消息转发至渲染网关驱动渲染。

较佳地，所述的数字人服务模块中还设置有：

数字人管理后台，用于提供业务供登录数字人，并进行连接登录数字人、播放数字人音视频、提供输入框输入DRML驱动数字人的交互，且所述的数字人管理后台还包括进行以下处理：

根据AppID和AppKey登录数字人；配置相应的参数；点击登录；跳转至数字人播报页面。

较佳地，所述的数字人服务模块进行视频合成处理时，具体包括如下处理流程：

通过页面发送请求到管理后台，所述的管理后台调用人像渲染接口发起视频渲染和保存处理，同时调用离线视频服务接口查询视频列表。

较佳地，所述的智能服务后台包括知识图谱、投研中台以及知识库管理，其具体进行以下处理：

基于所述的知识图谱解析进行意图识别，识别用户意图，并判断其为查询型、比较型或者选股策略型；

基于所述的知识图谱进行内容解析，从而实现标签识别，所述的标签识别包括人名、金融实体，概念，属性，日期，关系；

进行条件目标识别，将识别到的意图、标签整合为查询转换条件和目标条件；

基于所述的查询转换条件和目标条件生成查询表达式；

根据所述的查询表达式在查询引擎中进行指标查询、指标计算、实体选择并将结果返回给所述的前端H5；

组合投研结果信息，并以卡片形式展现相应的交互结果。

该利用上述系统实现基于虚拟数字人的智能化实时交互问答的处理方法，其主要特点是，所述的方法包括以下步骤：

(1)客户端将用户输入的语音进行收音，将收集的音频通过所述的语音识别模块进行语音转写成文本；

(2)通过所述的前端H5将转写后的文本转发给所述的数字人服务模块，所述的数字人服务模块通过其前端暴露的流程配置进行数据流转处理，对于直接配置的内容直接返回给所述的前端H5，对于需要进行解析交互的将其转发给所述的智能服务后台；

(3)所述的智能服务后台对接收到的文本进行解析处理，并通过知识库管理、投研中台模板封装以及知识图谱解析依赖关系进行答案拼接，最终将答案返回给系统的画布流转平台；

(4)所述的画布流转平台根据解析的结果，将相应内容分为纯文本和模板两种格式，并将其返回至所述的前端H5处；

(5)所述的前端H5将获取到的内容按照自定义元件进行渲染处理，并返回至所述的客户端处；

(6)所述的客户端根据获取到播报文本，进行播报。

较佳地，所述的步骤(4)中所述的纯文本和模板格式具体进行如下处理：

当解析内容为纯文本时：将文本内容直接返回给所述的前端H5；

当解析内容为模板时：通过自定义元件将模板的链接和播报文本返回给所述的前端H5。

采用了本发明的该基于虚拟数字人实现智能化实时交互问答的系统及其处理方法，通过虚拟数字人技术，整合人脸关键特征的提取、通过人脸重构、唇语识别等多项前沿技术，结合语音、图像等多模态信息进行联合建模训练，生成与真人无异的数字人模型。同时，结合语音识别、文本解析、实体识别、知识图谱等成熟技术成功落地可在手机端进行实时交互的虚拟数字人应用。除此之外，通过结合数字人技术以及元宇宙概念，能够做到与数字主播、投资理财问答、金融业务办理等场景相融合，实现用户多场景、沉浸式、口语化的投顾咨询实时交互解答的应用，相较于现有技术而言，具有较为突出的创新性。

附图说明

图1为本发明的基于虚拟数字人实现智能化实时交互问答的系统的流程图。

图2为本发明的数字人服务模块的结构示意图。

图3为本发明在实际应用当中的数字人大屏展示示意图。

图4为本发明在实际应用当中进行app交互的示意图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

在详细说明根据本发明的实施例前，应该注意到的是，在下文中，术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含，由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素，而且还包含没有明确列出的其他要素，或者为这种过程、方法、物品或者设备所固有的要素。

请参阅图1所示，该基于虚拟数字人实现智能化实时交互问答的系统，其中，所述的系统包括：

作为本发明的优选实施方式，所述的语音识别模块具体包括：

作为本发明的优选实施方式，所述的后处理功能单元，具体包括以下功能：

顺滑处理：将识别结果文本中将不合理的语气词进行替换；

标点处理：根据识别结果给文本内容加上标点符号；

作为本发明的优选实施方式，所述的数字人服务模块主要包括语音合成处理TTS、人像渲染以及业务服务功能，其中，

作为本发明的优选实施方式，所述的业务服务功能设置在CPU1中，其包括业务中控、客服接管平台、业务平台、流媒体服务器以及视频合成服务，且所述的业务服务功能用于：

提供业务中控前端接口，用于数字人与用户之间的交互；

作为本发明的优选实施方式，所述的数字人服务模块中还设置有：

(a)创建连接

(a1)接收数字人创建请求，建立长连接；

(a2)账号检验；

(a3)生成RTC房间信息；

(a4)向渲染网关发起渲染请求；

(a5)返回RTC信息至调用端；

(b)渲染过程

(b1)调用端通过长连接发送渲染信息；

(b2)接收消息转发至渲染网关驱动渲染。

作为本发明的优选实施方式，所述的数字人服务模块进行播放数字人语音和视频的处理时，具体包括如下处理流程：

由登录页登录成功后跳转到播放数字人语音和视频页面；

调用流媒体服务SDK拉取数字人音视频流并播放；

获取播报内容，发送播报消息；

收取字幕消息，显示播报字幕。

作为本发明的优选实施方式，所述的数字人服务模块进行视频合成处理时，具体包括如下处理流程：

作为本发明的优选实施方式，所述的智能服务后台包括知识图谱、投研中台以及知识库管理，其具体进行以下处理：

基于所述的查询转换条件和目标条件生成查询表达式；

组合投研结果信息，并以卡片形式展现相应的交互结果。

(6)所述的客户端根据获取到播报文本，进行播报。

作为本发明的优选实施方式，所述的步骤(4)中所述的纯文本和模板格式具体进行如下处理：

在实际应用当中，本技术方案的该语音识别模块，具体功能如下：

语音识别模块主要是接收用户输入的语音音频，将其进行转写，并返回转写的文本。语音识别主要具备以下功能特性：1)基础语音识别模型：检测用户输入的音频流，通过基础模型将语音转写成文字，该模型识别中文普通话的准确率在标准环境下可以达到90％以上，包含生活、交通、娱乐、科技、数字数值、名人、互联网热词、新闻等领域，基本满足日常业务所需。2)端点检测：端点检测是指对输入的音频流进行分析，确定用户说话的起始和终止的处理过程。一旦检测到用户开始说话，语音开始流向识别引擎，直到检测到用户说话结束。这种方式使识别引擎在用户在说话的同时即开始进行识别处理，减少用户等待时间。3)后处理功能：该功能主要将识别引擎输出的文本结果更加人性化的展现给调用者而做的一个操作，当前主要支持如下：顺滑(Smooth)：将识别结果文本中将一些不合理的语气词替换；标点(Punc)：根据识别结果给文本内容加上标点符号；数字规整(Num)：将识别结果中的中文数字更换成合理的阿拉伯数字；替换列表(Replace)：将识别结果中的某些指定文字替换成列表中映射的文字。

在实际应用当中，本技术方案的该前端H5，具体功能如下：

对用户展示数字人的交互能力，包括抓取用户的语音音频传输给ASR(语音识别模块)、传输转写后(或者输入)的文本给数字人业务中控，接收后台解析的结果展示给用户，包括将合成的视频进行播报等等。

在实际应用当中，本技术方案的该数字人服务模块，具体功能如下：

如图2所示，数字人服务模块主要分TTS、人像渲染、业务服务三个部分：

1、人像渲染集群(GPU)：负责渲染资源的管理和分配，输入渲染指令，使用指定的渲染引擎，对指令进行解析并实施渲染。

2、业务服务(CPU1)：

提供业务中控前端接口，用于数字人与用户(前端ASR)之间的交互；

提供后台管理服务，用于管理数字人的人像配置、用户配置、会话配置等，也可利用该画布平台进行流程管理和配置，针对不同的业务场景配置不同的业务流程。在实际使用中，针对展示舱大屏、VTM机构操作引导台、终端手机数字主播均在此设置了不同的业务流程，满足了不同的业务交互场景。

3、TTS(CPU2)：人像渲染的时候依赖TTS语音合成技术的输入，生产视频。

主要功能分为以下4个：

1、数字人业务中控：完成数字人业务控制：账号校验、RTC信息生成、渲染服务调用等，以及提供对外对内的接口。处理流程如下：

创建连接

1、接收数字人创建请求，建立长连接

2、账号检验

3、生成RTC房间信息

4、向渲染网关发起渲染请求

5、返回RTC信息至调用端

渲染过程

调用端通过长连接发送渲染信息，接收消息转发至渲染网关驱动渲染。

2、数字人管理后台：提供业务供登录数字人，完成交互：连接登录数字人、播放数字人音视频、提供输入框输入DRML驱动数字人。处理流程如下：

根据AppID和AppKey登录数字人

配置各种参数

点击登录

跳转至数字人播报页面

3、视频播报：播放数字人音视频。处理流程如下：

由登录页登录成功后跳转到该页面

调用流媒体服务SDK拉取数字人音视频流并播放

获取播报内容，发送播报消息

收取字幕消息，显示播报字幕

4、视频合成：通过页面发送请求到管理后台，后台调用人像渲染接口发起视频渲染和保存，调用离线视频服务接口查询视频列表。

在实际应用当中，本技术方案的该智能服务后台，具体功能如下：

利用知识图谱能力解析客户问题，解析出客户的真实意图，包括业务知识、投顾服务(选股、诊股、选基、诊基等)，并针对不同的问题调用行情、理财等接口，以卡片模板的形式展现给客户，同时支持数字人的实时播报。

步骤1：基于图谱解析进行意图识别，识别用户意图，是查询型比较型还是直接的选股策略型；

步骤2：基于图谱解析进行标签识别，标签识别包括人名、金融实体，概念，属性，日期，关系等；

步骤3：条件目标识别，将识别到的意图、标签整合为查询转换条件和目标条件；

步骤4：生成查询表达式；

步骤5：根据查询表达式去引擎中进行指标查询、指标计算、实体选择并返回给前端；

步骤6：组合投研结果信息，以卡片形式展现。

作为本发明的优选实施方式，本技术方案利用上述系统实现基于虚拟数字人的智能化实时交互问答的处理方法，步骤具体如下：

第一步：客户端将用户输入的语音进行收音，将收集的音频通过语音识别技术进行语音转写成文本；

第二步：前端H5服务将该文本转发给画布后端服务，该服务通过其前端暴露的流程配置进行数据流转，对于直接配置的内容可直接返回给前端，而对于需要进行解析交互的再将内容转发给智能服务后台；

第三步：智能服务后台对接收到的文本进行解析，通过知识库管理、投研中台模板封装以及知识图谱解析依赖关系等既有技术进行答案的拼接，最终将答案返回给画布流转平台；

第四步：画布平台根据解析的结果，进行分类，分为纯文本和模板两种格式。

1、纯文本：将文本内容直接返回给前端H5；

2、模板：通过自定义元件将模板的链接和播报文本返回给前端H5；

第五步：前端H5将获取到的内容按照自定义元件进行渲染；

第六步：客户端获取到播报文本，并进行播报。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成的，程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一实施例”、“一些实施例”、“示例”、“具体示例”、或“实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于虚拟数字人实现智能化实时交互问答的系统，其特征在于，所述的系统包括：

2.根据权利要求1所述的基于虚拟数字人实现智能化实时交互问答的系统，其特征在于，所述的语音识别模块具体包括：

3.根据权利要求2所述的基于虚拟数字人实现智能化实时交互问答的系统，其特征在于，所述的后处理功能单元，具体包括以下功能：

顺滑处理：将识别结果文本中将不合理的语气词进行替换；

标点处理：根据识别结果给文本内容加上标点符号；

4.根据权利要求2所述的基于虚拟数字人实现智能化实时交互问答的系统，其特征在于，所述的数字人服务模块主要包括语音合成处理TTS、人像渲染以及业务服务功能，其中，

5.根据权利要求4所述的基于虚拟数字人实现智能化实时交互问答的系统，其特征在于，所述的业务服务功能设置在CPU1中，其包括业务中控、客服接管平台、业务平台、流媒体服务器以及视频合成服务，且所述的业务服务功能用于：

提供业务中控前端接口，用于数字人与用户之间的交互；

6.根据权利要求5所述的基于虚拟数字人实现智能化实时交互问答的系统，其特征在于，所述的数字人服务模块中还设置有：

(a)创建连接

(a1)接收数字人创建请求，建立长连接；

(a2)账号检验；

(a3)生成RTC房间信息；

(a4)向渲染网关发起渲染请求；

(a5)返回RTC信息至调用端；

(b)渲染过程

(b1)调用端通过长连接发送渲染信息；

(b2)接收消息转发至渲染网关驱动渲染。

7.根据权利要求5所述的基于虚拟数字人实现智能化实时交互问答的系统，其特征在于，所述的数字人服务模块中还设置有：

8.根据权利要求5所述的基于虚拟数字人实现智能化实时交互问答的系统，其特征在于，所述的数字人服务模块进行播放数字人语音和视频的处理时，具体包括如下处理流程：

由登录页登录成功后跳转到播放数字人语音和视频页面；

调用流媒体服务SDK拉取数字人音视频流并播放；

获取播报内容，发送播报消息；

收取字幕消息，显示播报字幕。

9.根据权利要求5所述的基于虚拟数字人实现智能化实时交互问答的系统，其特征在于，所述的数字人服务模块进行视频合成处理时，具体包括如下处理流程：

10.根据权利要求4至9中任一项所述的基于虚拟数字人实现智能化实时交互问答的系统，其特征在于，所述的智能服务后台包括知识图谱、投研中台以及知识库管理，其具体进行以下处理：

基于所述的查询转换条件和目标条件生成查询表达式；

组合投研结果信息，并以卡片形式展现相应的交互结果。

11.一种利用权利要求10所述的系统实现基于虚拟数字人的智能化实时交互问答的处理方法，其特征在于，所述的方法包括以下步骤：

(6)所述的客户端根据获取到播报文本，进行播报。

12.根据权利要求11所述的实现基于虚拟数字人的智能化实时交互问答的处理方法，其特征在于，所述的步骤(4)中所述的纯文本和模板格式具体进行如下处理：