CN107423809B

CN107423809B - 应用于视频直播平台的虚拟机器人多模态交互方法和系统

Info

Publication number: CN107423809B
Application number: CN201710551230.0A
Authority: CN
Inventors: 黄钊
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Virtual Point Technology Co Ltd
Priority date: 2017-07-07
Filing date: 2017-07-07
Publication date: 2021-02-26
Anticipated expiration: 2037-07-07
Also published as: CN107423809A

Abstract

本发明公开了一种应用于视频直播平台的虚拟机器人多模态交互方法，所述视频直播平台应用接入具备多模态交互能力的虚拟机器人，多模态交互方法包括以下步骤：在预设区域显示具有特定形象的虚拟机器人，进入默认直播辅助模式，实时接收直播间输入的多模态数据和多模态指令；解析所述多模态数据和所述多模态指令，利用所述虚拟机器人的所述多模态交互能力，判别并确定目标直播辅助模式；开启目标直播辅助模式，所述虚拟机器人根据目标直播辅助模式进行多模态交互及展示。本发明利用直播模式转换展示多方式的多模态交互，提高用户兴趣，保持用户粘性，改善用户体验。

Description

应用于视频直播平台的虚拟机器人多模态交互方法和系统

技术领域

本发明涉及互联网直播平台技术领域，尤其涉及一种应用于视频直播平台的虚拟机器人多模态交互方法和系统。

背景技术

随着网络直播行业的发展，用户可以通过在网络直播平台上观看、做活动等方式领取虚拟奖品，并将获得的虚拟奖品赠送给自己喜欢的主播，进行互动，从而培养用户的观看习惯和平台粘性。

然而，在现有的网络直播平台中，监测主播直播状态的系统其尚不完善，并且主播表演方式单一，给用户带来的体验感不佳，因此提高直播平台的智能性，是现在急需解决的重要技术问题。

发明内容

为了解决上述技术问题，本申请的实施例首先提供了一种应用于视频直播平台的虚拟机器人多模态交互方法，所述视频直播平台的应用接入虚拟机器人，所述虚拟机器人具备多模态交互能力，所述多模态交互方法包括以下步骤：多模态信息输入步骤，在预设区域显示具有特定形象的虚拟机器人，进入默认直播辅助模式，实时接收直播间输入的多模态数据和多模态指令；数据处理与模式判别步骤，解析所述多模态数据和/或所述多模态指令，利用所述虚拟机器人的所述多模态交互能力，判别并确定目标直播辅助模式；多模态交互信息输出步骤，开启目标直播辅助模式，所述虚拟机器人根据目标直播辅助模式进行多模态交互及展示。

优选地，所述数据处理与模式判别包括：接收直播过程中的所述多模态数据，提取针对所述虚拟机器人的唤醒数据；进入与所述唤醒数据匹配的其中一种多模态交互模式中，并执行当前多模态交互模式下多模态交互及展示动作。

优选地，所述多模态交互模式包括：对话模式、表演基本模式、与观众交互模式和与其他虚拟机器人交互模式。

优选地，在所述数据处理与模式判别中，进一步，获取主播的针对模式转换设置的所述多模态指令；解析并响应所述模式转换设置，从当前多模态交互模式切换至其他多模态交互模式即目标直播辅助模式。

优选地，所述多模态数据和/或多模态指令包括：文字信息、语音信息、视觉信息、控制命令信息及其组合信息的一种或多种。

另一方面，本申请的实施例提出了一种存储介质，其上存储有可执行以上任一项所述的方法步骤的程序代码。

另一方面，本申请的实施例又提供了一种应用于视频直播平台的虚拟机器人多模态交互系统，所述视频直播平台的应用接入虚拟机器人，所述虚拟机器人具备多模态交互能力，所述多模态交互系统包括以下模块：多模态信息输入模块，在预设区域显示具有特定形象的虚拟机器人，进入默认直播辅助模式，实时接收直播间输入的多模态数据和多模态指令；数据处理与模式判别模块，解析所述多模态数据和所述多模态指令，利用所述虚拟机器人的所述多模态交互能力，判别并确定目标直播辅助模式；多模态交互信息输出模块，开启目标直播辅助模式，所述虚拟机器人根据目标直播辅助模式进行多模态交互及展示。

优选地，在所述数据处理与模式判别模块中，基于所述多模态数据，提取针对所述虚拟机器人的唤醒数据；进入与所述唤醒数据匹配的其中一种多模态交互模式，并执行当前多模态交互模式下多模态交互及展示动作。

优选地，在所述数据处理与模式判别模块中，进一步，获取主播的针对模式转换设置的所述多模态指令；解析并响应所述模式转换设置，从当前多模态交互模式切换至其他多模态交互模式即目标直播辅助模式。

优选地，所述所模态数据和/或所述多模态指令包括：文字信息、语音信息、视觉信息、控制命令信息及其组合信息的一种或多种。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

本发明实施例提供了一种通过虚拟机器人来辅助主播进行直播工作的解决方案，该方案使虚拟机器人根据确定的直播辅助模式来展示多模态交互，能够提高用户的兴趣，保持和用户的粘性，改善了用户体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明的技术方案而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解，并且构成说明书的一部分。其中，表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案，但并不构成对本申请技术方案的限制。

图1为本申请实施例的网络直播平台多模态交互应用场景示意图。

图2a为本申请实施例的网络直播平台多模态交互系统的捧哏模式场景示意图。

图2b为本申请实施例的网络直播平台多模态交互系统的缓冲及表演基本模式场景示意图。

图2c为本申请实施例的网络直播平台多模态交互系统的与观众交互模式场景示意图。

图2d为本申请实施例的网络直播平台多模态交互系统的与另一虚拟机器人连麦模式场景示意图。

图2e为本申请实施例的网络直播平台多模态交互系统的与其他虚拟机器人交互模式场景示意图。

图3为本申请实施例的网络直播平台多模态交互系统的结构示意图。

图4为本申请实施例的网络直播平台多模态交互系统的模式转换图。

图5为本申请实施例的网络直播平台多模态交互系统的模块框图。

图6为本申请实施例的网络直播平台多模态交互系统中侧脸检测模块522的模块框图。

图7为本申请实施例的网络直播平台多模态交互系统中实现侧脸检测功能的流程图。

图8为本申请实施例的网络直播平台多模态交互系统的语音识别模块524的模块框图。

图9为本申请实施例的网络直播平台多模态交互系统中实现语音识别功能的流程图。

图10为本申请实施例的网络直播平台多模态交互系统的模式判别模块523的模块框图。

图11为本申请实施例的网络直播平台多模态交互系统的语义分析模块525的模块框图。

图12为本申请实施例的网络直播平台多模态交互系统中实现语义分析功能的流程图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本申请实施例的网络直播平台多模态交互系统的应用场景示意图。如图1所示，上述系统应用于网络直播平台300中，在该系统应用前，需要在主播设备120上安装直播类应用软件，由主播111打开上述直播软件，主动发起直播任务，进入直播间平台300 进行直播表演。另外，观众用户(211……21n)需要在其用户设备(221……22n)上安装与主播设备121中具有相同名称的直播类应用软件，用户(211……21n)可在其设备 (221……22n)中输入直播间网址，通过互联网进入到直播间平台300中，用户 (211……21n)通过直播间用户显示界面(2211……22n1)观看主播111的直播表演。需要说明的是，本申请针对用户设备(221……22n)和主播设备121的类型也不做具体限定，可以是例如：智能手机、计算机、平板电脑等设备。

进一步说，当主播111打开直播类应用软件，并发起直播命令后，直播类应用软件将直播间主播显示界面1211显示在主播设备121的显示屏上。参考图1，直播间主播显示界面1211具备如下显示区域：实时反馈主播111表演视频画面的主播表演区域；滚动显示观众发送的弹幕信息、观众留言信息以及观众送礼数据的弹幕、观众留言、观众送礼显示区；由主播111发送直播开启、结束、与观众连麦等控制命令(例如：上述控制命令可以以功能按钮的方式实现)的主播主控区；实时反馈虚拟机器人111f表情、语言、动作等状态信息的机器人辅助表演区。另外，当用户(211……21n)进入到主播直播间300 后，用户可以通过直播用户显示界面(2211……22n1)观看到与主播显示界面1211中主播表演区域以及机器人辅助表演区大致相同的表演画面；但直播用户显示界面 (2211……22n1)与直播主播显示界面1211相比，有两点不同之处：其一，直播用户显示界面(2211……22n1)中的弹幕、留言、送礼显示区除了具备直播主播显示界面1211 中弹幕、观众留言、观众送礼显示区功能外，用户(211……21n)还可以在该区域输入留言文本信息；其二，直播用户显示界面(2211……22n1)中的用户控制区包含用户离开直播间的控制按钮。

需要说明的是，本申请的网络直播平台多模态交互系统配置有具备多模态交互能力的虚拟机器人111f，其以动画形象为载体，可以输出文字信息、语音信息、表情动画信息、动作信息等多模态信息。在本申请实施例中，网络直播平台多模态交互系统利用虚拟机器人111f能够实现如下功能：在主播无指令的情况下，虚拟机器人111f可以辅助主播进行表演，并答谢指定的观众用户；可根据主播的不同指令转换为对应的多模态交互模式。虚拟机器人的载入能够在遇到口才不够好的主播或主播疲惫的情况下代替主播与观众互动，并且向观众进行相应的表演，还能够与主播进行对话，保持直播间的访问量及热度，维持直播质量和直播时长。

其中，上述主播指令包含如下操作：主播侧脸朝向虚拟机器人111f、主播说话中叫了虚拟机器人的名字、主播说话中说出“跳舞”，“唱歌”，“讲故事”等关键指令、主播按下与观众交互的按钮、主播按下与其他虚拟机器人交互的按钮。另外，上述多模态交互模式包括如下模式：捧哏模式、对话模式、功能表演基本模式、与观众交互模式、与其他虚拟机器人交互模式。

接下来，针对网络直播平台多模态交互系统中主播指令与虚拟机器人辅助直播模式的匹配与转换以及虚拟机器人是如何实施各模式下的辅助表演过程进行详细说明。

(第一种模式)

在本申请实施例中，若主播正在进行直播表演，并且未发出任何特殊指令时，虚拟机器人处于捧哏模式状态。

图2a为本申请实施例的网络直播平台多模态交互系统的捧哏模式场景示意图，如图 2a所示，在主播间主播显示界面1211中，主播主控区还包括捧哏模式下的情绪命令按钮，例如：激动、欢快、平静、惊讶、悲伤等基本情绪命令；同时，虚拟机器人在捧哏模式下，可以借助其动画形象同时输出对应情绪的包括语音、动作和表情的捧哏多模态信息。需要说明的是，在同种情绪中，每一种模态均具备多种信息内容，虚拟机器人根据多种信息内容随机输出一种动作作为该模态在特定命令情绪下的输出信息。具体地，(一个实施例) 在激动的命令情绪下，虚拟机器人可输出的音频信息包括：“太好了！”、“真不错哦”、“继续呀”等；可输出动作信息包括：转圈、竖大拇指、跳舞等；可输出的表情动作有露牙大笑、仰脖子大笑等，虚拟机器人针对每一个模态的不同信息进行随机选择，并进行如下的捧哏多模态信息匹配输出：旋转的动作和“真不错哦”的语言和露牙大笑的表情信息进行匹配；或者跳舞的动作和“太好了”的语言和仰脖子大笑的表情。(另一个实施例) 在惊讶的命令情绪下，虚拟机器人可输出的音频信息包括：“真的吗”、“我的天啊”、“神马”等；可输出动作信息包括：双手摊开、后退一步、摆手等；可输出的表情动作有嘴型呈竖状椭圆形、瞪大眼睛等，虚拟机器人针对每一个模态的不同信息进行随机选择，并进行如下的捧哏多模态信息匹配输出：双手摊开的动作和“真的吗”的语言和瞪大眼睛的表情信息进行匹配；或者后退一步的动作和“神马”的语言和嘴型呈竖状椭圆性的表情。

另一方面，在直播间主播显示平台界面中的主播主控区还具备捧哏模式下的感谢命令按钮。当主播按下感谢命令按钮时，该系统根据观众送礼数据的统计结果，随机选取若干名送礼人员进行感谢。具体地，当主播发送感谢命令时，系统根据观众送礼情况，统计出“送游艇”的观众用户名称、“送别墅”的观众用户名称等，随机选取三位送礼物观众，虚拟机器人借助其动画形象，输出感谢命令的音频信息，例如：“感谢***的礼物”、“谢谢***的支持”、“感谢***的关注”、“谢谢大家的礼物”等(***处对应匹配送礼观众的用户名称)。

在直播间用户显示界面中，用户不仅能够实时观看主播的表演，还能够看到虚拟机器人穿插显示的动画片段(语音、表情和动作的匹配输出)。

(第二种模式)

在本申请实施例中，若主播在直播表演过程中叫出虚拟机器人的名字，和/或主播侧脸朝向虚拟机器人时，虚拟机器人进入对话模式状态。

图2b为本申请实施例的网络直播平台多模态交互系统的对话模式场景示意图，如图 2b所示，当系统进入到对话模式时，主播间主播显示界面1211和直播间用户显示界面(2211……22n1)从捧哏模式界面切换到对话模式界面。在对话模式界面中，主播110 形象和虚拟机器人的动画形象显示在设备屏幕上，同时二者的对话内容以文本的形式实时滚动显示。

具体地，在本申请实施例中，当主播侧脸朝向虚拟机器人和/或对虚拟机器人说：“图图(“图图”为本申请实施例中主播110辅助直播虚拟机器人的名称)，跟大家打个招呼吧！”此时，系统对话模式命令启动，在一个实施例中，主播和虚拟机器人可以完成如下对话。

虚拟机器人对主播说：“嗨，大家好，我叫图图，是大家的动画主播。”

主播对虚拟机器人说：“我刚才表演的怎么样？”

虚拟机器人对主播说：“特别好！”

主播对虚拟机器人说：“你觉得还有什么地方需要改进吗？”

虚拟机器人对主播说：“要是表情再丰富一些就更好了！”……

在上述对话中，虚拟机器人通过主播的提问能够实时的进行应答对话。需要说明的是，当网络直播平台多模态交互系统在对话模式下，且无应答信息(应答对话文本信息)输出时，虚拟机器人进入对话模式中的缓冲状态。在缓冲状态中，虚拟机器人以其动画形象为信息输出载体，将表情及语音信息显示在直播间显示界面上，填补由于应答响应时间过长导致直播过程出现的时间空白。具体的，例如：虚拟机器人在这一状态中，其输出的表情情绪为非常高兴，输出的语音内容为与观众互动的常用数据。

(第三种模式)

在本申请实施例中，当系统处于对话模式中时，若主播在直播表演过程中对虚拟机器人说出具体的表演形式命令，虚拟机器人进入表演基本模式状态。其中，表演形式命令为包含以下关键词的语句：“唱”、“跳舞”、“讲故事”等。

图2c为本申请实施例的网络直播平台多模态交互系统的表演基本模式场景示意图，如图2c所示，当系统进入到表演基本模式时，主播间主播显示界面1211和直播间用户显示界面(2211……22n1)从对话模式界面切换到表演基本模式界面，系统能够对表演形式命令进行解析，虚拟机器人响应解析出的命令进行相应的表演，其以动画形象为载体，将预先设定并匹配完成的视频流信息(视频流信息包括：语音信息、动作信息等)显示在直播间显示界面上。其中，每种表演形式命令包含多组不同内容的视频流信息。具体地，(一个实施例)在对话模式下，当主播对虚拟机器人说出表演形式命令：“图图，你给大家跳个舞吧！”时，系统解析出主播发起的表演形式命令为跳舞，在关键词为“跳舞”所对应的若干组具有不同内容的数据中随机选出一组数据进行输出，使得虚拟机器人直播间显示界面上呈现出跳舞的状态。(另一个实施例)在对话模式下，当主播对虚拟机器人说出表演形式命令：“图图，你能给大家讲个笑话故事吗？”时，系统解析出主播发起的表演形式命令为讲笑话，在关键词为“讲”&“笑话”所对应的若干组具有不同内容的数据中随机选出一组数据进行输出，使得虚拟机器人直播间显示界面上呈现出讲笑话的状态。需要说明的是，在本申请实施例中，本申请针对表演形式命令的关键词种类以及每个关键词所包含的数据组数、数据内容不作具体限定，本申请实施人员可根据实际需求进行实时的调整。

(第四种模式)

在本申请实施例中，当上述系统处于对话模式下时，若主播在直播表演过程中按下与观众交互控制命令按钮，虚拟机器人进入与观众交互模式状态。

图2d为本申请实施例的网络直播平台多模态交互系统的与观众交互模式场景示意图，如图2d所示，当系统进入到与观众交互模式时，主播间主播显示界面1211和直播间用户显示界面(2211……22n1)从对话模式界面切换到与观众交互模式界面，系统停止采集主播111的直播影像，虚拟机器人随机选取若干个观众留言进行回答，直播间显示界面不仅能够将与观众对话的文字信息滚动显示，还可以利用虚拟机器人的动画形象将观众留言的回复应答语句朗读出来，进行音频与文字的同步输出。当主播按下返回默认模式按钮时，结束与观众交互模式，停止采集连麦观众的视频图像，重新返回捧哏模式。

(第五种模式)

在本申请实施例中，当上述系统处于对话模式下时，若主播在直播表演过程中按下与其他智能机器人交互控制命令按钮，另一虚拟机器人所辅助的主播111a在接收到连麦通知后，按下接受连麦请求按钮，本系统则进入到与其他虚拟机器人交互模式状态。

图2e为本申请实施例的网络直播平台多模态交互系统的与其他虚拟机器人交互模式场景示意图，如图2e所示，在该场景下，虚拟机器人A与虚拟机器人B进行连麦对话。其中，虚拟机器人A是本申请实施例中主播111的辅助直播虚拟机器人，虚拟机器人B 是与主播111连麦的主播111a的辅助直播虚拟机器人。在连麦模式前，用户(211……21n) 通过主播111所属的直播间平台观看到主播111的直播表演，用户(211a……21na)通过主播111a所属的直播间平台观看到主播111a的直播表演，当主播111向主播111a发送与虚拟机器人连麦请求，并且主播111a接收该连麦请求时，该系统进入到与其他虚拟机器人交互模式，直播间主播显示界面(1211和1211a)和直播间用户显示界面 (2211……22n1与211a……21na)，从对话模式界面切换到与其他虚拟机器人交互模式界面，用户(211……21n)与用户(211a……21na)可同时观看到主播111与主播111a 的所属辅助直播虚拟机器人的对话过程。在该模式下，系统停止采集主播111与主播111a 的直播影像，直播间显示界面显示两个虚拟机器人对话的滚动对话文字信息。当主播111 按下返回默认模式按钮时，结束该模式，重新返回捧哏模式。

图3为本申请实施例的网络直播平台多模态交互系统的结构示意图，如图3所示，该网络直播平台多模态交互系统包括如下要素：主播摄像头511、主播麦克风512、主播主控按钮513、直播间平台300、云端服务器400。

下面对该系统的组成要素进行一一说明。主播摄像头511，其实时采集主播111的直播影像；主播麦克风512，其实时采集主播111的直播语音信息；主播主控按钮513，其受主播111的命令控制，发送控制命令信号。进一步说，主播摄像头511、主播麦克风512 和主播主控按钮513分别将采集到的直播影像信息、直播语音信息和控制命令信号传输到直播间平台300主播端的数据采集接口中。需要说明的是，本申请针对主播摄像头的安装位置、主播麦克风的设备形式以及安装位置和控制命令的输出形式(按钮为控制命令输出形式的一个具体示例)均不作具体限定。

参考图3，直播间平台300包括直播类应用主播端和与上述主播端通过互联网通信的直播类应用用户端。直播类应用主播端配置有API接口，该接口具备相应的通信规则与数据传输格式，虚拟机器人1211以功能性插件的形式，通过API接口与直播类应用主播端连接，并安装在直播类应用主播端中。因此，虚拟机器人1211插件需要满足API接口的数据传输规则，才可加载到直播类应用软件(虚拟机器人插件安装在主播设备121中的直播类应用软件中)中，进而通过互联网传输协议分别与云端服务器400和直播类应用用户端进行实时的信息交互。另外，虚拟机器人1211插件需要与直播类应用软件同时运行，以实现虚拟机器人所附加于常用直播间平台的新的辅助直播功能。

云端服务器400，其通过互联网与虚拟机器人1211插件连接，具备海量的存储空间和强大的计算能力，能够对大量的数据进行高效的运算、存储及分析。在本申请实施例中，虚拟机器人1211利用云端服务器400强大的计算和存储能力，使其具备多模态交互能力，例如：输出文字信息、语音信息、视觉信息及其组合信息的一种或多种。

在本申请实施例中，虚拟机器人插件通过特有的动画形象进行多模态数据的输出，当其运行时，能够为常用直播类应用软件增加多模态交互功能，从而构成了本申请中的网络直播平台多模态交互系统。在网络直播平台多模态交互系统运行时，其具备如下功能：其一，其能够接收主播摄像头511发送的主播直播信息、主播麦克风512发送的主播语音信息、主播主控按钮513发送的控制命令信号，还能够通过互联网接收用户发送的用户文字信息、用户送礼数据以及指定连麦对象的视频信息；其二，其通过互联网实现与云端服务器400的信息访问与交互，能够将接收到的大量数据通过云端服务器400进行实时分析与计算处理；其三，其可通过互联网向用户实时反馈虚拟机器人应答的文字信息、语音信息、动画信息以及视频流信息等。进一步说，网络直播平台多模态交互系统在数据处理过程中，还具备如下功能，例如：对主播111的侧脸进行检测、对语音信息进行文字识别、对系统模式进行识别、对语音文字信息(语音信息转换成的对应的文字信息)进行应答文本的输出等。

在本申请实施例中，网络直播平台多模态交互系统具备多种模式，当虚拟机器人1211 插件接入直播类应用软件后，该系统进入视频直播过程，其能够在多种模式之间转换。其中，网络直播平台多模态交互系统包括如下模式：捧哏模式和多模态交互模式。进一步，多模态交互模式包括：对话模式、表演基本模式、与观众交互模式和与其他虚拟机器人交互模式。图4为本申请实施例的网络直播平台多模态交互系统的模式转换图，如图4所示，该模式转换过程满足如下步骤。

首先，在视频直播过程中，在预设区域显示具有特定形象的虚拟机器人，进入默认直播辅助模式，实时接收直播间输入的多模态数据和多模态指令。然后，该系统解析多模态数据和多模态指令，利用虚拟机器人的多模态交互能力，判别并确定目标直播辅助模式。其中，多模态数据和多模态指令具体包含如下信息：直播影像信息、语音信息、控制命令信号、用户文字信息和用户送礼数据。进一步地说，该系统根据接收到直播过程中发送的多模态数据，提取针对虚拟机器人的唤醒数据，进入与唤醒数据匹配的其中一种多模态交互模式中(在本申请实施例中，系统先行进入到对话模式中)，并执行当前多模态交互模式下多模态交互及展示动作；接着，获取主播的针对模式转换设置的多模态指令，对上述多模态指令和多模态数据进行功能解析，并响应模式转换设置，从当前多模态交互模式切换至其他多模态交互模式即目标直播辅助模式。具体地，首先，虚拟机器人对主播是否开启唤醒数据进行判定，若未开启唤醒数据，则系统处于捧哏模式中；若开启唤醒数据，则系统进入到对话模式(其中一种多模态交互模式)中，然后，系统解析多模态指令，并利用多模态数据，从当前对话模式切换至其他多模态交互模式即目标直播辅助模式。其中，唤醒数据是指主播在直播表演过程中叫出虚拟机器人的名字，和/或主播侧脸朝向虚拟机器人；多模态数据及多模态命令包括：文字信息、语音信息、视觉信息及其组合信息的一种或多种；另外，目标直播辅助模式包括跳舞、唱歌、讲故事等在内的表演基本模式、与观众交互模式和与其他虚拟机器人交互模式。

需要说明的是，在视频直播过程中，系统的默认模式为捧哏模式。

需要说明的是，本申请针对多模态数据及指令的实际种类不作具体限定，实施人员可根据实际需求情况对多模态数据及指令的内容进行相应的调整。最后，当新直播辅助模式结束后，系统返回默认模式(捧哏模式)。

图5为本申请实施例的网络直播平台多模态交互系统的模块框图，如图5所示，该系统由下列设备构成：多模态信息输入模块51、数据处理与模式判别模块52和多模态交互信息输出模块53。其中，多模态信息输入模块51，其实时采集并接收直播间输入的针对直播过程中的多模态数据和针对模式转换设置的多模态指令，并对不同功能信息进行功能编码处理，将处理完成的多模态输入数据包转发至云端服务器400；数据处理与模式判别模块52，其接收并解析多模态信息输入模块51发送的多模态输入数据包，根据获取到的唤醒数据和针对模式转换设置的多模态数据及指令，判别并确定目标直播辅助模式，进而调用多模态交互能力对相应模式下的数据进行处理得到针对该直播间的多模态输出数据包，通过互联网将多模态输出数据包发送至多模态交互信息输出模块53；多模态交互信息输出模块53，其开启目标直播辅助模式，虚拟机器人根据当前直播辅助模式进行多模态交互及展示，解析多模态输出数据包，获取并输出目标直播辅助模式下对应的系统输出信息。需要说明的是，数据处理与模式判别模块52模块由云端服务器400执行，其中，云端服务器400具备多模态交互能力，可以实现侧脸检测、语音识别、语义分析等功能。

下面对网络直播平台多模态交互系统的模块构成及功能进行详细说明。首先，对多模态信息输入模块51进行详细说明。如图5所示，该模块由六个采集模块(511～516)和信息转发模块517组成。其中，第一采集模块511，其在直播过程中实时采集主播表演的视频信息，将上述信息从视频格式转换成单帧图像格式，再对帧图像信息进行功能编码(例如，其功能编码为111)，输出包括帧图像功能编码和帧图像数据的图像输入数据包；第二采集模块512，其在直播过程中实时采集主播的语音信息，将主播语音信息进行功能编码(例如，其功能编码为112)，输出包括语音功能编码和语音数据的语音输入数据包；第三采集模块513，其在直播过程中，实时采集主播主控区发送的控制命令信号，将上述控制命令信号进行功能编码(例如，其功能编码为113)，输出包括控制命令信号功能编码和控制命令信号的命令输入数据包；第四采集模块514，其在直播过程中实时采集直播间用户端发送的包括观众留言信息和弹幕信息的文字文本信息，将上述文字文本信息进行功能编码(例如，其功能编码为114)，输出包括文字文本信息功能编码和文本数据的文本输入数据包；第五采集模块515，其在直播过程中实时采集直播间用户端发送的观众送礼信息，其中，观众送礼信息包括礼物代码和送礼用户名称，将上述观众送礼信息进行功能编码(例如，其功能编码为115)，输出包括观众送礼信息功能编码和观众送礼数据的送礼信息输入数据包；第六采集模块516，其通过互联网采集特定连麦者(其他虚拟机器人)的语音信息，将上述视频信息进行功能编码(例如，其功能编码为116)，输出包括特定连麦者语音信息的功能编码和特定连麦者影像信息的连麦者视频信息输入数据包；信息转发模块517，其接收第一～六采集模块的数据包，将同一采集频率接收的六种数据包进行整合，并对整合数据进行数据包的编码，从而得到新的带有数据包编码的采集信息输入数据包。其中，控制命令信号包括与观众交互命令信号(例如，其功能编码为121)、与其他虚拟机器人交互信号(例如，其功能编码为122)以及包括若干种情绪的捧哏情绪命令信号(例如，其功能编码为1231～123n)。

然后，对数据处理与模式判别模块32的组成及功能进行详细说明。参考图5，该模块由数据接收模块521、侧脸检测模块522、语音识别模块524、模式判别模块523、语义分析模块525、朗读模块526、表演基本模式模块527、捧哏模式模块528以及数据发送模块529组成。接下来针对数据处理与模式判别模块32中各个模块的功能及组成逐一进行详细说明。

数据接收模块521，其接收上述信息转发模块517发送的采集信息输入数据包，根据数据包编码和数据功编码将其进行解析，将解析后的数据转换成功能数据包的形式，分发至后续各模块中。其中，采集信息输入数据被转换成具备如下数据标识的功能数据包：数据包编码、数据功能编码、数据信息。具体地，(第一个实施例)当解析出数据功能编码为122时，其对应的与其他虚拟机器人交互信号的数据内容为“1”，将该信息按照上述具备的数据标识进行编码，得到相应的功能数据包并传输至模式判别模块523中；(第二个实施例)当解析出数据功能编码为113时，其对应的数据内容为观众留言的文字文本信息，将该信息按照上述具备的数据标识进行编码，得到相应的功能数据包并传输至模式判别模块523中；(第三个实施例)当解析出数据功能编码为114时，其对应的数据内容为观众送礼信息，将该信息按照上述具备的数据标识进行编码，得到相应的功能数据包并传输至模式判别模块523中；(第四个实施例)当解析出数据功能编码为111时，其对应的数据内容为单帧图像数据，将该信息按照上述具备的数据标识进行编码，得到相应的功能数据包并传输至侧脸检测模块522中。

图6为本申请实施例的网络直播平台多模态交互系统中侧脸检测模块522的模块框图，如图6所示，该模块包括如下单元：图像输入单元5221、侧脸检测单元5222、侧脸信号判定单元5223和数据输出单元5224。其中，图像输入单元5221，其接收并解析上述数据接收模块521发送的数据功能编码为111的功能数据包，获取单帧图像数据；侧脸检测单元5222，其对单帧图像中的人脸侧脸图像进行检测，输出检测结果；侧脸信号判定单元5223，其基于上述侧脸检测结果，输出侧脸信号；数据输出单元5224，其将侧脸信号进行功能编码(例如，其功能编码为222)，并构成新的模式判定数据包。

图7为本申请实施例的网络直播平台多模态交互系统中实现侧脸检测功能的流程图，如图7所示，图像输入单元5221获取到单帧图像数据后，进入到侧脸检测单元5222，在该单元中，采用Adaboost算法检测图像中的侧脸图像，根据预先生成的人脸侧脸级联分类检测器，判定单帧图像中是否存在侧脸图像，进而输出检测结果，并将检测结果传输至侧脸信号判定单元5223。接着侧脸信号判定单元5223基于上述侧脸检测结果，判定侧脸信号数据内容，并输出至数据输出单元5224中，其中，当检测出侧脸图像时，侧脸信号的数据内容为“1”，当未检测出侧脸图像时，侧脸信号的数据内容为“0”。当数据输出单元5224接收到侧脸信号数据后，将针对侧脸检测模块522的数据处理结果进行重新编码，得到新的模式判定数据包，其中，模式判定数据包包含数据包编码、侧脸信号功能编码、侧脸信号数据等数据标识。

进一步说，在侧脸检测单元5223中，人脸侧脸分类检测器的构建，通过人脸数据库，以人脸旋转角度为45°～90°为标记侧脸的旋转范围，对已提取到的人脸特征按照上述旋转范围进行重新计算，从而获取人脸侧脸特征，进而按照Adaboost算法得到侧脸特征分类检测器。

需要说明的是，在本发明实施例中，采用Adaboost算法对直播单帧图像中的侧脸状态进行检测，本申请针对人脸侧脸检测的实施方法不作具体限定，可以使用其他方法进行替代。

图8为本申请实施例的网络直播平台多模态交互系统的语音识别模块524的模块框图，如图8所示，该模块包括如下单元：语音输入单元5241、音频文字转换单元5242、文字匹配单元5243、语音文字输出单元5244。其中，语音输入单元5241，其接收并解析上述数据接收模块521发送的数据功能编码为112的功能数据包，获取语音数据；音频文字转换单元5242，其将上述语音数据转换成与语音数据匹配的语音文字数据；文字匹配单元5243，根据预设的关键词信息，将上述语音文字数据进行匹配，输出关键词代码；语音文字输出单元5244，其将针对语音识别模块524得到的语音文字数据以及关键词代码数据进行功能编码，并构成新的模式判定数据包。

图9为本申请实施例的网络直播平台多模态交互系统中实现语音识别功能的流程图，如图9所示，语音输入单元5241将语音功能数据包解析后，能够获取数据包编码和语音数据，然后将语音数据发送至音频文字转换模块5242中，执行音频文字转换模块5242。在该模块中，需要将音频信息转换成文字信息。

具体地，上述转换过程需要完成如下步骤：1)将语音信号进行首尾静音段切除、分帧等信号预处理；2)利用存储在音频文字转换单元5242中的预先训练完成的声学模型以及语言模型，提取语音输入数据的特征；3)再次利用声学模型及语言模型对单帧语音特征进行匹配；4)利用语义理解数据库，将上述匹配结果进行整合，输出语音识别结果 (语音文本信息)。

当主播语音信息转换成文字信息后，进入到文字匹配单元5243。在该单元中，存储有预先设定的与模式判别相关的关键词数据库，每个关键词对应一个关键词代码，当检测到上述语音文字中出现关键词数据库中的关键词时，输出该关键词对应的代码。其中，关键词数据库可具备如下与模式判别相关的关键词，例如：未出现关键词(例如，其对应代码为212999)、“图图”(主播111辅助直播虚拟机器人的名字，例如，其对应代码为212001)、“图图”&“小灵”(同时包含可相互连麦交互的主播分别对应的辅助直播虚拟机器人的名字，例如，其对应代码为212006)、“唱”(例如，其对应代码为 212021)、“唱”&“五月天”(例如，其对应代码为212025)、“唱”&“孙燕姿” (例如，其对应代码为212027)、“跳”(例如，其对应代码为212201)、“跳”&“芭蕾舞”(例如，其对应代码为212014)、跳&“孔雀舞”、“讲”(例如，其对应代码为212401)、“讲”&“笑话”(例如，其对应代码为212412)、“讲”&“故事”(例如，其对应代码为212420)、“讲”&“童话故事”(例如，其对应代码为212421)、“讲”&“历史故事”(例如，其对应代码为212425)等。

最后，执行语音文字输出单元5244。该单元接收到语音输入单元5241发送的数据包编码、音频文字转换单元5242输出的语音文本数据和文字匹配单元5243发送的关键词代码数据后，先将上述语音文本数据和关键词代码数据进行功能编码(例如，语音文本数据对应的功能编码为211，关键词代码数据对应的功能编码为212)；然后，将针对语音识别模块得到的新的数据进行重新编码，得到新的模式判定数据包，其中，本模块的模式判定数据包包含数据包编码、语音文本功能编码、语音文本数据、关键词代码的功能编码、关键词代码数据等数据标识。

图10为本申请实施例的网络直播平台多模态交互系统的模式判别模块523的模块框图，如图10所示，该模块分为如下单元：数据输入单元5231、模式判别单元5232、数据分类单元5233和数据分类传输单元5234。下面针对模式判别模块523中各个单元进行详细说明。

首先，数据输入单元5231，其能够接收数据接收模块521发送的观众送礼信息功能数据包、观众留言文本信息功能数据包、连麦者语音信息功能数据包以及各种控制命令功能数据包，并将其进行解析提取模式判定中关键依据数据，以及目标辅助直播模式下的预响应数据。其中，控制命令功能数据包具体包括如下命令：与观众交互命令(例如，其功能编码为121)、与其他虚拟机器人交互命令(例如，其功能编码为122)、包含捧哏模式非常高兴命令(例如，其功能编码为1232)和捧哏模式平静命令(例如，其功能编码为1235)等在内的捧哏模式情绪命令以及结束对话模式命令(例如，其功能编码为124)。在具体实施过程中，该模块完成解析后得到如下数据：包括控制命令数据、侧脸信号、关键词代码数据等在内的关键依据数据；观众文本信息；连麦者语音信息；观众送礼信息等。

然后，对模式判别单元5232进行详细说明。该模块根据数据输入单元5231的数据解析结果，分析模式判定中关键依据数据，判定系统目标模式，得到相对应的模式代码，并对该模式代码进行功能编码。具体地，(第一个实施例)当解析出侧脸信号的数据内容为“0”和关键词代码数据为“212999”和/或控制命令信号为功能编码为“12301～12320”时，判定目标模式为捧哏模式状态(例如，捧哏模式的功能编码为2131)；(第二个实施例)当解析出侧脸信号的数据内容为“1”和/或关键词代码数据范围为“212001～212004” (即关键词包含一个虚拟机器人名字)和控制命令信号为功能编码为“120(无控制命令信号)”时，判定目标模式为对话模式状态(例如，对话模式的功能编码为2132)，并锁定对话模式状态；当解析到控制命令信号为功能编码为“121～124(例如，结束对话模式命令的功能编码为124)”和/或关键词代码数据范围为“212021～212900”(包含具体表演内容的关键词)时，解除对话模式锁定状态；(第三个实施例)在当前处于对话模式状态下，解析出关键词代码数据范围为“212021～212900”时，判定目标模式为表演基本模式状态(例如，表演基本模式的功能编码为2133)；(第四个实施例)当解析出控制命令信号为功能编码为“121”时，判定目标模式为与观众交互模式状态(例如，与观众交互模式的功能编码为2134)；(第五个实施例)当解析出控制命令信号为功能编码为“122”和关键词代码数据范围为“212006～212020”(即关键词包含两个虚拟机器人名字)时，判定目标模式为与观众交互模式状态(例如，与观众交互模式的功能编码为 2135)。

在对当前直播模式进行判定后，根据当前模式下所需要的输出数据将数据输入单元 5231解析出的数据进行分类、重新组合等处理，得到目标模式下的预响应数据包，并将当前模式功能编码与当前模式对应的模式预响应数据包发送至数据分类传输单元5234中。具体地，(第一个实施例)当判定模式为捧哏模式时，捧哏模式预响应数据包包括数据包编码、捧哏模式功能编码、捧哏模式情绪命令编码数据、观众送礼信息数据等；(第二个实施例)当判定模式为对话模式时，对话模式预响应数据包包括数据包编码、对话模式功能编码、主播语音文本信息、关键词代码数据等；(第三个实施例)当判定模式为表演基本模式时，表演基本模式预响应数据包包括数据包编码、表演基本模式功能编码、关键词代码数据等；(第四个实施例)当判定模式为与观众交互模式时，与观众交互模式预响应数据包包括数据包编码、与观众交互模式功能编码、与观众交互命令功能编码、关键词代码数据、观众留言文本数据等；(第五个实施例)当判定模式为与其他虚拟机器人交互模式时，与其他虚拟机器人交互模式预响应数据包包括数据包编码、与其他虚拟机器人交互模式功能编码、与其他虚拟机器人交互命令功能编码、关键词代码数据、语音文本功能编码、语音文本数据等。

最后，数据分类传输单元5234，其根据当前模式功能编码数据，将其对应模式下的模式预响应数据包分发至后续模块中。

图11为本申请实施例的网络直播平台多模态交互系统的语义分析模块525的模块框图，如图11所示，该模块具备如下单元：数据输入单元5251、应答数据搜索单元5252、数据文本输出单元5253。其中，数据输入单元5251，其接收并解析模式判别模块523发送的包含语音文本的模式预响应数据包，获取语音文本信息数据；应答数据搜索单元 5252，其基于该单元预设的应答数据库搜索与输入文本对应的应答文本，输出应答文本信息；应答文本数据输出单元5253，将应答文本数据进行功能编码(例如，其功能编码为 217)，并构成新的应答文本响应数据包。

图12为本申请实施例的网络直播平台多模态交互系统中实现语义分析功能的流程图，参考图12，当数据输入单元5251获取到包含语音文字信息的模式与响应数据包后，对其进行解析，提取输入的语音文字信息数据。搜索应答单元5252将语音文字信息数据，通过搜索引擎，利用应答对话数据库资源，查找与输入的搜索文本相对应的应答文本数据。接着，当应答文本数据输出单元5253获得应答文本数据后，将包括数据包编码、模式功能编码数据、命令控制信号编码、应答文本的功能编码、应答文本数据、关键词代码数据等在内的数据进行重新编码，进而得到新的应答文本响应数据包。其中，在应答对话数据库资源构建过程中，先将大量常用对话历史数据和网络语言对话历史数据中的输入输出作为训练数据，生成应答对话文本模型，再利用实际应用过程中的大量的输入文本作为测试数据，从而完成应答对话数据库资源的建立。

再次参考图5，下面针对数据处理与模型判别模块52中的朗读模块526、表演基本模式模块527、捧哏模式模块528和数据发送模块529一一进行详细说明。

其中，朗读模块526，其接收并解析语义分析模块525发送的应答对话响应数据包，提取应答文本信息数据，将应答文本信息数据利用预设的文字朗读数据库转换成音频格式，得到应答语音信息数据。然后，将应答语音信息数据进行功能编码(例如，其功能编码为218)。最后，将包含包数据编码、模式功能编码数据、命令控制信号编码、应答语音数据的功能编码、应答语音信息数据、关键词代码数据等在内的数据进行重新编码，进而得到新的应答语音响应数据包。

然后，表演基本模式模块527，其接收并解析上述模式判别模块523发送的表演基本模式预响应数据包，获取关键词代码数据(“212021～212900”)，利用关键词基本代码在预设的表演基本功能数据库中查找与关键词代码对应的视频流数据，获取表演基本模式视频流数据，并将该数据进行功能编码(例如，其功能编码为215)，最后，将包含包数据编码、表演基本模式功能编码、关键词代码数据、表演基本模式视频流数据的功能编码、表演基本模式视频流数据等在内的数据进行重新编码，进而得到新的表演视频流响应数据包。其中，表演基本数据库是预先设定在表演基本模式模块527中的，其每一个关键词代码都对应若干组相关的表演视频流信息，该模块随机选择一组相关视频流数据输出。具体地，在一个实施例中，若解析出关键词代码数据为“212025”，该代码对应的关键词信息为“唱”&“五月天”，该代码数据对应若干组五月天歌曲的视频流信息，故可随机输出一组。

接着，捧哏模式模块528，其接收并解析上述模式判别模块523发送的捧哏模式预响应数据包，获取捧哏模式情绪命令编码数据(“12301～12320”)、观众送礼信息数据，利用捧哏模式情绪命令编码数据，在预设的捧哏表演数据库中查找情绪命令对应的捧哏多模态信息(在相同情绪下的若干语音信息、若干动作信息、若干表情信息的三态组合匹配数据)，获取捧哏模式多模态数据，并将上述数据进行重新编码(例如，其功能编码为 216)，最终，将包含数据包编码、捧哏模式功能编码、捧哏模式情绪命令编码数据、捧哏模式多模态数据功能编码、捧哏模式多模态数据等在内的数据进行重新编码，进而得到新的捧哏模式多模态响应数据包。其中，捧哏表演数据库是预先设定在捧哏模式模块528 中的，其每一种情绪命令编码都对应若干组捧哏多模态信息，该模块随机选择一组捧哏多模态信息输出。具体地，在一个实施例中，若解析出捧哏模式情绪命令编码数据为“12308”，该命令编码对应的情绪为“感谢”，其中，在捧哏模式感谢情绪命令对应的数据组包括若干语音信息(例如，“感谢***的关注”、“谢谢***的礼物”等)、若干动作信息(例如，表示谢谢的手势，点头)以及若干表情信息(例如，微笑)，该模块可随机选取观众送礼信息并提取观众送礼信息中的用户名称，进行特定用户的感谢，进而将上述三态信息进行随机选择后生成对应的捧哏多模态信息。

最后，再次参考图5，对数据处理与模式判别模块52在内的数据发送模块529进行详细说明。在该模块中，其接收并解析语义分析模块525输出的应答文本响应数据包、朗读模块526输出的应答语音响应数据包、表演基本模式模块527发送的表演视频流响应数据包和捧哏模式模块528发送的捧哏模式多模态响应数据包，获取具有相同数据包编码的响应数据包，并将其进行整合编码，得到包括数据包编码、目标模式功能编码、应答语音数据功能编码、应答语音数据、应答文本数据功能编码、应答文本数据、表演基本模式视频流数据的功能编码、表演基本模式视频流数据、捧哏模式多模态数据功能编码、捧哏模式多模态数据等在内的输出响应数据包，通过互联网将新的输出响应数据包传输至多模态交互信息输出模块53中。

在云端服务器400完成数据处理及模式判别工作后，由多模态交互信息输出模块53 对上述处理结果进行进一步解析与分发，如图5所示，多模态交互信息输出模块53包括如下模块：信息转收模块531、界面输出模块532、视频流输出模块533、语音输出模块 534和文本输出模块535。其中，信息转收模块531，其接收并解析数据处理与模式判别模块52发送的输出响应数据包，根据解析出的目标模式功能编码、应答语音数据功能编码、应答文本数据功能编码、表演基本模式视频流数据的功能编码和捧哏模式多模态数据功能编码，将目标模式功能编码发送至界面输出模块532中；将目标模式功能编码、表演基本模式视频流数据和捧哏模式多模态数据发送至视频流输出模块533；将目标模式功能编码和应答语音数据发送至语音输出模块534中；将目标模式功能编码和应答文本数据发送至文本输出模块535中。界面输出模块532，其根据目标模式的功能编码，将当前直播界面转换成对应模式的目标直播间显示界面。视频流输出模块533，其基于目标模式功能编码(捧哏模式或表演基本模式)，输出对应模式下的表演基本模式视频流数据和捧哏模式多模态数据。语音输出模块534，其基于目标模式功能编码(对话模式或与观众交互模式或与其他辅助机器人交互模式)，输出应答语音数据。文本输出模块535，其基于目标模式功能编码(对话模式或与观众交互模式或与其他辅助机器人交互模式)，输出应答文本数据。

需要说明的是，在视频流输出模块533中，存储有缓冲数据库。当信息转收模块531解析出目标模式为对话模式和应答语音数据及应答文本数据为空时，向视频流输出模块533发送缓冲命令信号，当视频流输出模块533接收到缓冲命令信号后，随机调取缓冲数据库中的预设的若干段视频流信息，并输出。其中，缓存数据库，针对上述缓冲状态预设的视频流数据库，每组视频流数据均具备语音信息、动作信息、表情信息在内的多模态信息。

需要说明的是，在本申请实施例中，针对所有输入输出数据的功能编码仅为本申请的一个具体示例，本申请实施人员根据实际应用情况设计数据功能的区别标识，本发明对此部分内容不做具体限定。

由于本发明的方法描述的是在计算机系统中实现的。该计算机系统例如可以设置在机器人的控制核心处理器中。例如，本文所述的方法可以实现为能以控制逻辑来执行的软件，其由机器人操作系统中的CPU来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。当以这种方式实现时，该计算机程序包括一组指令，当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中，例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种应用于视频直播平台的虚拟机器人多模态交互方法，其特征在于，所述视频直播平台的应用接入虚拟机器人，所述虚拟机器人具备多模态交互能力，所述多模态交互方法包括以下步骤：

多模态信息输入步骤，在预设区域显示具有特定形象的虚拟机器人，进入默认直播辅助模式，实时接收直播间输入的多模态数据和多模态指令；

数据处理与模式判别步骤，解析所述多模态数据和/或所述多模态指令，利用所述虚拟机器人的所述多模态交互能力，判别并确定目标直播辅助模式，其中：

在接收直播过程中的所述多模态数据时，提取针对所述虚拟机器人的唤醒数据，所述唤醒数据是指主播在直播过程中叫出所述虚拟机器人的名字和/或主播侧脸朝向所述虚拟机器人的数据，其中，侧脸检测角度范围为45°～90°；

进入与所述唤醒数据匹配的基于应答对话数据库搜索下的对话交互模式中，并执行当前多模态交互模式下多模态交互及展示动作；

获取主播的针对模式转换设置的所述多模态指令；

解析并响应所述模式转换设置，从当前对话交互模式切换至所述目标直播辅助模式，所述目标直播辅助模式包括表演基本模式、与观众交互模式和与其他虚拟机器人交互模式，其中，在对话交互模式下，若获取到表演形式命令则虚拟机器人进入到表演基本模式，若获取到与观众交互控制命令则虚拟机器人进入到与观众交互模式，若获取到与其他智能机器人交互控制命令则虚拟机器人进入到与其他虚拟机器人交互模式，若无应答信息输出则虚拟机器人进入对话模式中的缓冲状态以填补由于应答响应时间过长导致直播过程出现时间空白；

多模态交互信息输出步骤，开启目标直播辅助模式，所述虚拟机器人根据目标直播辅助模式进行多模态交互及展示。

2.根据权利要求1所述的方法，其特征在于，

所述多模态数据和/或多模态指令包括：文字信息、语音信息、视觉信息、控制命令信息及其组合信息的一种或多种。

3.一种存储介质，其上存储有可执行如权利要求1或2所述的方法步骤的程序代码。

4.一种应用于视频直播平台的虚拟机器人多模态交互系统，其特征在于，所述视频直播平台的应用接入虚拟机器人，所述虚拟机器人具备多模态交互能力，所述多模态交互系统包括以下模块：

多模态信息输入模块，在预设区域显示具有特定形象的虚拟机器人，进入默认直播辅助模式，实时接收直播间输入的多模态数据和多模态指令；

数据处理与模式判别模块，解析所述多模态数据和所述多模态指令，利用所述虚拟机器人的所述多模态交互能力，判别并确定目标直播辅助模式，其中，

进入与所述唤醒数据匹配的基于应答对话数据库搜索下的对话交互模式，并执行当前多模态交互模式下多模态交互及展示动作；

获取主播的针对模式转换设置的所述多模态指令；

解析并响应所述模式转换设置，从当前多模态交互模式切换至所述目标直播辅助模式，所述目标直播辅助模式包括表演基本模式、与观众交互模式和与其他虚拟机器人交互模式，其中，在对话交互模式下，若获取到表演形式命令则虚拟机器人进入到表演基本模式，若获取到与观众交互控制命令则虚拟机器人进入到与观众交互模式，若获取到与其他智能机器人交互控制命令则虚拟机器人进入到与其他虚拟机器人交互模式，若无应答信息输出则虚拟机器人进入对话模式中的缓冲状态以填补由于应答响应时间过长导致直播过程出现时间空白；

多模态交互信息输出模块，开启目标直播辅助模式，所述虚拟机器人根据目标直播辅助模式进行多模态交互及展示。

5.根据权利要求4所述的系统，其特征在于，

所述多模态数据和/或所述多模态指令包括：文字信息、语音信息、视觉信息、控制命令信息及其组合信息的一种或多种。