CN114422743A

CN114422743A - 视频流显示方法、装置、计算机设备和存储介质

Info

Publication number: CN114422743A
Application number: CN202111583153.XA
Authority: CN
Inventors: 余力丛; 于勇
Original assignee: Huizhou Shiwei New Technology Co Ltd
Current assignee: Huizhou Shiwei New Technology Co Ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-04-29

Abstract

本申请实施例公开了视频流显示方法、装置、计算机设备和存储介质；本申请实施例获取当前场景的多路视频流以及声源位置，每个所述视频流对应的一个图像采集区域；根据所述声源位置以及所述图像采集区域，从所述多路视频流中确定目标视频流；根据所述目标视频流，识别目标对象，所述目标对象为有嘴唇动作的对象；根据对所述目标对象的识别结果，从所述多路视频流中确定待显示的视频流；显示所述待显示的视频流对应的画面。在本申请实施例中通过声源位置确定用来识别发言人的目标视频流，可以提高识别发言人的效率，同时根据识别结果确定待显示的视频流，可以使显示的画面聚焦在发言人身上，呈现更好的会议画面。

Description

视频流显示方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，具体涉及视频流显示方法、装置、计算机设备和存储介质。

背景技术

随着视频技术的发展，越来越多的场合会通过摄像头实时采集现场画面并进行播放。但是在多人参与的场景中，摄像头捕捉的画面通常都无法凸显当前场景中的重点。

尤其是在多人会议的场景，会议进程中常会有多个不同的发言人，如何使显示的画面聚焦在发言人身上，呈现更好的会议画面，是当前亟需解决的问题。

发明内容

本申请实施例提供视频流显示方法、装置、计算机设备和存储介质，可以使显示的画面聚焦在发言人身上，呈现更好的会议画面。

本申请实施例提供一种视频流显示方法，包括：获取当前场景的多路视频流以及声源位置，每个所述视频流对应的一个图像采集区域；根据所述声源位置以及所述图像采集区域，从所述多路视频流中确定目标视频流；根据所述目标视频流，识别目标对象，所述目标对象为有嘴唇动作的对象；根据对所述目标对象的识别结果，从所述多路视频流中确定待显示的视频流；显示所述待显示的视频流对应的画面。

本申请实施例还提供一种视频流显示装置，包括：获取单元，用于获取当前场景的多路视频流以及声源位置，每个所述视频流对应的一个图像采集区域；第一确定单元，用于根据所述声源位置以及所述图像采集区域，从所述多路视频流中确定目标视频流；识别单元，用于根据所述目标视频流，识别目标对象，所述目标对象为有嘴唇动作的对象；第二确定单元，用于根据对所述目标对象的识别结果，从所述多路视频流中确定待显示的视频流；显示单元，用于显示所述待显示的视频流对应的画面。

本申请实施例还提供一种计算机设备，包括存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行本申请实施例所提供的任一种视频流显示方法中的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例所提供的任一种视频流显示方法中的步骤。

本申请实施例可以获取当前场景的多路视频流以及声源位置，每个所述视频流对应的一个图像采集区域；根据所述声源位置以及所述图像采集区域，从所述多路视频流中确定目标视频流；根据所述目标视频流，识别目标对象，所述目标对象为有嘴唇动作的对象；根据对所述目标对象的识别结果，从所述多路视频流中确定待显示的视频流；显示所述待显示的视频流对应的画面。在本申请中通过声源位置确定用来识别发言人的目标视频流，可以提高识别发言人的效率，同时根据识别结果确定待显示的视频流，可以使显示的画面聚焦在发言人身上，呈现更好的会议画面。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的视频流显示系统的场景示意图；

图2是本申请实施例提供的视频流显示方法的流程示意图；

图3是本申请实施例提供的视频流显示系统的结构示意图；

图4是本申请实施例提供的数据处理模块的流程示意图；

图5是本申请另一个实施例提供的视频流显示方法的流程示意图；

图6是本申请实施例提供的视频流显示装置的结构示意图；

图7是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供视频流显示方法、装置、计算机设备和存储介质。

其中，该视频流显示装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer，PC)等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

在一些实施例中，该视频流显示装置还可以集成在多个电子设备中，比如，视频流显示装置可以集成在多个服务器中，由多个服务器来实现本申请的视频流显示方法。

在一些实施例中，服务器也可以以终端的形式来实现。

例如，参考图1，在一些实施方式中，提供了一种视频流显示系统的场景示意图，该图像渲染系统可以包括显示数据采集模块1000、服务器2000以及终端3000。

其中，数据采集模块可以获取当前场景的多路视频流以及声源位置，每个视频流对应的一个图像采集区域。

其中，服务器可以根据声源位置以及图像采集区域，从多路视频流中确定目标视频流；根据目标视频流，识别目标对象，目标对象为有嘴唇动作的对象；根据对目标对象的识别结果，从多路视频流中确定待显示的视频流。

其中，终端可以显示待显示的视频流对应的画面。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

在本实施例中，提供了一种基于视频流显示方法，如图2所示，该视频流显示方法的具体流程可以如下：

110、获取当前场景的多路视频流以及声源位置，每个视频流对应的一个图像采集区域。

其中，声源位置是指当前场景中声音发出的位置，例如在会议场景中可以为讲话声发出的位置。可以通过在当前场景中设置麦克风阵列采集声音，并根据声源定位算法计算声源位置。

在一些实施方式中，多路视频流包括一路全景视频流以及至少一路近景视频流。图像采集区域是指视频流对应的图像采集装置能采集的图像对应当前场景的区域范围。其中，全景视频流是指包含当前场景全景画面的视频流，其对应的图像采集区域即为当前场景全景，可以由具有广角镜头的摄像头采集，近景视频流是指包含当前场景局部场景的视频流，其对应的图像采集区域即为当前场景的局部场景，可以由具有长焦镜头的摄像头采集。

在一些实施方式中，声源位置的获取方法，可以包括步骤1.1～1.2，如下：

1.1、采集当前场景的声音信息；

1.2、通过声源定位算法处理采集到的声音信息，得到声源位置。

其中，声源定位算法可以采用TDOA(Time Difference of Arrival，到达时间差)、GCC-PHAT(Generalized Cross Correlation PHAse Transformation，广义互相关-相位变换方法)，等等。

120、根据声源位置以及图像采集区域，从多路视频流中确定目标视频流。

其中，目标视频流是根据声源位置以及图像采集区域关联关系确定的视频流。关联关系可以为声源位置位于图像采集区域内，也可以为声源位置与图像采集区域中心距离小于预设的距离。

在一些实施方式中，步骤120可以包括步骤：根据声源位置以及图像采集区域关联关系，从多个多路视频流对应的采集区域中确定目标图像采集区域，将目标图像采集区域对应的视频流确定为目标视频流。

在一些实施方式中，由于反射、噪声等干扰，通过声源定位确定的声源位置可能会有误差，因此通过声源位置确定声源存在的可能区域，以此来确定与该区域对应的目标视频流，增加获取的图像信息的准确性，具体地，步骤120可以包括步骤2.1～2.4，如下：

2.1、根据声源位置确定声源区域；

2.2、针对每个视频流，确定声源区域以及图像采集区域的重叠区域；

2.3、将满足预设的第一区域大小的重叠区域确定为目标区域；

2.4、将目标区域对应的视频流确定为目标视频流。

其中，声源区域是指声源位置所在的区域，该区域与图像采集区域位于同一平面。声源区域可以根据声源位置以及预设的区域参数值确定，预设的区域参数值可以根据当前场景或经验设置，例如将以声源位置为圆心，预设的半径值为半径的圆形区域作为声源区域，等等。

在一些实施方式中，步骤2.1可以包括步骤：获取基准点；将基准点作为顶点，基准点以及声源位置的连线作为角平分线，确定一满足预设第一角度的夹角；将该夹角在当前场景对应的区域确定为声源区域。其中，基准点可以为当前场景中的任意一个边界点。在一些实施方式中，基准点可以为采集当前场景的声音信息的位置点，例如，根据用于测量声源位置的麦克风阵列确定的点，该点可以为麦克风阵列上的任意一个位置点，也可以为中点。需说明的是，基准点、声源位置、图像采集区域、声源区域以及目标区域都处在同一平面上，可以为水平面，例如声源位置为通过声源定位算法计算得到的真实声源位置投影到水平面上的位置点。

其中，预设的第一区域大小是根据当前场景或经验设置的区域的尺寸条件。可以为具体的值，例如为大于等于任意一个视频流对应的图像采集区域大小的三分之一，也可以为大于等于根据声源区域确定的区域尺寸，例如大于等于声源区域尺寸的二分之一。

在一些实施方式中，步骤2.3可以包括步骤：将声源区域大小相同的重叠区域确定为目标区域。

130、根据目标视频流，识别目标对象，目标对象为有嘴唇动作的对象。

其中，目标对象是指从目标视频流的图像信息中识别出的有嘴唇动作的对象。一般而言，有嘴唇动作的人是正在讲话，因此可以作为当前场景的发言人。嘴唇动作可以为根据现有技术中确定的人说话时的嘴唇动作。

由于不同视频流对应的图像采集区域不同，通过声源位置确定用来识别发言人的目标视频流，可以减少识别数据量，提高识别发言人的效率。

在一些实施方式中，由于反射、噪声等干扰，通过声源定位确定的声源位置可能会有误差，因此通过声源位置确定用来识别发言人的区域，以此来确定与该区域对应的目标视频流，增加获取的图像信息的准确性，步骤130可以包括步骤3.1～3.3，如下：

3.1、根据声源位置确定识别区域；

3.2、根据识别区域，从目标视频流获取目标图像信息，目标图像信息为识别区域对应的图像信息；

3.3、根据目标图像信息，识别目标对象。

其中，识别区域是指根据声源位置确定的用来识别目标对象的区域，该区域与图像采集区域位于同一平面。声源位置位于识别区域内，识别区域可以根据声源位置以及预设的区域参数值确定，预设的区域参数值可以根据当前场景或经验设置，例如将以声源位置为圆心，预设的半径值为半径的圆形区域作为识别区域，等等。识别区域也可以为声源区域。

在一些实施方式中，步骤3.1可以包括步骤：获取基准点；将基准点作为顶点，基准点以及声源位置的连线作为角平分线，确定一满足预设第二角度的夹角；将该夹角在当前场景对应的区域确定为识别区域。

其中，目标图像信息是指识别区域投影到目标视频流采集的画面的区域内的图像信息。具体地，可以通过获取识别区域的坐标位置，将该坐标位置投影到目标视频流采集的画面所在的坐标系中，以得到投影后的区域，将该区域内的图像信息作为目标图像信息。

通过声源位置确定可能包含目标对象的识别区域，并通过识别区域从目标视频流中获取识别区域对应的图像信息，再从该图像信息中识别是否有目标对象。

在一些实施方式中，为了提高识别效率，步骤3.3可以包括步骤3.3.1～3.3.2，如下：

3.3.1、当从目标图像信息中识别到有嘴唇动作的对象时，将有嘴唇动作的对象作为目标对象；

3.3.2、当从目标图像信息中未识别到有嘴唇动作的对象时，扩大识别区域至预设的第二区域大小，以识别目标对象。

例如，先设置识别区域为夹角为30°的扇形区域，当在该区域内没有识别到目标对象时，将识别区域扩大为夹角为40°的扇形区域，再次进行识别，当在该区域内没有识别到目标对象时，将识别区域扩大为夹角为50°的扇形区域，以此类推，直至识别到目标对象或者识别区域扩大到上限值。

由于通过声源定位确定的声源位置可能会有误差，在进行嘴唇动作识别的时，预先设置的识别区域可能无法识别到目标对象，此时通过逐步扩大识别区域大小，能够扩大识别范围，以此修正识别结果，同时逐步扩大识别区域大小也能使每次要识别的区域相比下一次识别要小，以此尽可能以最小区域获得识别结果，提高识别效率。

在一些实施方式中，为了进一步提高识别效率，步骤3.3.2可以包括步骤：当从目标图像信息中未识别到有嘴唇动作的对象时，扩大识别区域至预设的第二区域大小，得到扩大后的区域；将识别区域与扩大后的区域的不重叠区域作为目标识别区域；根据目标识别区域，从目标视频流获取目标图像信息，目标图像信息为识别区域对应的图像信息；根据目标图像信息，识别目标对象。

140、根据对目标对象的识别结果，从多路视频流中确定待显示的视频流。

其中，待显示视频流是指用来显示当前场景的视频流。可以通过待显示视频流聚焦显示目标对象。

在一些实施方式中，为了提供更好的当前场景显示效果，提供了根据目标对象识别结果确定的显示策略，步骤140可以包括步骤4.1～4.4，如下：

4.1、当识别到目标对象时，根据目标对象确定待显示区域；

4.2、当未识别到目标对象时，根据目标图像信息中的所有对象确定待显示区域；

4.3、获取每个视频流对应的图像采集区域；

4.4、根据待显示区域以及图像采集区域，确定待显示视频流。

其中，待显示区域是指要通过待显示视频流显示的区域。当识别到目标对象时，可以将目标对象所在的区域例如声源区域或识别区域作为待显示区域，当未识别到目标对象时，将目标图像信息中的所有对象所在的区域作为待显示区域。待显示区域可以与图像采集区域处于同一平面，也可以与目标视频流对应的图像处于同一平面，在将待显示区域与图像采集区域等不同平面区域进行比较时，可以将待显示区域投影到图像采集区域等所在平面后再进行比较。

在一些实施方式中，当识别到多个目标对象时，根据多个目标对象确定待显示区域。此时，待显示区域为多个目标对象所在的区域。

通过对目标对象的识别结果确定待显示区域，并将待显示区域与图像采集区域进行比较以确定待显示视频流。例如，可以通过确定待显示区域与每个图像采集区域的重复区域，将重复区域最大的图像采集区域对应的视频流作为待显示视频流。

在一些实施方式中，为了能够聚焦发言人，提供更好的当前场景显示效果，步骤4.4可以包括步骤：确定待显示区域与每个图像采集区域的区域大小比值，将待显示区域大小/图像采集区域大小的比值最高的图像采集区域对应的视频流作为待显示视频流。在一些实施方式中，为了避免显示的发言人画面不完整，待显示区域大小/图像采集区域大小的比值小于预设值，该值可以为1。

150、显示待显示的视频流对应的画面。

在一些实施方式中，通过裁剪显示画面，聚焦发言人，提供更好的当前场景显示效果，步骤150可以包括步骤5.1～5.3，如下：

5.1、获取待显示视频流的显示画面；

5.2、根据待显示区域，裁剪待显示视频流的显示画面，得到裁剪后的显示画面；

5.3、显示裁剪后的显示画面。

其中，裁剪后的显示画面是待显示视频流的显示画面中与待显示区域对应的画面。

通过将待显示视频流的显示画面裁剪为待显示区域对应的画面，能够进一步聚焦发言人，以提供更好的当前场景显示效果。

本申请实施例提供的视频流显示方法可以应用在各种多人参与的场景中。比如，以多人会议为例，获取当前场景的多路视频流以及声源位置，每个视频流对应的一个图像采集区域；根据声源位置以及图像采集区域，从多路视频流中确定目标视频流；根据目标视频流，识别目标对象，目标对象为有嘴唇动作的对象；根据对目标对象的识别结果，从多路视频流中确定待显示的视频流；显示待显示的视频流对应的画面。采用本申请实施例提供的方案通过声源位置确定用来识别发言人的目标视频流，可以提高识别发言人的效率，同时根据识别结果确定待显示的视频流，可以使显示的画面聚焦在发言人身上，呈现更好的会议画面。

根据上述实施例所描述的方法，以下将作进一步详细说明。

在本实施例中，将以多人会议场景为例，对本申请实施例的方法进行详细说明。

如图3所示，提供了视频流显示系统的结构示意图，该系统包括数据采集模块、数据处理模块以及终端。

其中，数据采集模块由红外热像仪、超声波模块、双摄像头模块和阵列麦克风组成，摄像头模块采集信息后发送给数据处理模块。具体如下：

数据采集模块，包括两个摄像头，两个摄像头分别为广角镜头以及长焦镜头。广角镜头视场角大，可视范围广，但远景模糊。长焦镜头视场角小，可视范围窄，但能看到的远景清晰。当视场角出现重叠切至长焦镜头的摄像头，当视场角在长焦镜头范围外时，就切换至广角镜头的摄像头。双摄像头切换方法包括：1、双摄像头模块包括广角镜头的摄像头和长焦镜头的摄像头两种，广角镜头的摄像头焦距短视野广，拍摄的画面多，画面的物体占比更小，相反长焦镜头的摄像头焦距长视野窄，拍摄的画面少，画面的物体占比更大。广角镜头的摄像头和长焦镜头的摄像头都可以分别出两路视频流，一路视频流用于实际画面呈现，可以称为预览流，另一路视频流用于给到AI做唇动检测和人脸识别，可以称为AI图像流。2、终端的画面呈现只能是源自两个摄像头的其中一路预览流，但可以同时将两个摄像头的AI图像流提供给图像AI线程做唇动检测和人脸识别。3、图像AI线程根据声源定位的角度信息，决策对两路AI图像流的其中一路做唇动识别和人脸识别，然后会输出给到UVC线程决策要切到哪一路预览流并做裁剪，最后呈现人脸聚焦效果。

红外热像仪，用于对目标物体进行测温。

超声波模块，用于结合红外热像仪检测目标物体的距离，由于红外热像仪本质上也是一个摄像头，其镜头的最小成像距离是有要求的，例如被测物和镜头之间的距离要大于25cm，才能保证热像图效果清晰。因此利用超声波模组，可以起到检测目标距离，提示目标的距离要求。

矩阵麦克风模组，用于声源定位，确定发言人所在方位。

其中，数据处理模块包括UVC线程、UAC线程、图像AI线程以及音频AI线程，数据处理模块获取摄像头模块采集的信息，并进行数据处理。如图4所示，数据处理模块中线程的工作流程如下：

UVC线程，用于收集双摄像头的视频流信息，每一路摄像头都会输出两路视频流，一路用作输出给到终端呈现实时画面，另一路用作给到图像AI线程分析嘴唇动作分析以及人脸识别。

UAC线程，用于收集阵列麦克风的音频流信息，分为两类音频信息输出，一类音频信息是将其中一路麦克风的PCM格式的音频流数据直接输出给到终端做音频播放，另一类是将所有麦克风采集到的PCM格式的音频流数据组合后给到音频AI线程进行声源定位。

图像AI线程，用于分析处理UVC线程输出的两个摄像头的图像信息，并输出决策给到UVC线程，决策包括反馈显示哪一摄像头的视频流，以及放大裁剪该路视频流的图像信息，以聚焦发言人。具体地，图像AI线程获取两种信息，一种为UVC线程提供的两个摄像头的视频流信息，另一种为音频AI线程提供的声源角度信息。图像AI线程获取到声源角度信息后，确定当前发言人的声源角度，根据两个摄像头的视场角范围确定获取哪个摄像头的视频流来分析嘴唇动作，确定嘴唇动作对应的识别区域，并识别出人脸信息。最后反馈UVC线程切换摄像头进行显示，以及放大裁剪以聚焦发言人。

音频AI线程，用于分析处理UAC给到的阵列MIC输出的PCM格式的音频流数据，进行声源定位，并将输出的声源角度信息至图像AI线程进行决策。

其中，数据处理模块还包括策略管理模块，策略管理模块用于获取数据处理模块处理后的数据，进行场景决策，实现发言人追踪、发言字幕显示和参会人员签到。

其中，终端用来显示画面，终端可以为TV(电视)。

如图5所示，一种视频流显示方法具体流程如下：

210、阵列麦克风实时采集环境声音。

220、音频AI线程通过声源定位算法，根据采集的环境声音确定并输出声源角度信息。

在通过陈列麦克风采集环境声音之前还可以包括步骤：策略管理模块控制红外热像仪以及超声波模块，检测参会人员的体温。超声波模组启动距离检测功能，当目标参会人员的距离达到红外热像仪成像的要求时，红外热像仪开始检测目标参会人员的体温，当温度超过要求时，不得参会。

声源角度是指声源位置与阵列麦克风的夹角，可以以阵列麦克风组成的线段的中点为顶点，以声源位置、阵列麦克风组成的线段的中点以及阵列麦克风组成的线段的任意一个顶点形成的夹角作为声源角度。

阵列麦克风实时采集环境声音后发送给UAC线程，经UAC线程处理后一路发送给终端进行播放，一路发送给图像AI线程进行声源定位。

231、当音频AI线程未输出声源角度信息时，图像AI线程控制终端显示广角摄像头的拍摄的画面。

没有声源角度输出时，会进入到聆听模式，在该模式下，UVC线程默认会输出广角摄像头的图像呈现，当图像AI线程分析两个摄像头的其中一路AI图像流有人脸识别的情况，就会告知UVC线程切换到对应摄像头的图像呈现，他，同时执行步骤210实时采集环境声音。如果两路AI图像流都有人脸识别到的情况，则优先输出广角摄像头的图像画面。如果两路AI图像流都没有人脸识别的情况，则不聚焦，也优先输出广角摄像头的图像画面。

232、当音频AI线程输出声源角度信息时，图像AI线程根据声源角度信息确定声源区域。

在有声源角度输出时，图像AI线程会通过声源角度的±15°～±30°范围划分扇区，该扇区为声源区域。

240、图像AI线程根据声源区域，从两路视频流中确定目标视频流。

图像AI线程根据声源区域判断根据哪个摄像头采集的图像进行识别，如果声源区域均完整被两个摄像头覆盖，图像AI线程则优先处理长焦摄像头的图像信息，如果声源区域范围在广角摄像头，图像AI线程则处理广角摄像头的图像信息。

250、图像AI线程根据目标视频流，识别目标对象，目标对象为有嘴唇动作的对象。

图像AI线程根据步骤340中确定的用来识别的摄像头，根据摄像头拍摄的图像信息进行嘴唇动作分析，以识别目标对象。

261、当识别到目标对象时，图像AI线程根据目标对象确定待显示区域。

开始时，将声源角度的±15°对应的区域作为识别人脸的扇区，若未识别到有嘴唇动作的人，则将声源角度的±20°对应的区域作为识别人脸的扇区，依此以每次5°进行递增增加扇区大小，直至识别到有嘴唇动作的人，并将此时的扇区作为待显示区域。若有多个发言人，则待显示区域要覆盖所有发言人。

最后，UVC线程控制输出摄像头的图像信息，并对输出图像信息进行裁剪，从而能让用户看到最终的人脸聚焦效果。

262、当未识别到目标对象时，图像AI线程根据目标图像信息中的所有对象确定待显示区域。

270、图像AI线程根据待显示区域确定待显示视频流。

280、图像AI线程根据待显示区域裁剪待显示视频流的显示画面，得到裁剪后的显示画面。

290、终端显示裁剪后的显示画面。

当未识别到有嘴唇动作的人时，将声源角度的±15°对应的区域作为识别人脸的扇区，若识别到人脸，则将声源角度的±20°对应的区域作为识别人脸的扇区，依此以每次5°进行递增增加扇区大小，直至识别到人脸，并将此时的扇区作为待显示区域。若待显示区域有多个人，则待显示区域要覆盖所有人。

当识别不到人脸，进入聆听模式，执行步骤210实时采集环境声音。

由上可知，本申请实施例通过获取声源角度，进行双摄切换，从而实现对发言人聚焦，可以使显示的画面聚焦在发言人身上，呈现更好的会议画面。

为了更好地实施以上方法，本申请实施例还提供一种视频流显示装置，该视频流显示装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

比如，在本实施例中，将以视频流显示装置具体集成在终端为例，对本申请实施例的方法进行详细说明。

例如，如图6所示，该视频流显示装置可以包括获取单元310、第一确定单元320、识别单元330、第二确定单元340以及显示单元350，如下：

(一)获取单元310

用于获取当前场景的多路视频流以及声源位置，每个视频流对应的一个图像采集区域。

在一些实施方式中，声源位置的获取方法，可以包括步骤6.1～6.2，如下：

6.1、采集当前场景的声音信息；

6.2、通过声源定位算法处理采集到的声音信息，得到声源位置。

(二)第一确定单元320

用于根据声源位置以及图像采集区域，从多路视频流中确定目标视频流。

在一些实施方式中，第一确定单元320可以具体用于步骤7.1～7.4，如下：

7.1、根据声源位置确定声源区域；

7.2、针对每个视频流，确定声源区域以及图像采集区域的重叠区域；

7.3、将满足预设的第一区域大小的重叠区域确定为目标区域；

7.4、将目标区域对应的视频流确定为目标视频流。

(三)识别单元330

用于根据目标视频流，识别目标对象，目标对象为有嘴唇动作的对象。

在一些实施方式中，识别单元330可以具有用于包括步骤8.1～8.3，如下：

8.1、根据声源位置确定识别区域；

8.2、根据识别区域，从目标视频流获取目标图像信息，目标图像信息为识别区域对应的图像信息；

8.3、根据目标图像信息，识别目标对象。

在一些实施方式中，步骤8.3可以包括步骤8.3.1～8.3.2，如下：

8.3.1、当从目标图像信息中识别到有嘴唇动作的对象时，将有嘴唇动作的对象作为目标对象；

8.3.2、当从目标图像信息中未识别到有嘴唇动作的对象时，扩大识别区域至预设的第二区域大小，以识别目标对象。

(四)第二确定单元340

用于根据对目标对象的识别结果，从多路视频流中确定待显示的视频流。

在一些实施方式中，第二确定单元340可以具体用于步骤9.1～9.4，如下：

9.1、当识别到目标对象时，根据目标对象确定待显示区域；

9.2、当未识别到目标对象时，根据目标图像信息中的所有对象确定待显示区域；

9.3、获取每个视频流对应的图像采集区域；

9.4、根据待显示区域以及图像采集区域，确定待显示视频流。

(五)显示单元350

用于显示待显示的视频流对应的画面。

在一些实施方式中，显示单元350可以具体用于步骤10.1～10.3，如下：

10.1、获取待显示视频流的显示画面；

10.2、根据待显示区域，裁剪待显示视频流的显示画面，得到裁剪后的显示画面；

10.3、显示裁剪后的显示画面。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由此，本申请实施例可以通过声源位置确定用来识别发言人的目标视频流，可以提高识别发言人的效率，同时根据识别结果确定待显示的视频流，可以使显示的画面聚焦在发言人身上，呈现更好的会议画面。

相应的，本申请实施例还提供一种计算机设备，该计算机设备可以为终端或服务器，该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机、个人数字助理(Personal Digital Assistant，PDA)等终端设备。

如图7所示，图7为本申请实施例提供的计算机设备的结构示意图，该计算机设备400包括有一个或者一个以上处理核心的处理器410、有一个或一个以上计算机可读存储介质的存储器420及存储在存储器420上并可在处理器上运行的计算机程序。其中，处理器410与存储器420电性连接。本领域技术人员可以理解，图中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器410是计算机设备400的控制中心，利用各种接口和线路连接整个计算机设备400的各个部分，通过运行或加载存储在存储器420内的软件程序和/或模块，以及调用存储在存储器420内的数据，执行计算机设备400的各种功能和处理数据，从而对计算机设备400进行整体监控。

在本申请实施例中，计算机设备400中的处理器410会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器420中，并由处理器410来运行存储在存储器420中的应用程序，从而实现各种功能：

获取当前场景的多路视频流以及声源位置，每个视频流对应的一个图像采集区域；根据声源位置以及图像采集区域，从多路视频流中确定目标视频流；根据目标视频流，识别目标对象，目标对象为有嘴唇动作的对象；根据对目标对象的识别结果，从多路视频流中确定待显示的视频流；显示待显示的视频流对应的画面。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

可选的，如图7所示，计算机设备400还包括：触控显示屏430、射频电路440、音频电路450、输入单元460以及电源470。其中，处理器410分别与触控显示屏430、射频电路440、音频电路450、输入单元460以及电源470电性连接。本领域技术人员可以理解，图7中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

触控显示屏430可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏430可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-EmittingDiode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并生成相应的操作指令，且操作指令执行对应程序。可选的，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器410，并能接收处理器410发来的命令并加以执行。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器410以确定触摸事件的类型，随后处理器410根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中，可以将触控面板与显示面板集成到触控显示屏430而实现输入和输出功能。但是在某些实施例中，触控面板与显示面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏430也可以作为输入单元460的一部分实现输入功能。

射频电路440可用于收发射频信号，以通过无线通信与网络设备或其他计算机设备建立无线通讯，与网络设备或其他计算机设备之间收发信号。

音频电路450可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路450可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路450接收后转换为音频数据，再将音频数据输出处理器410处理后，经射频电路440以发送给比如另一计算机设备，或者将音频数据输出至存储器420以便进一步处理。音频电路450还可能包括耳塞插孔，以提供外设耳机与计算机设备的通信。

输入单元460可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源470用于给计算机设备400的各个部件供电。可选的，电源470可以通过电源管理系统与处理器410逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源470还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管图7中未示出，计算机设备400还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

由上可知，本实施例提供的计算机设备可以通过声源位置确定用来识别发言人的目标视频流，可以提高识别发言人的效率，同时根据识别结果确定待显示的视频流，可以使显示的画面聚焦在发言人身上，呈现更好的会议画面。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种视频流显示方法中的步骤。例如，该计算机程序可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种视频流显示方法中的步骤，因此，可以实现本申请实施例所提供的任一种视频流显示方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种视频流显示方法、装置、存储介质及计算机设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频流显示方法，其特征在于，包括：

获取当前场景的多路视频流以及声源位置，每个所述视频流对应的一个图像采集区域；

根据所述声源位置以及所述图像采集区域，从所述多路视频流中确定目标视频流；

根据所述目标视频流，识别目标对象，所述目标对象为有嘴唇动作的对象；

根据对所述目标对象的识别结果，从所述多路视频流中确定待显示的视频流；

显示所述待显示的视频流对应的画面。

2.如权利要求1所述的视频流显示方法，其特征在于，所述根据所述声源位置以及所述图像采集区域，从所述多路视频流中确定目标视频流，包括：

根据所述声源位置确定声源区域；

针对每个所述视频流，确定所述声源区域以及所述图像采集区域的重叠区域；

将满足预设的第一区域大小的所述重叠区域确定为目标区域；

将所述目标区域对应的所述视频流确定为目标视频流。

3.如权利要求1所述的视频流显示方法，其特征在于，所述根据所述目标视频流，识别目标对象，包括：

根据所述声源位置确定识别区域；

根据所述识别区域，从所述目标视频流获取目标图像信息，所述目标图像信息为所述识别区域对应的图像信息；

根据所述目标图像信息，识别目标对象。

4.如权利要求3所述的视频流显示方法，其特征在于，所述根据所述目标图像信息，识别目标对象，包括：

当从所述目标图像信息中识别到有嘴唇动作的对象时，将所述有嘴唇动作的对象作为目标对象；

当从所述目标图像信息中未识别到有嘴唇动作的对象时，扩大所述识别区域至预设的第二区域大小，以识别目标对象。

5.如权利要求1所述的视频流显示方法，其特征在于，所述根据对所述目标对象的识别结果，从所述多路视频流中确定待显示的视频流，包括：

当识别到所述目标对象时，根据所述目标对象确定待显示区域；

当未识别到所述目标对象时，根据目标图像信息中的所有对象确定待显示区域；

获取每个所述视频流对应的图像采集区域；

根据所述待显示区域以及所述图像采集区域，确定待显示视频流。

6.如权利要求5所述的视频流显示方法，其特征在于，所述显示所述待显示的视频流对应的画面，包括：

获取所述待显示视频流的显示画面；

根据所述待显示区域，裁剪所述待显示视频流的显示画面，得到裁剪后的显示画面；

显示裁剪后的显示画面。

7.如权利要求1所述的视频流显示方法，其特征在于，所述声源位置的获取方法，包括：

采集当前场景的声音信息；

通过声源定位算法处理采集到的声音信息，得到声源位置。

8.一种视频流显示装置，其特征在于，包括：

获取单元，用于获取当前场景的多路视频流以及声源位置，每个所述视频流对应的一个图像采集区域；

第一确定单元，用于根据所述声源位置以及所述图像采集区域，从所述多路视频流中确定目标视频流；

识别单元，用于根据所述目标视频流，识别目标对象，所述目标对象为有嘴唇动作的对象；

第二确定单元，用于根据对所述目标对象的识别结果，从所述多路视频流中确定待显示的视频流；

显示单元，用于显示所述待显示的视频流对应的画面。

9.一种计算机设备，其特征在于，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行如权利要求1～7任一项所述的视频流显示方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1～7任一项所述的视频流显示方法中的步骤。