CN112699774B

CN112699774B - 视频中人物的情绪识别方法及装置、计算机设备及介质

Info

Publication number: CN112699774B
Application number: CN202011577706.6A
Authority: CN
Inventors: 陈海波; 罗志鹏; 张治广
Original assignee: Shenyan Technology Beijing Co ltd
Current assignee: Shenyan Technology Beijing Co ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2024-05-24
Anticipated expiration: 2040-12-28
Also published as: CN112699774A

Abstract

本申请实施例公开一种视频中人物的情绪识别方法及装置、计算机设备及介质。在一具体实施方式中，该方法包括：获取待识别视频中的包含人脸的图像、以预定时间间隔由待识别视频抽取的N帧图像、将待识别视频划分为M段后从每段中随机采样至少一帧图像获得的至少两帧图像以及分别与上述图像对应的声音频谱图；从包含人脸的图像提取人脸情绪特征向量、从N帧图像提取帧情绪特征向量、从至少两帧图像提取视频情绪特征向量并从声音频谱图提取声音情绪特征向量；对上述四种特征向量进行特征融合，得到多模信息特征向量；调用预先训练得到的人物情绪识别模型对多模信息特征向量进行识别，得到识别结果。该实施方式可提升识别精度。

Description

视频中人物的情绪识别方法及装置、计算机设备及介质

技术领域

本申请涉及计算机技术领域。更具体地，涉及一种视频中人物的情绪识别方法及装置、计算机设备及介质。

背景技术

情绪识别逐渐成为人类研究的一个重要课题，在心理学、智能机器人、智能监控、虚拟现实及合成动画等领域有很大的潜在应用价值。目前，基本都是通过对图像中人物的面部表情进行识别来实现情绪识别，从而得到图像中人物的心理状态。现有的识别方式是通过对静态的包含人脸的图像进行面部识别，具体为对包含人脸的整幅图像或从其中分割出的人脸图像进行面部表情识别，识别一次即可得到所属的情绪类别。这种识别方式仅能对单幅静态图像进行处理，且识别所依据的特征较为单一，存在识别精度较低等问题，影响用户体验。

发明内容

本申请的目的在于提供一种视频中人物的情绪识别方法及装置、计算机设备及介质，以解决现有技术存在的问题中的至少一个。

为达到上述目的，本申请采用下述技术方案：

本申请第一方面提供了一种视频中人物的情绪识别方法，包括：

获取待识别视频中的包含人脸的图像、以预定时间间隔由待识别视频抽取的N帧图像、将待识别视频划分为M段后从每段中随机采样至少一帧图像获得的至少两帧图像以及分别与所述包含人脸的图像、所述N帧图像和所述至少两帧图像相对应的声音频谱图，其中，N＞1，M＞1；

从所述包含人脸的图像提取人脸情绪特征向量、从所述N帧图像提取帧情绪特征向量、从所述至少两帧图像提取视频情绪特征向量并从所述声音频谱图提取声音情绪特征向量；

对所述人脸情绪特征向量、帧情绪特征向量、视频情绪特征向量和声音情绪特征向量进行特征融合，得到多模信息特征向量；

调用预先训练得到的人物情绪识别模型，对所述多模信息特征向量进行识别，得到人物情绪识别结果。

可选地，所述获取待识别视频中的包含人脸的图像以及与所述包含人脸的图像相对应的声音频谱图，包括：

利用预设的人脸检测模型分别对所述待识别视频的各帧图像进行检测，得到包含人脸的图像，并记录包含人脸的图像的时间信息；

根据包含人脸的图像的时间信息，截取所述待识别视频中对应时间的音频数据；

对所述音频数据进行频谱分析，得到与所述包含人脸的图像相对应的声音频谱图。

可选地，所述获取以预定时间间隔由待识别视频抽取的N帧图像以及与所述N帧图像相对应的声音频谱图，包括：

以预定时间间隔从待识别视频中抽取N帧图像，并记录N帧图像中每帧图像的时间信息；

根据N帧图像中每帧图像的时间信息，截取所述待识别视频中对应时间的音频数据；

可选地，所述将待识别视频划分为M段后从每段中随机采样至少一帧图像获得的至少两帧图像以及与所述至少两帧图像相对应的声音频谱图，包括：

将待识别视频划分为M段，从每段中随机采样至少一帧图像以获得至少两帧图像，并记录所述至少两帧图像中每帧图像的时间信息；

根据至少两帧图像中每帧图像的时间信息，截取所述待识别视频中对应时间的音频数据；

可选地，所述从每段中随机采样至少一帧图像，包括：

对每段随机采样L次，获得L个至少两帧图像，L＞1。

可选地，所述从所述包含人脸的图像提取人脸情绪特征向量，包括：

将所述包含人脸的图像输入预先训练得到的人脸特征提取模型中进行处理，其中，所述人脸特征提取模型包括顺序连接的第一卷积神经网络、第一全连接层、第一分类器和图像情绪特征融合子模型；

所述图像情绪特征融合子模型根据包含人脸的图像中每个人脸的情绪分类所占比例输出人脸情绪特征向量。

可选地，所述从所述N帧图像提取帧情绪特征向量，包括：

将所述N帧图像输入预先训练得到的帧特征提取模型中进行处理，其中，所述帧特征提取模型包括顺序连接的第二卷积神经网络、第二全连接层和第二分类器；

将所述第二卷积神经网络输出的特征向量确定为帧情绪特征向量。

可选地，所述从所述声音频谱图提取声音情绪特征向量，包括：

将所述声音频谱图输入预先训练得到的声音特征提取模型中进行处理，其中，所述声音特征提取模型包括顺序连接的第三卷积神经网络、第三全连接层和第三分类器；

将所述第三卷积神经网络输出的特征向量确定为声音情绪特征向量。

可选地，所述从所述至少两帧图像提取视频情绪特征向量，包括：

将所述至少两帧图像输入预先训练得到的视频特征提取模型中进行处理，其中，所述视频特征提取模型包括顺序连接的第四卷积神经网络、第四全连接层和第四分类器；

将所述第四卷积神经网络输出的特征向量确定为视频情绪特征向量。

可选地，对所述人脸情绪特征向量、帧情绪特征向量、视频情绪特征向量和声音情绪特征向量进行特征融合，得到多模信息特征向量，包括：

对所述人脸情绪特征向量、帧情绪特征向量、视频情绪特征向量和声音情绪特征向量进行特征融合；

对特征融合后的特征向量进行降维处理；

对降维处理后得到的特征向量进行归一化处理，得到四通道的多模信息特征向量。

可选地，在对每段随机采样L次的情况下，从L个视频情绪特征向量中随机选取1个作为进行特征融合的视频特征向量。

可选地，所述人物情绪识别模型为支持向量机分类器。

可选地，该方法还包括：

将包括人脸表情的训练图像以及所述训练图像对应的情绪类别标签的训练集输入所述第一卷积神经网络以对所述人脸特征提取模型进行训练。

可选地，该方法还包括：

将包括N帧训练图像以及所述N帧训练图像对应的情绪类别标签的训练集输入所述第二卷积神经网络以对所述帧特征提取模型进行训练。

可选地，该方法还包括：

将包括声音频谱训练图以及所述声音频谱训练图对应的情绪类别标签的训练集输入所述第三卷积神经网络以对所述声音特征提取模型进行训练。

可选地，该方法还包括：

将包括至少两帧训练图像以及所述至少两帧训练图像对应的情绪类别标签的训练集输入所述第四卷积神经网络以对所述视频特征提取模型进行训练。

本申请第二方面提供了一种视频中人物的情绪识别，包括：

多模数据获取模块，用于获取待识别视频中的包含人脸的图像、以预定时间间隔由待识别视频抽取的N帧图像、将待识别视频划分为M段后从每段中随机采样至少一帧图像获得的至少两帧图像以及分别与所述包含人脸的图像、所述N帧图像和所述至少两帧图像相对应的声音频谱图，其中，N＞1， M＞1；

多模特征提取模块，用于从所述包含人脸的图像提取人脸情绪特征向量、从所述N帧图像提取帧情绪特征向量、从所述至少两帧图像提取视频情绪特征向量并从所述声音频谱图提取声音情绪特征向量；

多模特征融合模块，用于对所述人脸情绪特征向量、帧情绪特征向量、视频情绪特征向量和声音情绪特征向量进行特征融合，得到多模信息特征向量；

情绪识别模块，用于调用预先训练得到的人物情绪识别模型，对所述多模信息特征向量进行识别，得到人物情绪识别结果。

可选地，所述多模数据获取模块包括：

第一获取子模块，用于利用预设的人脸检测模型分别对所述待识别视频的各帧图像进行检测，得到包含人脸的图像，并记录包含人脸的图像的时间信息；根据包含人脸的图像的时间信息，截取所述待识别视频中对应时间的音频数据；对所述音频数据进行频谱分析，得到与所述包含人脸的图像相对应的声音频谱图；和/或

第二获取子模块，用于以预定时间间隔从待识别视频中抽取N帧图像，并记录N帧图像中每帧图像的时间信息；根据N帧图像中每帧图像的时间信息，截取所述待识别视频中对应时间的音频数据；对所述音频数据进行频谱分析，得到与所述包含人脸的图像相对应的声音频谱图；和/或

第三获取子模块，用于将待识别视频划分为M段，从每段中随机采样至少一帧图像以获得至少两帧图像，并记录所述至少两帧图像中每帧图像的时间信息；根据至少两帧图像中每帧图像的时间信息，截取所述待识别视频中对应时间的音频数据；对所述音频数据进行频谱分析，得到与所述包含人脸的图像相对应的声音频谱图。

可选地，所述多模特征提取模块包括：

人脸特征提取子模块，用于将所述包含人脸的图像输入人脸特征提取模型中进行处理，其中，所述人脸特征提取模型包括顺序连接的第一卷积神经网络、第一全连接层、第一分类器和图像情绪特征融合子模型，所述图像情绪特征融合子模型用于根据包含人脸的图像中每个人脸的情绪分类所占比例输出人脸情绪特征向量；

帧特征提取子模块，用于将所述N帧图像输入预先训练得到的帧特征提取模型中进行处理，其中，所述帧特征提取模型包括顺序连接的第二卷积神经网络、第二全连接层和第二分类器，所述第二卷积神经网络用于接收所述 N帧图像，并输出所述帧情绪特征向量；

声音特征提取子模块，用于将所述声音频谱图输入预先训练得到的声音特征提取模型中进行处理，其中，所述声音特征提取模型包括顺序连接的第三卷积神经网络、第三全连接层和第三分类器，所述第三卷积神经网络用于接收所述声音频谱图，并输出所述声音情绪特征向量；

视频特征提取子模块，用于将所述至少两帧图像输入预先训练得到的视频特征提取模型中进行处理，其中，所述视频特征提取模型包括顺序连接的第四卷积神经网络、第四全连接层和第四分类器，所述第四卷积神经网络用于接收所述至少两帧图像，并输出所述视频情绪特征向量。

本申请第三方面提供了一种计算机设备，包括处理器和存储有程序的存储器，所述程序被处理器执行时实现本申请第一方面提供的视频中人物的情绪识别方法。

本申请第四方面提供了一种计算机可读介质，存储有程序，所述程序被执行时实现本申请第一方面提供的视频中人物的情绪识别方法。

本申请的有益效果如下：

本申请提供的方案，融合了包括从视频中抽取的图像信息、两种不同方式抽取的具有时间维度的图像帧序列信息及图像化的声音信息，从而基于多维特征进行视频中人物的情绪识别，具有较高的识别精度，有利于提高复杂环境下视频中人物情绪识别的准确率和鲁棒性。进一步，采用对于提取四种特征向量的提取模型及分类模型独立地进行训练的方式，在面对训练样本以外的数据集时，能够较快地学习到数据的规律，也就是说，整体模型具有较强的泛化能力。

附图说明

下面结合附图对本申请的具体实施方式作进一步详细的说明。

图1示出本申请实施例可以应用于其中的示例性系统架构图。

图2示出本申请实施例提供的视频中人物的情绪识别方法的流程图。

图3示出人脸特征提取模型的网络结构示意图。

图4示出包含多个人脸的图像的示例图。

图5示出帧特征提取模型的网络结构示意图。

图6示出声音特征提取模型的网络结构示意图。

图7示出视频特征提取模型的网络结构示意图。

图8示出特征提取模型与人物情绪识别模型组成的整体网络模型的网络结构示意图。

图9示出本申请实施例提供的视频中人物的情绪识别装置的示意图。

图10示出实现本申请实施例提供的视频中人物的情绪识别装置的计算机系统的结构示意图。

具体实施方式

为了更清楚地说明本申请，下面结合实施例和附图对本申请做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本申请的保护范围。

现有的情绪识别基本都是通过对图像中人物的面部表情进行识别来实现，具体为对包含人脸的整幅图像或从其中分割出的人脸图像进行面部表情识别，识别一次即可得到所属的情绪类别。这种识别方式仅能对单幅静态图像进行处理，且识别所依据的特征较为单一，存在识别精度较低等问题，影响用户体验。

有鉴于此，本申请实施例提供了一种视频中人物的情绪识别方法，该方法包括模型训练及利用训练得到的模型对输入的视频进行人物情绪识别两个阶段。

其中，

模型训练包括：

利用训练样本训练得到特征提取模型和人物情绪识别模型。

进行人物情绪识别包括：

获取待识别视频中的包含人脸的图像、以预定时间间隔由待识别视频抽取的N帧图像、将待识别视频划分为M段后从每段中随机采样至少一帧图像获得的至少两帧图像以及分别与所述包含人脸的图像、所述N帧图像和所述至少两帧帧图像相对应的声音频谱图，其中，N＞1，M＞1；为便于理解，以几个示例对从每段中随机采样至少一帧图像进行说明：例如，从每段中随机采样1帧图像，从而获得的至少两帧图像为M帧图像；再例如，从每段中随机采样2帧图像；再例如，从第1段中随机采样2帧图像、从第2段中随机采样3帧图像、从第3段中随机采样1帧图像……；即，从每段中随机采样的图像帧数可以相同也可以不同，本实施例对此不做限定；

调用预先训练得到的特征提取模型，从所述包含人脸的图像提取人脸情绪特征向量、从所述N帧图像提取帧情绪特征向量、从所述至少两帧图像提取视频情绪特征向量并从所述声音频谱图提取声音情绪特征向量，需要说明的是，本实施例中，四种特征向量的提取均是调用预先训练得到的特征提取模型实现的，但，也可采用基于现有的一些图像处理算法来实现特征向量的提取，本实施例对此不再展开说明，仅对调用预先训练得到的特征提取模型进行特征提取的方式进行说明；

由此，本实施例融合了包括从视频中抽取的图像信息、两种不同方式抽取的具有时间维度的图像帧序列信息及图像化的声音信息，从而基于多维特征进行视频中人物的情绪识别，具有较高的识别精度，有利于提高复杂环境下视频中人物情绪识别的准确率和鲁棒性。

本实施例提供的视频中人物的情绪识别方法可以应用到许多领域，例如视觉交互、智能控制、辅助驾驶、远程教育、广告精准投放、社交网络、即时通信、心理学领域等等。

示例性地，本实施例的一种应用场景为：在辅助驾驶领域，通过采集包含驾驶员人脸的视频，通过本申请实施例提供的情绪识别的方法可精准地识别视频中驾驶员的情绪，如果驾驶员的情绪属于预先设定的涉及危险驾驶的情绪，可以进行相应处理，例如可以警示驾驶员控制自己的情绪，以保证安全驾驶。

示例性地，本申请的另一种应用场景为：在远程教育领域，通过采集包含学生人脸的视频，通过本申请实施例提供的情绪识别的方法可精准地识别视频中学生的情绪，如果学生的情绪属于预先设定的学习状态差的情绪，可以进行相应处理，例如可以提醒老师询问或者关注该学生的学习情况，或者改进教学方案等，以提高教学效果。

示例性地，本申请的另一种应用场景为：在远程教育领域，通过采集包含老师人脸的视频，通过本申请实施例提供的情绪识别的方法可精准地识别视频中老师的情绪，如果老师的人脸表情属于预先设定的教学状态差的情绪，可以进行相应处理，例如提醒老师调整自己的状态，以提高教学效果。

示例性地，本申请的另一种应用场景为：在社交网络领域，以微博为例，当用户使用智能手机进行自拍，拍摄包含自身人脸的视频并上传到微博时，通过本申请实施例提供的情绪识别的方法可精准地识别视频中用户的情绪，从而可以为用户推送相应的微博内容。例如，当识别出用户情绪为悲伤时，可以向用户推送符合悲伤情绪的诗词或者其他内容，当识别出用户情绪为高兴时，可以向用户推送符合高兴情绪的歌曲或者其他内容。

示例性地，本申请的另一种应用场景为：在犯罪心理学领域，通过采集包含受询问的特定人员人脸的视频，通过本申请实施例提供的情绪识别的方法可精准地识别视频中特定人员的情绪，从而作为特定人员是否说谎的判断依据之一，进而可结合通过对脉搏、呼吸、皮肤电阻等生理特征进行监测的测谎仪的监测结果进行综合判断。

示例性地，本申请的另一种应用场景为：在人工智能领域，以人工智能聊天机器人为例，通过其采集包含用户人脸的视频，通过本申请实施例提供的情绪识别的方法可精准地识别视频中用户的情绪，从而选择合适的话题与用户聊天。

本实施例还可以应用于其他多个应用场景中，此处不做具体限定。

本实施例提供的视频中人物的情绪识别方法可以通过具有数据处理能力的处理设备来实现，具体的，该处理设备可以为具有数据处理能力的计算机，包括个人计算机(PC，Personal Computer)、小型机或者大型机，也可以是具有数据处理能力的服务器或者服务器集群等等，本实施例对此不做限定。

为了便于理解本申请的技术方案，下面结合图1对本申请上述方法在实际中的应用场景进行说明。图1示出了本申请在实际中应用场景示例图，参见图1，该应用场景包括训练服务器10和识别服务器20。在本实施例中，训练服务器10利用训练样本对特征提取模型和人物情绪识别模型进行训练，以得到特征提取模型和人物情绪识别模型。识别服务器20可以利用训练服务器 10预先训练得到的特征提取模型和人物情绪识别模型，根据从待识别视频中获取的包含人脸的图像、以预定时间间隔由待识别视频抽取的N帧图像、将待识别视频划分为M段后从每段中随机采样至少一帧图像获得的至少两帧图像以及分别与所述包含人脸的图像、所述N帧图像和所述多帧图像相对应的声音频谱图表情图片进行人物情绪识别。将待识别视频输入到识别服务器20 中，即可得到人物情绪识别结果。

需要注意的是，图1中的训练服务器10和识别服务器20在实际应用中，可以是独立的两个服务器，也可以是集成有模型训练功能和情绪识别功能的服务器。当时独立的两个服务器时，两个服务器之间可通过网络进行通信，该网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

接下来，从具有数据处理能力的处理设备的角度，对本实施例提供的视频中人物的情绪识别方法进行说明。图2是本实施例提供的视频中人物的情绪识别方法的流程图。如图2所示，本实施例提供的视频中人物的情绪识别方法包括步骤S100-S500，其中，步骤S100属于训练阶段，步骤S200-S500 属于进行人物情绪识别阶段，该方法流程具体如下：

步骤S100、训练得到特征提取模型和人物情绪识别模型。

在一种可能的实现方式中，特征提取模型包括人脸特征提取模型、帧特征提取模型、声音特征提取模型和视频特征提取模型。进一步，训练得到特征提取模型包括独立地训练得到人脸特征提取模型、帧特征提取模型、声音特征提取模型和视频特征提取模型，训练得到上述四个特征提取模型后再据其训练得到任务情绪识别模型。

下面，先分别对人脸特征提取模型、帧特征提取模型、声音特征提取模型和视频特征提取模型的模型网络结构和训练方式进行说明。

在一种可能的实现方式中，如图3所示，人脸特征提取模型包括顺序连接的第一卷积神经网络、第一全连接层和第一分类器。

其中，如图3所示，第一卷积神经网络可采用MobileFaceNet。MobileFaceNet是基于python语言的开源人脸识别网络，其是一个具有工业级精度和速度的轻量级人脸识别网络，可适用于移动端应用等。

在一个具体示例中，如图3所示，第一分类器可采用SoftMax分类器。

在一种可能的实现方式中，训练得到人脸特征提取模型包括：将包括人脸表情的训练图像以及所述训练图像对应的情绪类别标签的训练集输入所述第一卷积神经网络以对所述人脸特征提取模型进行训练。

在一个具体示例中，训练图像及其对应的情绪类别标签作为训练人脸特征提取模型的训练样本。

训练样本是指用于对模型进行训练的数据样本，该数据样本中可以包括大量的包括人脸表情的训练图像，并且针对每个训练图像都具有预先标记的情绪类别标签。可以理解的是，训练样本数据量越大，模型训练效果越好，但训练样本数据量也会影响模型训练的效率，因此，本实施例对训练样本的具体数据量不作限定，在具体实现时，可以根据实际的业务需求而定。

在本实现方式中，可以采用机器学习中的有监督学习方式对模型进行训练，因此，该训练样本可以包括：训练集样本和验证集样本；可以理解的是，针对训练样本中的所有样本数据，将一部分样本数据作为训练集样本，而将另一部分样本数据作为验证集样本；其中，训练集样本用于对模型进行训练，而验证集样本用来在训练过程中对模型进行验证。例如，将训练样本中的80％的数据作为训练集样本，20％的数据作为验证集样本。

其中，情绪类别标签，也就是标注情绪类别的标签。根据情绪类别划分方式的不同，可以得到不同的情绪类别标签。例如，本实施例可以根据一种将情绪分为七类：生气(Angry)、厌恶(Disgust)、恐惧(Fear)、高兴(Happiness)、悲伤(Sadness)、惊讶(Surprise)和中性(Neutral)；如此，可以预先设置生气、厌恶、恐惧、高兴、悲伤、惊讶和中性这七种情绪类别标签。本实施例也可以根据另一种心理学定义将情绪分为三类：积极、消极、正常；如此，可以设置积极、消极、正常这三种情绪类别标签。

在具体实现时，可以通过网络爬虫或人工采集以及人工标记等方式采集生成训练样本，将预先采集的训练样本存储在预先建立样本数据库中，基于此，上述步骤在具体实现时，可以是从预先建立的该样本数据库中直接读取训练样本。

为了便于理解，首先对神经网络模型的原理进行简单介绍。神经网络模型一般可以理解为一种模拟人类大脑，由大量处理单元也即“神经元”广泛地互相连接形成的非线性学习系统。由于卷积神经网络的网络结构具有稀疏连接和权重共享的特点，因此在图像处理领域常常采用卷积神经网络模型 (Convolutional Neural Networks，CNN)实现图像识别。

可以理解，图像的空间联系是局部的，每个神经元无需感受全局图像，只需感受局部的图像区域，然后在更高层，将这些感受不同局部的神经元进行综合，即可得到全局信息，如此，可以达到减少卷积神经网络需要训练的权值参数的个数。为了进一步地减少训练的权值参数，可以采用权值共享的方式进行训练，具体为对一张图像的不同区域采用相同的卷积核提取出该图像的一种特征，例如沿某一方向的边缘，采用多个卷积核对整张图像分别进行卷积，可以得到整张图像的多种特征，将这些特征进行映射，可以得到对图像的分类结果。

在本实现方式中，人脸特征提取模型的训练过程例如：

预先建立的初始人脸特征提取模型包括顺序连接的第一卷积神经网络、第一全连接层和第一分类器。

对初始人脸特征提取模型的第一卷积神经网络、第一全连接层、第一分类器的训练过程例如：人脸特征提取模型的损失函数Loss用于衡量预测值和目标值的差异，Loss的输出值越小表明预测值越接近目标值，也就是说，模型识别越准确。因此，人脸特征提取模型的训练过程实际上就是通过样本数据的训练不断优化模型的参数，以不断缩小模型Loss的输出值的过程。当Loss 的输出值趋于平稳，则认为模型处于收敛状态，可以将此时训练的模型作为人脸特征提取模型，应用于提取人脸情绪特征向量。

其中，降低Loss的输出值主要是通过梯度下降法优化模型参数的方式来实现，具体为，通过使权重值向当前点对应梯度的反方向不断移动，来降低 Loss值。

在实际应用中，可将数据集拆分为五份或者说五批次，用于五折交叉验证。

将其中一批次的训练图像输入到初始人脸特征提取模型，经过第一卷积神经网络、第一全连接层、第一分类器，可以实现对训练图像的特征提取和映射，从而得到训练图像所属情绪类型的预测结果，根据预测结果和训练图像的情绪类别标签可以计算出Loss的输出值。基于Loss的输出值，可以通过反向传播算法计算出初始人脸特征提取模型中各参数的梯度，并依据梯度更新模型的参数权重。

当样本库中的所有训练样本均被训练过，还可以打乱样本顺序，再训练若干次，当模型的Loss输出值稳定在一个较小的值时，可以采用预选划分的验证集中的样本进行验证。当模型对验证集的样本进行识别时，也具有较小的Loss输出值时，则认为模型具有较高的识别精准度，可以停止训练将其训练好的模型作为人脸特征提取模型，在后续进行人物情绪识别阶段用于从包含人脸的图像提取人脸情绪特征向量。

在一种可能的实现方式中，如图5所示，帧特征提取模型包括顺序连接的第二卷积神经网络、第二全连接层和第二分类器。

其中，如图5所示，第二卷积神经网络可采用DenseNet-121。DenseNet (密集卷积网络)-121是DenseNet-121是指网络总共有121层： (6+12+24+16)*2+3(transitionlayer)+1(7x7 Conv)+1(Classification layer)＝ 121，其建立的是前面所有层与后面层的密集连接(dense connection)，可通过特征在通道(Channel)上的连接来实现特征重用(feature reuse)。这些特点让DenseNet在参数和计算成本更少的情形下实现较优的性能。

在一个具体示例中，如图5所示，第二分类器可采用SoftMax分类器。

在一种可能的实现方式中，训练得到帧特征提取模型包括：

获取训练视频，以预定时间间隔由训练视频抽取N帧训练图像，对N帧训练图像标记情绪类别标签，，对N帧训练图像标记情绪类别标签是对对N 帧训练图像作为一个整体标记情绪类别标签；

在一个具体示例中，从训练视频中抽取出的N帧训练图像及其对应的情绪类别标签作为训练帧特征提取模型的训练样本。

训练帧特征提取模型的训练样本的获取及标记方式、训练样本中的所有样本数据的划分及情绪类别标签等方式与前述训练人脸特征提取模型中介绍的相似，在此不再赘述。

在本实现方式中，帧特征提取模型的训练过程例如：

预先建立的帧特征提取模型包括顺序连接的第二卷积神经网络、第二全连接层和第二分类器。对初始帧特征提取模型的第二卷积神经网络、第二全连接层、第二分类器的训练过程例如：帧特征提取模型的损失函数Loss用于衡量预测值和目标值的差异，Loss的输出值越小表明预测值越接近目标值，也就是说，模型识别越准确。因此，帧特征提取模型的训练过程实际上就是通过样本数据的训练不断优化模型的参数，以不断缩小模型Loss的输出值的过程。当Loss的输出值缩小到一定程度，或者Loss的输出值趋于平稳，则认为模型处于收敛状态，可以将此时训练的模型作为帧特征提取模型，应用于提取帧情绪特征向量。具体原理及训练过程与前述介绍的训练人脸特征提取模型相似，在此不再赘述。

在一种可能的实现方式中，如图6所示，声音特征提取模型包括顺序连接的第三卷积神经网络、第三全连接层和第三分类器。

其中，如图6所示，第三卷积神经网络可采用EfficientNet-B4。EfficientNet 网络利用复合系数统一缩放模型的所有维度的模型缩放方法，使用固定的一组缩放系数扩展每个维度，可极大地提升模型的准确率和效率。

在一个具体示例中，如图6所示，第三分类器可采用SoftMax分类器。

在一种可能的实现方式中，训练得到声音特征提取模型包括：

获取音频训练数据，将音频训练数据转换为图像格式，得到声音频谱训练图，对声音频谱训练图标记情绪类别标签；

在一个具体示例中，声音频谱训练图及其对应的情绪类别标签作为训练声音特征提取模型的训练样本。

训练声音特征提取模型的训练样本的获取及标记方式、训练样本中的所有样本数据的划分及情绪类别标签等方式与前述训练人脸特征提取模型中介绍的相似，在此不再赘述。

在本实现方式中，声音特征提取模型的训练过程例如：

预先建立的声音特征提取模型包括顺序连接的第三卷积神经网络、第三全连接层和第三分类器。对初始声音特征提取模型的第三卷积神经网络、第三全连接层、第三分类器的训练过程例如：声音特征提取模型的损失函数Loss 用于衡量预测值和目标值的差异，Loss的输出值越小表明预测值越接近目标值，也就是说，模型识别越准确。因此，帧特征提取模型的训练过程实际上就是通过样本数据的训练不断优化模型的参数，以不断缩小模型Loss的输出值的过程。当Loss的输出值缩小到一定程度，或者Loss的输出值趋于平稳，则认为模型处于收敛状态，可以将此时训练的模型作为帧特征提取模型，应用于提取帧情绪特征向量。具体原理及训练过程与前述介绍的训练人脸特征提取模型相似，在此不再赘述。

在一种可能的实现方式中，如图7所示，视频特征提取模型包括顺序连接的第四卷积神经网络、第四全连接层和第四分类器。

其中，如图7所示，第四卷积神经网络可采用ResNet101。101层的深度残差网络ResNet101通过短路机制加入了残差单元，从而通过残差学习解决了深度网络的退化问题，可实现更深的网络深度，保证提取效果。

在一个具体示例中，如图7所示，第四分类器可采用SoftMax分类器。

在一种可能的实现方式中，训练得到视频特征提取模型包括：

获取训练视频，将训练视频划分为M段，得到M个子训练视频，即图7 中的S₁、S₂、......、S_M，从每段子训练视频中随机采样至少一帧训练图像，从而获得至少两帧训练图像，对至少两帧训练图像标记情绪类别标签；

在一个具体示例中，从训练视频中抽取出的至少两帧训练图像及其对应的情绪类别标签作为训练视频特征提取模型的训练样本。

训练视频特征提取模型的训练样本的获取及标记方式、训练样本中的所有样本数据的划分及情绪类别标签等方式与前述训练人脸特征提取模型中介绍的相似，在此不再赘述。

在本实现方式中，视频特征提取模型的训练过程例如：

预先建立的视频特征提取模型包括顺序连接的第四卷积神经网络、第四全连接层和第四分类器。对初始视频特征提取模型的第四卷积神经网络、第四全连接层、第四分类器的训练过程例如：视频特征提取模型的损失函数Loss 用于衡量预测值和目标值的差异，Loss的输出值越小表明预测值越接近目标值，也就是说，模型识别越准确。因此，视频特征提取模型的训练过程实际上就是通过样本数据的训练不断优化模型的参数，以不断缩小模型Loss的输出值的过程。当Loss的输出值缩小到一定程度，或者Loss的输出值趋于平稳，则认为模型处于收敛状态，可以将此时训练的模型作为视频特征提取模型，应用于提取视频情绪特征向量。具体原理及训练过程与前述介绍的训练人脸特征提取模型相似，在此不再赘述。

通过上述，即可得到训练后的人脸特征提取模型、帧特征提取模型、声音特征提取模型和视频特征提取模型，之后，再通过人脸特征提取模型、帧特征提取模型、声音特征提取模型和视频特征提取模型的输出来训练人物情绪识别模型。

需要说明的是，图3所示的是对人脸特征提取模型进行训练时，人脸特征提取模型的网络结构。在训练人物情绪识别模型及后续的进行人物情绪识别的阶段，人脸特征提取模型还包括连接在第一分类器后的图像情绪特征融合子模型，图像情绪特征融合子模型可不需训练，其规则可配置为将第一分类器得到的多个分类结果进行基于所占比例的再次分类即可，例如，一图像为如图4所示的包含五个人物的人脸表情的图像，假如对图4所示图像进行识别后得到三个人物的情绪是高兴(或者积极)、两个任务的情绪是中性(或者正常，图中示出的是“安静”)，则图像情绪特征融合子模型输出的人脸情绪特征向量表征高兴(或者积极)，以表征图像的整体情绪。

在一种可能的实现方式中，如图8所示，训练人物情绪识别模型包括：

对于训练视频，将人脸特征提取模型的图像情绪特征融合子模型输出的人脸情绪特征向量、帧特征提取模型的第二卷积神经网络输出的帧情绪特征向量、声音特征提取模型的第三卷积神经网络输出的特征向量确定为声音情绪特征向量进行特征融合，得到多模信息特征向量，例如输入多模特征融合模块进行特征融合，其中，对于四个提取模型可分别参照前述方式获取相应的输入数据，例如，可从训练视频中，识别并提取包含人脸的图像作为人脸特征提取模型的输入、以预定时间间隔抽取N帧图像作为帧特征提取模型的输入、划分为M段后从每段中随机采样至少一帧图像以获得至少两帧图像作为视频特征提取模型的输入、将由训练视频解析出的音频数据转换为声音频谱图作为声音特征提取模型的输入；

将多模信息特征向量作为训练样本，训练人物情绪识别模型。

在一个具体示例中，如图8所示，人物情绪识别模型可采用支持向量机 (SVM)分类器。

需要说明的是，上述模型训练过程中，训练人脸特征提取模型、帧特征提取模型、声音特征提取模型、视频特征提取模型和人物情绪识别模型这五个模型时的训练样本可以来自同一批训练视频，例如，从一批训练视频中的每一个训练视频中分别获取一组包含人脸的图像、上述N帧图像、上述至少两帧图像和上述声音频谱图，进行五个模型的训练。另外，上述五个模型的训练样本也可分别采用不同的训练集，本实施例对此不做限定。

由此，本实施例提供的视频中人物的情绪识别方法采用对于提取四种特征向量的提取模型及分类模型独立地进行训练的方式，在面对训练样本以外的数据集时，能够较快地学习到数据的规律，也就是说，整体模型具有较强的泛化能力。

步骤S200、获取待识别视频中的包含人脸的图像、以预定时间间隔由待识别视频抽取的N帧图像、将待识别视频划分为M段后从每段中随机采样至少一帧图像获得的至少两帧图像以及分别与所述包含人脸的图像、所述N帧图像和所述至少两帧图像相对应的声音频谱图。

在一种可能的实现方式中，所述获取待识别视频中的包含人脸的图像以及与所述包含人脸的图像相对应的声音频谱图，包括：

在一个具体示例中，可采用基于边缘特征的人脸检测模型，或基于统计理论方法(例如Adaboost检测算法)的人脸检测模型对待识别视频的各帧图像进行检测，选取出包含人脸的图像，并记录包含人脸的图像的时间信息，其中，图像的时间信息也可由图像位于视频中的第几帧等参数来表示。

在一个具体示例中，本实现方式中，例如对于共30秒长的待识别视频，识别到第5-10秒的图像包含人脸，则将第5-10秒的图像帧作为包含人脸的图像，截取第5-10秒的音频数据并对第5-10秒的音频数据进行频谱分析，得到与第5-10秒的图像相对应的声音频谱图。

在一种可能的实现方式中，所述获取以预定时间间隔由待识别视频抽取的N帧图像以及与所述N帧图像相对应的声音频谱图，包括：

接续前述示例，例如预定时间间隔为5秒，则从共30秒长的待识别视频中抽取第1、5、10、15、20、25、30秒的图像作为“N帧图像”，截取第1、 5、10、15、20、25、30秒的音频数据并对第1、5、10、15、20、25、30秒的音频数据进行频谱分析，得到与“N帧图像”相对应的声音频谱图。

在一种可能的实现方式中，所述将待识别视频划分为M段后从每段中随机采样至少一帧图像获得的至少两帧图像以及与所述至少两帧图像相对应的声音频谱图，包括：

接续前述示例，例如M设置为4，从每段中随机采样1帧图像，则将共 30秒长的待识别视频中划分为5段，每段6秒，从5段中分别随机采样1帧图像以获得“M帧图像”，截取上述从5段中分别随机采样的1帧图像的时刻的音频数据进行频谱分析，得到与“M帧图像”相对应的声音频谱图。

在一种可能的实现方式中，所述从每段中随机采样至少一帧图像，包括：

对每段随机采样L次，获得L个至少两帧图像，L＞1。

步骤S300、调用预先训练得到的特征提取模型(步骤S100训练得到的)，从所述包含人脸的图像提取人脸情绪特征向量、从所述N帧图像提取帧情绪特征向量、从所述至少两帧图像提取视频情绪特征向量并从所述声音频谱图提取声音情绪特征向量；

在一种可能的实现方式中，所述调用预先训练得到的特征提取模型，从所述包含人脸的图像提取人脸情绪特征向量，包括：

在一种可能的实现方式中，所述第一卷积神经网络为MobileFaceNet。

在一个具体示例中，预先训练得到的人脸特征提取模型包括如图3所示的顺序连接的第一卷积神经网络、第一全连接层和第一分类器，还包括连接在第一分类器后的图像情绪特征融合子模型，不论包含人脸的图像仅包含一个人脸还是包含多个人脸，均可通过图像情绪特征融合子模型输出确定的人脸情绪特征向量。

在一种可能的实现方式中，所述调用预先训练得到的特征提取模型，从所述N帧图像提取帧情绪特征向量，包括：

在一种可能的实现方式中，所述第二卷积神经网络为DenseNet-121。

在一个具体示例中，预先训练得到的帧特征提取模型如图5所示。

在一种可能的实现方式中，所述调用预先训练得到的特征提取模型，从所述声音频谱图提取声音情绪特征向量，包括：

在一种可能的实现方式中，所述第三卷积神经网络为EfficientNet-B4。

在一个具体示例中，预先训练得到的声音特征提取模型如图6所示。

在一种可能的实现方式中，所述调用预先训练得到的特征提取模型，从所述至少两帧图像提取视频情绪特征向量，包括：

在一种可能的实现方式中，所述第四卷积神经网络为ResNet101。

在一个具体示例中，预先训练得到的视频特征提取模型如图7所示，至少两帧图像的采样跨越整个视频，支持长期的时间关系建模。

在一个具体示例中，第一至第四卷积神经网络的输出神经元个数均为1024。输入第一卷积神经网络的包含人脸的图像为640*640*3*1(分别为图像的长、宽、通道数及图像帧数)，第一卷积神经网络输出1*1024的特征向量，第一全连接层输出1*7的特征向量。输入第二卷积神经网络的N帧图像为 640*640*3*10(分别为图像的长、宽、通道数及单次输入的图像帧数)，第二卷积神经网络输出10*1024的特征向量，第二全连接层输出10*3的特征向量。输入第三卷积神经网络的声音频谱图为640*640*3*10(分别为频谱图的长、宽、通道数及分窗数量)，第三卷积神经网络输出1*1024的特征向量，第三全连接层输出1*3的特征向量。输入第四卷积神经网络的至少两帧图像为 640*640*3*5(分别为图像的长、宽、通道数及图像帧数，此图像帧数即视频划分的段数)，第四卷积神经网络输出1*1024的特征向量，第四全连接层输出1*3的特征向量。

综上，如图8所示，人脸情绪特征向量、帧情绪特征向量、声音情绪特征向量、视频情绪特征向量分别由人脸特征提取模型的图像情绪特征融合子模型、帧特征提取模型的第二卷积神经网络、声音特征提取模型的第三卷积神经网络、视频特征提取模型的第四卷积神经网络输出。

步骤S400、对所述人脸情绪特征向量、帧情绪特征向量、视频情绪特征向量和声音情绪特征向量(步骤S300得到的)进行特征融合，得到多模信息特征向量。

在一种可能的实现方式中，步骤S400进一步包括：

对所述人脸情绪特征向量、帧情绪特征向量、视频情绪特征向量和声音情绪特征向量进行特征融合，得到多模信息特征向量，包括：

对特征融合后的特征向量进行降维处理，在一个具体示例中，可利用 sklearn工具库中封装的PCA方法实现对特征融合后的特征向量进行降维处理；

在一种可能的实现方式中，在对每段随机采样L次的情况下，步骤S400 中进行融合的视频情绪特征向量为从L个视频情绪特征向量中随机选取的1 个视频特征向量。可理解的是，在对每段随机采样L次的情况下，第四卷积神经网络对每段随机采样L次所得到的L个“至少两帧图像”分别进行特征提取以输出并保存L个视频情绪特征向量。由此，可增加特征的多样性。

步骤S500、调用预先训练得到的人物情绪识别模型(步骤S100训练得到的)，对所述多模信息特征向量(步骤S400得到的)进行识别，得到人物情绪识别结果。

在一种可能的实现方式中，所述人物情绪识别模型为支持向量机(SVM) 分类器。在一个具体示例中，SVM分类器根据多模信息特征向量输出表征待识别视频中人物的情绪是积极、消极还是正常的人物情绪识别结果。

综上，本实施例提供的视频中人物的情绪识别方法，融合了包括从视频中抽取的图像信息、两种不同方式抽取的具有时间维度的图像帧序列信息及图像化的声音信息，从而基于多维特征进行视频中人物的情绪识别，具有较高的识别精度，有利于提高复杂环境下视频中人物情绪识别的准确率和鲁棒性。

如图9所示，本申请的另一个实施例提供了一种视频中人物的情绪识别装置，包括：

多模特征提取模块，用于调用预先训练得到的特征提取模型，从所述包含人脸的图像提取人脸情绪特征向量、从所述N帧图像提取帧情绪特征向量、从所述至少两帧图像提取视频情绪特征向量并从所述声音频谱图提取声音情绪特征向量；

在一种可能的实现方式中，所述多模数据获取模块包括：

第一获取子模块，用于利用预设的人脸检测模型分别对所述待识别视频的各帧图像进行检测，得到包含人脸的图像，并记录包含人脸的图像的时间信息；根据包含人脸的图像的时间信息，截取所述待识别视频中对应时间的音频数据；对所述音频数据进行频谱分析，得到与所述包含人脸的图像相对应的声音频谱图。

在一种可能的实现方式中，所述多模数据获取模块包括：

第二获取子模块，用于以预定时间间隔从待识别视频中抽取N帧图像，并记录N帧图像中每帧图像的时间信息；根据N帧图像中每帧图像的时间信息，截取所述待识别视频中对应时间的音频数据；对所述音频数据进行频谱分析，得到与所述包含人脸的图像相对应的声音频谱图。

在一种可能的实现方式中，所述多模数据获取模块包括：

在一种可能的实现方式中，所述第三获取模块用于从每段中随机采样至少一帧图像，包括：对每段随机采样L次，获得L个至少两帧图像，L＞1。

在一种可能的实现方式中，所述多模特征提取模块包括：

人脸特征提取子模块，用于将所述包含人脸的图像输入人脸特征提取模型中进行处理，其中，人脸特征提取模型包括顺序连接的第一卷积神经网络、第一全连接层、第一分类器和图像情绪特征融合子模型，所述第一卷积神经网络用于接收所述人脸图像，所述图像情绪特征融合子模型用于根据包含人脸的图像中每个人脸的情绪分类所占比例输出人脸情绪特征向量，第一卷积神经网络可采用MobileFaceNet；

帧特征提取子模块，用于将所述N帧图像输入预先训练得到的帧特征提取模型中进行处理，其中，帧特征提取模型包括顺序连接的第二卷积神经网络、第二全连接层和第二分类器，所述第二卷积神经网络用于接收所述N帧图像，并输出所述帧情绪特征向量，第二卷积神经网络可采用DenseNet-121；

声音特征提取子模块，用于将所述声音频谱图输入预先训练得到的声音特征提取模型中进行处理，其中，声音特征提取模型包括顺序连接的第三卷积神经网络、第三全连接层和第三分类器，所述第三卷积神经网络用于接收所述声音频谱图，并输出所述声音情绪特征向量，第三卷积神经网络可采用 EfficientNet-B4；

视频特征提取子模块，用于将所述至少两帧图像输入预先训练得到的视频特征提取模型中进行处理，其中，视频特征提取模型包括顺序连接的第四卷积神经网络、第四全连接层和第四分类器，所述第卷积神经网络用于接收所述至少两帧图像，并输出所述视频情绪特征向量，第四卷积神经网络为 ResNet101。

在一种可能的实现方式中，所述多模特征融合模块，用于对所述人脸情绪特征向量、帧情绪特征向量、视频情绪特征向量和声音情绪特征向量进行特征融合；对特征融合后的特征向量进行降维处理，在一个具体示例中，可利用sklearn工具库中封装的PCA方法实现对特征融合后的特征向量进行降维处理；对降维处理后得到的特征向量进行归一化处理，得到四通道的多模信息特征向量。

在一种可能的实现方式中，在对每段随机采样L次的情况下，多模特征融合模块融合的是特征提取模型从由所述L个至少两帧图像中随机选取的1 个至少两帧图像提取视频情绪特征向量。

在一种可能的实现方式中，人物情绪识别模型为支持向量机分类器。

需要说明的是，本实施例提供的视频中人物的情绪识别装置的原理及工作流程与上述视频中人物的情绪识别方法中情绪识别阶段相似，相关之处可以参照上述说明，在此不再赘述。

如图10所示，适于用来实现上述实施例提供的视频中人物的情绪识别装置的计算机系统，包括中央处理模块(CPU)，其可以根据存储在只读存储器 (ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中，还存储有计算机系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线被此相连。输入/输入 (I/O)接口也连接至总线。

以下部件连接至I/O接口:包括键盘、鼠标等的输入部分；包括诸如液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

特别地，根据本实施例，上文流程图描述的过程可以被实现为计算机软件程序。例如，本实施例包括一种计算机程序产品，其包括有形地包含在计算机可读介质上的计算机程序，上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。

附图中的流程图和示意图，图示了本实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或示意图中的每个方框可以代表一个模块、程序段或代码的一部分，上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，示意图和/或流程图中的每个方框、以及示意和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器，包括多模数据获取模块、多模特征提取模块、多模特征融合模块和情绪识别模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。例如，多模特征融合模块还可以被描述为“多模特征拼接模块”。

作为另一方面，本实施例还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中上述装置中所包含的非易失性计算机存储介质，也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当上述一个或者多个程序被一个设备执行时，使得上述设备：获取待识别视频中的包含人脸的图像、以预定时间间隔由待识别视频抽取的N帧图像、将待识别视频划分为M段后从每段中随机采样至少一帧图像获得的至少两帧图像以及分别与所述包含人脸的图像、所述N帧图像和所述至少两帧图像相对应的声音频谱图，其中，N＞1，M＞1；调用预先训练得到的特征提取模型，从所述包含人脸的图像提取人脸情绪特征向量、从所述N帧图像提取帧情绪特征向量、从所述至少两帧图像提取视频情绪特征向量并从所述声音频谱图提取声音情绪特征向量；对所述人脸情绪特征向量、帧情绪特征向量、视频情绪特征向量和声音情绪特征向量进行特征融合，得到多模信息特征向量；调用预先训练得到的人物情绪识别模型，对所述多模信息特征向量进行识别，得到人物情绪识别结果。

在本申请的描述中，需要说明的是，术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

还需要说明的是，在本申请的描述中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

显然，本申请的上述实施例仅仅是为清楚地说明本申请所作的举例，而并非是对本申请的实施方式的限定，对于本领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本申请的技术方案所引伸出的显而易见的变化或变动仍处于本申请的保护范围之列。

Claims

1.一种视频中人物的情绪识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待识别视频中的包含人脸的图像以及与所述包含人脸的图像相对应的声音频谱图，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取以预定时间间隔由待识别视频抽取的N帧图像以及与所述N帧图像相对应的声音频谱图，包括：

4.根据权利要求1所述的方法，其特征在于，所述将待识别视频划分为M段后从每段中随机采样至少一帧图像获得的至少两帧图像以及与所述至少两帧图像相对应的声音频谱图，包括：

5.根据权利要求4所述的方法，其特征在于，所述从每段中随机采样至少一帧图像，包括：

对每段随机采样L次，获得L个至少两帧图像，L＞1。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述从所述包含人脸的图像提取人脸情绪特征向量，包括：

7.根据权利要求1-5中任一项所述的方法，其特征在于，所述从所述N帧图像提取帧情绪特征向量，包括：

8.根据权利要求1-5中任一项所述的方法，其特征在于，所述从所述声音频谱图提取声音情绪特征向量，包括：

9.根据权利要求1-5中任一项所述的方法，其特征在于，所述从所述至少两帧图像提取视频情绪特征向量，包括：

10.根据权利要求1-5中任一项所述的方法，其特征在于，对所述人脸情绪特征向量、帧情绪特征向量、视频情绪特征向量和声音情绪特征向量进行特征融合，得到多模信息特征向量，包括：

对特征融合后的特征向量进行降维处理；

11.根据权利要求10所述的方法，其特征在于，在对每段随机采样L次的情况下，从L个视频情绪特征向量中随机选取1个作为进行特征融合的视频特征向量。

12.根据权利要求1所述的方法，其特征在于，所述人物情绪识别模型为支持向量机分类器。

13.根据权利要求6所述的方法，其特征在于，该方法还包括：

14.根据权利要求7所述的方法，其特征在于，该方法还包括：

15.根据权利要求8所述的方法，其特征在于，该方法还包括：

16.根据权利要求9所述的方法，其特征在于，该方法还包括：

17.一种视频中人物的情绪识别装置，其特征在于，包括：

多模数据获取模块，用于获取待识别视频中的包含人脸的图像、以预定时间间隔由待识别视频抽取的N帧图像、将待识别视频划分为M段后从每段中随机采样至少一帧图像获得的至少两帧图像以及分别与所述包含人脸的图像、所述N帧图像和所述至少两帧图像相对应的声音频谱图，其中，N＞1，M＞1；

18.根据权利要求17所述的装置，其特征在于，所述多模数据获取模块包括：

19.根据权利要求17所述的装置，其特征在于，所述多模特征提取模块包括：

帧特征提取子模块，用于将所述N帧图像输入预先训练得到的帧特征提取模型中进行处理，其中，所述帧特征提取模型包括顺序连接的第二卷积神经网络、第二全连接层和第二分类器，所述第二卷积神经网络用于接收所述N帧图像，并输出所述帧情绪特征向量；

20.一种计算机设备，包括处理器和存储有程序的存储器，其特征在于，所述程序被处理器执行时实现权利要求1-16中任一项所述的方法。

21.一种计算机可读介质，存储有程序，其特征在于，所述程序被执行时实现权利要求1-16中任一项所述的方法。