CN112418034A

CN112418034A - 多模态情感识别方法、装置、电子设备和存储介质

Info

Publication number: CN112418034A
Application number: CN202011262785.1A
Authority: CN
Inventors: 曾祥云; 顾文元; 张雪源
Original assignee: Yuanmeng Human Intelligence International Co ltd
Current assignee: Shanghai Yuanmeng Intelligent Technology Co ltd; Yuanmeng Human Intelligence International Co ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-02-26
Anticipated expiration: 2040-11-12
Also published as: CN112418034B

Abstract

本发明涉及语音识别和图像处理技术领域，本发明提供多模态情感识别方法、装置、电子设备和存储介质，其方法包括步骤：对待识别对象的视频数据进行去重，获取所述待识别对象的人脸时序图像数据；在获取所述待识别对象的视频数据时，实时获取所述待识别对象的文本数据；将对齐后的所述人脸时序图像数据和所述文本数据输入至多模态情感识别模型，以进行所述待识别对象的多模态情感识别。本发明通过实时获取虚拟人在和用户对话过程中用户的表情以及对话的文本内容，通过图像和文本信号联合输入的方式，获取多维度的丰富特征，来提升情感分类和检测的准确性和鲁棒性。特别在正话反说，反讽等场景具有较高的准确率。

Description

多模态情感识别方法、装置、电子设备和存储介质

技术领域

本发明涉及语音识别和图像处理技术领域，尤指多模态情感识别方法、装置、电子设备和存储介质。

背景技术

在虚拟人和人类点对点聊天中，需要实时识别人类的情感，根据情感识别结果来生成相应的答案，指导声音，文本，动作多维度输出。因此情感识别对提升虚拟人的情感陪伴体验非常重要。

现存的情感识别方法大多数基于文本的，往往在虚拟人互动中，文本都是基于语音识别的结果，由于语音识别准确率不一定很高，所以得到的文本存在一定的噪声。

同时，仅仅当人类说一句反讽的话通过语音识别转化成文字后，讽刺意味全部损失了，造成情感识别不准。

发明内容

本发明的目的是提供多模态情感识别方法、装置、电子设备和存储介质，本发明通过实时获取虚拟人在和用户对话过程中用户的表情以及对话的文本内容，通过图像和文本信号联合输入的方式，获取多维度的丰富特征，来提升情感分类和检测的准确性和鲁棒性。特别在正话反说，反讽等场景具有较高的准确率。

本发明提供的技术方案如下：

一种多模态情感识别方法，包括步骤：

对待识别对象的视频数据进行去重，获取所述待识别对象的人脸时序图像数据；

在获取所述待识别对象的视频数据时，实时获取所述待识别对象的文本数据；

将对齐后的所述人脸时序图像数据和所述文本数据输入至多模态情感识别模型，以进行所述待识别对象的多模态情感识别。

进一步优选地，所述在获取所述待识别对象的视频数据时，实时获取所述待识别对象的文本数据，具体包括步骤：

获取所述待识别对象在每一轮轮对话中输入的语音数据；

通过语音识别接口将所述语音数据实时翻译成文本数据。

进一步优选地，所述将对齐后的所述人脸时序图像数据和所述文本数据输入至多模态情感识别模型，以进行所述待识别对象的多模态情感识别，具体包括步骤：

利用所述多模态情感识别模型抽取以图像为核心的第一双模态特征和以文本为核心的第二双模态特征；

将所述第一双模态特征和所述第二双模态特征进行特征拼接获得目标特征；

将所述目标特征输入至所述多模态情感识别的softmax分类器进行分类和损失计算，以获取所述待识别对象的多模态情感。

进一步优选地，所述利用所述多模态情感识别模型抽取以图像为核心的第一双模态特征，具体包括步骤：

将所述人脸时序图像数据中的图像语义时序向量采用定义的图像卷积层进行卷积，以获得图像时序特征；

对所述图像时序特征在通道上进行压缩，得到图像特征向量；

将基于所述文本数据得到的文本特征向量和所述图像特征向量分别进行归一化；

通过所述多模态情感识别模型的跨模态注意力机制层将所述图像特征向量和文本特征向量进行交互，得到所述第一双模态特征。

进一步优选地，在所述将基于所述文本数据得到的文本特征向量和所述图像特征向量分别进行归一化之前，还包括步骤：

对所述图像特征向量进行归一化，并乘以一个预设系数；

对所述图像特征向量进行位置编码，得到的位置编码向量和所述图像特征向量进行点对点相加，并以预设概率随机设置为零，以获得初始图像特征矩阵；

其中，所述初始图像特征矩阵用于复制所述文本特征向量。

进一步优选地，所述通过所述多模态情感识别模型的跨模态注意力机制层将所述图像特征向量和文本特征向量进行交互，得到所述第一双模态特征，具体包括步骤：

将所述文本特征向量复制后，对所述文本特征向量和所述图像特征向量分别做线性变换得到第一文本矩阵和第一图像矩阵，对所述初始图像特征矩阵做线性变换得到当前图像特征矩阵；

分别对所述第一文本矩阵、所述第一图像矩阵和所述当前图像特征矩阵进行形状变化，得到变换形状后的所述当前图像特征矩阵；

将变化形状后的所述当前图像特征矩阵和所述第一文本矩阵进行矩阵相乘得到第一权重矩阵；

将所述第一权重矩阵转化为概率矩阵，将所述概率矩阵上的元素置为零，得到第二权重矩阵；

将所述第二权重矩阵与所述第一图像矩阵相乘获得第一双模态矩阵；

利用线性变换器对所述第一双模态矩阵进行变换，并进行归一化得到所述第一双模态特征。

进一步优选地，所述利用所述多模态情感识别模型抽取以文本为核心的第二双模态特征包括步骤：

将所述文本数据中的文本语义向量采用定义的文本卷积层进行卷积，以获得文本特征；

对所述文本特征在通道上进行压缩，得到文本特征向量；

将所述文本特征向量和所述图像特征向量分别进行归一化；

通过所述多模态情感识别模型的跨模态注意力机制层将所述图像特征向量和文本特征向量进行交互，得到所述第二双模态特征。

进一步优选地，在所述将所述文本特征向量和所述图像特征向量分别进行归一化之前，还包括步骤：

对所述文本特征向量进行归一化，并乘以一个预设系数；

对所述文本特征向量进行位置编码，得到的位置编码向量和所述文本特征向量进行点对点相加，并以预设概率随机设置为零，以获得初始文本特征矩阵；

其中，所述初始文本特征矩阵用于复制所述图像特征向量。

进一步优选地，所述通过所述多模态情感识别模型的跨模态注意力机制层将所述图像特征向量和文本特征向量进行交互，得到所述第二双模态特征，具体包括步骤：

将所述图像特征向量复制后，对所述文本特征向量和所述图像特征向量分别做线性变换得到第二文本矩阵和第二图像矩阵，对所述初始文本特征矩阵做线性变换得到当前文本特征矩阵；

分别对所述第二文本矩阵、所述第二图像矩阵和所述当前文本特征矩阵进行形状变化，得到变化形状后的所述当前文本特征矩阵；

将变化形状后的所述当前文本特征矩阵和所述第二图像矩阵进行矩阵相乘得到第三权重矩阵；

将所述第三权重矩阵转化为概率矩阵，将所述概率矩阵上的元素置为零，得到第四权重矩阵；

将所述第四权重矩阵与所述第二文本矩阵相乘获得第二双模态矩阵；

利用线性变换器对所述第二双模态矩阵进行变换，并进行归一化得到所述第二双模态特征。

进一步优选地，所述对待识别对象的视频数据进行去重，获取所述待识别对象的人脸时序图像数据，具体包括步骤：

采用Vibe算法进行背景建模，提取出来相对静止背景的二值化灰度轮廓图；

将所述二值化灰度轮廓图和对应的原图进行响应的形态学操作和位与操作，去掉背景以保留前景图片；

当提取所述待识别对象的视频数据中前景图片后，采用感知哈希算法计算前后帧图片的相似度，当所述相似度超过预设阈值，删除图片；

将得到的图片进行人脸检测，得到人脸图片；

根据所述待识别对象的视频数据的时间顺序，将所述人脸图片保存成人脸时序图像数据。

进一步优选地，在所述在获取所述待识别对象的视频数据时，实时获取所述待识别对象的文本数据之后，还包括步骤：

将所述人脸时序图像数据和所述文本数据转化为预设维度的特征向量，以进行对齐，以为所述多模态情感识别模型提供所述人脸时序图像数据和所述文本数据对齐的数据格式和高维数据。

一种多模态情感识别装置，包括：

去重模块，用于对待识别对象的视频数据进行去重，获取所述待识别对象的人脸时序图像数据；

获取模块，用于在获取所述待识别对象的视频数据时，实时获取所述待识别对象的文本数据；

识别模块，用于将对齐后的所述人脸时序图像数据和所述文本数据输入至多模态情感识别模型，以进行所述待识别对象的多模态情感识别。

一种电子设备，所述电子设备包括：

处理器；以及，存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行所述多模态情感识别方法。

一种存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现所述多模态情感识别方法所执行的操作。

本发明提供的多模态情感识别方法、装置、电子设备和存储介质至少具有以下有益效果：

1)本发明通过实时获取虚拟人在和用户对话过程中用户的表情以及对话的文本内容，通过图像和文本信号联合输入的方式，获取多维度的丰富特征，来提升情感分类和检测的准确性和鲁棒性。特别在正话反说，反讽等场景具有较高的准确率。

2)为了情感陪伴虚拟人更好的动态感知用户情绪，来生成更加人性化、有温度的聊天内容，本发明融合了视频表情信息和对话文本内容，使得获取的原始信息维度更多，更加真实，减少语音识别不正确而造成的噪声干扰。

3)在本发明中，在视频数据采集过程，为了加速整个聊天过程，对输入的视频进行去重，删除掉重复度较高的视频，异常视频，没有人脸的视频，减少后续步骤的计算量。

4)采用预训练好的bert模型对输入的文本进行抽取特征，得到每个字的表征，拿第一个字[cls]作为整个句子的表征，以实现准确的获取用户的文本信息。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对多模态情感识别方法、装置、电子设备和存储介质的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明中一种多模态情感识别方法的一个实施例的流程图；

图2是本发明中一种多模态情感识别方法的另一个实施例的流程图；

图3是本发明中一种多模态情感识别装置的一个实施例的结构示意图；

图4是本发明中多模态情感识别模型的结构图；

图5是本发明电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所述描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或集合的存在或添加。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

另外，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例一

本发明的一个实施例，如图1所示，一种多模态情感识别方法，包括：

S100对待识别对象的视频数据进行去重，获取所述待识别对象的人脸时序图像数据。

具体的，训练阶段的数据输入层：数据输入包括聊天过程中实时采集的视频数据和文本对话数据。视频数据通过虚拟人摄像头实时获取聊天对象，然后通过算法识别出来人脸的时序图。

所述对待识别对象的视频数据进行去重，获取所述待识别对象的人脸时序图像数据，具体包括步骤：

采用Vibe算法进行背景建模，提取出来相对静止背景的二值化灰度轮廓图，将所述二值化灰度轮廓图和对应的原图进行响应的形态学操作和位与操作，去掉背景以保留前景图片，当提取所述待识别对象的视频数据中前景图片后，采用感知哈希算法计算前后帧图片的相似度，当所述相似度超过预设阈值，删除图片，将得到的图片进行人脸检测，得到人脸图片，根据所述待识别对象的视频数据的时间顺序，将所述人脸图片保存成人脸时序图像数据。

示例性的，多模态情感识别模型的视频数据输入层的视频去重算法，主要步骤如下：

采用Vibe算法进行背景建模，提取出来相对静止背景的二值化灰度轮廓图。

把上述得到的二值化灰度轮廓图和原图进行响应的形态学操作和位与操作，去掉背景，保留前景图片。

把视频流中前景图片提取出来后，采用感知哈希算法计算后面图片和前面数帧图片的相似度，假如相似度超过阈值，删除图片。

把上述得到图片进行人脸检测，得到人脸图片，不掉人其他部分图片。

根据视频的时间先后顺序，把上述得到的图片集合按照先后顺序保存。

在本实施例中，在视频数据采集过程，为了加速整个聊天过程，对输入的视频进行去重，删除掉重复度较高的视频，异常视频，没有人脸的视频，减少后续步骤的计算量。

S200在获取所述待识别对象的视频数据时，实时获取所述待识别对象的文本数据。

具体的，文本数据是通过实时采集聊天语音数据，聊天数据格式是单句的，在通过语音识别将其转化为文字。

S300将对齐后的所述人脸时序图像数据和所述文本数据输入至多模态情感识别模型，以进行所述待识别对象的多模态情感识别。

具体的，把文本信息即文本数据和视频数据输入层处理得到的图片信息进行对齐，存储为特定数据结构。

在本实施例中，为了情感陪伴虚拟人更好的动态感知用户情绪，来生成更加人性化、有温度的聊天内容，本发明融合了视频表情信息和对话文本内容，使得获取的原始信息维度更多，更加真实，减少语音识别不正确而造成的噪声干扰。同时，采用一层的bi-lstm对一句话内去重后的图片进行特征抽取，得到一个固定形状和维度的图像表征向量。

实施例二

基于上述实施例，在本实施例中与上述实施例相同的部分就不一一赘述了，如图2所示，本实施提供一个多模态情感识别方法，具体包括：

S201获取所述待识别对象在每一轮轮对话中输入的语音数据。

S202通过语音识别接口将所述语音数据实时翻译成文本数据。

示例性的，多模态情感识别模型的文本数据输入层：

1、在聊天过程中，获取用户输入的每一句话，等待用户把一轮对话说完，以便获取完整的单轮对话，因为单轮对话可能包含多句话。

2、把获取的语音数据，通过语音识别接口，实时翻译成文本。

3、把上述步骤2得到的文本信息和视频数据输入层处理得到的图片信息进行对齐，存储为特定数据结构。

在本实施例中，采用预训练好的bert模型对输入的文本进行抽取特征，得到每个字的表征，拿第一个字[cls]作为整个句子的表征，以实现准确的获取用户的文本信息。

实施例三

基于上述实施例，在本实施例中，所述将对齐后的所述人脸时序图像数据和所述文本数据输入至多模态情感识别模型，以进行所述待识别对象的多模态情感识别，具体包括步骤：

利用所述多模态情感识别模型抽取以图像为核心的第一双模态特征和以文本为核心的第二双模态特征，将所述第一双模态特征和所述第二双模态特征进行特征拼接获得目标特征，将所述目标特征输入至所述多模态情感识别的softmax分类器进行分类和损失计算，以获取所述待识别对象的多模态情感。

优选地，所述利用所述多模态情感识别模型抽取以图像为核心的第一双模态特征，具体包括步骤：

将所述人脸时序图像数据中的图像语义时序向量采用定义的图像卷积层进行卷积，以获得图像时序特征；对所述图像时序特征在通道上进行压缩，得到图像特征向量。

对所述图像特征向量进行归一化，并乘以一个预设系数；对所述图像特征向量进行位置编码，得到的位置编码向量和所述图像特征向量进行点对点相加，并以预设概率随机设置为零，以获得初始图像特征矩阵；其中，所述初始图像特征矩阵用于复制所述文本特征向量。

将基于所述文本数据得到的文本特征向量和所述图像特征向量分别进行归一化；通过所述多模态情感识别模型的跨模态注意力机制层将所述图像特征向量和文本特征向量进行交互，得到所述第一双模态特征。

其中，所述通过所述多模态情感识别模型的跨模态注意力机制层将所述图像特征向量和文本特征向量进行交互，得到所述第一双模态特征，具体包括步骤：

将所述文本特征向量复制后，对所述文本特征向量和所述图像特征向量分别做线性变换得到第一文本矩阵和第一图像矩阵，对所述初始图像特征矩阵做线性变换得到当前图像特征矩阵。

分别对所述第一文本矩阵、所述第一图像矩阵和所述当前图像特征矩阵进行形状变化，得到所述当前图像特征矩阵的形状为[W,B*H,D]。

其中，W为图像的宽*高*3，B为放入的数据量，H为多头的个数，D为特征维度，H*D的值为400；将所述当前图像特征矩阵和所述第一文本矩阵进行矩阵相乘得到第一权重矩阵；将所述第一权重矩阵转化为概率矩阵，将所述概率矩阵上的元素置为零，得到第二权重矩阵；将所述第二权重矩阵与所述第一图像矩阵相乘获得第一双模态矩阵；利用线性变换器对所述第一双模态矩阵进行变换，并进行归一化得到所述第一双模态特征。

优选地，所述利用所述多模态情感识别模型抽取以文本为核心的第二双模态特征包括步骤：

将所述文本数据中的文本语义向量采用定义的文本卷积层进行卷积，以获得文本特征，对所述文本特征在通道上进行压缩，得到文本特征向量，将所述文本特征向量和所述图像特征向量分别进行归一化，通过所述多模态情感识别模型的跨模态注意力机制层将所述图像特征向量和文本特征向量进行交互，得到所述第二双模态特征。

优选地，在所述将所述文本特征向量和所述图像特征向量分别进行归一化之前，还包括步骤：

对所述文本特征向量进行归一化，并乘以一个预设系数，对所述文本特征向量进行位置编码，得到的位置编码向量和所述文本特征向量进行点对点相加，并以预设概率随机设置为零，以获得初始文本特征矩阵。其中，所述初始文本特征矩阵用于复制所述图像特征向量。

优选地，所述通过所述多模态情感识别模型的跨模态注意力机制层将所述图像特征向量和文本特征向量进行交互，得到所述第二双模态特征，具体包括步骤：

将所述图像特征向量复制后，对所述文本特征向量和所述图像特征向量分别做线性变换得到第二文本矩阵和第二图像矩阵，对所述初始文本特征矩阵做线性变换得到当前文本特征矩阵。

分别对所述第二文本矩阵、所述第二图像矩阵和所述当前文本特征矩阵进行形状变化，得到所述当前文本特征矩阵的形状为[W,B*H,D]。

其中，W为图像的宽*高*3，B为放入的数据量，H为多头的个数，D为特征维度，H*D的值为400。

将所述当前文本特征矩阵和所述第二图像矩阵进行矩阵相乘得到第三权重矩阵，将所述第三权重矩阵转化为概率矩阵，将所述概率矩阵上的元素置为零，得到第四权重矩阵，将所述第四权重矩阵与所述第二文本矩阵相乘获得第二双模态矩阵，利用线性变换器对所述第二双模态矩阵进行变换，并进行归一化得到所述第二双模态特征。

优选地，在所述在获取所述待识别对象的视频数据时，实时获取所述待识别对象的文本数据之后，还包括步骤：

实施例四

基于上述实施例，在本实施例中与上述实施例相同的部分就不一一赘述了，本实施例提供一种多模态情感识别方法，具体包括：

训练阶段：

一、数据输入层

数据输入包括聊天过程中实时采集的视频数据和文本对话数据。视频数据通过虚拟人摄像头实时获取聊天对象，然后通过算法识别出来人脸的时序图。文本数据是通过实时采集聊天语音数据，聊天数据格式是单句的，在通过语音识别把它转化为文字。

视频数据输入层：

在视频数据采集过程，为了加速整个聊天过程，对输入的视频进行去重，删除掉重复度较高的视频，异常视频，没有人脸的视频，减少后续步骤的计算量。所述的视频去重算法，主要步骤如下：

采用Vibe算法进行背景建模，提取出来相对静止背景的二值化灰度轮廓图。把上述得到的二值化灰度轮廓图和原图进行响应的形态学操作和位与操作，去掉背景，保留前景图片。把视频流中前景图片提取出来后，采用感知哈希算法计算后面图片和前面数帧图片的相似度，假如相似度超过阈值，删除图片。把上述得到图片进行人脸检测，得到人脸图片，不掉人其他部分图片。根据视频的时间先后顺序，把上述得到的图片集合按照先后顺序保存。

文本数据输入层：

二、数据表征层

数据表征层，是把数据输入层中处理好的时序图像和文本转化为固定维度的特征向量。为模型计算提供视频和文本对齐的数据格式和高维数据。

视频数据表征层：

1、把视频数据输入层得到的时序图像数据输入一个12层transformer特征抽取器里面，抽取具有时序特征的特征。

2、上述步骤1所述的transformer模型,按照图像数据输入到特征输出自底向上的流程可分为图像padding层，特征形变层，参数初始化层，随机丢弃层，像素点表征层，位置表征层，线性变化层。

3、上述步骤2所述的各个模块组合方式如下：

A、先采用正态分布随机初始化两个矩阵M和N，M矩阵的形状是(图像宽度*图像高度*通道数)*512，用于表征每一个像素点，N矩阵的形状是(图像宽度*通道数*图像高度)*512。

B、把初始化好的M矩阵用预先训练好的带相互语义关系的矩阵M`替换，同理得到N`。

C、读入单轮对话的处理好的图片数据，图像数据值得分布在0-255，把图像数值按照通道投影到(0-图像宽度*图像高度*2)之间，得到形状为N*图像宽度*图像高度*2的输入数据格式。

D、把上述A步骤得到的一批次图像数据宽度和通道数通过特征形变层进行形变，得到N*图像高度*(图像宽度*通道数)形状的数据格式。

E、查语义矩阵M`，把每一个像素转化为一个512维的向量，得到矩阵K。

F、把不同大小的同一批次图片通过padding层，对小于一批次最大的宽高的图片再上下左右四个维度进行补零，所有图片补零后，得到统一大小的图片。

G、查语义矩阵N`，把每一个像素的位置进行表征为一个512维的向量,得到矩阵P。

H、把K和P矩阵进行点对点相加，得到综合语义向量Q。

I、把得到的语义向量Q采用随机丢弃层的方法，把Q向量用层的方式，按照一定的概率把某些层的原始设置为零。这样就得到一个具有时序相关，像素位置相关，像素语义相关的向量Q`。

J、把语义矩阵Q`放入预训练好的4层transformer抽取特征，得到更加高阶的语义特征向量O，O的形状是Batch_size*(图像宽度*图像高度*通道数)*512的图像矩阵O`。

文本数据表征层：

1、文本数据采用预先训练好的BERT模型，采用对换数据微调的方式加强对换的语义相关度。

2、加载微调好的BERT语言模型，预训练好的BERT模型由12层transformer组成。

3、把文本进行分字，得到分字后的句子S。

4、把句子S的每个字的字向量，每个字的位置信息，每个字来自于哪个句子的信息三者相加表征成句子数*每个句子字的个数*768维的向量W。

5、把W向量放入BERT模型去抽取特征，得到整个句子的表征W`,w`的形状为batch_size*句子长度*768。

三、模型定义

定义一个模型M，M是由6层的transformer组成特征抽取层和4层的特征转化层组成，对输出的特征进行组合，再接上线性变换器，残差连接和dropout对特征进行加强和随机化，最后接一个softmax分类器对21类情感进行预测，其结构图如图4所示。

四、模型计算层

模型计算层包括，卷积层，线性变换层，随机丢弃层，transform特征编码层，跨模态注意力机制层，残差层，损失函数，优化器，层归一化，梯度截断。

1、数据表征层得到的文本语义向量采用定义的文本卷积层进行卷积，对特征在通道上进行压缩，得到的文本特征向量S，形状为句子数*句子长度*100。

2、对数据表征层得到的图像语义时序向量采用定义的图像卷积层进行卷积，对特征在通道上进行压缩，得到和图像征向量I，形状为句子数*(图像宽*图像高*通道数)*400。

3、用6层的由transformer组成的图像特征抽取器T1对图像语义特征I进一步进行抽取，每一层的transformer可以表述如下：

A、对图像特征向量I进行归一化，对特征乘以一个较小的系数。

B、对特征向量I进行位置编码，图像的位置有图像的宽、高和通道数决定，得到的位置编码向量和特征向量I进行点对点相加。

C、对上述B步骤得到的向量以一定的概率随机设置为零，以增强特征的鲁棒性I`。

D、为了得到双模态语义信息，需要把文本信息融入到T1特征抽取器中。因此，对文本特征向量S采取上述A-C步骤进行处理得到S`。

E、对文本特征向量和图像特征向量分别采用对应的层归一化进行操作。

F、把图像特征和文本特征用跨模态注意力机制层进行交互，得到跨模态的语义特征向量。跨模态注意力机制层表述如下：

a、把文本特征S`复制2后，分别做线性变换得到得到K,V矩阵，同时把I`矩阵做线性变换得到Q矩阵。

b、分别把Q,K,V矩阵进行形状变化，得到Q`的形状为[W,B*H,D]，其中W为图像的宽*高*3，B为放入的数据量(batch size),H为多头的个数，D为特征维度，其中H*D的值为400。

c、把Q矩阵和K矩阵进行矩阵相乘得到权重矩阵W。

d、把W矩阵采用softmax转化为概率，再对概率矩阵采用一定的概率对W矩阵上的元素置为零，得到W`矩阵，增加特征的随机性。

e、再把W`权重矩阵乘以V得到V`矩阵。

f、利用线性变换器对V`矩阵进行变换，再对其进行归一化得到最终的加注意力机制后的图像双模态特征。

4、用另外一个6层的由transformer组成的文本特征抽取器T2对文本特征S进一步进行抽取，得到以文本为中心，包含图片的语义特征，每一层的transformer可以表述如下：

A、对文本语义特征向量S进行归一化，对特征乘以一个较小的系数。

B、对特征向量S进行位置编码，得到的位置编码向量和特征向量S进行点对点相加。

C、对上述B步骤得到的向量以一定的概率随机设置为零，以增强特征的鲁棒性S`。

G、为了得到双模态语义信息，需要把图像信息融入到T2特征抽取器中。因此，对图像特征向量I采取上述A-C步骤进行处理得到I`。

H、分别对文本特征向量和图像特征向量分别采用对应的层归一化进行操作。

I、以文本特征为中心，把图像特征用跨模态注意力机制层进行交互，得到跨模态的语义特征向量。跨模态注意力机制层表述如下：

a、把图像特征I`复制2后，分别做线性变换得到得到K,V矩阵，同时把S`矩阵做线性变换得到Q矩阵。

b、分别把Q,K,V矩阵进行形状变化，得到Q`的形状为[W,B*H,D]，其中W为图像的宽*高*3，B为放入的数据量(batch size),H为多头的个数，D为特征维度。

c、把Q矩阵和K矩阵进行矩阵相乘得到权重矩阵W。

e、再把W`权重矩阵乘以V得到V`矩阵。

f、利用线性变换器对V`矩阵进行变换，再对其进行归一化得到最终的加注意力机制后的文本双模态特征。

5、对得到的分别以图像和文本为核心的双模态特征进行随机打乱在做特征拼接。

6、把上述步骤5得到的特征放入softmax分类器做分类和损失计算。

五、模型

1、通过虚拟人摄像头实时获取对话的场景视频，检测当前对话的是否有人脸以及人脸的情况，假如有多个人脸，通过视频前后帧对比判断当前说话的人脸，对说话的人脸进行检测和分割，得到正在工作的人脸。

2、在分割人脸时，通过语音识别接口，得到当前说话客户的文字信息，在一段文字信息内，并且把重复度较高的人脸信息去掉，保留具有特征的图片，把文本和保留的图片对齐，封装成一个数据结构。

3、采用一层的bi-lstm对一句话内去重后的图片进行特征抽取，得到一个固定形状和维度的图像表征向量。

4、采用预训练好的bert对输入的文本进行抽取特征，得到每个字的表征，拿第一个字[cls]作为整个句子的表征。

5、由于原始bert需要同时放入两句话，二情感分类一般是单句，因此需要对于第4步的输入信息和原始的bert做一定的改进，去掉第二句话，以及对应的字表征。

实施例五

如图3所示，本发明提供一种多模态情感识别装置，包括：

去重模块301，用于对待识别对象的视频数据进行去重，获取所述待识别对象的人脸时序图像数据。

获取模块302，用于在获取所述待识别对象的视频数据时，实时获取所述待识别对象的文本数据。

识别模块303，用于将对齐后的所述人脸时序图像数据和所述文本数据输入至多模态情感识别模型，以进行所述待识别对象的多模态情感识别。

在本实施例中，通过虚拟人摄像头实时获取对话的场景视频，检测当前对话的是否有人脸以及人脸的情况，假如有多个人脸，通过视频前后帧对比判断当前说话的人脸，对说话的人脸进行检测和分割，得到正在工作的人脸。在分割人脸时，通过语音识别接口，得到当前说话客户的文字信息，在一段文字信息内，并且把重复度较高的人脸信息去掉，保留具有特征的图片，把文本和保留的图片对齐，封装成一个数据结构。

同时，定义一个模型M，M是由6层的transformer组成特征抽取层和4层的特征转化层组成，对输出的特征进行组合，再接上线性变换器，残差连接和dropout对特征进行加强和随机化，最后接一个softmax分类器对21类情感进行预测。

采用一层的bi-lstm对一句话内去重后的图片进行特征抽取，得到一个固定形状和维度的图像表征向量。采用预训练好的bert对输入的文本进行抽取特征，得到每个字的表征，拿第一个字[cls]作为整个句子的表征。由于原始bert需要同时放入两句话，情感分类一般是单句，因此需要对于第4步的输入信息和原始的bert做一定的改进，去掉第二句话，以及对应的字表征。

通过本实施例的多模态情感识别装置可以融合视频表情信息和对话文本内容，使得获取的原始信息维度更多，更加真实，减少语音识别不正确而造成的噪声干扰。

另一方面，如图5所示，本发明提供一种电子设备100，包括处理器110、存储器120，其中，存储器120，用于存放计算机程序121；处理器110，用于执行存储器120上所存放的计算机程序121，实现上述所对应方法实施例中的方法。

所述电子设备100可以为桌上型计算机、笔记本、掌上电脑、平板型计算机、手机、人机交互屏等设备。所述电子设备100可包括，但不仅限于处理器110、存储器120。本领域技术人员可以理解，图5仅仅是电子设备100的示例，并不构成对电子设备100的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，示例性的：电子设备100还可以包括输入/输出接口、显示设备、网络接入设备、通信总线、通信接口等。通信接口和通信总线，还可以包括输入/输出接口，其中，处理器110、存储器120、输入/输出接口和通信接口通过通信总线完成相互间的通信。该存储器120存储有计算机程序121，该处理器110用于执行存储器120上所存放的计算机程序121，实现上述所对应方法实施例中的方法。

所述处理器110可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器120可以是所述电子设备100的内部存储单元，示例性的：电子设备的硬盘或内存。所述存储器也可以是所述电子设备的外部存储设备，示例性的：所述电子设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器120还可以既包括所述电子设备100的内部存储单元也包括外部存储设备。所述存储器120用于存储所述计算机程序121以及所述电子设备100所需要的其他程序和数据。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。

通信总线是连接所描述的元素的电路并且在这些元素之间实现传输。示例性的，处理器110通过通信总线从其它元素接收到命令，解密接收到的命令，根据解密的命令执行计算或数据处理。存储器120可以包括程序模块，示例性的，内核(kernel)，中间件(middleware)，应用程序编程接口(Application Programming Interface，API)和应用。该程序模块可以是有软件、固件或硬件、或其中的至少两种组成。输入/输出接口转发用户通过输入/输出接口(示例性的，感应器、键盘、触摸屏)输入的命令或数据。通信接口将所述电子设备100与其它网络设备、用户设备、网络进行连接。示例性的，通信接口可以通过有线或无线连接到网络以连接到外部其它的网络设备或用户设备。无线通信可以包括以下至少一种：无线保真(WiFi)，蓝牙(BT)，近距离无线通信技术(NFC)，全球卫星定位系统(GPS)和蜂窝通信等等。有线通信可以包括以下至少一种：通用串行总线(USB)，高清晰度多媒体接口(HDMI)，异步传输标准接口(RS-232)等等。网络可以是电信网络和通信网络。通信网络可以为计算机网络、因特网、物联网、电话网络。电子设备100可以通过通信接口连接网络，电子设备100和其它网络设备通信所用的协议可以被应用、应用程序编程接口(API)、中间件、内核和通信接口至少一个支持。

另一方面，本发明提供一种存储介质，所述存储介质中存储有至少一条指令，指令由处理器加载并执行以实现上述法对应实施例所执行的操作。示例性的，存储介质可以是只读内存(ROM)、随机存取存储器(RAM)、只读光盘(CD-ROM)、磁带、软盘和光数据存储设备等。

它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

在本申请所提供的实施例中，应该理解到，所揭露的装置/设备和方法，可以通过其他的方式实现。示例性的，以上所描述的装置/设备实施例仅仅是示意性的，示例性的，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，示例性的，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性、机械或其他的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可能集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序发送指令给相关的硬件完成，所述的计算机程序可存储于一介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述介质可以包括：能够携带所述计算机程序的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，示例性的：在某些司法管辖区，根据立法和专利实践，计算机可读的介质不包括电载波信号和电信信号。所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的程序模块完成，即将所述装置的内部结构划分成不同的程序单元或模块，以完成以上描述的全部或者部分功能。实施例中的各程序模块可以集成在一个处理单元中，也可是各个单元单独物理存在，也可以两个或两个以上单元集成在一个处理单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序单元的形式实现。另外，各程序模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述或记载的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种多模态情感识别方法，其特征在于，包括步骤：

2.根据权利要求1所述多模态情感识别方法，其特征在于，所述在获取所述待识别对象的视频数据时，实时获取所述待识别对象的文本数据，具体包括步骤：

获取所述待识别对象在每一轮轮对话中输入的语音数据；

通过语音识别接口将所述语音数据实时翻译成文本数据。

3.根据权利要求1所述多模态情感识别方法，其特征在于，所述将对齐后的所述人脸时序图像数据和所述文本数据输入至多模态情感识别模型，以进行所述待识别对象的多模态情感识别，具体包括步骤：

4.根据权利要求3所述多模态情感识别方法，其特征在于，所述利用所述多模态情感识别模型抽取以图像为核心的第一双模态特征，具体包括步骤：

5.根据权利要求4所述多模态情感识别方法，其特征在于，在所述将基于所述文本数据得到的文本特征向量和所述图像特征向量分别进行归一化之前，还包括步骤：

对所述图像特征向量进行归一化，并乘以一个预设系数；

其中，所述初始图像特征矩阵用于复制所述文本特征向量。

6.根据权利要求5所述多模态情感识别方法，其特征在于，所述通过所述多模态情感识别模型的跨模态注意力机制层将所述图像特征向量和文本特征向量进行交互，得到所述第一双模态特征，具体包括步骤：

分别对所述第一文本矩阵、所述第一图像矩阵和所述当前图像特征矩阵进行形状变化，得到变化形状后的所述当前图像特征矩阵；

将所述第二权重矩阵与所述第一图像矩阵相乘获得第一双模态矩阵；利用线性变换器对所述第一双模态矩阵进行变换，并进行归一化得到所述第一双模态特征。

7.根据权利要求4所述多模态情感识别方法，其特征在于，所述利用所述多模态情感识别模型抽取以文本为核心的第二双模态特征包括步骤：

对所述文本特征在通道上进行压缩，得到文本特征向量；

将所述文本特征向量和所述图像特征向量分别进行归一化；

8.根据权利要求4所述多模态情感识别方法，其特征在于，在所述将所述文本特征向量和所述图像特征向量分别进行归一化之前，还包括步骤：

对所述文本特征向量进行归一化，并乘以一个预设系数；

其中，所述初始文本特征矩阵用于复制所述图像特征向量。

9.根据权利要求8所述多模态情感识别方法，其特征在于，所述通过所述多模态情感识别模型的跨模态注意力机制层将所述图像特征向量和文本特征向量进行交互，得到所述第二双模态特征，具体包括步骤：

10.根据权利要求1～9中任一项所述多模态情感识别方法，其特征在于，所述对待识别对象的视频数据进行去重，获取所述待识别对象的人脸时序图像数据，具体包括步骤：

将得到的图片进行人脸检测，得到人脸图片；

11.根据权利要求10所述多模态情感识别方法，其特征在于，在所述在获取所述待识别对象的视频数据时，实时获取所述待识别对象的文本数据之后，还包括步骤：

12.一种多模态情感识别装置，其特征在于，包括：

13.一种电子设备，其特征在于，所述电子设备包括：

处理器；以及，存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行根据权利要求1～11中任一项所述多模态情感识别方法。

14.一种存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1～11中任一项所述多模态情感识别方法所执行的操作。