CN112232276B

CN112232276B - 一种基于语音识别和图像识别的情绪检测方法和装置

Info

Publication number: CN112232276B
Application number: CN202011213188.XA
Authority: CN
Inventors: 赵珍; 李小强
Original assignee: Shanghai Enterprise Information Technology Co ltd
Current assignee: Shanghai Enterprise Information Technology Co ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2023-10-13
Anticipated expiration: 2040-11-04
Also published as: CN112232276A

Abstract

本发明涉及一种基于语音识别和图像识别的情绪检测方法和装置，获取待检测的一段用户的自拍视频，以及自拍视频对应的实际场景，对自拍视频进行处理，得到图像信号和语音信号，对图像信号进行处理，获取表情变化趋势，对语音信号进行处理，获取语音信号在实际场景中的初步情绪结果，最后融合表情变化趋势以及初步情绪结果，获取用户的最终情绪结果。本发明提供的基于语音识别和图像识别的情绪检测方法是一种自动检测方法，相较于人工检测的方式，不受到主观因素的影响，从而提升检测准确性；无需专门设置检测人员，减少人工成本；处理效率较快，而且，在对处理设备进行设置，能够对多个自拍视频同时进行处理，效率较高。

Description

一种基于语音识别和图像识别的情绪检测方法和装置

技术领域

本发明涉及一种基于语音识别和图像识别的情绪检测方法和装置。

背景技术

在信息处理技术不是很发达的过去，在根据一段视频或者一段语音判断说话人的情绪时，由专门的检测人员根据说话人的表情、说话人的口气以及该段语音中出现的相关关键字来判断说话人的情绪。这种人为判断方式存在以下缺陷：(1)检测人员易受到主观因素的影响，从而导致检测错误；(2)需要专门设置相关的人员，增大人工成本；(3)需要检测人员看完一段视频或者听完一段语音之后才能够进行检测判断，而且，检测人员同时只能够对一段视频或者一段语音进行判断，效率非常低。

发明内容

为了解决上述技术问题，本发明提供一种基于语音识别和图像识别的情绪检测方法和装置。

本发明采用以下技术方案：

一种基于语音识别和图像识别的情绪检测方法，包括：

获取待检测的一段用户的自拍视频，以及所述自拍视频对应的实际场景；

对所述自拍视频进行处理，得到图像信号和语音信号；

对所述图像信号按照预设周期进行截图处理，获取至少两个图像；

对所述至少两个图像进行表情识别，得到各个图像中的人物表情；

根据各个图像中的人物表情，以及各个图像的先后时间顺序，获取表情变化趋势；

对所述语音信号进行语音识别，获取对应的文字信号；

将所述文字信号以及所述实际场景输入到预设检测模型中，获取所述语音信号在所述实际场景中的初步情绪结果；

融合所述表情变化趋势以及所述初步情绪结果，获取所述用户的最终情绪结果。

优选地，所述融合所述表情变化趋势以及所述初步情绪结果，获取最终情绪结果，包括：

若所述表情变化趋势为朝向正面表情发展，且所述初步情绪结果为正面情绪，则所述最终情绪结果为正面情绪；

若所述表情变化趋势为朝向负面表情发展，且所述初步情绪结果为负面情绪，则所述最终情绪结果为负面情绪。

优选地，所述预设检测模型的获取过程包括：

获取至少两个场景中，每一个场景中的至少两个校正文本；

获取各场景中的各校正文本的实际情绪结果；

将所述各场景中的各校正文本输入到已有检测模型中，得到各场景中的各校正文本的检测情绪结果；

获取实际情绪结果和检测情绪结果均为正面情绪的各场景下的各校正文本，得到第一场景下的各第一校正文本，以及实际情绪结果和检测情绪结果均为负面情绪的各场景下的各校正文本，得到第二场景下的各第二校正文本；

根据所述第一场景下的各第一校正文本，以及所述第二场景下的各第二校正文本，调整所述已有检测模型，得到所述预设检测模型。

优选地，所述对所述至少两个图像进行表情识别，得到各个图像中的人物表情，包括：

对所述至少两个图像进行用户人脸识别，得到所述用户的用户人脸图像；

对各个图像中的用户人脸图像进行表情识别，得到各个图像中的人物表情。

优选地，所述对各个图像中的用户人脸图像进行表情识别，得到各个图像中的人物表情，包括：

获取第一样本集和第二样本集，所述第一样本集包括至少一个正面表情样本图像，所述第二样本集包括至少一个负面表情样本图像；

对所述第一样本集中的各正面表情样本图像进行标注，得到第一表情类别，第一表情类别为正面表情，对所述第二样本集中的各负面表情样本图像进行标注，得到第二表情类别，第二表情类别为负面表情，所述第一表情类别和第二表情类别构成标注数据；

将所述第一样本集和第二样本集输入至表情识别编码器中进行特征提取，表情识别编码器输出的特征向量输入给Flatten层，经Flatten层处理得到一维特征向量，一维特征向量作为全连接层的输入，全连接层将一维特征向量映射到特征标记空间，然后输出给softmax函数，通过softmax函数输出两个表情类别的概率，根据输出的两个表情类别的概率确定对应的初始表情类别；

将所述初始表情类别与所述标注数据通过交叉熵损失函数进行运算，优化表情识别网络中的参数；

将所述各个图像中的用户人脸图像输入到所述表情识别网络中，得到所述各个图像中的用户人脸图像的人物表情。

一种基于语音识别和图像识别的情绪检测装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下所述的基于语音识别和图像识别的情绪检测方法的步骤：

对所述自拍视频进行处理，得到图像信号和语音信号；

对所述语音信号进行语音识别，获取对应的文字信号；

优选地，所述预设检测模型的获取过程包括：

获取至少两个场景中，每一个场景中的至少两个校正文本；

获取各场景中的各校正文本的实际情绪结果；

本发明的有益效果为：对用户的自拍视频分别进行图像处理和语音处理，其中，图像处理用于获取多个人物表情，并根据人物表情以及先后时间顺序，得到表情变化趋势，由于不同的场景下即便相同的文字信号也可能具有不同的情绪，而且，文字信号是较为能够体现人物情绪的载体，因此，对自拍视频的语音信号进行语音识别，获取文字信号，将文字信号以及实际场景输入到预设检测模型中，获取语音信号在该实际场景中的初步情绪结果，即获取在该实际场景下，该语音信号所对应的初步情绪结果，将实际场景应用到情绪检测中能够提升检测准确性，最后融合表情变化趋势以及初步情绪结果，获取用户的最终情绪结果。因此，本发明提供的基于语音识别和图像识别的情绪检测方法，是一种自动检测方法，对视频进行两个方面的处理，对图像进行人物表情识别，对语音进行文字识别，并根据文字信号以及实际场景得到情绪结果，融合两个数据信息得到最终的情绪结果，相较于人工检测的方式，不受到主观因素的影响，从而提升检测准确性；无需专门设置检测人员，减少人工成本；处理效率较快，而且，在对处理设备进行设置之后，能够对多个自拍视频同时进行处理，效率较高。

附图说明

图1是一种基于语音识别和图像识别的情绪检测方法的流程示意图。

具体实施方式

本实施例提供一种基于语音识别和图像识别的情绪检测方法，该情绪检测方法的硬件执行主体可以为计算机设备、服务器设备、智能移动终端等，本实施例不对硬件执行主体做具体限定。

如图1所示，该基于语音识别和图像识别的情绪检测方法包括：

步骤S1：获取待检测的一段用户的自拍视频，以及所述自拍视频对应的实际场景：

用户将自己的自拍视频传输给硬件执行主体，自拍视频的时长由实际要求进行设置，比如可以为30s以内的短视频，也可以为2-3分钟的较长视频。用户还将自拍视频的实际场景传输给硬件执行主体，实际场景可以是指自拍视频所处的环境或者所处的场合，比如：在家中，或者在工作中，或者在其他公共场合，比如：KTV、超市、饭店等。获取实际场景，将实际场景应用到情绪检测中是因为在视频中包含相同的数据的情况下，不同的场景下的情绪可能会不同。

步骤S2：对所述自拍视频进行处理，得到图像信号和语音信号：

将自拍视频进行解析处理，得到图像信号和语音信号，其中，图像信号为没有声音、只有图像的视频数据，应当理解，由于是用户的自拍视频，则图像信号包含用户的人脸图像；语音信号为自拍视频中的声音信号，具体地，语音信号为用户在自拍视频中所说的话。

由于将视频文件分解成图像信号和声音信号的处理过程属于常规技术，不再赘述。

步骤S3：对所述图像信号按照预设周期进行截图处理，获取至少两个图像：

对图像信号按照预设周期进行截图处理，获取至少两个图像。其中，预设周期由实际需要进行设置，预设周期越长，获取到的图像越少。应当理解，由于是自拍视频，则得到的各个图像均包括用户的人脸图像。

步骤S4：对所述至少两个图像进行表情识别，得到各个图像中的人物表情：

先对至少两个图像中的各个图像进行用户人脸识别，得到各个图像中用户的用户人脸图像。

然后，对各个图像中的用户人脸图像进行表情识别，得到各个图像中的人物表情，作为一个具体实施方式，以下给出一种表情识别过程：

将各个图像中的用户人脸图像输入到表情识别网络中，得到各个图像中的用户的表情。其中，表情识别网络可以采用如下训练过程训练得到：

获取第一样本集和第二样本集，第一样本集包括至少一个正面表情样本图像，第二样本集包括至少一个负面表情样本图像。其中，正面表情样本图像是指人物表情为正面表情的样本图像，正面表情具体是高兴、开心等；负面表情样本图像是指人物表情为负面表情的样本图像，负面表情具体是伤心、哭泣、难过等。

对第一样本集中的各正面表情样本图像进行标注，得到第一表情类别，第一表情类别为正面表情，对第二样本集中的各负面表情样本图像进行标注，得到第二表情类别，第二表情类别为负面表情。也就是说，标注的表情类别分为两种，可以用不同的索引表示不同的表情类别，其中，索引0对应正面表情，索引1对应负面表情，标注还可以经过one-hot编码。第一表情类别和第二表情类别构成标注数据。

表情识别网络包括表情识别编码器、Flatten层、全连接层和softmax函数。

将第一样本集和第二样本集输入至表情识别编码器中进行特征提取，表情识别编码器输出特征向量(比如嘴角张度)，特征向量输入给Flatten层，经Flatten层处理得到一维特征向量，一维特征向量作为全连接层的输入，全连接层将一维特征向量映射到特征标记空间，然后输出给softmax函数，通过softmax函数输出两个表情类别的概率，应当理解，这两个表情类别的概率相加为1，根据输出的两个表情类别的概率确定对应的初始表情类别。

将得到的初始表情类别与标注数据通过交叉熵损失函数进行运算，优化表情识别网络中的参数，使得输出的表情类别逐渐靠近真实值。

将各个图像中的用户人脸图像输入到表情识别网络中，通过表情识别网络进行表情识别，具体是将各个图像中的用户人脸图像输入至表情识别编码器中进行特征提取，图像分类编码器输出特征向量，特征向量输入给Flatten层，经Flatten层处理得到一维特征向量，一维特征向量作为全连接层的输入，全连接层将一维特征向量映射到特征标记空间，然后输出给softmax函数，通过softmax函数输出对应的表情类别，输出的表情类别为正面表情或者负面表情。

步骤S5：根据各个图像中的人物表情，以及各个图像的先后时间顺序，获取表情变化趋势：

由于各个图像是按照预设周期获取得到的，因此，各个图像具有先后时间顺序，先后时间顺序为在自拍视频在播放过程中的时间顺序。那么，得到各个图像中的人物表情之后，根据各个图像的先后时间顺序，获取表情变化趋势。表情变化趋势为表情朝向哪一个方向发展，即朝向正面表情或者朝向负面表情发展。

其中，朝向正面表情发展包括两种情况，分别是：表情向正面表情进行变化(比如表情由负面表情变化到正面表情)或者一直是正面表情。同理，朝向负面表情发展也包括两种情况，分别是：表情向负面表情进行变化(比如表情由正面表情变化到负面表情)或者一直是负面表情。

步骤S6：对所述语音信号进行语音识别，获取对应的文字信号：

对语音信号进行语音识别，得到与语音信号相对应的文字信号，即将声音信号转换为文字信号。由于语音识别算法属于常规算法，不再赘述。

步骤S7：将所述文字信号以及所述实际场景输入到预设检测模型中，获取所述语音信号在所述实际场景中的初步情绪结果：

得到文字信号之后，将文字信号以及自拍视频所对应的实际场景输入到预设检测模型中，获取语音信号在实际场景中的初步情绪结果。

应当理解，预设检测模型可以是一个事先构建好的检测模型，包括：至少两个场景，各场景下均设置有至少两个文本，以及各场景下的各文本对应的情绪结果，应当理解，为了提升检测准确性，该检测模型中的场景的设置个数，以及各个场景中的文本的设置个数可以足够多，即将目前已知的各场景，以及各场景下所能够发生或者说产生的文本均囊括在该检测模型中。由于场景和文本之间是独立的，因此，预设检测模型也可以这样说，包括：至少两个文本，以及各文本在至少两个场景中的各场景下对应的情绪结果。而且，为了提升检测准确性，预设检测模型中的各文本可以是关键词，并非一定是完整的句子，比如：完整的句子是：“我不想干了”，关键词可以是：“不想干”。

上段所涉及到的检测模型可以是已有检测模型，作为一个具体实施方式，预设检测模型是对已有检测模型进行校正之后的检测模型，因此，以下给出一种获取过程：

(1)获取至少两个场景中，每一个场景中的至少两个校正文本。应当理解，为了提升校正的可靠性，提升预测检测模型的准确性，该步骤中，获取到的场景可以设置的足够多，足够广，而且，每一个场景中的校正文本也设置的足够多，足够广。

(2)由于校正文本是用于对已有检测模型进行校正的文本，是已知的，因此，各场景中的各校正文本的实际情绪结果也是已知的，则获取各场景中的各校正文本的实际情绪结果。

(3)将各场景中的各校正文本输入到已有检测模型中，得到各场景中的各校正文本的检测情绪结果。

(4)得到各场景中的各校正文本的实际情绪结果，以及检测情绪结果之后，校验各场景中的各校正文本的这两个情绪结果，具体地：获取实际情绪结果和检测情绪结果均为正面情绪的各场景下的各校正文本，得到第一场景下的各第一校正文本，以及实际情绪结果和检测情绪结果均为负面情绪的各场景下的各校正文本，得到第二场景下的各第二校正文本。

(5)根据第一场景下的各第一校正文本，以及第二场景下的各第二校正文本，调整已有检测模型，得到预设检测模型。以下给出两种调整方法，第一种：不考虑已有检测模型，而是直接根据第一场景下的各第一校正文本，以及第二场景下的各第二校正文本，构建预设检测模型；第二种：对于已有检测模型中的情绪结果为正面情绪的各场景下的各文本，将其中不符合实际情绪结果和检测情绪结果均为正面情绪这一条件的各场景下的各文本删去；对于已有检测模型中的情绪结果为负面情绪的各场景下的各文本，将其中不符合实际情绪结果和检测情绪结果均为负面情绪这一条件的各场景下的各文本删去。

因此，将得到的文字信号以及实际场景输入到预设检测模型中，获取该文字信号在实际场景中的初步情绪结果，即对应的语音信号在实际场景中的初步情绪结果。

通过校正，能够提升预设检测模型的检测精度。

步骤S8：融合所述表情变化趋势以及所述初步情绪结果，获取所述用户的最终情绪结果：

对得到的表情变化趋势以及初步情绪结果进行融合，具体地：若表情变化趋势为朝向正面表情发展，且初步情绪结果为正面情绪，则用户的最终情绪结果为正面情绪；若表情变化趋势为朝向负面表情发展，且初步情绪结果为负面情绪，则用户的最终情绪结果为负面情绪。

作为其他的实施方式，还可以设置有两个权重，结合表情变化趋势以及初步情绪结果，以及对应的权重，获取用户的最终情绪结果。

本实施例还提供一种基于语音识别和图像识别的情绪检测装置，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现本实施例提供的基于语音识别和图像识别的情绪检测方法的步骤。因此，该基于语音识别和图像识别的情绪检测装置是一种软件装置，其本质仍旧是一种基于语音识别和图像识别的情绪检测方法，由于该基于语音识别和图像识别的情绪检测方法在上述实施例中已给出了具体描述，不再赘述。

上述实施例仅以一种具体的实施方式说明本发明的技术方案，任何对本发明进行的等同替换及不脱离本发明精神和范围的修改或局部替换，其均应涵盖在本发明权利要求保护的范围之内。

Claims

1.一种基于语音识别和图像识别的情绪检测方法，其特征在于，包括：

对所述自拍视频进行处理，得到图像信号和语音信号；

对所述语音信号进行语音识别，获取对应的文字信号；

融合所述表情变化趋势以及所述初步情绪结果，获取所述用户的最终情绪结果；

所述预设检测模型的获取过程包括：

获取至少两个场景中，每一个场景中的至少两个校正文本；

获取各场景中的各校正文本的实际情绪结果；

2.根据权利要求1所述的基于语音识别和图像识别的情绪检测方法，其特征在于，所述融合所述表情变化趋势以及所述初步情绪结果，获取最终情绪结果，包括：

3.根据权利要求1所述的基于语音识别和图像识别的情绪检测方法，其特征在于，所述对所述至少两个图像进行表情识别，得到各个图像中的人物表情，包括：

4.根据权利要求3所述的基于语音识别和图像识别的情绪检测方法，其特征在于，所述对各个图像中的用户人脸图像进行表情识别，得到各个图像中的人物表情，包括：

5.一种基于语音识别和图像识别的情绪检测装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如下所述的基于语音识别和图像识别的情绪检测方法的步骤：

对所述自拍视频进行处理，得到图像信号和语音信号；

对所述语音信号进行语音识别，获取对应的文字信号；

所述预设检测模型的获取过程包括：

获取至少两个场景中，每一个场景中的至少两个校正文本；

获取各场景中的各校正文本的实际情绪结果；

6.根据权利要求5所述的基于语音识别和图像识别的情绪检测装置，其特征在于，所述融合所述表情变化趋势以及所述初步情绪结果，获取最终情绪结果，包括：

7.根据权利要求5所述的基于语音识别和图像识别的情绪检测装置，其特征在于，所述对所述至少两个图像进行表情识别，得到各个图像中的人物表情，包括：

8.根据权利要求7所述的基于语音识别和图像识别的情绪检测装置，其特征在于，所述对各个图像中的用户人脸图像进行表情识别，得到各个图像中的人物表情，包括：