WO2020125386A1

WO2020125386A1 - 表情识别方法、装置、计算机设备和存储介质

Info

Publication number: WO2020125386A1
Application number: PCT/CN2019/122313
Authority: WO
Inventors: 郑子奇; 徐国强; 邱寒
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2018-12-18
Filing date: 2019-12-02
Publication date: 2020-06-25
Also published as: CN109829363A

Abstract

一种表情识别方法, 包括: 获取待处理的视频数据和音频数据, 所述视频数据和所述音频数据均携带同一用户标识, 所述音频数据包括音频特征和文字信息, 所述视频数据包括用户人脸图像对应的面部特征; 将所述音频特征、文字信息和面部特征分别输入至对应的表情分类器中, 获取各个所述表情分类器输出的表情识别结果以及与所述表情识别结果对应的权重; 从所述输出的表情识别结果中, 筛选出权重最大的表情识别结果, 作为与所述用户标识对应的用户的表情类别.

Description

表情识别方法、装置、计算机设备和存储介质

本申请要求于2018年12月18日提交中国专利局，申请号为201811553986.X，申请名称为“表情识别方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及一种表情识别方法、装置、计算机设备和存储介质。

背景技术

人类表情蕴含着丰富的情绪，其传递的信息非常重要，故在用户视频面试、面审等既有视频录制也有音频录制的场景中，往往需要对用户表情进行分析，以了解用户真实的情绪。因此，表情识别的准确性显得越来越重要。

然而，传统的表情识别方法主要是基于录制的图像和视频来对用户的表情类型进行判断，因此对于图片的质量和拍摄的场景都有一定的要求。但是，发明人意识到，若图片的质量和拍摄的场景达不到要求，而且在用户面部动作不够丰富时，很容易出现漏判的情况，从而造成表情识别的准确率较低。

发明内容

根据本申请公开的各种实施例，提供一种表情识别方法、装置、计算机设备和存储介质。

一种表情识别方法包括：

获取待处理的视频数据和音频数据，所述视频数据和所述音频数据均携带同一用户标识，所述音频数据包括音频特征和文字信息，所述视频数据包括用户人脸图像对应的面部特征；

将所述音频特征、文字信息和面部特征分别输入至对应的表情分类器中，获取各个所述表情分类器输出的表情识别结果以及与所述表情识别结果对应的权重；及

从所述输出的表情识别结果中，筛选出权重最大的表情识别结果，作为与所述用户标识对应的用户的表情类别。

一种表情识别装置包括：

数据获取模块，用于获取待处理的视频数据和音频数据，所述视频数据和所述音频数据均携带同一用户标识，所述音频数据包括音频特征和文字信息，所述视频数据包括用户人脸图像对应的面部特征；

表情获取模块，用于将所述音频特征、文字信息和面部特征分别输入至对应的表情分类器中，获取各个所述表情分类器输出的表情识别结果以及与所述表情识别结果对应的权重；及

表情筛选模块，用于从所述输出的表情识别结果中，筛选出权重最大的表情识别结果，作为与所述用户标识对应的用户的表情类别。

一种计算机设备，包括存储器和一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述一个或多个处理器执行以下步骤：

一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为根据一个或多个实施例中表情识别方法的应用场景图；

图2为根据一个或多个实施例中表情识别方法的流程示意图；

图3为根据一个实施例中获取各个表情分类器输出的表情识别结果的步骤的流程示意图；

图4为另一个实施例中表情识别方法的流程示意图；

图5为根据一个或多个实施例中表情识别装置的框图；

图6为根据一个或多个实施例中计算机设备的框图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的表情识别方法，可以应用于如图1所示的应用环境中。终端110通过网络与服务器120进行通信。终端110中安装了视频录制系统，视频录制系统能够将录制的视频数据和音频数据上传至服务器120；视频数据和音频数据携带同一用户标识。服务器120从音频数据中提取出音频特征和文字信息，从视频数据中提取出用户人脸图像对应的面部特征；将提取出的音频特征、文字信息和面部特征分别输入至对应的表情分类器中，获取各个表情分类器输出的表情识别结果以及与表情识别结果对应的权重；从输出的表情识别结果中，筛选出权重最大的表情识别结果，作为与用户标识对应的用户的表情类别。终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑，服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在其中一个实施例中，如图2所示，提供了一种表情识别方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S201，获取待处理的视频数据和音频数据，视频数据和音频数据均携带同一用户标识，音频数据包括音频特征和文字信息，视频数据包括用户人脸图像对应的面部特征。

视频数据和音频数据是指在用户面审、面试等环节中，通过终端中的视频录制系统对用户所录制的数据。用户标识用于标识视频数据和音频数据，便于服务器进行区分；用户标识可以是用户姓名，用户身份证号码等。音频特征是指用于分析用户的表情类别的特征信息，比如音量、频响等；文字信息是指通过语音识别技术，由音频特征中的音频信息转化而来的信息；面部特征是指从视频数据中的人脸图像中提取出来的，用于分析用户的表情类别的特征信息，比如眼部特征，嘴部特征等。用户的表情类别可以分为很多种，比如悲伤、高兴、厌恶等。

终端(比如智能手机)安装了视频录制系统，视频录制系统能够将在用户面审、面试等环节中录制的视频数据和音频数据，作为待处理的视频数据和音频数据，上传至服务器。服务器从待处理的音频数据中提取音频特征和文字信息；从待处理的视频数据中提取用户人脸图像，并从提取出的用户人脸图像提取面部特征，方便后续将提取出的音频特征、文字信息和人脸图像输入对应的表情分类器，以从多个角度对用户的表情类别进行综合判断，进一步提高了表情识别的准确率。

步骤S202，将音频特征、文字信息和面部特征分别输入至对应的表情分类器中，获取各个表情分类器输出的表情识别结果以及与表情识别结果对应的权重。

表情分类器能够根据输入的信息，输出对应的表情识别结果，比如，基于语音识别的表情分类器能够根据输入的音频特征，输出用户的表情类别；基于文字识别的表情分类器能够根据输入的文字信息，输出用户的表情类别；基于人脸识别的表情分类器能够根据输入的面部特征，输出用户的表情类别。

权重用于衡量表情识别结果的重要程度，不同的表情识别结果，对应的权重不一样。需要说明的是，同一表情分类器，每次输出的表情识别结果所占有的权重是不同的，具体跟输入的信息有关。

服务器将音频特征、文字信息和面部特征分别输入至对应的表情分类器中，获取各个表情分类器输出的表情识别结果以及与表情识别结果对应的权重，方便从语音、文字和视觉这三个角度对用户的表情类别进行综合判断，能够提供更为多样的表情识别结果，方便从多样的表情识别结果对用户的表情类别进行综合分析，进一步提高了表情识别的准确率，避免了传统方法中仅从视觉角度对用户的表情类别进行判断，导致表情识别的准确率低的缺陷。

步骤S203，从输出的表情识别结果中，筛选出权重最大的表情识别结果，作为与用户标识对应的用户的表情类别。

服务器从各个表情分类器输出的表情识别结果中，获取权重最大的表情识别结果，作为与用户标识对应的用户的表情类别，实现了从多个角度对用户的表情类别进行综合判断的目的，避免漏判，进一步提高了表情识别的准确率和稳定性。需要说明的是，若各个表情识别结果对应的权重一样，则以基于人脸识别的表情分类器输出的表情识别结果为主。

上述表情识别方法中，服务器获取待处理的视频数据和音频数据，视频数据和音频数据均携带同一用户标识，音频数据包括音频特征和文字信息，视频数据包括用户人脸图像对应的面部特征；将音频特征、文字信息和面部特征分别输入至对应的表情分类器中，获取各个表情分类器输出的表情识别结果以及与表情识别结果对应的权重；从输出的表情识别结果中，筛选出权重最大的表情识别结果，作为与用户标识对应的用户的表情类别；实现了从语音、文字和视觉这三个角度对用户的表情类别进行综合判断的目的，能够提供更为多样的表情识别结果，方便从多样的表情识别结果中对用户的表情类别进行综合分析，避免漏判，进一步提高了表情识别的准确率和稳定性，克服了传统方法中仅从视觉角度对用户的表情类别进行判断，导致表情识别的准确率低的缺陷。

考虑到不同的表情分类器，对应的输入信息不同，为了区分不同的表情分类器，服务器可以将表情分类器分为第一表情分类器、第二表情分类器和第三表情分类器。

在其中一个实施例中，如图3所示，将音频特征、文字信息和面部特征分别输入至对应的表情分类器中，获取各个表情分类器输出的表情识别结果以及与表情识别结果对应的权重的步骤具体包括：

步骤S301，将音频特征输入至第一表情分类器中，获取第一表情分类器的表情识别结果以及与表情识别结果对应的第一权重。

步骤S302，将文字信息输入至第二表情分类器中，获取第二表情分类器的表情识别结果以及与表情识别结果对应的第二权重。

步骤S303，将面部特征输入至第三表情分类器中，获取第三表情分类器的表情识别结果以及与表情识别结果对应的第三权重。

第一表情分类器是基于语音识别的表情分类器，能够根据输入的音频特征，输出与音频特征对应的表情类别，作为用户的表情类别。第二表情分类器是基于文字识别的表情分类器，能够根据输入的文字信息，输出与文字信息对应的表情类型，作为用户的表情类别。第三表情分类器是基于人脸识别的表情分类器，能够根据输入的面部特征，输出与面部特征对应的表情类别，作为用户的表情类别。

服务器将音频特征、文字信息和面部特征分别输入至对应的表情分类器中，以从语音、文字和视觉这三个角度对用户的表情类别进行综合判断，避免漏判，进一步提高了表情识别的准确率；同时，从多个角度对用户的表情类别进行判断，可以提高表情识别的稳定性。

在其中一个实施例中，上述步骤S301，将音频特征输入至第一表情分类器中，获取第一表情分类器的表情识别结果以及与表情识别结果对应的第一权重，包括：将音频特征输入至第一表情分类器中，第一表情分类器用于从音频特征中提取出目标特征，根据目标特征查询第一数据库，获取与目标特征对应的表情类别，作为表情识别结果，并确定与表情识别结果对应的第一权重；获取第一表情分类器的表情识别结果以及与表情识别结果对应的第一权重。目标特征是指输入的音频特征中，与设定音频特征(比如音调)匹配的特征。第一数据库存储有多个与音频特征对应的表情类别。

服务器基于大数据，预先收集了多个不同的音频特征以及与音频特征对应的表情类别，从音频特征中提取出目标特征；将与音频特征对应的表情类别，作为与从该音频特征中提取的目标特征对应的表情类别，以得到多个与目标特征对应的表情类别；将多个与目标特征对应的表情类别存储至第一数据库中，方便后续通过第一数据库获取与目标特征对应的表情类别。比如，恐惧的情绪中时常会带有尖叫，因此平均音调较高；故通过第一表情分类器，从音频特征中提取出目标特征音调；当识别到音调较高时，可以判断出用户的表情类别为恐惧。通过第一表情分类器，可以获取与输入的音频特征对应的表情类别，结合语音识别技术，通过用户语音中的音频特征来分析用户当前的表情类别，进一步提高了表情识别的准确率，避免漏判而造成表情识别的准确率低的缺陷。

为了进一步提高第一表情分类器的表情识别准确率，可以对第一表情分类器进行多次训练。在其中一个实施例中，第一表情分类器通过下述方法得到：获取多个样本音频特征及对应的表情类别；通过待训练的第一表情分类器对样本音频特征进行识别，得到第一表情分类器的表情识别结果；将表情识别结果与对应的实际表情类别进行比较，得到识别误差；当识别误差大于或等于预设第一阈值时，根据识别误差对第一表情分类器进行训练，直到根据训练后的第一表情分类器得到的识别误差小于预设第一阈值，结束训练。

比如，当识别误差大于或等于预设第一阈值时，服务器根据识别误差调整第一表情分类器的参数；根据调整后的第一表情分类器对样本音频特征进行再次识别，获取根据第一表情分类器得到的表情识别结果与对应的实际表情类别之间的识别误差，根据识别误差对第一表情分类器的参数进行再次调整，以对第一表情分类器进行再次训练，直到根据训练后的第一表情分类器得到的识别误差小于预设第一阈值，结束训练。服务器根据识别误差，对第一表情分类器进行多次训练，方便通过第一表情分类器输出更准确的表情识别结果，避免漏判，从而进一步提高了第一表情分类器的表情识别准确率。

在其中一个实施例中，上述步骤S302，将文字信息输入至第二表情分类器中，获取第二表情分类器的表情识别结果以及与表情识别结果对应的第二权重，包括：将文字信息输入至第二表情分类器中，第二表情分类器用于从文字信息中提取出目标信息，根据目标信息查询第二数据库，获取与目标信息对应的表情类别，作为表情识别结果，并确定与表情识别结果对应的第二权重；获取第二表情分类器的表情识别结果以及与表情识别结果对应的第二权重。目标信息是指从输入的文字信息中，提取出的蕴含情绪的信息，比如开心、愤怒等。第二数据库存储有多个与文字信息对应的表情类别。

服务器基于大数据，预先收集了多个不同用户的语音信息，将语音信息转化成文字信息，从文字信息中提取出目标信息，并确定目标信息对应的表情类别，将多个与目标信息对应的表情类别存储至第二数据库中，方便后续通过第二数据库获取与目标信息对应的表情类别。比如，文字信息“开心”通常代表着快乐，故通过第二表情分类器，从文字信息中提取出目标信息；当识别到目标信息为“开心”时，可以判断出用户的表情类别为快乐。通过第二表情分类器，可以获取与输入的文字信息对应的表情类别，以确定用户当前的表情类别，从而进一步提高了表情识别的准确率，避免漏判而造成表情识别的准确率低的缺陷。

进一步，第二表情分类器还可以从文字信息中提取出目标信息，并从文字信息中确定与目标信息关联的上下文信息；根据目标信息以及与目标信息关联的上下文信息，确定目标信息的实际含义；根据目标信息的实际含义查询第二数据库，获取与目标信息的实际含义对应的表情类别，作为表情识别结果，并确定与表情识别结果对应的第二权重。比如，从文字信息“你说发生这样的事情我能开心吗”中提取目标信息“开心”，并结合“开心”的上下文信息，确定“开心”的实际含义为消极情绪“不开心”。基于此方法，可以获取多个与目标信息对应的表情类别，并将其存储至第二数据库中。结合提取的目标信息的上下文信息，能够进一步减少第二表情分类器的识别误差，从而提高了表情识别的准确率。

在其中一个实施例中，上述步骤S303，将面部特征输入至第三表情分类器中，获取第三表情分类器的表情识别结果以及与表情识别结果对应的第三权重，包括：将面部特征输入至第三表情分类器中，第三表情分类器用于根据面部特征查询第三数据库，获取与面部特征对应的表情类别，作为表情识别结果，并确定与表情识别结果对应的第三权重；获取第三表情分类器的表情识别结果以及与表情识别结果对应的第三权重。第三数据库存储有多个与面部特征对应的表情类别。

服务器基于大数据，预先收集了多个不同的面部特征以及与面部特征对应的表情类别；将多个与面部特征对应的表情类别存储至第三数据库中，方便后续通过第三数据库获取与面部特征对应的表情类别。比如，人们高兴时的面部特征为嘴角翘起，面颊上抬起皱，眼睑收缩，眼睛尾部会形成“鱼尾纹”；伤心时的面部特征为眯眼，眉毛收紧，嘴角下拉，下巴抬起或收紧。故通过第三表情分类器，当识别到面部特征为嘴角翘起，面颊上抬起皱，眼睑收缩，眼睛尾部会形成“鱼尾纹”，可以判断出用户的表情类别为高兴。通过第三表情分类器，可以获取与输入的面部特征对应的表情类别，结合人脸识别技术，通过用户的面部特征来分析用户当前的表情类别，进一步提高了表情识别的准确率，避免漏判而造成表情识别的准确率低的缺陷。

为了进一步提高表情识别的准确率，服务器还可以从待处理的视频数据中提取多张人脸图像，分别从各张人脸图像中提取面部特征，将面部特征输入第三表情分类器，获取多个表情识别结果及对应的多个第三权重；从多个表情识别结果中筛选出第三权重最大的表情识别结果，作为第三表情分类器最终输出的表情识别结果。从待处理的视频数据中提取多张人脸图像，并通过第三表情分类器进行分析，避免仅仅根据单张人脸图像中的面部特征对用户的表情类别进行判断，导致表情识别的准确率低的缺陷，从而提高了表情识别的准确率。

此外，为了进一步提高表情识别的准确率，服务器还可以对第三表情分类器进行多次训练。在其中一个实施例中，第三表情分类器通过下述方法得到：获取多个样本面部特征及对应的表情类别；通过待训练的第三表情分类器对样本面部特征进行识别，得到第三表情分类器的表情识别结果；获取表情识别结果与对应的实际表情类别之间的相似度；当相似度小于预设第二阈值时，根据相似度对第三表情分类器进行训练，直到根据训练后的第三表情分类器得到的表情识别结果与对应的实际表情类别之间的相似度大于或等于预设第二阈值，结束训练。

比如，当相似度小于预设第二阈值时，服务器根据相似度调整第三表情分类器的参数；根据调整后的第三表情分类器对样本面部特征进行再次识别，获取根据第三表情分类器得到的表情识别结果与对应的实际表情类别之间的相似度，根据相似度对第三表情分类器的参数进行再次调整，以对第三表情分类器进行再次训练，直到根据训练后的第三表情分类器得到的表情识别结果与对应的实际表情类别之间的相似度大于或等于预设第二阈值，结束训练。服务器根据相似度，对第三表情分类器进行多次训练，方便通过第三表情分类器输出更准确的表情识别结果，避免漏判，从而进一步提高了第三表情分类器的表情识别准确率。

在其中一个实施例中，如图4所示，提供了另一种表情识别方法，包括以下步骤：

步骤S401，获取待处理的视频数据和音频数据，视频数据和音频数据均携带同一用户标识，音频数据包括音频特征和文字信息，视频数据包括用户人脸图像对应的面部特征。

步骤S402，将音频特征输入至第一表情分类器中，第一表情分类器用于从音频特征中提取出目标特征，根据目标特征查询第一数据库，获取与目标特征对应的表情类别，作为表情识别结果，并确定与表情识别结果对应的第一权重；获取第一表情分类器的表情识别结果以及与表情识别结果对应的第一权重。

步骤S403，将文字信息输入至第二表情分类器中，第二表情分类器用于从文字信息中提取出目标信息，根据目标信息查询第二数据库，获取与目标信息对应的表情类别，作为表情识别结果，并确定与表情识别结果对应的第二权重；获取第二表情分类器的表情识别结果以及与表情识别结果对应的第二权重。

步骤S404，将面部特征输入至第三表情分类器中，第三表情分类器用于根据面部特征查询第三数据库，获取与面部特征对应的表情类别，作为表情识别结果，并确定与表情识别结果对应的第三权重；获取第三表情分类器的表情识别结果以及与表情识别结果对应的第三权重。

步骤S405，从输出的表情识别结果中，筛选出权重最大的表情识别结果，作为与用户标识对应的用户的表情类别。

上述表情识别方法中，实现了从语音、文字和视觉这三个角度对用户的表情类别进行综合判断的目的，能够提供更为多样的表情识别结果，方便从多样的表情识别结果中对用户的表情类别进行综合分析，避免漏判，进一步提高了表情识别的准确率和稳定性，克服了传统方法中仅从视觉角度对用户的表情类别进行判断，导致表情识别的准确率低的缺陷。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图5所示，提供了一种表情识别装置，包括：数据获取模块510、表情获取模块520和表情筛选模块530，其中：

数据获取模块510，用于获取待处理的视频数据和音频数据，视频数据和音频数据均携带同一用户标识，音频数据包括音频特征和文字信息，视频数据包括用户人脸图像对应的面部特征。

表情获取模块520，用于将音频特征、文字信息和面部特征分别输入至对应的表情分类器中，获取各个表情分类器输出的表情识别结果以及与表情识别结果对应的权重。

表情筛选模块530，用于从输出的表情识别结果中，筛选出权重最大的表情识别结果，作为与用户标识对应的用户的表情类别。

在其中一个实施例中，表情获取模块还用于将音频特征输入至第一表情分类器中，获取第一表情分类器的表情识别结果以及与表情识别结果对应的第一权重；将文字信息输入至第二表情分类器中，获取第二表情分类器的表情识别结果以及与表情识别结果对应的第二权重；将面部特征输入至第三表情分类器中，获取第三表情分类器的表情识别结果以及与表情识别结果对应的第三权重。

在其中一个实施例中，表情获取模块还用于将音频特征输入至第一表情分类器中，第一表情分类器用于从音频特征中提取出目标特征，根据目标特征查询第一数据库，获取与目标特征对应的表情类别，作为表情识别结果，并确定与表情识别结果对应的第一权重；获取第一表情分类器的表情识别结果以及与表情识别结果对应的第一权重。

在其中一个实施例中，表情获取模块还用于将文字信息输入至第二表情分类器中，第二表情分类器用于从文字信息中提取出目标信息，根据目标信息查询第二数据库，获取与目标信息对应的表情类别，作为表情识别结果，并确定与表情识别结果对应的第二权重；获取第二表情分类器的表情识别结果以及与表情识别结果对应的第二权重。

在其中一个实施例中，表情获取模块还用于将面部特征输入至第三表情分类器中，第三表情分类器用于根据面部特征查询第三数据库，获取与面部特征对应的表情类别，作为表情识别结果，并确定与表情识别结果对应的第三权重；获取第三表情分类器的表情识别结果以及与表情识别结果对应的第三权重。

在其中一个实施例中，表情识别装置还包括第一训练模块，用于获取多个样本音频特征及对应的表情类别；通过待训练的第一表情分类器对样本音频特征进行识别，得到第一表情分类器的表情识别结果；将表情识别结果与对应的实际表情类别进行比较，得到识别误差；当识别误差大于或等于预设第一阈值时，根据识别误差对第一表情分类器进行训练，直到根据训练后的第一表情分类器得到的识别误差小于预设第一阈值，结束训练。

在其中一个实施例中，表情识别装置还包括第二训练模块，用于获取多个样本面部特征及对应的表情类别；通过待训练的第三表情分类器对样本面部特征进行识别，得到第三表情分类器的表情识别结果；获取表情识别结果与对应的实际表情类别之间的相似度；当相似度小于预设第二阈值时，根据相似度对第三表情分类器进行训练，直到根据训练后的第三表情分类器得到的表情识别结果与对应的实际表情类别之间的相似度大于或等于预设第二阈值，结束训练。

上述各个实施例，表情识别装置实现了从语音、文字和视觉这三个角度对用户的表情类别进行综合判断的目的，能够提供更为多样的表情识别结果，方便从多样的表情识别结果中对用户的表情类别进行综合分析，避免漏判，进一步提高了表情识别的准确率和稳定性，克服了传统方法中仅从视觉角度对用户表情类别进行判断，导致表情识别的准确率低的缺陷。

关于表情识别装置的具体限定可以参见上文中对于表情识别方法的限定，在此不再赘述。上述表情识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在其中一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储表情类别。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种表情识别方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

一种计算机设备，包括存储器和一个或多个处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得一个或多个处理器执行以下步骤：

获取待处理的视频数据和音频数据，视频数据和音频数据均携带同一用户标识，音频数据包括音频特征和文字信息，视频数据包括用户人脸图像对应的面部特征；

将音频特征、文字信息和面部特征分别输入至对应的表情分类器中，获取各个表情分类器输出的表情识别结果以及与表情识别结果对应的权重；及

从输出的表情识别结果中，筛选出权重最大的表情识别结果，作为与用户标识对应的用户的表情类别。

在其中一个实施例中，处理器执行计算机可读指令时还实现以下步骤：将音频特征输入至第一表情分类器中，获取第一表情分类器的表情识别结果以及与表情识别结果对应的第一权重；将文字信息输入至第二表情分类器中，获取第二表情分类器的表情识别结果以及与表情识别结果对应的第二权重；及将面部特征输入至第三表情分类器中，获取第三表情分类器的表情识别结果以及与表情识别结果对应的第三权重。

在其中一个实施例中，处理器执行计算机可读指令时还实现以下步骤：将音频特征输入至第一表情分类器中，第一表情分类器用于从音频特征中提取出目标特征，根据目标特征查询第一数据库，获取与目标特征对应的表情类别，作为表情识别结果，并确定与表情识别结果对应的第一权重；及获取第一表情分类器的表情识别结果以及与表情识别结果对应的第一权重。

在其中一个实施例中，处理器执行计算机可读指令时还实现以下步骤：将文字信息输入至第二表情分类器中，第二表情分类器用于从文字信息中提取出目标信息，根据目标信息查询第二数据库，获取与目标信息对应的表情类别，作为表情识别结果，并确定与表情识别结果对应的第二权重；及获取第二表情分类器的表情识别结果以及与表情识别结果对应的第二权重。

在其中一个实施例中，处理器执行计算机可读指令时还实现以下步骤：将面部特征输入至第三表情分类器中，第三表情分类器用于根据面部特征查询第三数据库，获取与面部特征对应的表情类别，作为表情识别结果，并确定与表情识别结果对应的第三权重；及获取第三表情分类器的表情识别结果以及与表情识别结果对应的第三权重。

在其中一个实施例中，处理器执行计算机可读指令时还实现以下步骤：获取多个样本音频特征及对应的表情类别；通过待训练的第一表情分类器对样本音频特征进行识别，得到第一表情分类器的表情识别结果；将表情识别结果与对应的实际表情类别进行比较，得到识别误差；及当识别误差大于或等于预设第一阈值时，根据识别误差对第一表情分类器进行训练，直到根据训练后的第一表情分类器得到的识别误差小于预设第一阈值，结束训练。

在其中一个实施例中，处理器执行计算机可读指令时还实现以下步骤：获取多个样本面部特征及对应的表情类别；通过待训练的第三表情分类器对样本面部特征进行识别，得到第三表情分类器的表情识别结果；获取表情识别结果与对应的实际表情类别之间的相似度；及当相似度小于预设第二阈值时，根据相似度对第三表情分类器进行训练，直到根据训练后的第三表情分类器得到的表情识别结果与对应的实际表情类别之间的相似度大于或等于预设第二阈值，结束训练。

上述各个实施例，计算机设备通过处理器上运行的计算机可读指令，实现了从语音、文字和视觉这三个角度对用户的表情类别进行综合判断的目的，能够提供更为多样的表情识别结果，方便从多样的表情识别结果中对用户的表情类别进行综合分析，避免漏判，进一步提高了表情识别的准确率和稳定性，克服了传统方法中仅从视觉角度对用户表情类别进行判断，导致表情识别的准确率低的缺陷。

一个或多个存储有计算机可读指令的非易失性存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

在其中一个实施例中，计算机可读指令被处理器执行时还实现以下步骤：将音频特征输入至第一表情分类器中，获取第一表情分类器的表情识别结果以及与表情识别结果对应的第一权重；将文字信息输入至第二表情分类器中，获取第二表情分类器的表情识别结果以及与表情识别结果对应的第二权重；及将面部特征输入至第三表情分类器中，获取第三表情分类器的表情识别结果以及与表情识别结果对应的第三权重。

在其中一个实施例中，计算机可读指令被处理器执行时还实现以下步骤：将音频特征输入至第一表情分类器中，第一表情分类器用于从音频特征中提取出目标特征，根据目标特征查询第一数据库，获取与目标特征对应的表情类别，作为表情识别结果，并确定与表情识别结果对应的第一权重；及获取第一表情分类器的表情识别结果以及与表情识别结果对应的第一权重。

在其中一个实施例中，计算机可读指令被处理器执行时还实现以下步骤：将文字信息输入至第二表情分类器中，第二表情分类器用于从文字信息中提取出目标信息，根据目标信息查询第二数据库，获取与目标信息对应的表情类别，作为表情识别结果，并确定与表情识别结果对应的第二权重；及获取第二表情分类器的表情识别结果以及与表情识别结果对应的第二权重。

在其中一个实施例中，计算机可读指令被处理器执行时还实现以下步骤：将面部特征输入至第三表情分类器中，第三表情分类器用于根据面部特征查询第三数据库，获取与面部特征对应的表情类别，作为表情识别结果，并确定与表情识别结果对应的第三权重；及获取第三表情分类器的表情识别结果以及与表情识别结果对应的第三权重。

在其中一个实施例中，计算机可读指令被处理器执行时还实现以下步骤：获取多个样本音频特征及对应的表情类别；通过待训练的第一表情分类器对样本音频特征进行识别，得到第一表情分类器的表情识别结果；将表情识别结果与对应的实际表情类别进行比较，得到识别误差；及当识别误差大于或等于预设第一阈值时，根据识别误差对第一表情分类器进行训练，直到根据训练后的第一表情分类器得到的识别误差小于预设第一阈值，结束训练。

在其中一个实施例中，计算机可读指令被处理器执行时还实现以下步骤：获取多个样本面部特征及对应的表情类别；通过待训练的第三表情分类器对样本面部特征进行识别，得到第三表情分类器的表情识别结果；获取表情识别结果与对应的实际表情类别之间的相似度；及当相似度小于预设第二阈值时，根据相似度对第三表情分类器进行训练，直到根据训练后的第三表情分类器得到的表情识别结果与对应的实际表情类别之间的相似度大于或等于预设第二阈值，结束训练。

上述各个实施例，计算机可读存储介质通过其存储的计算机可读指令，实现了从语音、文字和视觉这三个角度对用户的表情类别进行综合判断的目的，能够提供更为多样的表情识别结果，方便从多样的表情识别结果中对用户的表情类别进行综合分析，避免漏判，进一步提高了表情识别的准确率和稳定性，克服了传统方法表情识别的准确率低的缺陷。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种表情识别方法，包括：

获取待处理的视频数据和音频数据，所述视频数据和所述音频数据均携带同一用户标识，所述音频数据包括音频特征和文字信息，所述视频数据包括用户人脸图像对应的面部特征；

将所述音频特征、文字信息和面部特征分别输入至对应的表情分类器中，获取各个所述表情分类器输出的表情识别结果以及与所述表情识别结果对应的权重；及

从所述输出的表情识别结果中，筛选出权重最大的表情识别结果，作为与所述用户标识对应的用户的表情类别。
根据权利要求1所述的方法，其特征在于，所述表情分类器包括第一表情分类器、第二表情分类器和第三表情分类器；

所述将所述音频特征、文字信息和面部特征分别输入至对应的表情分类器中，获取各个所述表情分类器输出的表情识别结果以及与所述表情识别结果对应的权重，包括：

将所述音频特征输入至第一表情分类器中，获取第一表情分类器的表情识别结果以及与所述表情识别结果对应的第一权重；

将所述文字信息输入至第二表情分类器中，获取第二表情分类器的表情识别结果以及与所述表情识别结果对应的第二权重；及

将所述面部特征输入至第三表情分类器中，获取第三表情分类器的表情识别结果以及与所述表情识别结果对应的第三权重。
根据权利要求2所述的方法，其特征在于，所述将所述音频特征输入至第一表情分类器中，获取第一表情分类器的表情识别结果以及与所述表情识别结果对应的第一权重，包括：

将所述音频特征输入至第一表情分类器中，所述第一表情分类器用于从所述音频特征中提取出目标特征，根据所述目标特征查询第一数据库，获取与所述目标特征对应的表情类别，作为表情识别结果，并确定与所述表情识别结果对应的第一权重；及

获取所述第一表情分类器的表情识别结果以及与所述表情识别结果对应的第一权重。
根据权利要求2所述的方法，其特征在于，所述将所述文字信息输入至第二表情分类器中，获取第二表情分类器的表情识别结果以及与所述表情识别结果对应的第二权重，包括：

将所述文字信息输入至第二表情分类器中，所述第二表情分类器用于从所述文字信息中提取出目标信息，根据所述目标信息查询第二数据库，获取与所述目标信息对应的表情类别，作为表情识别结果，并确定与所述表情识别结果对应的第二权重；及

获取所述第二表情分类器的表情识别结果以及与所述表情识别结果对应的第二权重。
根据权利要求2所述的方法，其特征在于，所述将所述面部特征输入至第三表情分类器中，获取第三表情分类器的表情识别结果以及与所述表情识别结果对应的第三权重，包括：

将所述面部特征输入至第三表情分类器中，所述第三表情分类器用于根据所述面部特征查询第三数据库，获取与所述面部特征对应的表情类别，作为表情识别结果，并确定与所述表情识别结果对应的第三权重；及

获取所述第三表情分类器的表情识别结果以及与所述表情识别结果对应的第三权重。
根据权利要求1至5任意一项所述的方法，其特征在于，所述第一表情分类器通过下述方法得到：

获取多个样本音频特征及对应的表情类别；

通过待训练的第一表情分类器对所述样本音频特征进行识别，得到第一表情分类器的表情识别结果；

将所述表情识别结果与对应的实际表情类别进行比较，得到识别误差；及

当所述识别误差大于或等于预设第一阈值时，根据所述识别误差对所述第一表情分类器进行训练，直到根据训练后的第一表情分类器得到的识别误差小于所述预设第一阈值，结束训练。
根据权利要求6所述的方法，其特征在于，所述第三表情分类器通过下述方法得到：

获取多个样本面部特征及对应的表情类别；

通过待训练的第三表情分类器对所述样本面部特征进行识别，得到第三表情分类器的表情识别结果；

获取所述表情识别结果与对应的实际表情类别之间的相似度；及

当所述相似度小于预设第二阈值时，根据所述相似度对所述第三表情分类器进行训练，直到根据训练后的第三表情分类器得到的表情识别结果与对应的实际表情类别之间的相似度大于或等于所述预设第二阈值，结束训练。
一种表情识别装置，包括：

数据获取模块，用于获取待处理的视频数据和音频数据，所述视频数据和所述音频数据均携带同一用户标识，所述音频数据包括音频特征和文字信息，所述视频数据包括用户人脸图像对应的面部特征；

表情获取模块，用于将所述音频特征、文字信息和面部特征分别输入至对应的表情分类器中，获取各个所述表情分类器输出的表情识别结果以及与所述表情识别结果对应的权重；及

表情筛选模块，用于从所述输出的表情识别结果中，筛选出权重最大的表情识别结果，作为与所述用户标识对应的用户的表情类别。
根据权利要求8所述的装置，其特征在于，所述表情分类器包括第一表情分类器、第二表情分类器和第三表情分类器；

所述表情获取模块还用于将所述音频特征输入至第一表情分类器中，获取第一表情分类器的表情识别结果以及与所述表情识别结果对应的第一权重；将所述文字信息输入至第二表情分类器中，获取第二表情分类器的表情识别结果以及与所述表情识别结果对应的第二权重；将所述面部特征输入至第三表情分类器中，获取第三表情分类器的表情识别结果以及与所述表情识别结果对应的第三权重。
根据权利要求9所述的装置，其特征在于，所述表情获取模块还用于将所述音频特征输入至第一表情分类器中，所述第一表情分类器用于从所述音频特征中提取出目标特征，根据所述目标特征查询第一数据库，获取与所述目标特征对应的表情类别，作为表情识别结果，并确定与所述表情识别结果对应的第一权重；获取所述第一表情分类器的表情识别结果以及与所述表情识别结果对应的第一权重。
一种计算机设备，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取待处理的视频数据和音频数据，所述视频数据和所述音频数据均携带同一用户标识，所述音频数据包括音频特征和文字信息，所述视频数据包括用户人脸图像对应的面部特征；

将所述音频特征、文字信息和面部特征分别输入至对应的表情分类器中，获取各个所述表情分类器输出的表情识别结果以及与所述表情识别结果对应的权重；及

从所述输出的表情识别结果中，筛选出权重最大的表情识别结果，作为与所述用户标识对应的用户的表情类别。
根据权利要求11所述的计算机设备，其特征在于，所述表情分类器包括第一表情分类器、第二表情分类器和第三表情分类器；

所述处理器执行所述计算机可读指令时还执行以下步骤：

将所述音频特征输入至第一表情分类器中，获取第一表情分类器的表情识别结果以及与所述表情识别结果对应的第一权重；

将所述文字信息输入至第二表情分类器中，获取第二表情分类器的表情识别结果以及与所述表情识别结果对应的第二权重；及

将所述面部特征输入至第三表情分类器中，获取第三表情分类器的表情识别结果以及与所述表情识别结果对应的第三权重。
根据权利要求12所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

将所述音频特征输入至第一表情分类器中，所述第一表情分类器用于从所述音频特征中提取出目标特征，根据所述目标特征查询第一数据库，获取与所述目标特征对应的表情类别，作为表情识别结果，并确定与所述表情识别结果对应的第一权重；及

获取所述第一表情分类器的表情识别结果以及与所述表情识别结果对应的第一权重。
根据权利要求12所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

将所述文字信息输入至第二表情分类器中，所述第二表情分类器用于从所述文字信息中提取出目标信息，根据所述目标信息查询第二数据库，获取与所述目标信息对应的表情类别，作为表情识别结果，并确定与所述表情识别结果对应的第二权重；及

获取所述第二表情分类器的表情识别结果以及与所述表情识别结果对应的第二权重。
根据权利要求12所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

将所述面部特征输入至第三表情分类器中，所述第三表情分类器用于根据所述面部特征查询第三数据库，获取与所述面部特征对应的表情类别，作为表情识别结果，并确定与所述表情识别结果对应的第三权重；及

获取所述第三表情分类器的表情识别结果以及与所述表情识别结果对应的第三权重。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取待处理的视频数据和音频数据，所述视频数据和所述音频数据均携带同一用户标识，所述音频数据包括音频特征和文字信息，所述视频数据包括用户人脸图像对应的面部特征；

将所述音频特征、文字信息和面部特征分别输入至对应的表情分类器中，获取各个所述表情分类器输出的表情识别结果以及与所述表情识别结果对应的权重；及

从所述输出的表情识别结果中，筛选出权重最大的表情识别结果，作为与所述用户标识对应的用户的表情类别。
根据权利要求16所述的存储介质，其特征在于，所述表情分类器包括第一表情分类器、第二表情分类器和第三表情分类器；

所述计算机可读指令被所述处理器执行时还执行以下步骤：

将所述音频特征输入至第一表情分类器中，获取第一表情分类器的表情识别结果以及与所述表情识别结果对应的第一权重；

将所述文字信息输入至第二表情分类器中，获取第二表情分类器的表情识别结果以及与所述表情识别结果对应的第二权重；及

将所述面部特征输入至第三表情分类器中，获取第三表情分类器的表情识别结果以及与所述表情识别结果对应的第三权重。
根据权利要求17所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

将所述音频特征输入至第一表情分类器中，所述第一表情分类器用于从所述音频特征中提取出目标特征，根据所述目标特征查询第一数据库，获取与所述目标特征对应的表情类别，作为表情识别结果，并确定与所述表情识别结果对应的第一权重；及

获取所述第一表情分类器的表情识别结果以及与所述表情识别结果对应的第一权重。
根据权利要求17所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

将所述文字信息输入至第二表情分类器中，所述第二表情分类器用于从所述文字信息中提取出目标信息，根据所述目标信息查询第二数据库，获取与所述目标信息对应的表情类别，作为表情识别结果，并确定与所述表情识别结果对应的第二权重；及

获取所述第二表情分类器的表情识别结果以及与所述表情识别结果对应的第二权重。
根据权利要求17所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

将所述面部特征输入至第三表情分类器中，所述第三表情分类器用于根据所述面部特征查询第三数据库，获取与所述面部特征对应的表情类别，作为表情识别结果，并确定与所述表情识别结果对应的第三权重；及

获取所述第三表情分类器的表情识别结果以及与所述表情识别结果对应的第三权重。