CN115457620A - 用户表情识别方法、装置、计算机设备及存储介质 - Google Patents
用户表情识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN115457620A CN115457620A CN202210918643.9A CN202210918643A CN115457620A CN 115457620 A CN115457620 A CN 115457620A CN 202210918643 A CN202210918643 A CN 202210918643A CN 115457620 A CN115457620 A CN 115457620A
- Authority
- CN
- China
- Prior art keywords
- expression
- image
- user
- data
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了用户表情识别方法、装置、计算机设备及存储介质。所述方法包括:获取待识别图像数据;将所述待识别图像数据输入至识别模型内进行用户表情识别,以得到识别结果;输出所述识别结果;其中,所述识别模型是通过对含有用户表情数据的图像进行标注后训练孪生网络所得的。通过实施本发明实施例的方法可实现采用少量精准标注数据,便可对海量无标注视觉图像数据进行有效学习,形成识别模型,以精准识别用户情绪。
Description
技术领域
本发明涉及表情识别方法,更具体地说是指用户表情识别方法、装置、计算机设备及存储介质。
背景技术
随着AI(人工智能,Artificial Intelligence)技术的不断发展,智能数字人在越来越多的场景中崭露头角,各种虚拟主播层出不穷,视觉交互逐渐成为人们信息交流的主要方式。在视觉交流过程中,虚拟数字人如何精准识别用户的情绪,并做出更加适时入微的响应,是整个智能数字人智能化的关键难点之一。
目前的视觉信息数据虽然海量,但是有精细化标注的数据用户情绪数据却非常稀缺,造成依据有监督的用户情绪识别数据资源严重不足,在实际生产中不能精准识别用户真实情绪,无法精准识别用户情绪。
因此,有必要设计一种新的方法,实现采用少量精准标注数据,便可对海量无标注视觉图像数据进行有效学习,形成识别模型,以精准识别用户情绪。
发明内容
本发明的目的在于克服现有技术的缺陷,提供用户表情识别方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:用户表情识别方法,包括:
获取待识别图像数据;
将所述待识别图像数据输入至识别模型内进行用户表情识别,以得到识别结果;
输出所述识别结果;
其中,所述识别模型是通过对含有用户表情数据的图像进行标注后训练孪生网络所得的。
其进一步技术方案为:所述识别模型是通过对含有用户表情数据的图像进行标注后训练孪生网络所得的,包括:
采集含有用户表情数据的图像,以得到表情图像数据;
对所述表情图像数据进行小样本的用户表情标注,以得到标注数据集;
将所述标注数据集输入至孪生网络内进行图像特征提取,以得到用户表情特征;
将所述用户表情特征输入至孪生网络内进行用户表情类别的分类,以得到用户表情;
计算所述用户表情以及所述表情图像数据的实际用户表情的损失值;
判断所述损失值是否趋于平稳;
若所述损失值不趋于平稳,则调整所述孪生网络的参数,并执行所述将所述标注数据集输入至孪生网络内进行图像特征提取,以得到用户表情特征;
若所述损失值趋于平稳,则确定所述孪生网络为识别模型。
其进一步技术方案为:所述采集含有用户表情数据的图像,以得到表情图像数据,包括:
获取原始视觉图像;
对所述原始视觉图像进行分帧处理,以得到若干帧画面图像;
对每帧画面图像采用图像人物检测算法进行人面正部或侧面的检测,以得到表情图像数据。
其进一步技术方案为:所述对所述表情图像数据进行小样本的用户表情标注,以得到标注数据集,包括:
对所述表情图像数据标注实际用户表情并进行数据增强处理,以得到标注数据集。
其进一步技术方案为:所述对所述表情图像数据标注实际用户表情并进行数据增强处理,以得到标注数据集,包括:
对所述表情图像数据进行实际用户表情的标注,以得到已标注图像数据;
根据所述已标注图像数据的来源信息查找相邻帧图像信息,并根据HOG特征信息将查找所得的图片与所述已标注图像数据转化为特征向量;
采用Cosine相似度计算特征向量之间的相似度,并对于相似度满足要求的图像打上相同的标签信息,以得到标注图像数据;
对所述标注图像数据进行图像旋转、图像加噪、图像拆减、图像压缩,以得到标注数据集。
其进一步技术方案为:所述将所述标注数据集输入至孪生网络内进行图像特征提取,以得到用户表情特征,包括:
对所述标注数据集进行灰度化及规范化处理,以得到标准图像。
采用孪生网络内的CNN卷积网络对所述标准图像进行图像局部特征的抽取,以得到局部特征中间特征;
采用孪生网络内的循环神经网络对所述局部特征中间特征进行全局特征抽取,以得到全局特征;
采用孪生网络内的注意力机制抽取所述全局特征内的高维特征,以得到用户表情特征。
其进一步技术方案为:所述将所述用户表情特征输入至孪生网络内进行用户表情类别的分类,以得到用户表情,包括:
对所述用户表情特征按照用户表情的类别进行补全处理,以形成训练数据集;
采用所述孪生网络对所述训练数据集内每两个特征进行特征差异化抽取,以确定每两个特征是否属于同一类别,以得到用户表情;其中,所述训练数据集内每两个特征中其中一个特征为用户表情类别中的支撑样本。
本发明还提供了用户表情识别装置,包括:
数据获取单元,用于获取待识别图像数据;
识别单元,用于将所述待识别图像数据输入至识别模型内进行用户表情识别,以得到识别结果;
输出单元,用于输出所述识别结果;
还包括:
识别模型生成单元,用于通过对含有用户表情数据的图像进行标注后训练孪生网络,以形成识别模型。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过获取待识别图像数据,将所述待识别图像数据输入至识别模型内进行用户表情识别,其中,识别模型是通过对含有用户表情数据的图像进行标注后训练孪生网络所得的,识别模型的训练过程涉及用户表情图像数据采集、图像小样本标注集处理、图像特征抽取以及用户表情小样本分类学习,实现采用少量精准标注数据,便可对海量无标注视觉图像数据进行有效学习,形成识别模型,以精准识别用户情绪。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的用户表情识别方法的应用场景示意图;
图2为本发明实施例提供的用户表情识别方法的流程示意图;
图3为本发明实施例提供的用户表情识别方法的子流程示意图;
图4为本发明实施例提供的用户表情识别方法的子流程示意图;
图5为本发明实施例提供的用户表情识别方法的子流程示意图;
图6为本发明实施例提供的用户表情识别方法的子流程示意图;
图7为本发明实施例提供的用户表情识别方法的子流程示意图;
图8为本发明实施例提供的用户表情识别装置的示意性框图;
图9为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的用户表情识别方法的应用场景示意图。图2为本发明实施例提供的用户表情识别方法的示意性流程图。该用户表情识别方法应用于服务器中。该服务器与终端进行数据交互,通过终端输入的待识别图像数据,并对输入的待识别图像数据进行用户表情识别,并将识别结果输出,该识别模型是通过对含有用户表情数据的图像进行增强处理和标注后训练孪生网络所得的,实现采用少量精准标注数据,便可对海量无标注视觉图像数据进行有效学习,形成识别模型,以精准识别用户情绪。
图2是本发明实施例提供的用户表情识别方法的流程示意图。如图2所示,该方法包括以下步骤S110至S130。
S110、获取待识别图像数据。
在本实施例中,待识别图像数据是指需要进行用户表情识别的用户视觉图像信息,可以为图片,也可以是视觉视频切分后形成的图片。
S120、将所述待识别图像数据输入至识别模型内进行用户表情识别,以得到识别结果。
在本实施例中,识别结果是指用户情绪识别结果,也就是用户的表情。
其中,所述识别模型是通过对含有用户表情数据的图像进行标注后训练孪生网络所得的。
在一实施例中,请参阅图3,所述识别模型是通过对含有用户表情数据的图像进行标注后训练孪生网络所得的,可包括步骤S121~S128。
S121、采集含有用户表情数据的图像,以得到表情图像数据。
在本实施例中,表情图像数据是指包含人面正部或侧面的图像数据集合。
在一实施例中,请参阅图4,上述的步骤S121可包括步骤S1211~S1212。
S1211、获取原始视觉图像。
在本实施例中,原始视觉图像是指具有丰富的人物表情刻画的图像。
对用户表情识别,首先主要是对含有用户表情数据的图像进行采集整理。在实际生产中,虽然具有大量的视觉图像或视频,但绝大部分视觉及图像数据都可以用来进行用户表情识别,需要采用比较粗略的算法对这些数据进行筛选,一般地,电影或演讲视频或图片是具有丰富的人物表情刻画;而其他视频数据,例如:金融数据解说、教学类、旅游向导等,人物表情刻画画面是非常少的,因此,采用的原始视觉图像数据从电影和演讲视频截选出来。
S1212、对所述原始视觉图像进行分帧处理,以得到若干帧画面图像。
在本实施例中,若干帧画面图像是指对原始视觉图像进行分帧处理后形成的每一帧图像的集合。
具体地,采用FFmpeg等的工具对这些电影或演讲视频按照画面进行分帧。由于电影、演讲视频1秒钟具有N帧(一般为24),而表情刻画镜头一般都至少会停留2~3秒钟时间,为了避免大量重复图片数据,对视频进行分帧,对视频每秒钟画面等间距采用其中的M帧(M≤N,一般取4)画面。
S1213、对每帧画面图像采用图像人物检测算法进行人面正部或侧面的检测,以得到表情图像数据。
在本实施例中,对每帧画面图像采用粗略快速的图像人物检测算法,检测每帧画面图像是否包含人物正面或侧面镜头,采用HOG+SVM相结合的方式对人面进行检测,HOG(方向梯度直方图,Histogram of Oriented Gradient)主要是对画面进行梯度特征抽取,SVM(支持向量机,support vector machines)基于抽取的特征进行快速分类,目前HOG+SVM作为经典算法已经集成到视觉图像开放工具库OpenCV里面去了,因此可以直接使用相关算法接口模块进行粗分类探知识别。
经过上述处理之后,便可建立起了大量包含人面正部或侧面的图像数据集合,这些数据是人面表情识别的原始数据。
S122、对所述表情图像数据进行小样本的用户表情标注,以得到标注数据集。
在本实施例中,标注数据集是指对表情图像数据进行用户表情类别标注的标签。
具体地,对所述表情图像数据标注实际用户表情并进行数据增强处理,以得到标注数据集。
在一实施例中,请参阅图5,上述的步骤S122可包括步骤S1221~S1224。
S1221、对所述表情图像数据进行实际用户表情的标注,以得到已标注图像数据。
在本实施例中,已标注图像数据是指对表情图像数据进行实际用户表情类别的标注后形成的图像。
S1222、根据所述已标注图像数据的来源信息查找相邻帧图像信息,并根据HOG特征信息将查找所得的图片与所述已标注图像数据转化为特征向量。
在本实施例中,特征向量是指根据所述已标注图像数据的来源信息查找相邻帧图像信息,并根据HOG特征信息将查找所得的图片与所述已标注图像数据转换后形成的特征向量。
S1223、采用Cosine相似度计算特征向量之间的相似度,并对于相似度满足要求的图像打上相同的标签信息,以得到标注图像数据。
在本实施例中,标注图像数据是指对于特征向量相似度满足要求则打上相同的标签后形成的图像数据。
S1224、对所述标注图像数据进行图像旋转、图像加噪、图像拆减、图像压缩,以得到标注数据集。
具体地,获取得到了大量包含人物表情的图像。根据原始图片即原始视觉图像的来源信息(来源电影或视频、时间等)专门挑选具有代表性的图像信息进行用户表情类别标注,主要包括大笑、微笑、哭泣、皱眉、惊恐等几个类别。由于标注数据不可能太多,需要对小样本增强技术对数据增强处理。主要包括如下几个方式来进行增强处理:首先,自动溯源扩展样本标注集合。根据已标注图像数据的来源信息(来源电影或视频、时间等)去查找相邻帧图像信息,并根据HOG特征信息进行将图片转化为特征向量,采用Cosine相似度算法计算已标注图像数据与相邻帧图像信息之间的相似性,如果相似度满足一定阈值,则对这些图像也打上同样的标签信息,从而自动扩大标注图像数据集合。其次,对上述得到的全部标注图像数据,通过多重角度或尺寸等参数进行图像旋转、图像加噪、图像拆减、图像压缩等一系列处理操作,从而得到更多的标注数据集合。
S123、将所述标注数据集输入至孪生网络内进行图像特征提取,以得到用户表情特征。
在本实施例中,用户表情特征是指标注数据集经过基于注意力机制和长短记忆力机制模型特征提取技术来进行图片特征提取后得到的结果。
获取得到了相关较多的图像数据,接下来要对这些标注数据集进行特征提取,以用于用户表情识别。为适时有效提取图像特征,采用了基于注意力机制和长短记忆力机制模型特征提取技术来进行图片特征提取。
在一实施例中,请参阅图6,上述的步骤S123可包括步骤S1231~S1234。
S1231、对所述标注数据集进行灰度化及规范化处理,以得到标准图像。
在本实施例中,标准图像是指对标注数据集进行灰度化及规范化处理后形成的图像。
具体地,将标注数据集进行二值化处理转化为灰度图,并将全部图像按照规范大小进行图片标准化缩放,最终每个图像都标准化为H*W的标准图像,其中,H*W表示高H像素、宽W像素。
S1232、采用孪生网络内的CNN卷积网络对所述标准图像进行图像局部特征的抽取,以得到局部特征中间特征。
在本实施例中,局部特征中间特征是指CNN卷积网络对所述标准图像进行图像局部特征的抽取所得的结果。
具体地,采用CNN(卷积神经网络,Convolutional Neural Networks)进行图像局部特征抽取。二值化后的标准图像采用K个特征卷积块进行CNN卷积特征抽取,获取得到图像内的局部特征,从而最终将H*W的标准化图像转化为了h*w的局部特征中间特征。
S1233、采用孪生网络内的循环神经网络对所述局部特征中间特征进行全局特征抽取,以得到全局特征。
在本实施例中,全局特征是指循环神经网络对所述局部特征中间特征进行全局特征抽取所得的结果。
具体地,采用循环神经网络RNN(循环神经网络,Recurrent Neural Network,)的变体LSTM(长短期记忆网络,Long Short-Term Memory)对图像进行编码,提高图像特征的表示能力,具体为将上述局部特征中间特征的中间图像按照h*w视为时序长度h、每个时序w个特征点时间序列向量,输入到变体LSTM网路之中,经过LSTM多层网络特征抽取计算输出共h+1个时序点,每个时序输出一个w维度的特征数据,LSTM能够较为全面的将CNN的局部特征关联起来,得到全局特征。
S1234、采用孪生网络内的注意力机制抽取所述全局特征内的高维特征,以得到用户表情特征。
在本实施例中,用户表情特征是指注意力机制对所述全局特征抽取所得的高维特征。
具体地,注意力机制在图像领域被广泛使用,借鉴了人类的注意力机制,在建立提取图像特征模型的过程时,扮演着将图像信息进一步提取为有效信息的角色,学习不同局部的重要性。注意力机制在数学形式上可以理解为加权求和,通常情况下使用Softmax形式,利用多注意力机制将RNN的输出结果最终转化为一个长度为F的一维向量,从而最终完成了图像中的用户表情特征表示,即K维向量。
S124、将所述用户表情特征输入至孪生网络内进行用户表情类别的分类,以得到用户表情。
在本实施例中,用户表情是指经过孪生网络识别的用户表情特征对应的用户表情类别。
抽取得到了每张标注数据的用户表情特征,但是由于整体标注数据较少,即使经过小样本数据增强处理之后,标注数量有所改善,但是整体依旧很少,如果直接对K维向量特征进行表情分类,依旧存在训练不充分等问题导致识别精度不高。为此,采用一种孪生网络Siamese Network的形式进行有监督的方式最终训练孪生网络来学习,形成识别模型。
在一实施例中,请参阅图7,上述的步骤S124可包括步骤S1241~S1242。
S1241、对所述用户表情特征按照用户表情的类别进行补全处理,以形成训练数据集。
在本实施例中,训练数据集是指用户表情特征按照用户表情的类别进行补全处理后形成特征集合。
具体地,按照用户表情有大笑、微笑、严肃、惊慌等的C个类别,每个类别N个样本数据,即共计(C*N)个样本数据构建成训练集,如果已标注的数据即所述用户表情特征的某个类别不足N个,则采用重复抽样的方式补全到N个。
S1242、采用所述孪生网络对所述训练数据集内每两个特征进行特征差异化抽取,以确定每两个特征是否属于同一类别,以得到用户表情;其中,所述训练数据集内每两个特征中其中一个特征为用户表情类别中的支撑样本。
具体地,对于识别模型的每次迭代训练时,随机从C个类别里面选择2个类别,并从一次从2个类别的K张图像中随机各自选取1张图像作为孪生识别网络的输入。其中,孪生网络是一个双路的神经网络,训练时,通过组合的方式构造不同的成对样本,输入网络进行训练,在最上层通过样本对的距离判断这两路输入内容是否属于同一个类,并产生对应的概率分布,从而达到对不同类别的差异性认知。
具体地,输入到孪生网络的是原始图像即标注数据集,而整个孪生网络中2张图像的特征抽取过程就是上述特征抽取之后的K维向量。即特征抽取网络结构是整个孪生网络的特征抽取模块。再次,构建孪生网络的两张图像特征相同判断模块,将上述两张图像的K为向量,做特征差异化抽取,主要进行特征差值和特征方差计算,然后拼接成一个2*K的差异性特征向量,并在这个2*K的一维向量上嵌套一个Softmax分类函数,来训练预测其是不是同一类别。最后,通过对比预测是不是同一类别的预测值和真实是/不是同一类别的标注值之间的差异性进行神经网络反向传播进行参数更新迭代。
在对一张全新图像即待识别图像数据进行用户表情预测识别时,将孪生网络处理待识别图像数据和与C个类别中的M个支撑样本组成共C*M个图像输入对,并计算每个输入对【是】同一类别的概率值,从而进一步可以得到每个类别的加权支撑概率,最终选择支撑集上概率最高的类别作为预测概率,从而完成用户情绪识别。
S125、计算所述用户表情以及所述表情图像数据的实际用户表情的损失值;
S126、判断所述损失值是否趋于平稳;
S127、若所述损失值不趋于平稳,则调整所述孪生网络的参数,并执行所述步骤S123;
S128、若所述损失值趋于平稳,则确定所述孪生网络为识别模型。
在训练过程,如果计算所得的所述用户表情以及所述表情图像数据的实际用户表情的损失值,当该损失值趋于平稳时,则表明当前的孪生网络已经训练收敛了,可作为识别模型使用;否则,则需要调整所述孪生网络的参数,再次执行所述孪生网络的训练,直至损失值趋于平稳。
在实际运用过程中,将待识别图像数据作为输入,输入至识别模型内进行特征提取后,C个类别中的M个支撑样本也就是划分的不同类别的用户表情特征也作为输入,输入至识别模型内,以根据待识别图像数据提取的特征进行特征差异化抽取,以确定根据待识别图像数据提取的特征与C个类别中的M个支撑样本哪一个样本最接近,由此确定识别结果。
S130、输出所述识别结果;
将识别结果输出至终端,以在终端显示。
上述的用户表情识别方法,通过获取待识别图像数据,将所述待识别图像数据输入至识别模型内进行用户表情识别,其中,识别模型是通过对含有用户表情数据的图像进行标注后训练孪生网络所得的,识别模型的训练过程涉及用户表情图像数据采集、图像小样本标注集处理、图像特征抽取以及用户表情小样本分类学习,实现采用少量精准标注数据,便可对海量无标注视觉图像数据进行有效学习,形成识别模型,以精准识别用户情绪。
图8是本发明实施例提供的一种用户表情识别装置300的示意性框图。如图8所示,对应于以上用户表情识别方法,本发明还提供一种用户表情识别装置300。该用户表情识别装置300包括用于执行上述用户表情识别方法的单元,该装置可以被配置于服务器中。具体地,请参阅图8,该用户表情识别装置300包括数据获取单元301、识别单元302以及输出单元303。
数据获取单元301,用于获取待识别图像数据;识别单元302,用于将所述待识别图像数据输入至识别模型内进行用户表情识别,以得到识别结果;输出单元303,用于输出所述识别结果;
该用户表情识别装置300还包括:识别模型生成单元,用于通过对含有用户表情数据的图像进行标注后训练孪生网络,以形成识别模型。
在一实施例中,所述识别模型生成单元包括图像采集子单元、标注子单元、特征提取子单元、分类子单元、损失值计算子单元、判断子单元、调整子单元以及确定子单元。
图像采集子单元,用于采集含有用户表情数据的图像,以得到表情图像数据;标注子单元,用于对所述表情图像数据进行小样本的用户表情标注,以得到标注数据集;特征提取子单元,用于将所述标注数据集输入至孪生网络内进行图像特征提取,以得到用户表情特征;分类子单元,用于将所述用户表情特征输入至孪生网络内进行用户表情类别的分类,以得到用户表情;损失值计算子单元,用于计算所述用户表情以及所述表情图像数据的实际用户表情的损失值;判断子单元,用于判断所述损失值是否趋于平稳;调整子单元,用于若所述损失值不趋于平稳,则调整所述孪生网络的参数,并执行所述将所述标注数据集输入至孪生网络内进行图像特征提取,以得到用户表情特征;确定子单元,用于若所述损失值趋于平稳,则确定所述孪生网络为识别模型。
在一实施例中,所述图像采集子单元包括图像获取模块、分帧处理模块以及检测模块。
图像获取模块,用于获取原始视觉图像;分帧处理模块,用于对所述原始视觉图像进行分帧处理,以得到若干帧画面图像;检测模块,用于对每帧画面图像采用图像人物检测算法进行人面正部或侧面的检测,以得到表情图像数据。
在一实施例中,所述标注子单元,用于对所述表情图像数据标注实际用户表情并进行数据增强处理,以得到标注数据集。
在一实施例中,所述标注子单元包括表情标注模块、转化模块、标签设置模块以及图像处理模块。
表情标注模块,用于对所述表情图像数据进行实际用户表情的标注,以得到已标注图像数据;转化模块,用于根据所述已标注图像数据的来源信息查找相邻帧图像信息,并根据HOG特征信息将查找所得的图片与所述已标注图像数据转化为特征向量;标签设置模块,用于采用Cosine相似度计算特征向量之间的相似度,并对于相似度满足要求的图像打上相同的标签信息,以得到标注图像数据;图像处理模块,用于对所述标注图像数据进行图像旋转、图像加噪、图像拆减、图像压缩,以得到标注数据集。
在一实施例中,所述特征提取子单元包括标准化处理模块、局部特征抽取模块、全局特征抽取模块以及高维特征抽取模块。
标准化处理模块,用于对所述标注数据集进行灰度化及规范化处理,以得到标准图像。局部特征抽取模块,用于采用孪生网络内的CNN卷积网络对所述标准图像进行图像局部特征的抽取,以得到局部特征中间特征;全局特征抽取模块,用于采用孪生网络内的循环神经网络对所述局部特征中间特征进行全局特征抽取,以得到全局特征;高维特征抽取模块,用于采用孪生网络内的注意力机制抽取所述全局特征内的高维特征,以得到用户表情特征。
在一实施例中,所述分类子单元包括补全处理模块以及差异化抽取模块。
补全处理模块,用于对所述用户表情特征按照用户表情的类别进行补全处理,以形成训练数据集;差异化抽取模块,用于采用所述孪生网络对所述训练数据集内每两个特征进行特征差异化抽取,以确定每两个特征是否属于同一类别,以得到用户表情;其中,所述训练数据集内每两个特征中其中一个特征为用户表情类别中的支撑样本。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述用户表情识别装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述用户表情识别装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图9所示的计算机设备上运行。
请参阅图9,图9是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图9,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种用户表情识别方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种用户表情识别方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取待识别图像数据;将所述待识别图像数据输入至识别模型内进行用户表情识别,以得到识别结果;输出所述识别结果;
其中,所述识别模型是通过对含有用户表情数据的图像进行标注后训练孪生网络所得的。
在一实施例中,处理器502在实现所述识别模型是通过对含有用户表情数据的图像进行标注后训练孪生网络所得的步骤时,具体实现如下步骤:
采集含有用户表情数据的图像,以得到表情图像数据;对所述表情图像数据进行小样本的用户表情标注,以得到标注数据集;将所述标注数据集输入至孪生网络内进行图像特征提取,以得到用户表情特征;将所述用户表情特征输入至孪生网络内进行用户表情类别的分类,以得到用户表情;计算所述用户表情以及所述表情图像数据的实际用户表情的损失值;判断所述损失值是否趋于平稳;若所述损失值不趋于平稳,则调整所述孪生网络的参数,并执行所述将所述标注数据集输入至孪生网络内进行图像特征提取,以得到用户表情特征;若所述损失值趋于平稳,则确定所述孪生网络为识别模型。
在一实施例中,处理器502在实现所述采集含有用户表情数据的图像,以得到表情图像数据步骤时,具体实现如下步骤:
获取原始视觉图像;对所述原始视觉图像进行分帧处理,以得到若干帧画面图像;对每帧画面图像采用图像人物检测算法进行人面正部或侧面的检测,以得到表情图像数据。
在一实施例中,处理器502在实现所述对所述表情图像数据进行小样本的用户表情标注,以得到标注数据集步骤时,具体实现如下步骤:
对所述表情图像数据标注实际用户表情并进行数据增强处理,以得到标注数据集。
在一实施例中,处理器502在实现所述对所述表情图像数据标注实际用户表情并进行数据增强处理,以得到标注数据集步骤时,具体实现如下步骤:
对所述表情图像数据进行实际用户表情的标注,以得到已标注图像数据;根据所述已标注图像数据的来源信息查找相邻帧图像信息,并根据HOG特征信息将查找所得的图片与所述已标注图像数据转化为特征向量;采用Cosine相似度计算特征向量之间的相似度,并对于相似度满足要求的图像打上相同的标签信息,以得到标注图像数据;对所述标注图像数据进行图像旋转、图像加噪、图像拆减、图像压缩,以得到标注数据集。
在一实施例中,处理器502在实现所述将所述标注数据集输入至孪生网络内进行图像特征提取,以得到用户表情特征步骤时,具体实现如下步骤:
对所述标注数据集进行灰度化及规范化处理,以得到标准图像。采用孪生网络内的CNN卷积网络对所述标准图像进行图像局部特征的抽取,以得到局部特征中间特征;采用孪生网络内的循环神经网络对所述局部特征中间特征进行全局特征抽取,以得到全局特征;采用孪生网络内的注意力机制抽取所述全局特征内的高维特征,以得到用户表情特征。
在一实施例中,处理器502在实现所述将所述用户表情特征输入至孪生网络内进行用户表情类别的分类,以得到用户表情步骤时,具体实现如下步骤:
对所述用户表情特征按照用户表情的类别进行补全处理,以形成训练数据集;采用所述孪生网络对所述训练数据集内每两个特征进行特征差异化抽取,以确定每两个特征是否属于同一类别,以得到用户表情;其中,所述训练数据集内每两个特征中其中一个特征为用户表情类别中的支撑样本。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
获取待识别图像数据;将所述待识别图像数据输入至识别模型内进行用户表情识别,以得到识别结果;输出所述识别结果;
其中,所述识别模型是通过对含有用户表情数据的图像进行标注后训练孪生网络所得的。
在一实施例中,所述处理器在执行所述计算机程序而实现所述识别模型是通过对含有用户表情数据的图像进行标注后训练孪生网络所得的步骤时,具体实现如下步骤:
采集含有用户表情数据的图像,以得到表情图像数据;对所述表情图像数据进行小样本的用户表情标注,以得到标注数据集;将所述标注数据集输入至孪生网络内进行图像特征提取,以得到用户表情特征;将所述用户表情特征输入至孪生网络内进行用户表情类别的分类,以得到用户表情;计算所述用户表情以及所述表情图像数据的实际用户表情的损失值;判断所述损失值是否趋于平稳;若所述损失值不趋于平稳,则调整所述孪生网络的参数,并执行所述将所述标注数据集输入至孪生网络内进行图像特征提取,以得到用户表情特征;若所述损失值趋于平稳,则确定所述孪生网络为识别模型。
在一实施例中,所述处理器在执行所述计算机程序而实现所述采集含有用户表情数据的图像,以得到表情图像数据步骤时,具体实现如下步骤:
获取原始视觉图像;对所述原始视觉图像进行分帧处理,以得到若干帧画面图像;对每帧画面图像采用图像人物检测算法进行人面正部或侧面的检测,以得到表情图像数据。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述表情图像数据进行小样本的用户表情标注,以得到标注数据集步骤时,具体实现如下步骤:
对所述表情图像数据标注实际用户表情并进行数据增强处理,以得到标注数据集。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述表情图像数据标注实际用户表情并进行数据增强处理,以得到标注数据集步骤时,具体实现如下步骤:
对所述表情图像数据进行实际用户表情的标注,以得到已标注图像数据;根据所述已标注图像数据的来源信息查找相邻帧图像信息,并根据HOG特征信息将查找所得的图片与所述已标注图像数据转化为特征向量;采用Cosine相似度计算特征向量之间的相似度,并对于相似度满足要求的图像打上相同的标签信息,以得到标注图像数据;对所述标注图像数据进行图像旋转、图像加噪、图像拆减、图像压缩,以得到标注数据集。
在一实施例中,所述处理器在执行所述计算机程序而实现所述将所述标注数据集输入至孪生网络内进行图像特征提取,以得到用户表情特征步骤时,具体实现如下步骤:
对所述标注数据集进行灰度化及规范化处理,以得到标准图像。采用孪生网络内的CNN卷积网络对所述标准图像进行图像局部特征的抽取,以得到局部特征中间特征;采用孪生网络内的循环神经网络对所述局部特征中间特征进行全局特征抽取,以得到全局特征;采用孪生网络内的注意力机制抽取所述全局特征内的高维特征,以得到用户表情特征。
在一实施例中,所述处理器在执行所述计算机程序而实现所述将所述用户表情特征输入至孪生网络内进行用户表情类别的分类,以得到用户表情步骤时,具体实现如下步骤:
对所述用户表情特征按照用户表情的类别进行补全处理,以形成训练数据集;采用所述孪生网络对所述训练数据集内每两个特征进行特征差异化抽取,以确定每两个特征是否属于同一类别,以得到用户表情;其中,所述训练数据集内每两个特征中其中一个特征为用户表情类别中的支撑样本。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.用户表情识别方法,其特征在于,包括:
获取待识别图像数据;
将所述待识别图像数据输入至识别模型内进行用户表情识别,以得到识别结果;
输出所述识别结果;
其中,所述识别模型是通过对含有用户表情数据的图像进行标注后训练孪生网络所得的。
2.根据权利要求1所述的用户表情识别方法,其特征在于,所述识别模型是通过对含有用户表情数据的图像进行标注后训练孪生网络所得的,包括:
采集含有用户表情数据的图像,以得到表情图像数据;
对所述表情图像数据进行小样本的用户表情标注,以得到标注数据集;
将所述标注数据集输入至孪生网络内进行图像特征提取,以得到用户表情特征;
将所述用户表情特征输入至孪生网络内进行用户表情类别的分类,以得到用户表情;
计算所述用户表情以及所述表情图像数据的实际用户表情的损失值;
判断所述损失值是否趋于平稳;
若所述损失值不趋于平稳,则调整所述孪生网络的参数,并执行所述将所述标注数据集输入至孪生网络内进行图像特征提取,以得到用户表情特征;
若所述损失值趋于平稳,则确定所述孪生网络为识别模型。
3.根据权利要求2所述的用户表情识别方法,其特征在于,所述采集含有用户表情数据的图像,以得到表情图像数据,包括:
获取原始视觉图像;
对所述原始视觉图像进行分帧处理,以得到若干帧画面图像;
对每帧画面图像采用图像人物检测算法进行人面正部或侧面的检测,以得到表情图像数据。
4.根据权利要求2所述的用户表情识别方法,其特征在于,所述对所述表情图像数据进行小样本的用户表情标注,以得到标注数据集,包括:
对所述表情图像数据标注实际用户表情并进行数据增强处理,以得到标注数据集。
5.根据权利要求4所述的用户表情识别方法,其特征在于,所述对所述表情图像数据标注实际用户表情并进行数据增强处理,以得到标注数据集,包括:
对所述表情图像数据进行实际用户表情的标注,以得到已标注图像数据;
根据所述已标注图像数据的来源信息查找相邻帧图像信息,并根据HOG特征信息将查找所得的图片与所述已标注图像数据转化为特征向量;
采用Cosine相似度计算特征向量之间的相似度,并对于相似度满足要求的图像打上相同的标签信息,以得到标注图像数据;
对所述标注图像数据进行图像旋转、图像加噪、图像拆减、图像压缩,以得到标注数据集。
6.根据权利要求2所述的用户表情识别方法,其特征在于,所述将所述标注数据集输入至孪生网络内进行图像特征提取,以得到用户表情特征,包括:
对所述标注数据集进行灰度化及规范化处理,以得到标准图像。
采用孪生网络内的CNN卷积网络对所述标准图像进行图像局部特征的抽取,以得到局部特征中间特征;
采用孪生网络内的循环神经网络对所述局部特征中间特征进行全局特征抽取,以得到全局特征;
采用孪生网络内的注意力机制抽取所述全局特征内的高维特征,以得到用户表情特征。
7.根据权利要求2所述的用户表情识别方法,其特征在于,所述将所述用户表情特征输入至孪生网络内进行用户表情类别的分类,以得到用户表情,包括:
对所述用户表情特征按照用户表情的类别进行补全处理,以形成训练数据集;
采用所述孪生网络对所述训练数据集内每两个特征进行特征差异化抽取,以确定每两个特征是否属于同一类别,以得到用户表情;其中,所述训练数据集内每两个特征中其中一个特征为用户表情类别中的支撑样本。
8.用户表情识别装置,其特征在于,包括:
数据获取单元,用于获取待识别图像数据;
识别单元,用于将所述待识别图像数据输入至识别模型内进行用户表情识别,以得到识别结果;
输出单元,用于输出所述识别结果;
还包括:
识别模型生成单元,用于通过对含有用户表情数据的图像进行标注后训练孪生网络,以形成识别模型。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2022102016047 | 2022-03-02 | ||
CN202210201604 | 2022-03-02 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115457620A true CN115457620A (zh) | 2022-12-09 |
Family
ID=84297577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210918643.9A Pending CN115457620A (zh) | 2022-03-02 | 2022-08-01 | 用户表情识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115457620A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116687409A (zh) * | 2023-07-31 | 2023-09-05 | 武汉纺织大学 | 一种基于数字孪生和深度学习的情绪识别方法及系统 |
-
2022
- 2022-08-01 CN CN202210918643.9A patent/CN115457620A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116687409A (zh) * | 2023-07-31 | 2023-09-05 | 武汉纺织大学 | 一种基于数字孪生和深度学习的情绪识别方法及系统 |
CN116687409B (zh) * | 2023-07-31 | 2023-12-12 | 武汉纺织大学 | 一种基于数字孪生和深度学习的情绪识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558832B (zh) | 一种人体姿态检测方法、装置、设备及存储介质 | |
CN112131978B (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
Jalal et al. | Depth maps-based human segmentation and action recognition using full-body plus body color cues via recognizer engine | |
WO2021139324A1 (zh) | 图像识别方法、装置、计算机可读存储介质及电子设备 | |
Seow et al. | Neural network based skin color model for face detection | |
CN111738120B (zh) | 人物识别方法、装置、电子设备及存储介质 | |
CN111783576A (zh) | 基于改进型YOLOv3网络和特征融合的行人重识别方法 | |
KR102132407B1 (ko) | 점진적 딥러닝 학습을 이용한 적응적 영상 인식 기반 감성 추정 방법 및 장치 | |
CN113298018A (zh) | 基于光流场和脸部肌肉运动的假脸视频检测方法及装置 | |
CN111209897A (zh) | 视频处理的方法、装置和存储介质 | |
Luo et al. | SFA: small faces attention face detector | |
WO2023123923A1 (zh) | 人体重识别方法、人体重识别装置、计算机设备及介质 | |
KR20210051473A (ko) | 동영상 콘텐츠 식별 장치 및 방법 | |
Yu et al. | Co-saliency detection within a single image | |
CN117541994A (zh) | 一种密集多人场景下的异常行为检测模型及检测方法 | |
Zhang et al. | Crowd counting based on attention-guided multi-scale fusion networks | |
Kukanov et al. | Cost sensitive optimization of deepfake detector | |
Dahirou et al. | Motion Detection and Object Detection: Yolo (You Only Look Once) | |
Phon-Amnuaisuk et al. | Exploring the applications of faster R-CNN and single-shot multi-box detection in a smart nursery domain | |
Chen et al. | A multi-scale fusion convolutional neural network for face detection | |
CN115457620A (zh) | 用户表情识别方法、装置、计算机设备及存储介质 | |
US11423248B2 (en) | Hierarchical sampling for object identification | |
Fragkiadakis et al. | Towards a User-Friendly Tool for Automated Sign Annotation: Identification and Annotation of Time Slots, Number of Hands, and Handshape. | |
CN117036392A (zh) | 图像检测方法及相关装置 | |
Gharahdaghi et al. | A non-linear mapping representing human action recognition under missing modality problem in video data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |