[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN112232276B - 一种基于语音识别和图像识别的情绪检测方法和装置 - Google Patents

一种基于语音识别和图像识别的情绪检测方法和装置 Download PDF

Info

Publication number
CN112232276B
CN112232276B CN202011213188.XA CN202011213188A CN112232276B CN 112232276 B CN112232276 B CN 112232276B CN 202011213188 A CN202011213188 A CN 202011213188A CN 112232276 B CN112232276 B CN 112232276B
Authority
CN
China
Prior art keywords
expression
emotion
image
recognition
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011213188.XA
Other languages
English (en)
Other versions
CN112232276A (zh
Inventor
赵珍
李小强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Enterprise Information Technology Co ltd
Original Assignee
Shanghai Enterprise Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Enterprise Information Technology Co ltd filed Critical Shanghai Enterprise Information Technology Co ltd
Priority to CN202011213188.XA priority Critical patent/CN112232276B/zh
Publication of CN112232276A publication Critical patent/CN112232276A/zh
Application granted granted Critical
Publication of CN112232276B publication Critical patent/CN112232276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于语音识别和图像识别的情绪检测方法和装置,获取待检测的一段用户的自拍视频,以及自拍视频对应的实际场景,对自拍视频进行处理,得到图像信号和语音信号,对图像信号进行处理,获取表情变化趋势,对语音信号进行处理,获取语音信号在实际场景中的初步情绪结果,最后融合表情变化趋势以及初步情绪结果,获取用户的最终情绪结果。本发明提供的基于语音识别和图像识别的情绪检测方法是一种自动检测方法,相较于人工检测的方式,不受到主观因素的影响,从而提升检测准确性;无需专门设置检测人员,减少人工成本;处理效率较快,而且,在对处理设备进行设置,能够对多个自拍视频同时进行处理,效率较高。

Description

一种基于语音识别和图像识别的情绪检测方法和装置
技术领域
本发明涉及一种基于语音识别和图像识别的情绪检测方法和装置。
背景技术
在信息处理技术不是很发达的过去,在根据一段视频或者一段语音判断说话人的情绪时,由专门的检测人员根据说话人的表情、说话人的口气以及该段语音中出现的相关关键字来判断说话人的情绪。这种人为判断方式存在以下缺陷:(1)检测人员易受到主观因素的影响,从而导致检测错误;(2)需要专门设置相关的人员,增大人工成本;(3)需要检测人员看完一段视频或者听完一段语音之后才能够进行检测判断,而且,检测人员同时只能够对一段视频或者一段语音进行判断,效率非常低。
发明内容
为了解决上述技术问题,本发明提供一种基于语音识别和图像识别的情绪检测方法和装置。
本发明采用以下技术方案:
一种基于语音识别和图像识别的情绪检测方法,包括:
获取待检测的一段用户的自拍视频,以及所述自拍视频对应的实际场景;
对所述自拍视频进行处理,得到图像信号和语音信号;
对所述图像信号按照预设周期进行截图处理,获取至少两个图像;
对所述至少两个图像进行表情识别,得到各个图像中的人物表情;
根据各个图像中的人物表情,以及各个图像的先后时间顺序,获取表情变化趋势;
对所述语音信号进行语音识别,获取对应的文字信号;
将所述文字信号以及所述实际场景输入到预设检测模型中,获取所述语音信号在所述实际场景中的初步情绪结果;
融合所述表情变化趋势以及所述初步情绪结果,获取所述用户的最终情绪结果。
优选地,所述融合所述表情变化趋势以及所述初步情绪结果,获取最终情绪结果,包括:
若所述表情变化趋势为朝向正面表情发展,且所述初步情绪结果为正面情绪,则所述最终情绪结果为正面情绪;
若所述表情变化趋势为朝向负面表情发展,且所述初步情绪结果为负面情绪,则所述最终情绪结果为负面情绪。
优选地,所述预设检测模型的获取过程包括:
获取至少两个场景中,每一个场景中的至少两个校正文本;
获取各场景中的各校正文本的实际情绪结果;
将所述各场景中的各校正文本输入到已有检测模型中,得到各场景中的各校正文本的检测情绪结果;
获取实际情绪结果和检测情绪结果均为正面情绪的各场景下的各校正文本,得到第一场景下的各第一校正文本,以及实际情绪结果和检测情绪结果均为负面情绪的各场景下的各校正文本,得到第二场景下的各第二校正文本;
根据所述第一场景下的各第一校正文本,以及所述第二场景下的各第二校正文本,调整所述已有检测模型,得到所述预设检测模型。
优选地,所述对所述至少两个图像进行表情识别,得到各个图像中的人物表情,包括:
对所述至少两个图像进行用户人脸识别,得到所述用户的用户人脸图像;
对各个图像中的用户人脸图像进行表情识别,得到各个图像中的人物表情。
优选地,所述对各个图像中的用户人脸图像进行表情识别,得到各个图像中的人物表情,包括:
获取第一样本集和第二样本集,所述第一样本集包括至少一个正面表情样本图像,所述第二样本集包括至少一个负面表情样本图像;
对所述第一样本集中的各正面表情样本图像进行标注,得到第一表情类别,第一表情类别为正面表情,对所述第二样本集中的各负面表情样本图像进行标注,得到第二表情类别,第二表情类别为负面表情,所述第一表情类别和第二表情类别构成标注数据;
将所述第一样本集和第二样本集输入至表情识别编码器中进行特征提取,表情识别编码器输出的特征向量输入给Flatten层,经Flatten层处理得到一维特征向量,一维特征向量作为全连接层的输入,全连接层将一维特征向量映射到特征标记空间,然后输出给softmax函数,通过softmax函数输出两个表情类别的概率,根据输出的两个表情类别的概率确定对应的初始表情类别;
将所述初始表情类别与所述标注数据通过交叉熵损失函数进行运算,优化表情识别网络中的参数;
将所述各个图像中的用户人脸图像输入到所述表情识别网络中,得到所述各个图像中的用户人脸图像的人物表情。
一种基于语音识别和图像识别的情绪检测装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下所述的基于语音识别和图像识别的情绪检测方法的步骤:
获取待检测的一段用户的自拍视频,以及所述自拍视频对应的实际场景;
对所述自拍视频进行处理,得到图像信号和语音信号;
对所述图像信号按照预设周期进行截图处理,获取至少两个图像;
对所述至少两个图像进行表情识别,得到各个图像中的人物表情;
根据各个图像中的人物表情,以及各个图像的先后时间顺序,获取表情变化趋势;
对所述语音信号进行语音识别,获取对应的文字信号;
将所述文字信号以及所述实际场景输入到预设检测模型中,获取所述语音信号在所述实际场景中的初步情绪结果;
融合所述表情变化趋势以及所述初步情绪结果,获取所述用户的最终情绪结果。
优选地,所述融合所述表情变化趋势以及所述初步情绪结果,获取最终情绪结果,包括:
若所述表情变化趋势为朝向正面表情发展,且所述初步情绪结果为正面情绪,则所述最终情绪结果为正面情绪;
若所述表情变化趋势为朝向负面表情发展,且所述初步情绪结果为负面情绪,则所述最终情绪结果为负面情绪。
优选地,所述预设检测模型的获取过程包括:
获取至少两个场景中,每一个场景中的至少两个校正文本;
获取各场景中的各校正文本的实际情绪结果;
将所述各场景中的各校正文本输入到已有检测模型中,得到各场景中的各校正文本的检测情绪结果;
获取实际情绪结果和检测情绪结果均为正面情绪的各场景下的各校正文本,得到第一场景下的各第一校正文本,以及实际情绪结果和检测情绪结果均为负面情绪的各场景下的各校正文本,得到第二场景下的各第二校正文本;
根据所述第一场景下的各第一校正文本,以及所述第二场景下的各第二校正文本,调整所述已有检测模型,得到所述预设检测模型。
优选地,所述对所述至少两个图像进行表情识别,得到各个图像中的人物表情,包括:
对所述至少两个图像进行用户人脸识别,得到所述用户的用户人脸图像;
对各个图像中的用户人脸图像进行表情识别,得到各个图像中的人物表情。
优选地,所述对各个图像中的用户人脸图像进行表情识别,得到各个图像中的人物表情,包括:
获取第一样本集和第二样本集,所述第一样本集包括至少一个正面表情样本图像,所述第二样本集包括至少一个负面表情样本图像;
对所述第一样本集中的各正面表情样本图像进行标注,得到第一表情类别,第一表情类别为正面表情,对所述第二样本集中的各负面表情样本图像进行标注,得到第二表情类别,第二表情类别为负面表情,所述第一表情类别和第二表情类别构成标注数据;
将所述第一样本集和第二样本集输入至表情识别编码器中进行特征提取,表情识别编码器输出的特征向量输入给Flatten层,经Flatten层处理得到一维特征向量,一维特征向量作为全连接层的输入,全连接层将一维特征向量映射到特征标记空间,然后输出给softmax函数,通过softmax函数输出两个表情类别的概率,根据输出的两个表情类别的概率确定对应的初始表情类别;
将所述初始表情类别与所述标注数据通过交叉熵损失函数进行运算,优化表情识别网络中的参数;
将所述各个图像中的用户人脸图像输入到所述表情识别网络中,得到所述各个图像中的用户人脸图像的人物表情。
本发明的有益效果为:对用户的自拍视频分别进行图像处理和语音处理,其中,图像处理用于获取多个人物表情,并根据人物表情以及先后时间顺序,得到表情变化趋势,由于不同的场景下即便相同的文字信号也可能具有不同的情绪,而且,文字信号是较为能够体现人物情绪的载体,因此,对自拍视频的语音信号进行语音识别,获取文字信号,将文字信号以及实际场景输入到预设检测模型中,获取语音信号在该实际场景中的初步情绪结果,即获取在该实际场景下,该语音信号所对应的初步情绪结果,将实际场景应用到情绪检测中能够提升检测准确性,最后融合表情变化趋势以及初步情绪结果,获取用户的最终情绪结果。因此,本发明提供的基于语音识别和图像识别的情绪检测方法,是一种自动检测方法,对视频进行两个方面的处理,对图像进行人物表情识别,对语音进行文字识别,并根据文字信号以及实际场景得到情绪结果,融合两个数据信息得到最终的情绪结果,相较于人工检测的方式,不受到主观因素的影响,从而提升检测准确性;无需专门设置检测人员,减少人工成本;处理效率较快,而且,在对处理设备进行设置之后,能够对多个自拍视频同时进行处理,效率较高。
附图说明
图1是一种基于语音识别和图像识别的情绪检测方法的流程示意图。
具体实施方式
本实施例提供一种基于语音识别和图像识别的情绪检测方法,该情绪检测方法的硬件执行主体可以为计算机设备、服务器设备、智能移动终端等,本实施例不对硬件执行主体做具体限定。
如图1所示,该基于语音识别和图像识别的情绪检测方法包括:
步骤S1:获取待检测的一段用户的自拍视频,以及所述自拍视频对应的实际场景:
用户将自己的自拍视频传输给硬件执行主体,自拍视频的时长由实际要求进行设置,比如可以为30s以内的短视频,也可以为2-3分钟的较长视频。用户还将自拍视频的实际场景传输给硬件执行主体,实际场景可以是指自拍视频所处的环境或者所处的场合,比如:在家中,或者在工作中,或者在其他公共场合,比如:KTV、超市、饭店等。获取实际场景,将实际场景应用到情绪检测中是因为在视频中包含相同的数据的情况下,不同的场景下的情绪可能会不同。
步骤S2:对所述自拍视频进行处理,得到图像信号和语音信号:
将自拍视频进行解析处理,得到图像信号和语音信号,其中,图像信号为没有声音、只有图像的视频数据,应当理解,由于是用户的自拍视频,则图像信号包含用户的人脸图像;语音信号为自拍视频中的声音信号,具体地,语音信号为用户在自拍视频中所说的话。
由于将视频文件分解成图像信号和声音信号的处理过程属于常规技术,不再赘述。
步骤S3:对所述图像信号按照预设周期进行截图处理,获取至少两个图像:
对图像信号按照预设周期进行截图处理,获取至少两个图像。其中,预设周期由实际需要进行设置,预设周期越长,获取到的图像越少。应当理解,由于是自拍视频,则得到的各个图像均包括用户的人脸图像。
步骤S4:对所述至少两个图像进行表情识别,得到各个图像中的人物表情:
先对至少两个图像中的各个图像进行用户人脸识别,得到各个图像中用户的用户人脸图像。
然后,对各个图像中的用户人脸图像进行表情识别,得到各个图像中的人物表情,作为一个具体实施方式,以下给出一种表情识别过程:
将各个图像中的用户人脸图像输入到表情识别网络中,得到各个图像中的用户的表情。其中,表情识别网络可以采用如下训练过程训练得到:
获取第一样本集和第二样本集,第一样本集包括至少一个正面表情样本图像,第二样本集包括至少一个负面表情样本图像。其中,正面表情样本图像是指人物表情为正面表情的样本图像,正面表情具体是高兴、开心等;负面表情样本图像是指人物表情为负面表情的样本图像,负面表情具体是伤心、哭泣、难过等。
对第一样本集中的各正面表情样本图像进行标注,得到第一表情类别,第一表情类别为正面表情,对第二样本集中的各负面表情样本图像进行标注,得到第二表情类别,第二表情类别为负面表情。也就是说,标注的表情类别分为两种,可以用不同的索引表示不同的表情类别,其中,索引0对应正面表情,索引1对应负面表情,标注还可以经过one-hot编码。第一表情类别和第二表情类别构成标注数据。
表情识别网络包括表情识别编码器、Flatten层、全连接层和softmax函数。
将第一样本集和第二样本集输入至表情识别编码器中进行特征提取,表情识别编码器输出特征向量(比如嘴角张度),特征向量输入给Flatten层,经Flatten层处理得到一维特征向量,一维特征向量作为全连接层的输入,全连接层将一维特征向量映射到特征标记空间,然后输出给softmax函数,通过softmax函数输出两个表情类别的概率,应当理解,这两个表情类别的概率相加为1,根据输出的两个表情类别的概率确定对应的初始表情类别。
将得到的初始表情类别与标注数据通过交叉熵损失函数进行运算,优化表情识别网络中的参数,使得输出的表情类别逐渐靠近真实值。
将各个图像中的用户人脸图像输入到表情识别网络中,通过表情识别网络进行表情识别,具体是将各个图像中的用户人脸图像输入至表情识别编码器中进行特征提取,图像分类编码器输出特征向量,特征向量输入给Flatten层,经Flatten层处理得到一维特征向量,一维特征向量作为全连接层的输入,全连接层将一维特征向量映射到特征标记空间,然后输出给softmax函数,通过softmax函数输出对应的表情类别,输出的表情类别为正面表情或者负面表情。
步骤S5:根据各个图像中的人物表情,以及各个图像的先后时间顺序,获取表情变化趋势:
由于各个图像是按照预设周期获取得到的,因此,各个图像具有先后时间顺序,先后时间顺序为在自拍视频在播放过程中的时间顺序。那么,得到各个图像中的人物表情之后,根据各个图像的先后时间顺序,获取表情变化趋势。表情变化趋势为表情朝向哪一个方向发展,即朝向正面表情或者朝向负面表情发展。
其中,朝向正面表情发展包括两种情况,分别是:表情向正面表情进行变化(比如表情由负面表情变化到正面表情)或者一直是正面表情。同理,朝向负面表情发展也包括两种情况,分别是:表情向负面表情进行变化(比如表情由正面表情变化到负面表情)或者一直是负面表情。
步骤S6:对所述语音信号进行语音识别,获取对应的文字信号:
对语音信号进行语音识别,得到与语音信号相对应的文字信号,即将声音信号转换为文字信号。由于语音识别算法属于常规算法,不再赘述。
步骤S7:将所述文字信号以及所述实际场景输入到预设检测模型中,获取所述语音信号在所述实际场景中的初步情绪结果:
得到文字信号之后,将文字信号以及自拍视频所对应的实际场景输入到预设检测模型中,获取语音信号在实际场景中的初步情绪结果。
应当理解,预设检测模型可以是一个事先构建好的检测模型,包括:至少两个场景,各场景下均设置有至少两个文本,以及各场景下的各文本对应的情绪结果,应当理解,为了提升检测准确性,该检测模型中的场景的设置个数,以及各个场景中的文本的设置个数可以足够多,即将目前已知的各场景,以及各场景下所能够发生或者说产生的文本均囊括在该检测模型中。由于场景和文本之间是独立的,因此,预设检测模型也可以这样说,包括:至少两个文本,以及各文本在至少两个场景中的各场景下对应的情绪结果。而且,为了提升检测准确性,预设检测模型中的各文本可以是关键词,并非一定是完整的句子,比如:完整的句子是:“我不想干了”,关键词可以是:“不想干”。
上段所涉及到的检测模型可以是已有检测模型,作为一个具体实施方式,预设检测模型是对已有检测模型进行校正之后的检测模型,因此,以下给出一种获取过程:
(1)获取至少两个场景中,每一个场景中的至少两个校正文本。应当理解,为了提升校正的可靠性,提升预测检测模型的准确性,该步骤中,获取到的场景可以设置的足够多,足够广,而且,每一个场景中的校正文本也设置的足够多,足够广。
(2)由于校正文本是用于对已有检测模型进行校正的文本,是已知的,因此,各场景中的各校正文本的实际情绪结果也是已知的,则获取各场景中的各校正文本的实际情绪结果。
(3)将各场景中的各校正文本输入到已有检测模型中,得到各场景中的各校正文本的检测情绪结果。
(4)得到各场景中的各校正文本的实际情绪结果,以及检测情绪结果之后,校验各场景中的各校正文本的这两个情绪结果,具体地:获取实际情绪结果和检测情绪结果均为正面情绪的各场景下的各校正文本,得到第一场景下的各第一校正文本,以及实际情绪结果和检测情绪结果均为负面情绪的各场景下的各校正文本,得到第二场景下的各第二校正文本。
(5)根据第一场景下的各第一校正文本,以及第二场景下的各第二校正文本,调整已有检测模型,得到预设检测模型。以下给出两种调整方法,第一种:不考虑已有检测模型,而是直接根据第一场景下的各第一校正文本,以及第二场景下的各第二校正文本,构建预设检测模型;第二种:对于已有检测模型中的情绪结果为正面情绪的各场景下的各文本,将其中不符合实际情绪结果和检测情绪结果均为正面情绪这一条件的各场景下的各文本删去;对于已有检测模型中的情绪结果为负面情绪的各场景下的各文本,将其中不符合实际情绪结果和检测情绪结果均为负面情绪这一条件的各场景下的各文本删去。
因此,将得到的文字信号以及实际场景输入到预设检测模型中,获取该文字信号在实际场景中的初步情绪结果,即对应的语音信号在实际场景中的初步情绪结果。
通过校正,能够提升预设检测模型的检测精度。
步骤S8:融合所述表情变化趋势以及所述初步情绪结果,获取所述用户的最终情绪结果:
对得到的表情变化趋势以及初步情绪结果进行融合,具体地:若表情变化趋势为朝向正面表情发展,且初步情绪结果为正面情绪,则用户的最终情绪结果为正面情绪;若表情变化趋势为朝向负面表情发展,且初步情绪结果为负面情绪,则用户的最终情绪结果为负面情绪。
作为其他的实施方式,还可以设置有两个权重,结合表情变化趋势以及初步情绪结果,以及对应的权重,获取用户的最终情绪结果。
本实施例还提供一种基于语音识别和图像识别的情绪检测装置,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现本实施例提供的基于语音识别和图像识别的情绪检测方法的步骤。因此,该基于语音识别和图像识别的情绪检测装置是一种软件装置,其本质仍旧是一种基于语音识别和图像识别的情绪检测方法,由于该基于语音识别和图像识别的情绪检测方法在上述实施例中已给出了具体描述,不再赘述。
上述实施例仅以一种具体的实施方式说明本发明的技术方案,任何对本发明进行的等同替换及不脱离本发明精神和范围的修改或局部替换,其均应涵盖在本发明权利要求保护的范围之内。

Claims (8)

1.一种基于语音识别和图像识别的情绪检测方法,其特征在于,包括:
获取待检测的一段用户的自拍视频,以及所述自拍视频对应的实际场景;
对所述自拍视频进行处理,得到图像信号和语音信号;
对所述图像信号按照预设周期进行截图处理,获取至少两个图像;
对所述至少两个图像进行表情识别,得到各个图像中的人物表情;
根据各个图像中的人物表情,以及各个图像的先后时间顺序,获取表情变化趋势;
对所述语音信号进行语音识别,获取对应的文字信号;
将所述文字信号以及所述实际场景输入到预设检测模型中,获取所述语音信号在所述实际场景中的初步情绪结果;
融合所述表情变化趋势以及所述初步情绪结果,获取所述用户的最终情绪结果;
所述预设检测模型的获取过程包括:
获取至少两个场景中,每一个场景中的至少两个校正文本;
获取各场景中的各校正文本的实际情绪结果;
将所述各场景中的各校正文本输入到已有检测模型中,得到各场景中的各校正文本的检测情绪结果;
获取实际情绪结果和检测情绪结果均为正面情绪的各场景下的各校正文本,得到第一场景下的各第一校正文本,以及实际情绪结果和检测情绪结果均为负面情绪的各场景下的各校正文本,得到第二场景下的各第二校正文本;
根据所述第一场景下的各第一校正文本,以及所述第二场景下的各第二校正文本,调整所述已有检测模型,得到所述预设检测模型。
2.根据权利要求1所述的基于语音识别和图像识别的情绪检测方法,其特征在于,所述融合所述表情变化趋势以及所述初步情绪结果,获取最终情绪结果,包括:
若所述表情变化趋势为朝向正面表情发展,且所述初步情绪结果为正面情绪,则所述最终情绪结果为正面情绪;
若所述表情变化趋势为朝向负面表情发展,且所述初步情绪结果为负面情绪,则所述最终情绪结果为负面情绪。
3.根据权利要求1所述的基于语音识别和图像识别的情绪检测方法,其特征在于,所述对所述至少两个图像进行表情识别,得到各个图像中的人物表情,包括:
对所述至少两个图像进行用户人脸识别,得到所述用户的用户人脸图像;
对各个图像中的用户人脸图像进行表情识别,得到各个图像中的人物表情。
4.根据权利要求3所述的基于语音识别和图像识别的情绪检测方法,其特征在于,所述对各个图像中的用户人脸图像进行表情识别,得到各个图像中的人物表情,包括:
获取第一样本集和第二样本集,所述第一样本集包括至少一个正面表情样本图像,所述第二样本集包括至少一个负面表情样本图像;
对所述第一样本集中的各正面表情样本图像进行标注,得到第一表情类别,第一表情类别为正面表情,对所述第二样本集中的各负面表情样本图像进行标注,得到第二表情类别,第二表情类别为负面表情,所述第一表情类别和第二表情类别构成标注数据;
将所述第一样本集和第二样本集输入至表情识别编码器中进行特征提取,表情识别编码器输出的特征向量输入给Flatten层,经Flatten层处理得到一维特征向量,一维特征向量作为全连接层的输入,全连接层将一维特征向量映射到特征标记空间,然后输出给softmax函数,通过softmax函数输出两个表情类别的概率,根据输出的两个表情类别的概率确定对应的初始表情类别;
将所述初始表情类别与所述标注数据通过交叉熵损失函数进行运算,优化表情识别网络中的参数;
将所述各个图像中的用户人脸图像输入到所述表情识别网络中,得到所述各个图像中的用户人脸图像的人物表情。
5.一种基于语音识别和图像识别的情绪检测装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如下所述的基于语音识别和图像识别的情绪检测方法的步骤:
获取待检测的一段用户的自拍视频,以及所述自拍视频对应的实际场景;
对所述自拍视频进行处理,得到图像信号和语音信号;
对所述图像信号按照预设周期进行截图处理,获取至少两个图像;
对所述至少两个图像进行表情识别,得到各个图像中的人物表情;
根据各个图像中的人物表情,以及各个图像的先后时间顺序,获取表情变化趋势;
对所述语音信号进行语音识别,获取对应的文字信号;
将所述文字信号以及所述实际场景输入到预设检测模型中,获取所述语音信号在所述实际场景中的初步情绪结果;
融合所述表情变化趋势以及所述初步情绪结果,获取所述用户的最终情绪结果;
所述预设检测模型的获取过程包括:
获取至少两个场景中,每一个场景中的至少两个校正文本;
获取各场景中的各校正文本的实际情绪结果;
将所述各场景中的各校正文本输入到已有检测模型中,得到各场景中的各校正文本的检测情绪结果;
获取实际情绪结果和检测情绪结果均为正面情绪的各场景下的各校正文本,得到第一场景下的各第一校正文本,以及实际情绪结果和检测情绪结果均为负面情绪的各场景下的各校正文本,得到第二场景下的各第二校正文本;
根据所述第一场景下的各第一校正文本,以及所述第二场景下的各第二校正文本,调整所述已有检测模型,得到所述预设检测模型。
6.根据权利要求5所述的基于语音识别和图像识别的情绪检测装置,其特征在于,所述融合所述表情变化趋势以及所述初步情绪结果,获取最终情绪结果,包括:
若所述表情变化趋势为朝向正面表情发展,且所述初步情绪结果为正面情绪,则所述最终情绪结果为正面情绪;
若所述表情变化趋势为朝向负面表情发展,且所述初步情绪结果为负面情绪,则所述最终情绪结果为负面情绪。
7.根据权利要求5所述的基于语音识别和图像识别的情绪检测装置,其特征在于,所述对所述至少两个图像进行表情识别,得到各个图像中的人物表情,包括:
对所述至少两个图像进行用户人脸识别,得到所述用户的用户人脸图像;
对各个图像中的用户人脸图像进行表情识别,得到各个图像中的人物表情。
8.根据权利要求7所述的基于语音识别和图像识别的情绪检测装置,其特征在于,所述对各个图像中的用户人脸图像进行表情识别,得到各个图像中的人物表情,包括:
获取第一样本集和第二样本集,所述第一样本集包括至少一个正面表情样本图像,所述第二样本集包括至少一个负面表情样本图像;
对所述第一样本集中的各正面表情样本图像进行标注,得到第一表情类别,第一表情类别为正面表情,对所述第二样本集中的各负面表情样本图像进行标注,得到第二表情类别,第二表情类别为负面表情,所述第一表情类别和第二表情类别构成标注数据;
将所述第一样本集和第二样本集输入至表情识别编码器中进行特征提取,表情识别编码器输出的特征向量输入给Flatten层,经Flatten层处理得到一维特征向量,一维特征向量作为全连接层的输入,全连接层将一维特征向量映射到特征标记空间,然后输出给softmax函数,通过softmax函数输出两个表情类别的概率,根据输出的两个表情类别的概率确定对应的初始表情类别;
将所述初始表情类别与所述标注数据通过交叉熵损失函数进行运算,优化表情识别网络中的参数;
将所述各个图像中的用户人脸图像输入到所述表情识别网络中,得到所述各个图像中的用户人脸图像的人物表情。
CN202011213188.XA 2020-11-04 2020-11-04 一种基于语音识别和图像识别的情绪检测方法和装置 Active CN112232276B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011213188.XA CN112232276B (zh) 2020-11-04 2020-11-04 一种基于语音识别和图像识别的情绪检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011213188.XA CN112232276B (zh) 2020-11-04 2020-11-04 一种基于语音识别和图像识别的情绪检测方法和装置

Publications (2)

Publication Number Publication Date
CN112232276A CN112232276A (zh) 2021-01-15
CN112232276B true CN112232276B (zh) 2023-10-13

Family

ID=74121979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011213188.XA Active CN112232276B (zh) 2020-11-04 2020-11-04 一种基于语音识别和图像识别的情绪检测方法和装置

Country Status (1)

Country Link
CN (1) CN112232276B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112992148A (zh) * 2021-03-03 2021-06-18 中国工商银行股份有限公司 视频内的语音识别方法及装置
CN112990301A (zh) * 2021-03-10 2021-06-18 深圳市声扬科技有限公司 情绪数据标注方法、装置、计算机设备和存储介质
CN114065742B (zh) * 2021-11-19 2023-08-25 马上消费金融股份有限公司 一种文本检测方法和装置
CN118428343B (zh) * 2024-07-03 2024-09-27 广州讯鸿网络技术有限公司 一种全媒体交互式智能客服交互方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020125386A1 (zh) * 2018-12-18 2020-06-25 深圳壹账通智能科技有限公司 表情识别方法、装置、计算机设备和存储介质
WO2020135194A1 (zh) * 2018-12-26 2020-07-02 深圳Tcl新技术有限公司 基于情绪引擎技术的语音交互方法、智能终端及存储介质
CN111681681A (zh) * 2020-05-22 2020-09-18 深圳壹账通智能科技有限公司 语音情绪识别方法、装置、电子设备及存储介质
CN111694959A (zh) * 2020-06-08 2020-09-22 谢沛然 基于面部表情和文本信息的网络舆情多模态情感识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020125386A1 (zh) * 2018-12-18 2020-06-25 深圳壹账通智能科技有限公司 表情识别方法、装置、计算机设备和存储介质
WO2020135194A1 (zh) * 2018-12-26 2020-07-02 深圳Tcl新技术有限公司 基于情绪引擎技术的语音交互方法、智能终端及存储介质
CN111368609A (zh) * 2018-12-26 2020-07-03 深圳Tcl新技术有限公司 基于情绪引擎技术的语音交互方法、智能终端及存储介质
CN111681681A (zh) * 2020-05-22 2020-09-18 深圳壹账通智能科技有限公司 语音情绪识别方法、装置、电子设备及存储介质
CN111694959A (zh) * 2020-06-08 2020-09-22 谢沛然 基于面部表情和文本信息的网络舆情多模态情感识别方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deep Learning-Based Emotion Recognition from Real-Time Videos;Wenbin Zhou等;《HCII 2020: Human-Computer Interaction. Multimodal and Natural Interaction》;全文 *
基于语义分析的情感计算技术研究进展;饶元;吴连伟;王一鸣;冯聪;;软件学报(第08期);全文 *
多文化场景下的多模态情感识别;陈师哲;王帅;金琴;;软件学报(第04期);全文 *

Also Published As

Publication number Publication date
CN112232276A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN112232276B (zh) 一种基于语音识别和图像识别的情绪检测方法和装置
WO2024000867A1 (zh) 情绪识别方法、装置、设备及存储介质
CN107818798B (zh) 客服服务质量评价方法、装置、设备及存储介质
US10438586B2 (en) Voice dialog device and voice dialog method
CN110428820B (zh) 一种中英文混合语音识别方法及装置
CN111261162B (zh) 语音识别方法、语音识别装置及存储介质
CN108305618B (zh) 语音获取及搜索方法、智能笔、搜索终端及存储介质
CN112614510B (zh) 一种音频质量评估方法及装置
CN110418204B (zh) 基于微表情的视频推荐方法、装置、设备和存储介质
CN112614489A (zh) 用户发音准确度评估方法、装置和电子设备
CN109872714A (zh) 一种提高语音识别准确性的方法、电子设备及存储介质
CN110956958A (zh) 搜索方法、装置、终端设备及存储介质
CN114495217A (zh) 基于自然语言和表情分析的场景分析方法、装置及系统
CN110781329A (zh) 图像搜索方法、装置、终端设备及存储介质
CN109408175B (zh) 通用高性能深度学习计算引擎中的实时交互方法及系统
CN110910898B (zh) 一种语音信息处理的方法和装置
CN110827799A (zh) 用于处理语音信号的方法、装置、设备和介质
CN111126084A (zh) 数据处理方法、装置、电子设备和存储介质
CN112597889A (zh) 一种基于人工智能的情绪处理方法和装置
WO2024093578A1 (zh) 语音识别方法、装置、电子设备、存储介质及计算机程序产品
CN112434953A (zh) 一种基于计算机数据处理的客服人员考核方法和装置
CN112584238A (zh) 影视资源匹配方法、装置及智能电视
CN114267324A (zh) 语音生成方法、装置、设备和存储介质
CN116959418A (zh) 一种音频处理方法及装置
CN114297409A (zh) 模型训练方法、信息抽取方法及装置、电子设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230526

Address after: No. 16-44, No. 10A-10C, 12A, 12B, 13A, 13B, 15-18, Phase II of Wuyue Plaza Project, east of Zhengyang Street and south of Haoyue Road, Lvyuan District, Changchun City, Jilin Province, 130000

Applicant after: Jilin Huayuan Network Technology Co.,Ltd.

Address before: 450000 Wenhua Road, Jinshui District, Zhengzhou City, Henan Province

Applicant before: Zhao Zhen

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230913

Address after: Room 1001, 1st floor, building B, 555 Dongchuan Road, Minhang District, Shanghai

Applicant after: Shanghai Enterprise Information Technology Co.,Ltd.

Address before: No. 16-44, No. 10A-10C, 12A, 12B, 13A, 13B, 15-18, Phase II of Wuyue Plaza Project, east of Zhengyang Street and south of Haoyue Road, Lvyuan District, Changchun City, Jilin Province, 130000

Applicant before: Jilin Huayuan Network Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An emotion detection method and device based on speech recognition and image recognition

Granted publication date: 20231013

Pledgee: Agricultural Bank of China Limited Shanghai Huangpu Sub branch

Pledgor: Shanghai Enterprise Information Technology Co.,Ltd.

Registration number: Y2024310000041

PE01 Entry into force of the registration of the contract for pledge of patent right