[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN109599128B - 语音情感识别方法、装置、电子设备和可读介质 - Google Patents

语音情感识别方法、装置、电子设备和可读介质 Download PDF

Info

Publication number
CN109599128B
CN109599128B CN201811583191.3A CN201811583191A CN109599128B CN 109599128 B CN109599128 B CN 109599128B CN 201811583191 A CN201811583191 A CN 201811583191A CN 109599128 B CN109599128 B CN 109599128B
Authority
CN
China
Prior art keywords
emotion
voice
speech
sequence
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811583191.3A
Other languages
English (en)
Other versions
CN109599128A (zh
Inventor
韩文静
李岩
陈晓敏
姜涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN201811583191.3A priority Critical patent/CN109599128B/zh
Publication of CN109599128A publication Critical patent/CN109599128A/zh
Application granted granted Critical
Publication of CN109599128B publication Critical patent/CN109599128B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请是关于一种语音情感识别方法、语音识别装置、电子设备和可读介质。该语音情感识别方法将待检测语音段输入到语音情感识别模型中,得到情感标签序列,将情感标签序列包含的情感标签按照出现次数进行排序;并采用出现次数大于预设值的情感标签作为待检测语音段的情感标签。该实施例能够输出细粒度的情感标签序列,从而能够细粒度地刻画情感信息的时序性,并提高语音情感识别模型的精度。

Description

语音情感识别方法、装置、电子设备和可读介质
技术领域
本申请属于声音信号处理领域,尤其是一种语音情感识别方法、装置、电子设备和可读介质。
背景技术
语音情感识别是一种从用户语音中识别用户情感状态的技术,在人机交互、健康监控等领域有着迫切的应用需求,是人工智能领域的一个重要分支。语音中表达的情感内容是一种时序信息,因此随着近年来人工神经网络技术的发展,有越来越多的工作使用RNN(Recurrent Neural Network,循环神经网络)等时序网络模型对语音情感识别任务进行时序建模。
当前的语音情感识别领域所使用的时序建模方法虽各有千秋,却能够被统一到sequence-to-label(序列到标签)的框架之下,即以sequence的方式输入语音帧特征,然后使用RNN将帧特征编码成更长时、更高层的特征,最后使用非时序分类器对句特征进行识别。
但是,这种框架实际上是一种伪时序建模,不能全面地刻画情感信息的时序性,也无法彻底地发挥时序网络模型的时序建模能力。
发明内容
为克服相关技术中存在的问题,本申请公开一种语音情感识别方法、装置、电子设备和可读介质,用于解决现有技术存在的问题。
根据本发明实施例的第一方面,提供一种语音情感识别方法,包括:
获取待检测语音段;
将待检测语音段输入语音情感识别模型,得到所述待检测语音段的情感标签序列,所述情感标签序列包括按照时序对应的多个情感标签;
将所述情感标签序列包含的情感标签按照出现次数进行排序;以及
采用出现次数大于预设值的情感标签作为所述待检测语音段的情感标签。
可选地,还包括:通过训练神经网络得到所述语音情感识别模型,所述训练步骤包括:
收集多个语音段和所述多个语音段对应的句子级情感标签;
将每个语音段对应的句子级情感标签映射为情感标签序列;
采用所述多个语音段和所述语音段对应的情感标签序列对所述神经网络进行训练,通过计算CTC损失函数不断地修正神经网络的权值,以得到所述语音情感识别模型。
可选地,还包括:在所述采用所述多个语音段和所述语音段对应的情感标签序列对所述神经网络进行训练步骤之前,
将所述多个语音段的每个语音段进行分帧处理,从每个帧数据中获取多个语音特征,并组成每个语音段对应的帧特征序列;
则在将所述待检测语音段输入到所述语音情感识别模型之前,还包括:将所述待检测语音段进行分帧处理,从每个帧数据中获取多个语音特征,组成所述待检测语音段对应的帧特征序列。
可选地,所述将所述语音段的句子级情感标签映射为情感标签序列包括以下步骤中的一种:
将所述语音段分成n个非静音段,所述句子级情感标签对应于每个非静音段重复n次,并在相邻的两个非静音段之间填充空值,组成所述情感标签序列;和
将所述语音段分成m个音素,将所述句子级情感标签对应于每个音素重复m次,并在相邻的两个音素之间填充空值,组成所述情感标签序列,m和n为正整数。
可选地,所述帧特征序列包括以下语音特征中的一个或多个:频谱特征、梅尔倒普系数、共振峰、基频。
可选地,在所述训练步骤中,采用期望最大化算法进行计算,以更新所述神经网络的权值。
可选地,所述神经网络为RNN网络或LSTM-RNN网络。
根据本发明实施例的第二方面,提供一种语音识别装置,包括:
获取模块,用于获取待检测语音段;
识别模块,用于将待检测语音段输入语音情感识别模型,得到所述待检测语音段的情感标签序列,所述情感标签序列包括按照时序对应的多个情感标签;
排序模块,用于将所述情感标签序列包含的情感标签按照出现次数进行排序;
设定模块,用于采用出现次数大于预设值的情感标签作为所述待检测语音段的情感标签。
可选地,还包括:
样本采集模块,用于采集收集多个语音段和所述多个语音段对应的句子级情感标签;
样本预处理模块,用于将每个语音段对应的句子级情感标签映射为情感标签序列;
样本训练模块,用于采用所述多个语音段和所述语音段对应的情感标签序列对所述神经网络进行训练,通过计算CTC损失函数不断地修正神经网络的权值,以得到所述语音情感识别模型。
可选地,所述样本预处理模块还包括:将所述多个语音段的每个语音段进行分帧处理,从每个帧数据中获取多个语音特征,并组成每个语音段对应的帧特征序列;
则所述获取模块还包括:在获取到所述待检测语音段之后,将所述待检测语音段进行分帧处理,从每个帧数据中获取多个语音特征,组成所述待检测语音段对应的帧特征序列。
可选地,所述将样本预处理模块采用以下步骤中的一种将每个语音段对应的句子级情感标签映射为情感标签序列:
将所述语音段分成n个非静音段,所述句子级情感标签对应于每个非静音段重复n次,并在相邻的两个非静音段之间填充空值,组成所述情感标签序列;和
将所述语音段分成m个音素,将所述句子级情感标签对应于每个音素重复m次,并在相邻的两个音素之间填充空值,组成所述情感标签序列,m和n为正整数。
可选地,所述帧特征序列包括以下语音特征中的一个或多个:频谱特征、梅尔倒普系数、共振峰、基频。
可选地,所述样本训练模块采用期望最大化算法进行计算,以更新所述神经网络的权值。
可选地,所述神经网络为RNN网络或LSTM-RNN网络。
根据本发明实施例的第三方面,提供一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述任意一项所述的语音情感识别方法。
根据本发明实施例的第四方面,提供一种非临时性计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被执行时实现上述任一项所述的语音情感识别方法。
根据本发明的第五方面,提供计算机程序产品,包括计算机程序产品,所述计算机程序包括程序指令,当所述程序指令被电子设备执行时,使所述电子设备执行上述语音情感识别方法。
本申请的实施例提供的技术方案可以包括以下有益效果:通过语音情感识别模型得到待检测语音段的情感标签序列,基于语音标签序列得到最终的待检测语音段的情感标签,情感标签序列包含多个情感标签,通过情感标签序列能够细粒度地刻画情感信息的时序性,并提高语音情感识别模型的精度。
进一步地,训练神经网络时,将语音段对应的句子级情感标签映射为情感标签序列作为样本,并采用CTC算法构建损失函数,从而能够经由训练得到输出情感标签序列的语音情感识别模型。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据本发明一示例性的实施例的语音情感识别方法的流程图;
图2是根据本发明一示例性的实施例的通过训练样本得到语音情感识别模型的流程图;
图3是RNN模型的原理图;
图4是LSTM-RNN模型中的LSTM的原理图;
图5是根据本发明一示例性的实施例的语音识别装置的流程图;
图6是根据本发明一示例性的实施例的语音识别装置包含的用于执行样本训练步骤的各个模块的结构图;
图7是根据一示例性实施例示出的一种执行语音情感识别方法的电子设备的框图;
图8是根据一示例性实施例示出的一种执行语音情感识别方法的电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
图1是根据本发明一示例性的实施例的语音情感识别方法的流程图。具体包括以下步骤。
在步骤S101中,获取待检测语音段。
在步骤S102中,将待检测语音段输入语音情感识别模型,得到待检测语音段的情感标签序列。所述情感标签序列包括按照时序对应的多个情感标签。
在步骤S103中,将情感标签序列包含的情感标签按照出现次数进行排序。
在步骤S104中,采用出现次数大于预设值的情感标签作为待检测语音段的情感标签。
在本实施例中,语音情感识别模型是一个预先训练成功的具有时序特征的神经网络模型。将待检测语音段输入到该模型中,能够得到一个情感标签序列,该情感标签序列包括按照时序对应的多个情感标签。对该情感标签中包含的多个情感标签按照出现次数进行排序,将出现次数大于设定阈值的情感标签作为待检测语音段的情感标签。本实施例能够细粒度地刻画情感信息的时序性,并提高语音情感识别模型的精度。
图2是根据本发明一示例性的实施例的通过训练样本得到语音情感识别模型的流程图。具体包括以下步骤。
在步骤S201中,收集多个语音段和多个语音段对应的句子级情感标签。
本步骤用于获得初步的训练样本。初步训练样本包括多个语音段和多个语音段对应的句子级情感标签。句子级情感标签可以基于人工标注得到,也可以基于已经训练成功的神经网络模型得到。
在步骤S202中,将语音段进行分帧处理,从每个帧数据中获取多个语音特征,组成针对每个帧数据的帧特征序列。
本步骤用于对训练样本中的语音段进行预处理。将多个训练样本表示为S={(xk,y)}。其中xk=(x1,x2,...,xT)可以理解为语音段的T帧的帧特征序列,序列长度为T,每一帧数据xi是一个维度为m的向量,每一帧数据xi表示每个帧数据包含的多个多样化的声学特征,例如梅尔(Me l)倒普系数、共振峰、基频等。y表示每个语音段的句子级情感标签,该情感标签包括但不局限于高兴、生气、惊奇等情感标签。
在步骤S203中,将每个语音段对应的句子级情感标签映射为情感标签序列。
本步骤用于对训练样本中的句子级情感标签进行预处理。具体地,将每个语音段对应的句子级情感标签映射为情感标签序列。例如,原语音段的情感标签为y={高兴},将其映射为一个情感标签序列,例如为y={高兴,高兴,高兴,高兴……}。再例如,如果原语音段包括两个句子,则其情感标签为y={高兴,悲伤},将其映射为一个情感标签序列,例如为y={高兴,高兴,高兴,悲伤,……}。如果沿用步骤S301的表达方式,则修正后的多个训练样本表示为:S={(xk,yk)},k=1,2,3,4,……,N,表示有N个样本。xk表示一个语音段的T帧的帧特征序列,yk表示对应的语音段的长度为n的情感标签序列,n由映射方式决定,例如等于该语音段包含的音素个数。
在步骤S204中,采用语音段对应的帧特征序列和语音段对应的情感标签序列对神经网络进行训练,通过计算CTC损失函数不断地修正神经网络的权值,以得到语音情感识别模型。
本步骤基于预处理后的训练样本进行迭代训练,得到语音情感识别模型。具体地,将每个语音段的帧特征序列输入到神经网络中,输出情感标签序列,在此过程中基于CTC损失函数对训练样本中的语音段对应的情感标签序列和神经网络输出的情感标签进行误差计算,并更新神经网络中的权值,重复这样的步骤,直到达到迭代终止条件。将最终获得的神经网络作为语音情感识别模型。
本步骤中,CTC算法用于进行误差计算。CTC算法的好处在于可以实现输出的标签序列和输入语音帧的自动对齐。本实施例中,例如,输入的是200帧的帧特征序列,经过神经网络处理之后,出来的还是长度是200的标签序列。尽管输入的标签序列和样本中的情感标签序列的长度并不相同,但是CTC算法能够计算两者之间的损失值。CTC算法为一种现有技术,这里不再详细描述。
本发明实施例通过训练神经网络得到语音情感识别模型。用于训练的训练样本为经过分帧处理得到的帧特征序列和经由句子级情感标签映射得到的小于句子级的情感标签序列,从而能够彻底发挥时序网络模型的时序建模能力。应该理解,本实施例中采用的训练样本是语音段的帧特征序列,从而得到的标签序列包含的每个标签对应于帧特征序列中的每个帧数据。相应地,当采用该训练得到的语音情感识别模型对待检测语音段进行识别时,也需要将待检测语音段进行分帧处理。同理,在另一个实施例中,对于一个语音段,可以将其分割成多个语音单元,每个语音单元包含多帧数据,然后采用语音单元对应的特征序列和情感标签序列作为训练样本,训练神经网络,以得到相应的识别模型。
进一步地,本发明实施例采用CTC算法在训练过程中计算损失函数,以实现输出的标签序列和输入帧特征序列的自动对齐。这里用于建模的神经网络应具有时序建模能力,例如RNN模型和LSTM-RNN模型。
图3是RNN模型的原理图。图中左边是RNN的一个基本模型,右边是模型展开之后的样子。展开是为了与输入样本匹配。
参考图3,xt代表输入序列中的第t步元素,例如语句中的一个汉字。st代表第t步的隐藏状态,其计算公式为st=tanh(Uxt+Wxt-1)。也就是说,当前的隐藏状态由前一个状态和当前输入计算得到。考虑每一步隐藏状态的定义,可以把st视为一块内存,它保存了之前所有步骤的输入和隐藏状态信息。st-是初始状态,被设置为全0。ot是第t步的输出。计算公式为:ot=softmax(Vst)。可以通过比较ot和yt之间的误差来训练模型,yt(图上未示出)代表样本给出的确定值。U,V,W是RNN的权值,并且在展开之后的每一步中依然保持不变。这就大大减少了RNN中参数的数量。
当需要使用RNN模型时,必须对其进行训练。例如,当将模型应用于OCR识别,必须通过预测字和输入字之间的误差来修改网络中的权值,进而优化模型。采用损失函数计算预测字和输入字之间的误差。假设输入文本中有N个字(总字数,N个字中间可能有重复出现的),而字典大小为C,则输入和输出的总误差可以用如下的公式来表示。
Figure BDA0001918423270000091
其中,ot和yt分别表示输出值和样本中的确定值,L(y,o)表示总误差。
训练的目的是找到合适的U,V,W,使得误差函数的取值最小。例如,考虑到时序因素,使用的是BPTT算法(经历时间的后向传播算法,Backpropagation Through Time)。当然也可以采用其他算法计算损失函数。
图4是LSTM-RNN模型中的LSTM的原理图。LSTM-RNN模型是可以被视为RNN的一个变种。与图3相比,参考图4,增加了3个门(gate):input门,forget门和output门,门的作用就是为了控制之前的隐藏状态、当前的输入等各种信息,确定哪些该丢弃,哪些该保留。
LSTM-RNN的隐藏状态g的计算公式与RNN的类似:g=tanh(Ugxt+Wgxt-1)。但是这个隐藏状态的输出却受到了各种门的控制。内部存储用c来表示,它由前一步的内部存储和当前的隐藏状态计算得出,并且受到input门和forget门的控制。前者确定当前隐藏状态中需要保留的信息,后者确定前一步的内部存储中需要保留的信息:ct=ct-1°f+g°i。LSTM-RNN的输出则使用st来表示,并且受输出门的控制:st=tanh(ct)°o。综上所述,第t步的LSTM-RNN中输出信息的计算公式如下:
i=σ(Uixt+Wist-1)
f=σ(Ufxt+Wfst-1)
o=σ(Uoxt+Wost-1)
g=tanh(Ugxt+Wgst-1)
ct=ct-1°f+g°i
st=tanh(ct)°o
公式中的变量i,f,o,g,ct的数据类型与st一样,是一个向量,表示门的状态。圆点表示向量之间逐个元素相乘而得到一个新向量。Uf和Wf对应于forget门的参数,Uo和Wo对应于Output门的参数,Ui和Wi对应于input门的参数,Ug和Wg对应于计算隐藏状态时所用的权值。
这些式子具有以下特点:
三个门input,forget和output具有相同的形式,只是参数不同。它们各自的参数U,W都需要在对样本的训练过程中学习得到;
隐藏状态g的计算与RNN中的隐藏状态相同,但是不能直接使用,必须通过input门的约束,才能够作用到内部存储ct之中;
当前的内部存储的计算,不仅依赖于当前的隐藏状态,也依赖于前一步的内部存储ct-1,并且ct-1受forget门的约束;
输出信息在ct的基础上又施加了一层tanh函数,并且受到输出门的约束;
如果input门全为1,forget门全为0,output门全为1的话,则LSTM-RNN与RNN相似,只是多了一层tanh函数的作用。
总之,门机制的存在,就使得LSTM能够显示地为序列中长距离的依赖建模,通过对门参数的学习,模型能够找到合适的内部存储行为。
RNN模型和LSTM-RNN模型均可作为本发明实施例的训练用的神经网络,以得到应用场景下的语音情感识别模型。
图5是根据本发明一示例性的实施例的语音识别装置的结构图,包括获取模块501、识别模块502、排序模块503和设定模块504。
获取模块501用于获取待检测语音段。
识别模块502用于将待检测语音段输入语音情感识别模型,得到待检测语音段的情感标签序列,情感标签序列包含按时间顺序的多个情感标签。
排序模块503用于将情感标签序列包含的情感标签按照出现次数进行排序。
设定模块504用于采用出现次数大于预设值的情感标签作为待检测语音段的情感标签。
在本实施例中,识别模块502采用的语音情感识别模型是一个预先训练成功的具有时序特征的神经网络模型。将待检测语音段输入到该模型中,能够得到一个情感标签序列,该情感标签序列包括按照时间顺序的多个情感标签。经由排序模块503对该情感标签中包含的多个情感标签按照出现次数进行排序,设定模块504将出现次数大于设定阈值的情感标签作为待检测语音段的情感标签。从而,根据语音情感模型识别出具有时序特征的情感标签序列,并基于此得到最终的情感标签,通过得到细粒度的具有时序特征的情感标签,从而实现全面地刻画情感信息的时序性,并彻底发挥时序网络模型的时序建模能力。其中,每个情感标签可以对应于小于句子的语音单元。
图6是根据本发明一示例性的实施例的语音识别装置包含的用于执行样本训练步骤的各个模块的结构图。训练模块包括样本采集模块601、样本预处理模块602和样本训练模块603。
样本采集模块601用于采集收集多个语音段和多个语音段对应的句子级情感标签。
样本预处理模块602用于将每个语音段对应的句子级情感标签映射为情感标签序列。
样本训练模块603用于采用多个语音段和语音段对应的情感标签序列对神经网络进行训练,通过计算CTC损失函数不断地修正神经网络的权值,以得到语音情感识别模型。
在一些实施例中,样本预处理模块602采用以下步骤中的一种将句子级情感标签映射为情感标签序列:
将语音段分成n个非静音段,句子级情感标签对应于每个非静音段重复n次,并在相邻的两个非静音段之间填充空值,组成情感标签序列;和
将语音段分成m个音素,将句子级情感标签对应于每个音素重复n次,并在相邻的两个音素之间填充空值,组成情感标签序列,n,m均为正整数。
在一些实施例中,样本训练模块603采用期望最大化算法更新神经网络的权值。
在上述语音情感识别装置中,采用的神经网络优选为RNN模型或LSTM-RNN模型。针对具有时间连续性的输入序列和输出序列,目前这两种神经模型处理能力较好。
应该理解,上述装置和方法是对应的,因此,对装置以相应简略的方式进行描述。
图7是根据一示例性实施例示出的一种执行语音情感识别方法的电子设备的框图。例如,电子设备1200可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图7,电子设备1200可以包括以下一个或多个组件:处理组件1202,存储器1204,电力组件1206,多媒体组件1208,音频组件1210,输入/输出(I/O)的接口1212,传感器组件1214,以及通信组件1216。
处理组件1202通常控制电子设备1200的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1202可以包括一个或多个处理器1220来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1202可以包括一个或多个模块,便于处理组件1202和其他组件之间的交互。例如,处理组件1202可以包括多媒体模块,以方便多媒体组件1208和处理组件1202之间的交互。
存储器1204被配置为存储各种类型的数据以支持在设备1200的操作。这些数据的示例包括用于在电子设备1200上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1206为电子设备1200的各种组件提供电力。电源组件1206可以包括电源管理系统,一个或多个电源,及其他与为电子设备1200生成、管理和分配电力相关联的组件。
多媒体组件1208包括在所述电子设备1200和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1208包括一个前置摄像头和/或后置摄像头。当设备1200处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1210被配置为输出和/或输入音频信号。例如,音频组件1210包括一个麦克风(MIC),当电子设备1200处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中,音频组件1210还包括一个扬声器,用于输出音频信号。
I/O接口1212为处理组件1202和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启用按钮和锁定按钮。
传感器组件1214包括一个或多个传感器,用于为电子设备1200提供各个方面的状态评估。例如,传感器组件1214可以检测到设备1200的打开/关闭状态,组件的相对定位,例如所述组件为电子设备1200的显示器和小键盘,传感器组件1214还可以检测电子设备1200或电子设备1200一个组件的位置改变,用户与电子设备1200接触的存在或不存在,电子设备1200方位或加速/减速和电子设备1200的温度变化。传感器组件1214可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1214还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1216被配置为便于电子设备1200和其他设备之间有线或无线方式的通信。电子设备1200可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1216还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1204,上述指令可由电子设备1200的处理器1220执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图8是根据一示例性实施例示出的一种执行语音情感识别方法的电子设备的框图。例如,装置1300可以被提供为一服务器。参照图8,装置1300包括处理组件1322,其进一步包括一个或多个处理器,以及由存储器1332所代表的存储器资源,用于存储可由处理组件1322的执行的指令,例如应用程序。存储器1332中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1322被配置为执行指令,以执行上述信息列表显示方法方法。
装置1300还可以包括一个电源组件1326被配置为执行装置1300的电源管理,一个有线或无线网络接口1350被配置为将装置1300连接到网络,和一个输入输出(I/O)接口1358。装置1300可以操作基于存储在存储器1332的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了计算机程序产品,包括计算机程序产品,所述计算机程序包括程序指令,当所述程序指令被电子设备执行时,使所述电子设备执行上述语音情感识别方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (14)

1.一种语音情感识别方法,其特征在于,包括:
获取待检测语音段;
将待检测语音段输入语音情感识别模型,得到所述待检测语音段的情感标签序列,所述情感标签序列包括按照时序对应的多个情感标签;
将所述情感标签序列包含的多个情感标签按照出现次数进行排序;以及
采用出现次数大于预设值的情感标签作为所述待检测语音段的情感标签;通过训练神经网络得到所述语音情感识别模型,训练步骤包括:
收集多个语音段和所述多个语音段对应的句子级情感标签;
将每个语音段对应的句子级情感标签映射为情感标签序列;
采用所述多个语音段和所述语音段对应的情感标签序列对所述神经网络进行训练,通过计算CTC损失函数不断地修正所述神经网络的权值,以得到所述语音情感识别模型。
2.根据权利要求1所述的语音情感识别方法,其特征在于,还包括:在所述采用所述多个语音段和所述语音段对应的情感标签序列对所述神经网络进行训练步骤之前,
将所述多个语音段的每个语音段进行分帧处理,从每个帧数据中获取多个语音特征,并组成每个语音段对应的帧特征序列;
则在将所述待检测语音段输入到所述语音情感识别模型之前,还包括:将所述待检测语音段进行分帧处理,从每个帧数据中获取多个语音特征,组成所述待检测语音段对应的帧特征序列。
3.根据权利要求1所述的语音情感识别方法,其特征在于,所述将所述语音段的句子级情感标签映射为情感标签序列包括以下步骤中的一种:
将所述语音段分成n个非静音段,所述句子级情感标签对应于每个非静音段重复n次,并在相邻的两个非静音段之间填充空值,组成所述情感标签序列;和
将所述语音段分成m个音素,将所述句子级情感标签对应于每个音素重复m次,并在相邻的两个音素之间填充空值,组成所述情感标签序列,m和n为正整数。
4.根据权利要求2所述的语音情感识别方法,其特征在于,所述帧特征序列包括以下语音特征中的一个或多个:频谱特征、梅尔倒普系数、共振峰、基频。
5.根据权利要求1所述的语音情感识别方法,其特征在于,在所述训练步骤中,采用期望最大化算法进行计算,以更新所述神经网络的权值。
6.根据权利要求1至5任一项所述的语音情感识别方法,其特征在于,所述神经网络为RNN网络或LSTM-RNN网络。
7.一种语音情感识别装置,其特征在于,包括:
获取模块,用于获取待检测语音段;
识别模块,用于将待检测语音段输入语音情感识别模型,得到所述待检测语音段的情感标签序列,所述情感标签序列包括按照时序对应的多个情感标签;
排序模块,用于将所述情感标签序列包含的情感标签按照出现次数进行排序;
设定模块,用于采用出现次数大于预设值的情感标签作为所述待检测语音段的情感标签;
样本采集模块,用于采集收集多个语音段和所述多个语音段对应的句子级情感标签;
样本预处理模块,用于将每个语音段对应的句子级情感标签映射为情感标签序列;
样本训练模块,用于采用所述多个语音段和所述语音段对应的情感标签序列对神经网络进行训练,通过计算CTC损失函数不断地修正所述神经网络的权值,以得到所述语音情感识别模型。
8.根据权利要求7所述的语音情感识别装置,其特征在于,所述样本预处理模块还包括:将所述多个语音段的每个语音段进行分帧处理,从每个帧数据中获取多个语音特征,并组成每个语音段对应的帧特征序列;
则所述获取模块还包括:在获取到所述待检测语音段之后,将所述待检测语音段进行分帧处理,从每个帧数据中获取多个语音特征,组成所述待检测语音段对应的帧特征序列。
9.根据权利要求7所述的语音情感识别装置,其特征在于,所述样本预处理模块采用以下步骤中的一种将每个语音段对应的句子级情感标签映射为情感标签序列:
将所述语音段分成n个非静音段,所述句子级情感标签对应于每个非静音段重复n次,并在相邻的两个非静音段之间填充空值,组成所述情感标签序列;和
将所述语音段分成m个音素,将所述句子级情感标签对应于每个音素重复m次,并在相邻的两个音素之间填充空值,组成所述情感标签序列,m和n为正整数。
10.根据权利要求8所述的语音情感识别装置,其特征在于,所述帧特征序列包括以下语音特征中的一个或多个:频谱特征、梅尔倒普系数、共振峰、基频。
11.根据权利要求7所述的语音情感识别装置,其特征在于,所述样本训练模块采用期望最大化算法进行计算,以更新所述神经网络的权值。
12.根据权利要求7至11任一项所述的语音情感识别装置,其特征在于,所述神经网络为RNN网络或LSTM-RNN网络。
13.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述权利要求1至6任意一项所述的语音情感识别方法。
14.一种非临时性计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被执行时实现如权利要求1至6任一项所述的语音情感识别方法。
CN201811583191.3A 2018-12-24 2018-12-24 语音情感识别方法、装置、电子设备和可读介质 Active CN109599128B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811583191.3A CN109599128B (zh) 2018-12-24 2018-12-24 语音情感识别方法、装置、电子设备和可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811583191.3A CN109599128B (zh) 2018-12-24 2018-12-24 语音情感识别方法、装置、电子设备和可读介质

Publications (2)

Publication Number Publication Date
CN109599128A CN109599128A (zh) 2019-04-09
CN109599128B true CN109599128B (zh) 2022-03-01

Family

ID=65964212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811583191.3A Active CN109599128B (zh) 2018-12-24 2018-12-24 语音情感识别方法、装置、电子设备和可读介质

Country Status (1)

Country Link
CN (1) CN109599128B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2720359C1 (ru) * 2019-04-16 2020-04-29 Хуавэй Текнолоджиз Ко., Лтд. Способ и оборудование распознавания эмоций в речи
CN110213668A (zh) * 2019-04-29 2019-09-06 北京三快在线科技有限公司 视频标题的生成方法、装置、电子设备和存储介质
CN110160210B (zh) * 2019-05-15 2021-03-30 北京上格云技术有限公司 风机盘管的故障检测方法、装置、存储介质和电子设备
CN110097894B (zh) * 2019-05-21 2021-06-11 焦点科技股份有限公司 一种端到端的语音情感识别的方法和系统
CN110223714B (zh) * 2019-06-03 2021-08-03 杭州哲信信息技术有限公司 一种基于语音的情绪识别方法
CN110223712B (zh) * 2019-06-05 2021-04-20 西安交通大学 一种基于双向卷积循环稀疏网络的音乐情感识别方法
CN110556130A (zh) * 2019-09-17 2019-12-10 平安科技(深圳)有限公司 语音情绪识别方法、装置及存储介质
CN110910903B (zh) * 2019-12-04 2023-03-21 深圳前海微众银行股份有限公司 语音情绪识别方法、装置、设备及计算机可读存储介质
CN111108549B (zh) * 2019-12-24 2024-02-02 深圳市优必选科技股份有限公司 语音合成方法、装置、计算机设备及计算机可读存储介质
CN111210844B (zh) * 2020-02-03 2023-03-24 北京达佳互联信息技术有限公司 语音情感识别模型的确定方法、装置、设备及存储介质
CN111613223B (zh) * 2020-04-03 2023-03-31 厦门快商通科技股份有限公司 语音识别方法、系统、移动终端及存储介质
EP3989224B1 (en) * 2020-10-22 2024-07-31 Tata Consultancy Services Limited Selection of speech segments for training classifiers for detecting emotional valence from input speech signals
CN112466324A (zh) * 2020-11-13 2021-03-09 上海听见信息科技有限公司 一种情绪分析方法、系统、设备及可读存储介质
CN112967737A (zh) * 2021-04-07 2021-06-15 广州伟宏智能科技有限公司 一种对话文本的深度学习情感识别方法
CN113611326B (zh) * 2021-08-26 2023-05-12 中国地质大学(武汉) 一种实时语音情感识别方法及装置
CN114610158B (zh) * 2022-03-25 2024-09-27 Oppo广东移动通信有限公司 数据处理方法及装置、电子设备、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831891A (zh) * 2011-06-13 2012-12-19 富士通株式会社 一种语音数据处理方法及系统
CN108346436A (zh) * 2017-08-22 2018-07-31 腾讯科技(深圳)有限公司 语音情感检测方法、装置、计算机设备及存储介质
JP2018180334A (ja) * 2017-04-14 2018-11-15 岩崎通信機株式会社 感情認識装置、方法およびプログラム
CN108899051A (zh) * 2018-06-26 2018-11-27 北京大学深圳研究生院 一种基于联合特征表示的语音情感识别模型及识别方法
CN109003625A (zh) * 2018-07-27 2018-12-14 中国科学院自动化研究所 基于三元损失的语音情感识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831891A (zh) * 2011-06-13 2012-12-19 富士通株式会社 一种语音数据处理方法及系统
JP2018180334A (ja) * 2017-04-14 2018-11-15 岩崎通信機株式会社 感情認識装置、方法およびプログラム
CN108346436A (zh) * 2017-08-22 2018-07-31 腾讯科技(深圳)有限公司 语音情感检测方法、装置、计算机设备及存储介质
CN108899051A (zh) * 2018-06-26 2018-11-27 北京大学深圳研究生院 一种基于联合特征表示的语音情感识别模型及识别方法
CN109003625A (zh) * 2018-07-27 2018-12-14 中国科学院自动化研究所 基于三元损失的语音情感识别方法及系统

Also Published As

Publication number Publication date
CN109599128A (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN109599128B (zh) 语音情感识别方法、装置、电子设备和可读介质
CN109801644B (zh) 混合声音信号的分离方法、装置、电子设备和可读介质
CN111460150B (zh) 一种分类模型的训练方法、分类方法、装置及存储介质
CN107291690B (zh) 标点添加方法和装置、用于标点添加的装置
CN107221330B (zh) 标点添加方法和装置、用于标点添加的装置
CN110598504B (zh) 图像识别方法及装置、电子设备和存储介质
CN112185389B (zh) 语音生成方法、装置、存储介质和电子设备
EP3923202A1 (en) Method and device for data processing, and storage medium
CN109961791B (zh) 一种语音信息处理方法、装置及电子设备
CN110781305A (zh) 基于分类模型的文本分类方法及装置,以及模型训练方法
CN109961094B (zh) 样本获取方法、装置、电子设备及可读存储介质
CN111210844B (zh) 语音情感识别模型的确定方法、装置、设备及存储介质
CN111144101B (zh) 错别字处理方法和装置
CN115039169A (zh) 一种语音指令识别方法、电子设备以及非瞬态计算机可读存储介质
CN111753917A (zh) 数据处理方法、装置及存储介质
CN112651235A (zh) 一种诗歌生成的方法及相关装置
CN107274903A (zh) 文本处理方法和装置、用于文本处理的装置
CN110930978A (zh) 一种语种识别方法、装置和用于语种识别的装置
CN113362813A (zh) 一种语音识别方法、装置和电子设备
CN112036174B (zh) 一种标点标注方法及装置
CN109784537B (zh) 广告点击率的预估方法、装置及服务器和存储介质
CN112818841B (zh) 一种识别用户情绪的方法及相关装置
CN113345452B (zh) 语音转换方法、语音转换模型的训练方法、装置和介质
CN110858099B (zh) 候选词生成方法及装置
CN113920559A (zh) 一种虚拟角色的面部表情、肢体动作的生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant