[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN113611286A - 一种基于共性特征提取的跨语种语音情感识别方法和系统 - Google Patents

一种基于共性特征提取的跨语种语音情感识别方法和系统 Download PDF

Info

Publication number
CN113611286A
CN113611286A CN202111169207.8A CN202111169207A CN113611286A CN 113611286 A CN113611286 A CN 113611286A CN 202111169207 A CN202111169207 A CN 202111169207A CN 113611286 A CN113611286 A CN 113611286A
Authority
CN
China
Prior art keywords
voice
emotion
data
language
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111169207.8A
Other languages
English (en)
Other versions
CN113611286B (zh
Inventor
李太豪
郑书凯
刘逸颖
阮玉平
张晓宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202111169207.8A priority Critical patent/CN113611286B/zh
Publication of CN113611286A publication Critical patent/CN113611286A/zh
Application granted granted Critical
Publication of CN113611286B publication Critical patent/CN113611286B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于人工智能领域,涉及一种基于共性特征提取的跨语种语音情感识别方法和系统,该系统包括:语音信号采集模块,采用高保真单麦克风或者麦克风阵列采集用户语音信号;语音信号预处理模块,用于将采集到的语音信号进行预处理,对语音进行端点检测,去除语音前后静音段,生成可用于神经网络处理的数据;跨语种语音情感识别模块,用于通过设计的复数网络模型处理声谱图特征,预测用户音频的情感类型;分析存储模块,用于存储用户的语音数据和情感标签数据,并根据实际业务进行统计分析。本发明能够有效解决跨语种的语音情感识别问题,解决音频中的相位特征处理问题,从而提取音频中更加精细的发音特征,提升语音情感识别精度。

Description

一种基于共性特征提取的跨语种语音情感识别方法和系统
技术领域
本发明属于人工智能领域,涉及一种基于共性特征提取的跨语种语音情感识别方法和系统。
背景技术
语音是人类在日常交流中表达情感的主要方式。随着人工智能技术的发展,人机交互等应用得到了快速发展,能够进行类人交互,即基于情感智能的人机交互成为一种迫切需求,语音情感识别是实现这种情感交互的关键技术支撑。
当前关于语音情感识别的技术有基于人工特征的传统语音情感识别方法和基于人工神经网络的端到端语音情感识别方法。传统方法往往需要大量的专家知识,根据特定的发音特征等,进行识别特征的设计和模型构建,代价往往比较大。基于人工神经网络的方法一般只需要设计好网络模型,然后利用大量的标注数据,就可以让模型自主学习,实现语音的情感识别。目前,基于神经网络的方法在语音情感识别的效果上,比传统方法表现更好。
使用端到端神经网络技术实现语音情感识别需要大量的标注数据去训练模型,但是对于语音情感标注,标注员只有懂得相关的语种才能够进行标注,而且标注训练模型所需的数据需要耗费大量时间。这就使得语音情感识别只能在某些具有大量标注数据的语种上进行,而对于没有标注数据的语种,就难以实现语音的情感识别。
发明内容
为了解决现有技术中存在的上述跨语种语音情感识别问题,本发明提出了一种基于共性特征提取的跨语种语音情感识别方法和系统,能够有效解决跨语种的语音情感识别问题,并通过复数网络,解决音频中的相位特征处理问题,从而提取音频中更加精细的发音特征,从而提升语音情感识别精度,其具体技术方案如下:
一种基于共性特征提取的跨语种语音情感识别方法,包括如下步骤:
步骤一、采集含标注信息的英文情感语音数据和不含标注信息的其他语种情感语音数据;
步骤二、对情感语音数据进行预处理,生成含相位的声谱图;
步骤三、去除声谱图前后静音段,后输入至网络得到语音深度特征信息,计算得到语音深度特征最大均值误差;
步骤四、将语音深度特征信息输入至分类网络计算得到带标签数据输出的分类概率,结合向量化标签数据得到的标签表征,计算含标注信息的英文情感语音数据分类误差;
步骤五、根据语音深度特征最大均值误差和含标注信息的英文情感语音数据分类误差,训练得到跨语言情感语音分类模型;
步骤六、输入待预测音频处理后的声谱图至训练好的跨语言情感语音分类模型,预测出语音情感。
进一步的,所述步骤一,具体包括以下步骤:
S1、通过网络搜索开源数据集,下载带情感标注的英文语音数据,英文语音数据表 示为
Figure 80247DEST_PATH_IMAGE001
,标签数据表示为
Figure 194131DEST_PATH_IMAGE002
S2、通过网络搜索或者主动录音采集,下载不含情感标注的非英文语种语音数据, 表示为
Figure 814468DEST_PATH_IMAGE003
进一步的,所述步骤二,具体为:
S3、对S1和S2采集的语音数据
Figure 78091DEST_PATH_IMAGE001
Figure 851006DEST_PATH_IMAGE003
,通过短时傅里叶变换,生成带 相位信息的声谱图信息即梅尔谱图信号,分别对应表示为
Figure 564884DEST_PATH_IMAGE004
Figure 360933DEST_PATH_IMAGE005
进一步的,所述步骤三,具体包括以下步骤:
S4、对S3生成的梅尔谱图信号
Figure 818459DEST_PATH_IMAGE004
Figure 304935DEST_PATH_IMAGE005
,计算不同时间帧声谱图信息的能 量大小,通过设置阈值,切除前后静音段,得到长度为的声谱图信息,分别表示为
Figure 940447DEST_PATH_IMAGE006
Figure 4218DEST_PATH_IMAGE007
S5、将S4得到的
Figure 750588DEST_PATH_IMAGE006
Figure 216204DEST_PATH_IMAGE007
输入到由复数网络结构构成的特征提取子网 络,得到语音深度特征信息
Figure 881672DEST_PATH_IMAGE008
Figure 183472DEST_PATH_IMAGE009
S6、将S5得到的语音深度特征信息
Figure 248379DEST_PATH_IMAGE008
Figure 584814DEST_PATH_IMAGE009
,通过最小化均值误差,得到 模型特征相似度损失
Figure 280238DEST_PATH_IMAGE010
, 表达式为:
Figure 193967DEST_PATH_IMAGE011
其中,ns是输入模型的英文数据数量,nt是输入模型其他语种数据数量,xi 与xj
Figure 282140DEST_PATH_IMAGE012
特征的下标分别为i和j的元素,
Figure 456769DEST_PATH_IMAGE012
特征为矩阵,表示为:
Figure 604985DEST_PATH_IMAGE013
yi与yj
Figure 740431DEST_PATH_IMAGE009
特征的下标分别为i和j的元素,
Figure 615983DEST_PATH_IMAGE009
特征矩阵,表示为:
Figure 395852DEST_PATH_IMAGE014
k表示高斯核函数,可表示为:
Figure 839602DEST_PATH_IMAGE015
其中,b根据数据集进行调整取值。
进一步的,所述步骤四,具体包括以下步骤:
S7、将S5得到的语音深度特征信息
Figure 852558DEST_PATH_IMAGE008
输入到情感分类处理网络,得到情感预 测概率特征
Figure 16954DEST_PATH_IMAGE016
S8、将S1得到的标签数据使用One-hot技术进行表征,得到标签表征,表示为
Figure 166176DEST_PATH_IMAGE017
S9、将S7得到的情感预测概率特征
Figure 921773DEST_PATH_IMAGE016
和S8得到的标签表征
Figure 31812DEST_PATH_IMAGE017
,通过交叉 熵函数,计算得到模型损失
Figure 780325DEST_PATH_IMAGE018
,表达式为:
Figure 269206DEST_PATH_IMAGE019
其中,C是情感类别数量。
进一步的,所述步骤五,具体为:
S10、将S6得到的模型特征相似度损失
Figure 179393DEST_PATH_IMAGE020
和S9得到的模型损失
Figure 183252DEST_PATH_IMAGE018
进行累 加后通过神经网络梯度更新方法,优化网络模型,得到训练好的跨语言情感语音分类模型。
进一步的,所述步骤六,具体为:
S11、将待预测的任意语种语音
Figure 469877DEST_PATH_IMAGE021
进行预处理,生成带相位声谱图信号
Figure 78844DEST_PATH_IMAGE022
,将此梅尔谱图信号输入到训练好的跨语言情感语音分类模型,预测得到语音的 情感类别。
一种基于共性特征提取的跨语种语音情感识别系统,包括:
语音信号采集模块,用于采集用户语音信号,语音信号包括含标注信息的英文情感语音数据和不含标注信息的其他语种情感语音数据;
语音信号预处理模块,用于将采集到的语音信号进行预处理,生成含相位的声谱图,再进行端点检测,去除声谱图信号前后静音段,生成可用于神经网络处理的数据;
跨语种语音情感识别模块,用于通过设计的复数网络模型处理声谱图,得到语音深度特征信息,训练出情感识别模型,预测用户音频的情感类型;
分析存储模块,用于利用Oracle数据库,存储用户的语音数据和情感标签数据,并根据实际业务进行统计分析。
进一步的,所述预处理,具体包括:预加重、分帧、加窗、短时傅里叶变换、静音去除操作,将语音信号从时域信号转换到频域信号,即从音频采样转换成声谱特征;其中采用谱减法对语音进行静音去噪,采用Z变换方法对语音进行预加重,采用短时傅里叶变换方法对语音进行声谱特征提取。
本发明的优点:
1、本发明的基于共性特征提取的跨语种语音情感识别方法,通过最小化网络提取的不同语种的隐含特征的最大均值误差,提取不同语种音频共有的情感信息,有效实现跨语种语音情感的目的;
2、本发明的基于共性特征提取的跨语种语音情感识别方法,利用复数网络提取语谱图信息,能够从语音中提取出与情感发音相关的相位信息,能够使得模型的识别精度更高;
3、本发明的基于共性特征提取的跨语种语音情感识别系统集成了跨语言的语音情感识别模型,能够实现跨语种的语音情感识别,适用于跨地区使用的语音情感识别场景,例如:跨地区的电话、视频会议系统的会议内容自动分析等。
附图说明
图1为本发明的跨语种语音情感识别系统的结构示意图;
图2为本发明的跨语种语音情感识别方法的流程示意图;
图3为本发明的跨语种语音情感识别方法的网络结构示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图,对本发明作进一步详细说明。
如图2所示,一种基于共性特征提取的跨语种语音情感识别方法,包括如下步骤:
S1、采集含标注信息的英文情感语音数据:
通过网络搜索开源数据集,下载带情感标注的英文语音数据,英文语音数据表示 为
Figure 645086DEST_PATH_IMAGE023
,标签数据表示为
Figure 854350DEST_PATH_IMAGE024
S2、采集不含标注信息的其他语种情感语音数据:
通过网络搜索或者主动录音采集,下载不含情感标注的非英文语种语音数据,表 示为
Figure 288874DEST_PATH_IMAGE025
S3、预处理语音信号,生成含相位的声谱图:
对S1和S2采集的语音数据
Figure 17927DEST_PATH_IMAGE026
Figure 535496DEST_PATH_IMAGE027
,通过短时傅里叶变换等操作,生 成带相位信息的声谱图信息即梅尔谱图信号,分别对应表示为
Figure 717209DEST_PATH_IMAGE028
Figure 80058DEST_PATH_IMAGE029
S4、声谱图去前后静音段:
对S3生成的梅尔谱图信号
Figure 788251DEST_PATH_IMAGE028
Figure 227453DEST_PATH_IMAGE029
,计算不同时间帧声谱图信息的能量 大小,通过设置阈值,切除前后静音段,得到长度为的声谱图信息,分别表示为
Figure 411310DEST_PATH_IMAGE030
Figure 594161DEST_PATH_IMAGE031
S5、输入语谱图到网络求取语音深度特征信息:
将S4得到的
Figure 812653DEST_PATH_IMAGE030
Figure 422757DEST_PATH_IMAGE031
输入到由复数网络结构构成的特征提取子网络, 得到语音深度特征信息
Figure 93909DEST_PATH_IMAGE032
Figure 549293DEST_PATH_IMAGE033
;如图3所示,所述复数网络结构是近年信号处理 领域用到的神经网络结构。
S6、计算语音深度特征最大均值误差:
将S5得到的语音深度特征信息
Figure 622291DEST_PATH_IMAGE032
Figure 114279DEST_PATH_IMAGE033
,通过最小化均值误差,得到模 型特征相似度损失
Figure 272728DEST_PATH_IMAGE034
,使得提取的两种特征信息是一种拥有共同分布的特征;
具体的,所述模型特征相似度损失计算方法如下:
Figure 656436DEST_PATH_IMAGE035
Figure 69094DEST_PATH_IMAGE034
中,ns是输入模型的英文数据数量,nt是输入模型其他语种数据数量。xi与 xj
Figure 739110DEST_PATH_IMAGE036
特征的下标分别为i和j的元素,
Figure 135587DEST_PATH_IMAGE036
特征是一个矩阵,可表示为:
Figure 57407DEST_PATH_IMAGE037
Figure 573839DEST_PATH_IMAGE034
中,yi与yj
Figure 696647DEST_PATH_IMAGE038
特征的下标分别为i和j的元素,
Figure 564109DEST_PATH_IMAGE038
特征矩阵, 可表示为:
Figure 430565DEST_PATH_IMAGE039
Figure 676869DEST_PATH_IMAGE034
中,k表示高斯核函数,可表示为:
Figure 219846DEST_PATH_IMAGE040
其中,b根据数据集进行调整取值,可取1等数值。
S7、输入语音深度特征信息到分类网络计算带标签数据输出的分类概率:
将S5得到的语音深度特征信息
Figure 794178DEST_PATH_IMAGE041
输入到情感分类处理网络,得到情感预测概 率特征
Figure 933167DEST_PATH_IMAGE042
S8、将标注数据的标签进行向量化表示:
将S1得到的标签使用One-hot技术进行表征,得到标签表征,表示为
Figure 158611DEST_PATH_IMAGE043
S9、计算标注数据分类误差:
将S7得到的情感预测概率特征
Figure 747856DEST_PATH_IMAGE044
和S8得到的标签表征
Figure 809484DEST_PATH_IMAGE043
,通过交叉熵函 数,计算得到模型损失
Figure 267010DEST_PATH_IMAGE045
具体的,所述交叉熵函数计算方法如下:
Figure 894432DEST_PATH_IMAGE046
其中,C是情感类别数量,通常取值为7,ns是一次输入训练模型的英文带标签样本数量。
10、根据两个误差更新训练网络,得到情感识别模型M:
将S6得到的模型损失
Figure 513632DEST_PATH_IMAGE047
和S9得到的模型损失
Figure 187190DEST_PATH_IMAGE048
进行累加后通过神经 网络梯度更新方法,优化网络模型,以此得到训练好的跨语言情感语音分类模型M。
S11、输入待预测音频处理后的语谱图到模型M,预测语音情感:
将待预测的任意语种语音
Figure 933560DEST_PATH_IMAGE049
进行预处理,生成带相位声谱图信号
Figure 664756DEST_PATH_IMAGE050
,将此梅尔谱图信号输入到模型分类模型M,通过神经网络推导步骤,就可以得到语音的情 感类别。
如图1所示,一种基于共性特征提取的跨语种语音情感识别系统,包括:
语音信号采集模块,采用高保真单麦克风或者麦克风阵列,用于采集用户语音信号;
语音信号预处理模块,用于将采集到的语音信号进行预处理,生成含相位的声谱图,再进行端点检测,去除声谱图信号前后静音段,生成可用于神经网络处理的数据;其中,所述预处理,具体包括:预加重、分帧、加窗、短时傅里叶变换、静音去除操作,将语音信号从时域信号转换到频域信号,即从音频采样转换成声谱特征;其中采用谱减法对语音进行静音去噪,采用Z变换方法对语音进行预加重,采用短时傅里叶变换方法对语音进行声谱特征提取;
跨语种语音情感识别模块,用于通过设计的复数网络模型处理声谱图,得到语音深度特征信息,训练出情感识别模型,预测用户音频的情感类型;
分析存储模块,用于利用Oracle等数据库,存储用户的语音数据和情感标签数据,并根据实际业务进行统计分析。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于共性特征提取的跨语种语音情感识别方法,其特征在于,包括如下步骤:
步骤一、采集含标注信息的英文情感语音数据和不含标注信息的其他语种情感语音数据;
步骤二、对情感语音数据进行预处理,生成含相位的声谱图;
步骤三、去除声谱图前后静音段,后输入至网络得到语音深度特征信息,计算得到语音深度特征最大均值误差;
步骤四、将语音深度特征信息输入至分类网络计算得到带标签数据输出的分类概率,结合向量化标签数据得到的标签表征,计算得到含标注信息的英文情感语音数据分类误差;
步骤五、根据语音深度特征最大均值误差和含标注信息的英文情感语音数据分类误差,训练得到跨语言情感语音分类模型;
步骤六、输入待预测音频处理后的声谱图至训练好的跨语言情感语音分类模型,预测出语音情感。
2.如权利要求1所述的一种基于共性特征提取的跨语种语音情感识别方法,其特征在于,所述步骤一,具体包括以下步骤:
S1、通过网络搜索开源数据集,下载带情感标注的英文语音数据,英文语音数据表示为
Figure 713631DEST_PATH_IMAGE001
,标签数据表示为
Figure 264698DEST_PATH_IMAGE002
S2、通过网络搜索或者主动录音采集,下载不含情感标注的非英文语种语音数据,表示 为
Figure 549180DEST_PATH_IMAGE003
3.如权利要求2所述的一种基于共性特征提取的跨语种语音情感识别方法,其特征在于,所述步骤二,具体为:
S3、对S1和S2采集的语音数据
Figure 134882DEST_PATH_IMAGE004
Figure 112196DEST_PATH_IMAGE005
,通过短时傅里叶变换,生成带相位 信息的声谱图信息即梅尔谱图信号,分别对应表示为
Figure 25926DEST_PATH_IMAGE006
Figure 363366DEST_PATH_IMAGE007
4.如权利要求3所述的一种基于共性特征提取的跨语种语音情感识别方法,其特征在于,所述步骤三,具体包括以下步骤:
S4、对S3生成的梅尔谱图信号
Figure 554307DEST_PATH_IMAGE008
Figure 686211DEST_PATH_IMAGE009
,计算不同时间帧声谱图信息的能量 大小,通过设置阈值,切除前后静音段,得到长度为的声谱图信息,分别表示为
Figure 228182DEST_PATH_IMAGE010
Figure 103734DEST_PATH_IMAGE011
S5、将S4得到的
Figure 414761DEST_PATH_IMAGE012
Figure 858512DEST_PATH_IMAGE011
输入到由复数网络结构构成的特征提取子网络,得 到语音深度特征信息
Figure 605888DEST_PATH_IMAGE013
Figure 35863DEST_PATH_IMAGE014
S6、将S5得到的语音深度特征信息
Figure 450664DEST_PATH_IMAGE013
Figure 940683DEST_PATH_IMAGE014
,通过最小化均值误差,得到模型 特征相似度损失
Figure 785142DEST_PATH_IMAGE015
, 表达式为:
Figure 268076DEST_PATH_IMAGE016
其中,ns是输入模型的英文数据数量,nt是输入模型其他语种数据数量,xi与xj
Figure 553695DEST_PATH_IMAGE017
特征的下标分别为i和j的元素,
Figure 729461DEST_PATH_IMAGE017
特征为矩阵,表示为:
Figure 467741DEST_PATH_IMAGE018
yi与yj
Figure 488787DEST_PATH_IMAGE019
特征的下标分别为i和j的元素,
Figure 363333DEST_PATH_IMAGE019
特征矩阵,表示为:
Figure 975580DEST_PATH_IMAGE020
k表示高斯核函数,可表示为:
Figure 201156DEST_PATH_IMAGE021
其中,b根据数据集进行调整取值。
5.如权利要求4所述的一种基于共性特征提取的跨语种语音情感识别方法,其特征在于,所述步骤四,具体包括以下步骤:
S7、将S5得到的语音深度特征信息
Figure 291472DEST_PATH_IMAGE022
输入到情感分类处理网络,得到情感预测概 率特征
Figure 856462DEST_PATH_IMAGE023
S8、将S1得到的标签数据使用One-hot技术进行表征,得到标签表征,表示为
Figure 842873DEST_PATH_IMAGE024
S9、将S7得到的情感预测概率特征
Figure 555745DEST_PATH_IMAGE023
和S8得到的标签表征
Figure 184172DEST_PATH_IMAGE024
,通过交叉熵函 数,计算得到模型损失
Figure 298890DEST_PATH_IMAGE025
,表达式为:
Figure 331568DEST_PATH_IMAGE026
其中,C是情感类别数量。
6.如权利要求5所述的一种基于共性特征提取的跨语种语音情感识别方法,其特征在于,所述步骤五,具体为:
S10、将S6得到的模型特征相似度损失
Figure 781004DEST_PATH_IMAGE027
和S9得到的模型损失
Figure 963855DEST_PATH_IMAGE028
进行累加 后通过神经网络梯度更新方法,优化网络模型,得到训练好的跨语言情感语音分类模型。
7.如权利要求6所述的一种基于共性特征提取的跨语种语音情感识别方法,其特征在于,所述步骤六,具体为:
S11、将待预测的任意语种语音
Figure 916767DEST_PATH_IMAGE029
进行预处理,生成带相位声谱图信号
Figure 917084DEST_PATH_IMAGE030
,将此梅尔谱图信号输入到训练好的跨语言情感语音分类模型,预测得到语音的情感类别。
8.一种基于共性特征提取的跨语种语音情感识别系统,其特征在于,包括:
语音信号采集模块,用于采集用户语音信号,语音信号包括含标注信息的英文情感语音数据和不含标注信息的其他语种情感语音数据;
语音信号预处理模块,用于将采集到的语音信号进行预处理,生成含相位的声谱图,再进行端点检测,去除声谱图信号前后静音段,生成可用于神经网络处理的数据;
跨语种语音情感识别模块,用于通过设计的复数网络模型处理声谱图,得到语音深度特征信息,训练出情感识别模型,预测用户音频的情感类型;
分析存储模块,用于利用Oracle数据库,存储用户的语音数据和情感标签数据,并根据实际业务进行统计分析。
9.如权利要求8所述的一种基于共性特征提取的跨语种语音情感识别系统,其特征在于,所述预处理,具体包括:预加重、分帧、加窗、短时傅里叶变换、静音去除操作,将语音信号从时域信号转换到频域信号,即从音频采样转换成声谱特征;其中采用谱减法对语音进行静音去噪,采用Z变换方法对语音进行预加重,采用短时傅里叶变换方法对语音进行声谱特征提取。
CN202111169207.8A 2021-10-08 2021-10-08 一种基于共性特征提取的跨语种语音情感识别方法和系统 Active CN113611286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111169207.8A CN113611286B (zh) 2021-10-08 2021-10-08 一种基于共性特征提取的跨语种语音情感识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111169207.8A CN113611286B (zh) 2021-10-08 2021-10-08 一种基于共性特征提取的跨语种语音情感识别方法和系统

Publications (2)

Publication Number Publication Date
CN113611286A true CN113611286A (zh) 2021-11-05
CN113611286B CN113611286B (zh) 2022-01-18

Family

ID=78310804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111169207.8A Active CN113611286B (zh) 2021-10-08 2021-10-08 一种基于共性特征提取的跨语种语音情感识别方法和系统

Country Status (1)

Country Link
CN (1) CN113611286B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115456114A (zh) * 2022-11-04 2022-12-09 之江实验室 一种模型训练和业务执行的方法、装置、介质及设备
CN115620706A (zh) * 2022-11-07 2023-01-17 之江实验室 一种模型训练方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101064104A (zh) * 2006-04-24 2007-10-31 中国科学院自动化研究所 基于语音转换的情感语音生成方法
US20090313014A1 (en) * 2008-06-12 2009-12-17 Jong-Ho Shin Mobile terminal and method for recognizing voice thereof
CN102142253A (zh) * 2010-01-29 2011-08-03 富士通株式会社 语音情感识别设备及方法
CN103400145A (zh) * 2013-07-19 2013-11-20 北京理工大学 基于线索神经网络的语音-视觉融合情感识别方法
CN103578480A (zh) * 2012-07-24 2014-02-12 东南大学 负面情绪检测中的基于上下文修正的语音情感识别方法
US20160275588A1 (en) * 2014-05-29 2016-09-22 Tencent Technology (Shenzhen) Company Limited Method, device, and system for obtaining information based on audio input
CN107103900A (zh) * 2017-06-06 2017-08-29 西北师范大学 一种跨语言情感语音合成方法及系统
CN107316654A (zh) * 2017-07-24 2017-11-03 湖南大学 基于dis‑nv特征的情感识别方法
CN110718208A (zh) * 2019-10-15 2020-01-21 四川长虹电器股份有限公司 基于多任务声学模型的语音合成方法及系统
CN111105781A (zh) * 2019-12-23 2020-05-05 联想(北京)有限公司 语音处理方法、装置、电子设备以及介质
CN111145719A (zh) * 2019-12-31 2020-05-12 北京太极华保科技股份有限公司 将中英混合及语气标签化的数据标注方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101064104A (zh) * 2006-04-24 2007-10-31 中国科学院自动化研究所 基于语音转换的情感语音生成方法
US20090313014A1 (en) * 2008-06-12 2009-12-17 Jong-Ho Shin Mobile terminal and method for recognizing voice thereof
CN102142253A (zh) * 2010-01-29 2011-08-03 富士通株式会社 语音情感识别设备及方法
CN103578480A (zh) * 2012-07-24 2014-02-12 东南大学 负面情绪检测中的基于上下文修正的语音情感识别方法
CN103400145A (zh) * 2013-07-19 2013-11-20 北京理工大学 基于线索神经网络的语音-视觉融合情感识别方法
US20160275588A1 (en) * 2014-05-29 2016-09-22 Tencent Technology (Shenzhen) Company Limited Method, device, and system for obtaining information based on audio input
CN107103900A (zh) * 2017-06-06 2017-08-29 西北师范大学 一种跨语言情感语音合成方法及系统
CN107316654A (zh) * 2017-07-24 2017-11-03 湖南大学 基于dis‑nv特征的情感识别方法
CN110718208A (zh) * 2019-10-15 2020-01-21 四川长虹电器股份有限公司 基于多任务声学模型的语音合成方法及系统
CN111105781A (zh) * 2019-12-23 2020-05-05 联想(北京)有限公司 语音处理方法、装置、电子设备以及介质
CN111145719A (zh) * 2019-12-31 2020-05-12 北京太极华保科技股份有限公司 将中英混合及语气标签化的数据标注方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115456114A (zh) * 2022-11-04 2022-12-09 之江实验室 一种模型训练和业务执行的方法、装置、介质及设备
CN115620706A (zh) * 2022-11-07 2023-01-17 之江实验室 一种模型训练方法、装置、设备及存储介质
CN115620706B (zh) * 2022-11-07 2023-03-10 之江实验室 一种模型训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113611286B (zh) 2022-01-18

Similar Documents

Publication Publication Date Title
CN107680582B (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
CN109410914B (zh) 一种赣方言语音和方言点识别方法
CN110910283A (zh) 生成法律文书的方法、装置、设备和存储介质
CN107945805A (zh) 一种智能化跨语言语音识别转化方法
CN112397054B (zh) 一种电力调度语音识别方法
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN112712824A (zh) 一种融合人群信息的语音情感识别方法和系统
CN113611286B (zh) 一种基于共性特征提取的跨语种语音情感识别方法和系统
WO2023048746A1 (en) Speaker-turn-based online speaker diarization with constrained spectral clustering
Zhu et al. Catslu: The 1st chinese audio-textual spoken language understanding challenge
Bhati et al. Self-expressing autoencoders for unsupervised spoken term discovery
Chen et al. Towards unsupervised automatic speech recognition trained by unaligned speech and text only
CN112331207B (zh) 服务内容监控方法、装置、电子设备和存储介质
CN114566189A (zh) 基于三维深度特征融合的语音情感识别方法及系统
Zhang et al. Cacnet: Cube attentional cnn for automatic speech recognition
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
Bigot et al. Person name recognition in ASR outputs using continuous context models
Thukroo et al. Spoken language identification system for kashmiri and related languages using mel-spectrograms and deep learning approach
Birla A robust unsupervised pattern discovery and clustering of speech signals
CN114036957B (zh) 一种快速语义相似度计算方法
CN112309398B (zh) 工作时长监控方法、装置、电子设备和存储介质
CN114298019A (zh) 情绪识别方法、装置、设备、存储介质、程序产品
CN112231440A (zh) 一种基于人工智能的语音搜索方法
Kumar et al. A time delay neural network acoustic modeling for hindi speech recognition
CN113470617B (zh) 语音识别方法以及电子设备、存储装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant