CN108447470A - 一种基于声道和韵律特征的情感语音转换方法 - Google Patents
一种基于声道和韵律特征的情感语音转换方法 Download PDFInfo
- Publication number
- CN108447470A CN108447470A CN201711454427.9A CN201711454427A CN108447470A CN 108447470 A CN108447470 A CN 108447470A CN 201711454427 A CN201711454427 A CN 201711454427A CN 108447470 A CN108447470 A CN 108447470A
- Authority
- CN
- China
- Prior art keywords
- voice
- prosodic features
- vowel
- parameter
- emotional speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 48
- 230000002996 emotional effect Effects 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000007935 neutral effect Effects 0.000 claims abstract description 24
- 230000008451 emotion Effects 0.000 claims abstract description 16
- 230000009466 transformation Effects 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 9
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 6
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 6
- 238000001514 detection method Methods 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 238000009432 framing Methods 0.000 claims description 14
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 230000001755 vocal effect Effects 0.000 claims description 5
- 238000005311 autocorrelation function Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 210000005036 nerve Anatomy 0.000 claims 2
- 230000002035 prolonged effect Effects 0.000 claims 1
- 230000033764 rhythmic process Effects 0.000 claims 1
- 230000000007 visual effect Effects 0.000 claims 1
- 230000003993 interaction Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 23
- 230000000694 effects Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 206010039203 Road traffic accident Diseases 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241001270131 Agaricus moelleri Species 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供一种基于声道和韵律特征转换的情感语音转换的方法,主要解决未来人与机器的交流方式问题。包括:首先进行情感语音训练,对中性与其它情感语音进行预处理,然后提取其声道和韵律特征参数,建立匹配模型;其次再进行情感语音转换,将中性语音的声道和韵律特征参数输入到转换模型中,并将模型输出参数用到语音合成中,来合成目标情感语音。本发明采用的方法不再局限于中性语音的对话,在相同语义和说话人信息的情况下,能够实现中性向不同情感之间的语音转换,获得具有情感表现力的语音,有利于未来更好的人机交互。
Description
技术领域
本发明属于音频信号处理领域,涉及一种基于声道和韵律特征的情感语 音转换方法。
背景技术
随着人工智能技术和机器人的发展,人类的生活日益丰富,听演唱会,看 电影和电视剧,玩直播、手机游戏和虚拟现实逐渐成为大众喜欢的娱乐方式,人 们为了得到更好的听觉体验,对语音的要求也越来越高。现今人与计算机最常见 的交流方式就是使用中性语言,而未来人与机器人的对话不再局限于中性语音 的对话。在情感计算和智能交互领域中,为了赋予计算机观察、理解和表达情感 的能力,情感语音转换将成为一项重要的研究。
情感语音转换属于语音转换的一种,语音转换是指改变源说话人的语音 个性化信息,从而带上目标说话人的语音个性化信息,其中个性化信息很广泛, 包括性别,情感,年龄等信息。通过对语音转换的研究,可以进一步探究人类语 音的发音机制,更好地掌握语音的参数特征,让人们可以通过操控这些关键的参 数信息而改变语音信息,来达到自己的目的。语音转换的意义不仅仅局限于转换 本身,还和语音分析、识别、编码、增强、隐藏等技术相关。首先,语音转换的 研究离不开这些相关技术的研究理论和成果;其次,语音转换技术的研究推动了 这些相关技术领域的发展。
语音转换最常见的做法是基于语音特征的统计分布来实现声音转换,有 的采用高斯混合模型(GMM)描述源与目标特征参数的概率分布,将利用给定源特 征参数预测目标特征参数的问题变为求解一个线性回归函数的问题;有的采用 码本加权叠加的方法来得到目标说话人的参数特征;有的采用声道长度归一化 技术调整语音频谱,从而进行语音转换;还有基于固定长度帧的非基音同步的方 法和信号相关的方法,激励源信号采用脉冲信号、三角波信号、噪音源等信号, 通过线性频谱搬移和分析合成法进行男女之间的语音转换。
发明内容
本发明提出了一种基于声道和韵律特征的情感语音转换方案,可以解决 医疗领域中的效率安全问题,例如应用在智能机器人心理医生上,不仅避免了人 类心理医生免受暴力或精神异常患者的伤害,还缩短了患者诊断时间,提高了工 作效率;在交通安全方面,本发明能降低交通事故发生概率,大大减少交通事故 死亡率。情感语音转换意味着在相同语音的情况下,将语音从一种情感换成另一 种情感。
为了达到上述目的,本发明的方法包括为:
S1:情感语音训练阶段,先对中性和其他情感语音进行预处理,然后提取 其声道和韵律特征参数,建立转换模型。
S2:情感语音转换阶段,将中性语音的声道和韵律特征参数输入转换模型 中,将模型输出参数进行语音合成,合成目标情感语音。
进一步,所述步骤S1中,所述的预处理是指设置一系列参数,对语音进 行分帧加窗预处理。参数包括:帧长、帧移、窗函数,LSP系数的阶数。
其中,所述帧长,是指经过数字化的音频信号实际上是一个时变信号,为 了能对音频信号进行分析,可以假设音频信号在几十毫秒的时间内是平稳的。 为了得到短时音频信号,将语音信号分为一段一段地来分析其特征,其中每一段 称为“一帧”,分帧是连续的,帧长一般取10~30毫秒,此时方案将分帧定为 20毫秒。
其中,所述帧移,是指后一帧对前一帧的位移量,这样相邻两帧之间存在 重叠部分。在分帧处理中,往往设置在相邻两帧之间有一部分重叠,如果相邻两 帧之间不重叠,给出的基音可能有一个跳变,特征参数有可能变化较大,为了使 特征参数平滑地变化,在两个不重叠的帧之间插一些帧来提取特征参数,此时方 案的帧移为5毫秒。
其中,所述窗函数,是指为了减少频谱能量泄漏,可采用不同的截取函数 对信号进行截断,截断函数称为窗函数。不同的窗函数对信号频谱的影响不一样, 可根据信号的性质和处理要求选择不同的窗函数。如果仅要求精确读出主瓣频 率,而不考虑幅值精度,则可选用主瓣宽度比较窄而便于分辨的矩形窗,例如测 量物体的自振频率等;如果分析窄带信号,且有较强的干扰噪声,则应选用旁瓣 幅度小的窗函数,如汉宁窗、三角窗等;对于随时间按指数衰减的函数,可采用 指数窗来提高信噪比。此时方案将窗函数定为海明窗。
其中,所述LSP(linear spectrum pair)系数,是线性预测编码 LPC(LinearPrediction Coding)系数的等效系数,其阶数选择的范围是8~24, 此时方案将LSP系数的阶数定为10。LSP不仅具有良好的动态范围和滤波稳定 性,还具有误差独立性,即某个频率点上的LSP的偏差只对该频率附近的语音 频率产生影响,LSP良好的内插特性和量化特性比LPC系数能更好地代表音谱信 息。LSP系数作为LPC系数的推演,广泛应用于中低速编码中。
进一步,所述步骤S1中,所述的声道特征参数提取中进行LSP分析,是 用n个离散频率的分布式密度来表示语音信号频谱特征的一种方法;而在LSP 计算中,采用线性预测分析法,通过使实际采样值和线性预测采样值之间差值的 二次方和达到最小值,即进行最小均方误差的逼近,直接决定一组线性预测系数, 求出LSP系数。
进一步,所述步骤S1中,所述的韵律特征提取中,本发明采用了主体-延 伸法获取基音周期T,进一步包括:
S11:对语音信号序列x(n)加窗分帧预处理,得到第i帧的语音信号xi(n), 对序列xi(n)进行端点检测和元音主体检测,然后对序列x(n)进行带通滤波, 得到序列再进行一次加窗分帧预处理,得到第i帧的语音信号
S12:求出元音主体的延伸区间和长度,提取元音主体的基音周期,往前 后延伸对过渡区间进行基音检测。
进一步,所述步骤S11中,第一次加窗分帧的目的是端点检测和元音主 体检测,利用用能量和谱熵的比值进行端点检测和元音主体检测。第二次加窗分 帧是为了进行基音检测,通过滤波,减少共振峰对基音检测的影响。
进一步,所述步骤S12中,会求出每个元音主体属于哪一个有话段。在一 个有话段中可能包含多个元音主体,所以要划出每个元音主体需要延伸进行端 点检测的区间,以及它向前向后需要检测的帧数。用自相关函数的方法提取元音 主体的基音周期,以元音主体的基音周期为基准,延伸向前向后区域进行基音检 测。
进一步,所述步骤S1中,所述建立转换模型中,分别通过BP(Back Propagation)神经网络和GRNN(General Regression Neural Network)神经网 络找出声道特征参数LSP和韵律特征参数T的非线性转换关系。BP神经网络具 有很强的非线性映射能力和柔性的网络结构,能够有效地获得声道特征参数LSP 系数的非线性转换规则;GRNN神经网络具有很强的非线性映射能力和学习速度, 样本数据少时,预测效果很好,还可以处理不稳定数据,能够有效地获得韵律特 征参数T的非线性转换规则。
所述步骤S2中,进一步包括:
S21:获得中性语音的声道参数LSP和韵律特征参数T;
S22:将中性语音的LSP和T输出到转换模型中,得到转换后的目标情感 语音的声道参数LSP和韵律特征参数T;
S23:将目标情感语音的声道参数LSP和韵律特征参数T进行语音合成, 最后输出并画出语音声纹图。
基于上述技术方案,本发明提出的基于声道和韵律特征的情感语音转换 方法可以更有效地将中性语音转换为生气、开心和悲伤的语音。
有益效果
本发明提出了一种基于声道和韵律特征的情感语音转换方案,利用神经 网络获得中性与不同情感的LSP系数和基音周期T的特征转换模型,在说话内 容保持不变的前提下,用所求得的转换模型实现不同情感之间的语音转换。本发 明可以创造出具有所希望情感的语音,解决医疗领域中的困难,例如心理医生机 器人在为患者诊病时,可以切换不同的情感语音开导患者,一方面可以缩短问诊 时间,提高工作效率,另一方面机器人心理医生也避免了人类心理医生受到暴力 或精神异常患者的伤害;在交通安全方面,情感语音技术能降低交通事故发生概 率,大大减少交通事故死亡率,当司机处于各种不同的危险负面情绪是,智能车 载语音系统会警告司机,转换不同情感的语音来调整司机的状态,以免交通事故 的发生;在娱乐应用方面,语音转换技术可以用于网络音乐直播或有声贺卡等网络娱乐中,为人们的生活增添了乐趣。
附图说明
图1是基于声道和韵律特征的情感语音转换方案框图
图2是男女中性-生气声道特征参数LSP的均方误差对比图
图3是男女中性-开心声道特征参数LSP的均方误差对比图
图4是男女中性-悲伤声道特征参数LSP的均方误差对比图
图5是女性中性-生气语音转换的语谱图
图6是男性中性-生气语音转换的语谱图
图7是女性中性-开心语音转换的语谱图
图8是男性中性-开心语音转换的语谱图
图9是女性中性-悲伤语音转换的语谱图
图10是男性中性-悲伤语音转换的语谱图
图11是男女情感语音转换韵律特征参数T的均方误差对比结果
具体实施方式
下面将结合附图和实施例对本发明做进一步的说明。
本发明的优先实施例所用到的语料库为CAISA汉语情感语料库,该语料 库由中国科学院自动化研究所建立,由四位专业人士录制(两男两女),包含:开 心,悲伤,生气等多种情感语音,选取其中中性、生气、开心、悲伤四种情感, 采用MATLAB对情感语音转换方案进行仿真。在仿真中输入中性语音,在说话内 容不变的条件下,实现中性到生气、开心、悲伤不同情感之间的语音转换,最后 输出语音。
根据图1所示的基于声道和韵律特征的情感语音转换方案框图,具体实 施步骤如下:
步骤A.情感语音训练阶段。
先对中性和其他情感语音进行预处理,然后提取其声道和韵律特征参数, 建立转换模型。预处理是指设置一系列参数,对语音进行分帧加窗预处理。参数 包括:帧长、帧移、窗函数,LSP系数的阶数。采用线性预测分析法提取声道特 征特征参数LSP系数,采用主体-延伸法提取韵律特征参数基音周期T。分别通 过BP神经网络和GRNN神经网络找出声道特征参数LSP和韵律特征参数T的非 线性转换关系,建立转换模型。
其中,为了减少频谱能量泄漏,可采用不同的截取函数对信号进行截断, 截断函数称为窗函数。使用窗函数对原始信号进行调制,不同的窗函数对信号频 谱的影响不一样,此时方案将窗函数定为海明窗。海明窗的作用是分析带宽加宽, 但是降低了频率分辨率。海明窗的数学定义如下,x(n)是原始信号,n的范围是 [0,N-1],对于其他范围的值,w(n)=0。
其中,线性预测分析法是用预测系数表示声道模型,声道模型表达式如下, G为增益常数,ai为预测系数,p为LSP系数的阶数,A(z)为预测误差滤波器。
LSP系数可通过求解p+1阶对称与反对称多项式的共轭复根得到,p+1阶 对称与反对称多项式表示如下:
P(z)=A(z)+Z-(p+1)A(z-1)
Q(z)=A(z)-z-(p+1)A(z-1)
如果p是偶数,P(z)和Q(z)各有一个实根,其中P(z)有一个实根z=-1, Q(z)有一个实根z=1。如果p是奇数,则Q(z)有±1两个实根,P(z)没有实根。 假设p是偶数,P(z)和Q(z)各有p/2个共轭复根位于单位圆上,共轭复根的形 式为设P(z)的零点为Q(z)的零点为则满足
0<w1<θ1<…<wp/2<θp/2<π
wi和θi分别为P(z)和Q(z)的第i个根。求解LSP系数,就是求解下列公 式等于0时的coswi和cosθi的值。
其中,短时自相关法是通过比较原始信号和它延迟后的信号之间的类似 性来确定基音周期T。语音信号的时间序列为x(n),加窗分帧预处理后得到第i 帧语音信号xi(m),每帧的帧长为N,则短时自相关函数定义如下,k为延迟量, 当k=0,±T,±2T,±3T,…时,周期信号的自相关函数达到最大值。
其中,BP神经网络具有很强的非线性映射能力和柔性的网络结构,能够 有效地获得声道特征参数LSP的非线性转换模型。输入层信号Xi通过隐含层节 点作用于输出层节点,经过非线形变换,产生输出信号Yk。网络训练的每个样本 包括输入向量X和期望输出量T,依据网络输出值Y与期望输出值T之间的偏差 来调整输入节点与隐含层节点的权值Wij和阈值bj以及隐层节点与输出节点之间 的权值Tjk和阈值bk,使误差沿梯度方向下降,经过反复学习训练,确定与最小 误差相对应的网络参数(权值和阈值),训练即停止。此时经过训练的神经网络即 能对类似样本的输入信息,自行处理输出误差最小的经过非线形转换的信息。BP 网络模型包括节点输出模型、作用函数模型、误差计算模型和自学习模型。
1.节点输出模型
隐含层节点输出:
输出层节点输出:
m是输入层节点数,n是输出层节点数,b为神经元阈值,f为激活函数。
2.激活函数模型,
选取sigmoid函数,表达式为:
3.误差计算模型
误差计算模型是反映神经网络期望输出与计算输出之间误差大小的函数, 表达式如下,tpj是第i个节点的期望输出值,Opj是第i个节点的计算输出值。
4.自学习模型
神经网络的学习过程,是连接上下层节点之间权重W和阈值b的修正过 程,自学习模型为:
输入层和隐含层之间的权值和阈值调整:
隐含层和输出层之间的权值和阈值调整:
因为时域上的基音周期T没有频域上的LSP那么复杂,两者关联度不大, 所以使用GRNN神经网络来获得基音周期T的转换模型。GRNN神经网络具有很强 的非线性映射能力和学习速度,样本数据少时,预测效果很好,还可以处理不稳 定数据,能够有效地获得基音周期T的转换模型。
GRNN是四层网络结构:输入层,模式层,求和层和输出层。输入层直接 将输入变量传递给模式层,输入变量通过模式层的传递函数传递到求和层,求和 层有两个节点,第一个节点是所有模式层神经元的输出进行算术求和,第二个节 点是所有模式层神经元进行加权求和。第二个节点除以第一个节点就是输出层 的输出。
模式层的传递函数:
求和层第一个节点的传递函数:
求和层第二个节点的传递函数:j=1,2,...,n
步骤B.情感语音转换阶段
选取中性语音测试样本,根据情感语音训练阶段设置好的参数进行相同 语音的预处理,提取其LSP系数和基音周期T,用求得的转换模型将中性语音的 LSP系数和基音周期T转换成目标情感语音的LSP系数和基音周期T,然后进行 语音合成,最后输出。
本实施例选用中性、生气、开心、悲伤语音,每种情感随机选取了80句 作为训练集,20句作为测试集来评价实现效果。在声道特征参数LSP转换中, 提取了10阶LSP系数进行模型转换,对于图2、图3和图4的结果,采用均方 误差(MSE)的评判方法将BP和传统的GMM的转换效果进行了对比,前者的均方 误差普遍低于后者,表明了BP神经网络能更好实现LSP系数的匹配拟合。在韵 律特征参数T的转换中,对于表1的结果,同样采用均方误差的评判方法将GRNN 和常用的RBF的转换效果进行了对比,GRNN的均方误差明显低于RBF,表明GRNN 神经网络能更好实现T的匹配拟合。
对于情感语音转换,随机展示了不同情感语音转换的结果。语谱图反应了 语音信号的动态频谱特征,在语音分析中具有重要的实用价值,被称作可视化语 音,语谱图中因不同的灰度,形成不同的纹路,这些纹路叫做“声纹”,因人而 异。图5-图10是男女生从中性-生气、开心和悲伤语音转换的语谱图,可从图 中看到,转换后的实际情感与目标情感语音的声纹一致,该结果表明,在相同语 义的情况下,从中性-生气、开心和悲伤语音转换是可以实现的。上面结合附图 对本发明进行了示例性描述,显然本发明具体实现不受上述方式的限制,只要采 用了本发明的方法构思和技术方案进行各种改进,或未经过改进直接应用于其 他场合,均在本发明的保护范围之内。
Claims (9)
1.一种基于声道和韵律特征的情感语音转换方法,其特征在于,所述方法是利用神经网络得到中性和其他情感语音声道和韵律特征的转换模型,在说话内容保持不变的前提下,实现中性到情感之间的语音转换,转换方法的好坏直接反映在用户对转换后音频的听觉感受以及可视化的声纹中。
2.根据权利要求1所述的方法,其特征在于,包括:
S1:情感语音训练阶段,先对中性和其他情感语音进行预处理,然后提取其声道和韵律特征参数,建立转换模型;
S2:情感语音转换阶段,将中性语音的声道和韵律特征参数输入转换模型中,将模型输出参数进行语音合成,合成目标情感语音。
3.根据权利要求2所述的方法,其特征在于,所述步骤S1中,所述的预处理是指设置一系列参数,对语音进行分帧加窗预处理。
4.根据权利要求2所述的方法,其特征在于,所述步骤S1中,所述的声道特征参数提取中进行LSP(linear spectrum pair)分析,是用n个离散频率的分布式密度来表示语音信号频谱特征的一种方法;而在LSP系数计算中,采用线性预测分析法,通过使实际采样值和线性预测采样值之间差值的二次方和达到最小值,即进行最小均方误差的逼近,直接决定一组线性预测系数,求出LSP系数。
5.根据权利要求2所述的方法,其特征在于,所述步骤S1中,所述的韵律特征提取中,本发明采用了主体-延伸法获取基音周期T,进一步包括:
S11:对语音信号序列x(n)加窗分帧预处理,得到第i帧的语音信号xi(n),对序列xi(n)进行端点检测和元音主体检测,然后对序列x(n)进行带通滤波,得到序列再进行一次加窗分帧预处理,得到第i帧的语音信号
S12:求出元音主体的延伸区间和长度,提取元音主体的基音周期,往前后延伸对过渡区间进行基音检测。
6.根据权利要求5所述的方法,其特征在于,所述步骤S11中,第一次加窗分帧的目的是端点检测和元音主体检测,利用用能量和谱熵的比值进行端点检测和元音主体检测。第二次加窗分帧是为了进行基音检测,通过滤波,减少共振峰对基音检测的影响。
7.根据权利要求5所述的方法,其特征在于,所述步骤S12中,会求出每个元音主体属于哪一个有话段。在一个有话段中可能包含多个元音主体,所以要划出每个元音主体需要延伸进行端点检测的区间,以及它向前向后需要检测的帧数。用自相关函数的方法提取元音主体的基音周期,以元音主体的基音周期为基准,延伸向前向后区域进行基音检测。
8.根据权利要求2所述的方法,其特征在于,所述步骤S1中,所述建立转换模型中,分别通过BP(Back Propagation)神经网络和GRNN(General Regression Neural Network)神经网络找出声道特征参数LSP和韵律特征参数T的非线性转换关系。
9.根据权利要求2所述的方法,其特征在于,所述步骤S2中,进一步包括:
S21:获得中性语音的声道参数LSP和韵律特征参数T;
S22:将中性语音的声道参数LSP和韵律特征参数T输入到转换模型中,得到转换后的目标情感语音的声道参数LSP和韵律特征参数T;
S23:将目标情感语音的声道参数LSP和韵律特征参数T进行语音合成,最后输出并画出语音声纹图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711454427.9A CN108447470A (zh) | 2017-12-28 | 2017-12-28 | 一种基于声道和韵律特征的情感语音转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711454427.9A CN108447470A (zh) | 2017-12-28 | 2017-12-28 | 一种基于声道和韵律特征的情感语音转换方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108447470A true CN108447470A (zh) | 2018-08-24 |
Family
ID=63190763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711454427.9A Pending CN108447470A (zh) | 2017-12-28 | 2017-12-28 | 一种基于声道和韵律特征的情感语音转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108447470A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112382273A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
WO2021051577A1 (zh) * | 2019-09-17 | 2021-03-25 | 平安科技(深圳)有限公司 | 语音情绪识别方法、装置、设备及存储介质 |
CN115331678A (zh) * | 2022-03-21 | 2022-11-11 | 西北工业大学 | 利用Mel频率倒谱系数的广义回归神经网络声信号识别方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010021907A1 (en) * | 1999-12-28 | 2001-09-13 | Masato Shimakawa | Speech synthesizing apparatus, speech synthesizing method, and recording medium |
WO2006132159A1 (ja) * | 2005-06-09 | 2006-12-14 | A.G.I. Inc. | ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム |
CN101064104A (zh) * | 2006-04-24 | 2007-10-31 | 中国科学院自动化研究所 | 基于语音转换的情感语音生成方法 |
JP2008107673A (ja) * | 2006-10-27 | 2008-05-08 | Business Design Kenkyusho:Kk | 会話ロボット |
CN101187990A (zh) * | 2007-12-14 | 2008-05-28 | 华南理工大学 | 一种会话机器人系统 |
CN101281744A (zh) * | 2007-04-04 | 2008-10-08 | 国际商业机器公司 | 语音分析方法和装置以及语音合成方法和装置 |
CN102184731A (zh) * | 2011-05-12 | 2011-09-14 | 北京航空航天大学 | 一种韵律类和音质类参数相结合的情感语音转换方法 |
CN102890930A (zh) * | 2011-07-19 | 2013-01-23 | 上海上大海润信息系统有限公司 | 基于hmm/sofmnn混合模型的语音情感识别方法 |
EP2846327A1 (en) * | 2013-08-23 | 2015-03-11 | Kabushiki Kaisha Toshiba | A speech processing system and method |
CN106531150A (zh) * | 2016-12-23 | 2017-03-22 | 上海语知义信息技术有限公司 | 一种基于深度神经网络模型的情感合成方法 |
-
2017
- 2017-12-28 CN CN201711454427.9A patent/CN108447470A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010021907A1 (en) * | 1999-12-28 | 2001-09-13 | Masato Shimakawa | Speech synthesizing apparatus, speech synthesizing method, and recording medium |
WO2006132159A1 (ja) * | 2005-06-09 | 2006-12-14 | A.G.I. Inc. | ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム |
CN101064104A (zh) * | 2006-04-24 | 2007-10-31 | 中国科学院自动化研究所 | 基于语音转换的情感语音生成方法 |
JP2008107673A (ja) * | 2006-10-27 | 2008-05-08 | Business Design Kenkyusho:Kk | 会話ロボット |
CN101281744A (zh) * | 2007-04-04 | 2008-10-08 | 国际商业机器公司 | 语音分析方法和装置以及语音合成方法和装置 |
CN101187990A (zh) * | 2007-12-14 | 2008-05-28 | 华南理工大学 | 一种会话机器人系统 |
CN102184731A (zh) * | 2011-05-12 | 2011-09-14 | 北京航空航天大学 | 一种韵律类和音质类参数相结合的情感语音转换方法 |
CN102890930A (zh) * | 2011-07-19 | 2013-01-23 | 上海上大海润信息系统有限公司 | 基于hmm/sofmnn混合模型的语音情感识别方法 |
EP2846327A1 (en) * | 2013-08-23 | 2015-03-11 | Kabushiki Kaisha Toshiba | A speech processing system and method |
CN106531150A (zh) * | 2016-12-23 | 2017-03-22 | 上海语知义信息技术有限公司 | 一种基于深度神经网络模型的情感合成方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021051577A1 (zh) * | 2019-09-17 | 2021-03-25 | 平安科技(深圳)有限公司 | 语音情绪识别方法、装置、设备及存储介质 |
CN112382273A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN115331678A (zh) * | 2022-03-21 | 2022-11-11 | 西北工业大学 | 利用Mel频率倒谱系数的广义回归神经网络声信号识别方法 |
CN115331678B (zh) * | 2022-03-21 | 2024-10-22 | 西北工业大学 | 利用Mel频率倒谱系数的广义回归神经网络声信号识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220172708A1 (en) | Speech separation model training method and apparatus, storage medium and computer device | |
Chen et al. | Speech emotion recognition: Features and classification models | |
CN101064104B (zh) | 基于语音转换的情感语音生成方法 | |
CN103928023B (zh) | 一种语音评分方法及系统 | |
CN102509547B (zh) | 基于矢量量化的声纹识别方法及系统 | |
CN102800316B (zh) | 基于神经网络的声纹识别系统的最优码本设计方法 | |
CN110085263B (zh) | 一种音乐情感分类和机器作曲方法 | |
CN106571135A (zh) | 一种耳语音特征提取方法及系统 | |
CN111798874A (zh) | 一种语音情绪识别方法及系统 | |
CN110060701A (zh) | 基于vawgan-ac的多对多语音转换方法 | |
CN114169291B (zh) | 基于卷积神经和生成对抗网络的文本转语音方法及装置 | |
CN108447470A (zh) | 一种基于声道和韵律特征的情感语音转换方法 | |
Taguchi et al. | Articulatory-to-speech Conversion Using Bi-directional Long Short-term Memory. | |
KR20200088263A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
CN114093386A (zh) | 一种面向教育的多维度歌唱评价方法 | |
CN102880906B (zh) | 一种基于diva神经网络模型的汉语元音发音方法 | |
Fan et al. | The impact of student learning aids on deep learning and mobile platform on learning behavior | |
KR20190135853A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
Wang et al. | An intelligent music generation based on Variational Autoencoder | |
CN108417198A (zh) | 一种基于频谱包络和基音周期的男女语音转换方法 | |
Djeffal et al. | Noise-robust speech recognition: A comparative analysis of LSTM and CNN approaches | |
Firoze et al. | Bangla user adaptive word Speech recognition: approaches and comparisons | |
CN103310273A (zh) | 基于diva模型的带声调的汉语元音发音方法 | |
Patil et al. | A review on emotional speech recognition: resources, features, and classifiers | |
CN116913244A (zh) | 一种语音合成方法、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180824 |
|
WD01 | Invention patent application deemed withdrawn after publication |