[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN105702247A - 一种从语音频谱包络自动获取EpR模型滤波器参数的方法 - Google Patents

一种从语音频谱包络自动获取EpR模型滤波器参数的方法 Download PDF

Info

Publication number
CN105702247A
CN105702247A CN201410695263.9A CN201410695263A CN105702247A CN 105702247 A CN105702247 A CN 105702247A CN 201410695263 A CN201410695263 A CN 201410695263A CN 105702247 A CN105702247 A CN 105702247A
Authority
CN
China
Prior art keywords
epr
parameters
speech
spectral envelope
source filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410695263.9A
Other languages
English (en)
Inventor
华侃如
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201410695263.9A priority Critical patent/CN105702247A/zh
Publication of CN105702247A publication Critical patent/CN105702247A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

拼接式语音合成中,语料库语音单元制作时经常需要对语音频谱包络进行建模,并通过语音频谱包络向其他底层语音模型(如正弦模型)提供控制参数,从而生成最终的合成语音单元。对语音频谱包络进行建模的方法之一是EpR模型。EpR模型滤波器参数确定常用的方法是手工指定。本发明使用梯度下降算法创建了一种从语音频谱包络自动获取EpR模型滤波器参数的方法,在不降低EpR模型滤波器参数精度的基础上,提高了该模型滤波器参数指定的效率,从而最终大幅提高了大型语料库制作的效率。

Description

一种从语音频谱包络自动获取EpR模型滤波器参数的方法
技术领域
本发明之技术属于拼接式语音合成的技术领域。
背景技术
拼接式语音合成的基本方法分两步:第一步对原始语音进行分析和处理,从而制作出由语音单元组成的语料库;第二步使用语料库中的语音单元,进行语音拼接合成。语音单元制作时,经常需要对语音频谱包络进行建模,并通过语音频谱包络向其他底层语音模型(如正弦模型)提供控制参数,从而生成最终的合成语音单元。
对语音频谱包络进行建模的方法之一是EpR模型。EpR模型,即ExcitationplusResonance,激励加共振模型。语音可以被解释为由声带作为激励源、声道作为滤波器而生成的,EpR模型正是基于这样一种理解,通过函数模型构建语音频谱包络的滤波器。
EpR模型包含了EpR激励源和EpR滤波器部分。语音的频谱包络由EpR滤波器建模,用以下函数式表达(振幅以分贝表述):
EpR滤波器由EpR源滤波器和EpR声道滤波器组成。上述函数式中,是EpR源滤波器的频率响应幅度,代表了激励源的频谱包络;是EpR声道滤波器的频率响应幅度,代表了声道的频谱包络;是EpR声道滤波器中各个共振的频率响应幅度之和;是原始语音频谱包络和理想EpR滤波器频率响应之差。理想EpR滤波器频率响应函数定义如下:
EpR源滤波器函数定义如下:
其中为该函数需要确定的三个参数。
EpR声道滤波器中的函数定义如下:
其中,M是建模的共振数量,是第i个共振的频率响应函数:
其中,是第i个共振的传递函数:
fs为采样频率。
中,为该函数需要确定的三个参数。实际操作中,的大致范围可由语音单元的音素标记确定。
EpR滤波器的运作原理是:
在分析阶段,找到函数的参数,从而使最逼近,并将其差值记录于
在合成阶段,按需要修改分析阶段获得的参数,然后使用生成理想EpR滤波器频率响应,并将差值复原,从而使生成的语音频谱包络达到最小失真。
有关EpR模型的更详细的论述,可参阅Bonada,J.,Celmaò.,LoscosA.,OrtolàJ.,&SerraX.2001年于古巴哈瓦那召开的InternationalComputerMusicConference上发表的会议论文SingingVoiceSynthesisCombiningExcitationplusResonanceandSinusoidalplusResidualModels。
EpR模型参数确定常用的方法是手工指定。如果语料库规模不大,使用手工方法可以接受。如果语料库的规模很大,使用手工方法处理的工作量会非常大,效率比较低。
发明内容
本发明目的是:给定及参数的估计值,自动获取EpR源滤波器与EpR声道滤波器中的各参数,在不降低参数精度的前提下,大幅度提高EpR模型参数获取的效率,从而降低大规模语料库构建的成本和时间。
本发明达到目的采用的步骤包括:
步骤一、使用梯度下降算法计算EpR源滤波器的参数。
步骤二、使用梯度下降算法计算EpR声道滤波器的参数。
步骤三、计算出差值频谱包络
附图说明
图1输入语音的频谱包络示例
图2执行本发明具体实施方式步骤二后的EpR源滤波器拟合效果
图3执行本发明具体实施方式步骤六后的EpR声道滤波器拟合效果
具体实施方式
步骤一、输入语音的频谱包络(如图1所示)、EpR声道滤波器中待拟合的共振数量M、频谱长度N、EpR声道滤波器中待拟合的各个共振的参数估计值。其中单位为分贝;单位为赫兹;为线性幅度;i表示EpR声道滤波器中的共振序数。
步骤二、使用梯度下降算法计算EpR源滤波器的参数。
定义最小平方准则的误差函数如下:
其中θ为参数的集合;fs为采样频率。
使用梯度下降算法计算EpR源滤波器的参数的具体步骤如下:
(1)设定参数初始值
(2)迭代执行以下(3)、(4)、(5)、(6)步骤:
(3)计算EpR源滤波器函数的估计值
(4)根据最小平方准则误差函数,分别计算关于参数的偏导数:
(5)根据步骤(4)中计算出的误差函数的偏导数,更新参数与参数:
其中α为参数与参数的梯度下降系数。α取值在0.06左右时,拟合效果较好。
(6)为了保证迭代过程稳定,仅在第20次迭代后更新参数:
其中参数的梯度下降系数,取值在左右时,拟合效果较好。
(7)当迭代充分收敛时(约600次迭代后)停止迭代。此时获得了准确的参数。
步骤三、根据步骤二计算获得的参数,计算EpR源滤波器函数
的图像如图2所示。其中实线代表输入的语音频谱包络;虚线代表的图像。
步骤四、将步骤一中原始语音的频谱包络与步骤三获得的EpR源滤波器函数相减,获得语音的共振频谱包络
步骤五、为简化后续计算步骤,进行以下操作:
(1)将语音的共振频谱包络由分贝单位转换到自然对数单位(如图3中实线所示):
(2)将各个共振中心频率参数估计值转换到角频率
(3)将各个共振带宽频率参数估计值转换为共振传递函数H(z)的参数
步骤六、使用梯度下降算法计算EpR声道滤波器的参数。
定义最小平方准则的误差函数如下:
其中θ为参数的集合,i表示第i个EpR共振的参数;为共振频率上限,以频率项数为单位。
使用梯度下降算法计算EpR声道滤波器的参数的具体步骤如下:
(1)迭代执行如下(2)、(3)、(4)、(5)步骤:
(2)根据最小平方准则误差函数,计算关于各参数的偏导数的公共项
(3)计算误差函数关于各参数的偏导数。
由于EpR共振频率响应函数较为复杂,不便求导,定义有限差分函数从而计算导数的近似值:
其中是一个极小的常数,取值为
根据步骤(2)中获得的公共项和上述有限差分函数,计算误差函数关于参数的偏导数:
(4)根据步骤(3)中计算出的误差函数的偏导数,更新各个共振的参数:
其中分别为参数的梯度下降系数。当取值分别在0.003、3左右,拟合效果较好。
(5)为了保证迭代过程稳定,仅在第20次迭代后更新参数:
其中参数的梯度下降系数,取值在0.003左右时,拟合效果较好。
(6)当迭代充分收敛时(约80次迭代后)停止迭代。此时获得了准确的各个共振的参数。拟合效果如图3中虚线所示。
步骤七、根据步骤六获得的准确的参数,还原出EpR声道滤波器中各共振的参数:
步骤八、根据EpR声道滤波器中各共振的中心频率,从低到高对EpR声道滤波器参数重新排序。
由于第六步的迭代中,各共振的中心频率被修改,可能会与序数i不符,故有必要将共振参数按中心频率从低到高重新排序,使其满足如下条件:
步骤九、根据步骤四获得的语音的共振频谱包络、步骤八获得的EpR声道滤波器中各共振的参数,计算出插值频谱包络

Claims (3)

1.一种从语音频谱包络自动获取EpR模型滤波器参数的方法,其特征在于采取如下步骤实现:步骤一、使用梯度下降算法计算EpR源滤波器的参数;步骤二、使用梯度下降算法计算EpR声道滤波器的参数;步骤三、根据步骤一、步骤二获得的参数,计算出差值频谱包络。
2.一种从语音频谱包络自动获取EpR模型源滤波器参数的方法,特征在于:定义EpR源滤波器函数的误差函数,给定EpR源滤波器函数参数的估计值,然后根据误差函数,分别计算关于EpR源滤波器函数参数的偏导数,并据此更新EpR源滤波器函数参数,循环迭代,直至迭代充分收敛。
3.一种从语音频谱包络自动获取EpR模型源滤波器参数的方法,特征在于:定义EpR源滤波器函数的误差函数,给定EpR源滤波器函数参数的估计值,然后根据误差函数,分别计算关于EpR源滤波器函数参数的偏导数,并据此更新EpR源滤波器函数参数,循环迭代,直至迭代充分收敛。
CN201410695263.9A 2014-11-27 2014-11-27 一种从语音频谱包络自动获取EpR模型滤波器参数的方法 Pending CN105702247A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410695263.9A CN105702247A (zh) 2014-11-27 2014-11-27 一种从语音频谱包络自动获取EpR模型滤波器参数的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410695263.9A CN105702247A (zh) 2014-11-27 2014-11-27 一种从语音频谱包络自动获取EpR模型滤波器参数的方法

Publications (1)

Publication Number Publication Date
CN105702247A true CN105702247A (zh) 2016-06-22

Family

ID=56294930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410695263.9A Pending CN105702247A (zh) 2014-11-27 2014-11-27 一种从语音频谱包络自动获取EpR模型滤波器参数的方法

Country Status (1)

Country Link
CN (1) CN105702247A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109416911A (zh) * 2016-06-30 2019-03-01 雅马哈株式会社 声音合成装置及声音合成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109416911A (zh) * 2016-06-30 2019-03-01 雅马哈株式会社 声音合成装置及声音合成方法
CN109416911B (zh) * 2016-06-30 2023-07-21 雅马哈株式会社 声音合成装置及声音合成方法

Similar Documents

Publication Publication Date Title
CN107610708B (zh) 识别声纹的方法及设备
CN111433847A (zh) 语音转换的方法及训练方法、智能装置和存储介质
JP2006500809A5 (zh)
WO2019061865A1 (zh) 一种阵列麦克风的校正方法、装置、设备及存储介质
CN114023342A (zh) 一种语音转换方法、装置、存储介质及电子设备
Hwang et al. Incorporating global variance in the training phase of GMM-based voice conversion
CN114203154A (zh) 语音风格迁移模型的训练、语音风格迁移方法及装置
CN109326278B (zh) 一种声学模型构建方法及装置、电子设备
CN105702247A (zh) 一种从语音频谱包络自动获取EpR模型滤波器参数的方法
JP6910609B2 (ja) 信号解析装置、方法、及びプログラム
CN112686041A (zh) 一种拼音标注方法及装置
CN114444351B (zh) 基于ccssr-hw-6-boo格式的激波噪声模拟方法
CN102903367A (zh) 离线迭代的声重放系统频响均衡方法和装置
Qin et al. Minimum generation error criterion considering global/local variance for HMM-based speech synthesis
Malek Blind compensation of memoryless nonlinear distortions in sparse signals
JP5172536B2 (ja) 残響除去装置、残響除去方法、コンピュータプログラムおよび記録媒体
JP2016039493A (ja) 頭部伝達関数のモデリング装置、その方法及びそのプログラム
JP5295037B2 (ja) ConditionalRandomFieldsもしくはGlobalConditionalLog−linearModelsを用いる学習装置及びその学習装置におけるパラメータ学習方法、プログラム
CN114171043B (zh) 回声的确定方法、装置、设备以及存储介质
JP6764843B2 (ja) 信号解析装置、方法、及びプログラム
TWI409802B (zh) 音頻特徵處理方法及其裝置
JP6673861B2 (ja) 信号処理装置、信号処理方法及び信号処理プログラム
Ghosh et al. On smoothing articulatory trajectories obtained from Gaussian mixture model based acoustic-to-articulatory inversion
Karimov et al. Computer simulation of audio circuits with vacuum tubes
JP6078402B2 (ja) 音声認識性能推定装置とその方法とプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160622

WD01 Invention patent application deemed withdrawn after publication