CN105702247A - 一种从语音频谱包络自动获取EpR模型滤波器参数的方法 - Google Patents
一种从语音频谱包络自动获取EpR模型滤波器参数的方法 Download PDFInfo
- Publication number
- CN105702247A CN105702247A CN201410695263.9A CN201410695263A CN105702247A CN 105702247 A CN105702247 A CN 105702247A CN 201410695263 A CN201410695263 A CN 201410695263A CN 105702247 A CN105702247 A CN 105702247A
- Authority
- CN
- China
- Prior art keywords
- epr
- parameters
- speech
- spectral envelope
- source filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003595 spectral effect Effects 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000001228 spectrum Methods 0.000 claims description 10
- 230000015572 biosynthetic process Effects 0.000 abstract description 5
- 238000003786 synthesis reaction Methods 0.000 abstract description 5
- 238000004519 manufacturing process Methods 0.000 abstract 2
- 230000006870 function Effects 0.000 description 20
- 230000000694 effects Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 238000005316 response function Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- JWDYCNIAQWPBHD-UHFFFAOYSA-N 1-(2-methylphenyl)glycerol Chemical compound CC1=CC=CC=C1OCC(O)CO JWDYCNIAQWPBHD-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Landscapes
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
拼接式语音合成中,语料库语音单元制作时经常需要对语音频谱包络进行建模,并通过语音频谱包络向其他底层语音模型(如正弦模型)提供控制参数,从而生成最终的合成语音单元。对语音频谱包络进行建模的方法之一是EpR模型。EpR模型滤波器参数确定常用的方法是手工指定。本发明使用梯度下降算法创建了一种从语音频谱包络自动获取EpR模型滤波器参数的方法,在不降低EpR模型滤波器参数精度的基础上,提高了该模型滤波器参数指定的效率,从而最终大幅提高了大型语料库制作的效率。
Description
技术领域
本发明之技术属于拼接式语音合成的技术领域。
背景技术
拼接式语音合成的基本方法分两步:第一步对原始语音进行分析和处理,从而制作出由语音单元组成的语料库;第二步使用语料库中的语音单元,进行语音拼接合成。语音单元制作时,经常需要对语音频谱包络进行建模,并通过语音频谱包络向其他底层语音模型(如正弦模型)提供控制参数,从而生成最终的合成语音单元。
对语音频谱包络进行建模的方法之一是EpR模型。EpR模型,即ExcitationplusResonance,激励加共振模型。语音可以被解释为由声带作为激励源、声道作为滤波器而生成的,EpR模型正是基于这样一种理解,通过函数模型构建语音频谱包络的滤波器。
EpR模型包含了EpR激励源和EpR滤波器部分。语音的频谱包络由EpR滤波器建模,用以下函数式表达(振幅以分贝表述):
EpR滤波器由EpR源滤波器和EpR声道滤波器组成。上述函数式中,是EpR源滤波器的频率响应幅度,代表了激励源的频谱包络;是EpR声道滤波器的频率响应幅度,代表了声道的频谱包络;是EpR声道滤波器中各个共振的频率响应幅度之和;是原始语音频谱包络和理想EpR滤波器频率响应之差。理想EpR滤波器频率响应函数定义如下:
EpR源滤波器函数定义如下:
其中、、为该函数需要确定的三个参数。
EpR声道滤波器中的函数定义如下:
其中,M是建模的共振数量,是第i个共振的频率响应函数:
其中,是第i个共振的传递函数:
fs为采样频率。
在中,、、为该函数需要确定的三个参数。实际操作中,、、的大致范围可由语音单元的音素标记确定。
EpR滤波器的运作原理是:
在分析阶段,找到、函数的参数,从而使与最逼近,并将其差值记录于。
在合成阶段,按需要修改分析阶段获得的参数,然后使用生成理想EpR滤波器频率响应,并将差值复原,从而使生成的语音频谱包络达到最小失真。
有关EpR模型的更详细的论述,可参阅Bonada,J.,Celmaò.,LoscosA.,OrtolàJ.,&SerraX.2001年于古巴哈瓦那召开的InternationalComputerMusicConference上发表的会议论文SingingVoiceSynthesisCombiningExcitationplusResonanceandSinusoidalplusResidualModels。
EpR模型参数确定常用的方法是手工指定。如果语料库规模不大,使用手工方法可以接受。如果语料库的规模很大,使用手工方法处理的工作量会非常大,效率比较低。
发明内容
本发明目的是:给定及参数、、的估计值,自动获取EpR源滤波器与EpR声道滤波器中的各参数,在不降低参数精度的前提下,大幅度提高EpR模型参数获取的效率,从而降低大规模语料库构建的成本和时间。
本发明达到目的采用的步骤包括:
步骤一、使用梯度下降算法计算EpR源滤波器的、、参数。
步骤二、使用梯度下降算法计算EpR声道滤波器的、、参数。
步骤三、计算出差值频谱包络。
附图说明
图1输入语音的频谱包络示例
图2执行本发明具体实施方式步骤二后的EpR源滤波器拟合效果
图3执行本发明具体实施方式步骤六后的EpR声道滤波器拟合效果
具体实施方式
步骤一、输入语音的频谱包络(如图1所示)、EpR声道滤波器中待拟合的共振数量M、频谱长度N、EpR声道滤波器中待拟合的各个共振的参数估计值、、。其中单位为分贝;与单位为赫兹;为线性幅度;i表示EpR声道滤波器中的共振序数。
步骤二、使用梯度下降算法计算EpR源滤波器的、、参数。
定义最小平方准则的误差函数如下:
其中θ为、、参数的集合;fs为采样频率。
使用梯度下降算法计算EpR源滤波器的、、参数的具体步骤如下:
(1)设定参数初始值;
(2)迭代执行以下(3)、(4)、(5)、(6)步骤:
(3)计算EpR源滤波器函数的估计值:
(4)根据最小平方准则误差函数,分别计算关于、、参数的偏导数:
(5)根据步骤(4)中计算出的误差函数的偏导数,更新参数与参数:
其中α为参数与参数的梯度下降系数。α取值在0.06左右时,拟合效果较好。
(6)为了保证迭代过程稳定,仅在第20次迭代后更新参数:
其中为参数的梯度下降系数,取值在左右时,拟合效果较好。
(7)当迭代充分收敛时(约600次迭代后)停止迭代。此时获得了准确的、、参数。
步骤三、根据步骤二计算获得的、、参数,计算EpR源滤波器函数:
的图像如图2所示。其中实线代表输入的语音频谱包络;虚线代表的图像。
步骤四、将步骤一中原始语音的频谱包络与步骤三获得的EpR源滤波器函数相减,获得语音的共振频谱包络:
步骤五、为简化后续计算步骤,进行以下操作:
(1)将语音的共振频谱包络由分贝单位转换到自然对数单位(如图3中实线所示):
(2)将各个共振中心频率参数估计值转换到角频率:
(3)将各个共振带宽频率参数估计值转换为共振传递函数H(z)的参数:
步骤六、使用梯度下降算法计算EpR声道滤波器的、、参数。
定义最小平方准则的误差函数如下:
其中θ为、、参数的集合,i表示第i个EpR共振的参数;为共振频率上限,以频率项数为单位。
使用梯度下降算法计算EpR声道滤波器的、、参数的具体步骤如下:
(1)迭代执行如下(2)、(3)、(4)、(5)步骤:
(2)根据最小平方准则误差函数,计算关于各参数的偏导数的公共项:
(3)计算误差函数关于、、各参数的偏导数。
由于EpR共振频率响应函数较为复杂,不便求导,定义有限差分函数从而计算导数的近似值:
其中是一个极小的常数,取值为。
根据步骤(2)中获得的公共项和上述有限差分函数,计算误差函数关于、、参数的偏导数:
(4)根据步骤(3)中计算出的误差函数的偏导数,更新各个共振的、参数:
其中、分别为与参数的梯度下降系数。当、取值分别在0.003、3左右,拟合效果较好。
(5)为了保证迭代过程稳定,仅在第20次迭代后更新参数:
其中为参数的梯度下降系数,取值在0.003左右时,拟合效果较好。
(6)当迭代充分收敛时(约80次迭代后)停止迭代。此时获得了准确的各个共振的、、参数。拟合效果如图3中虚线所示。
步骤七、根据步骤六获得的准确的、参数,还原出EpR声道滤波器中各共振的、参数:
步骤八、根据EpR声道滤波器中各共振的中心频率,从低到高对EpR声道滤波器参数重新排序。
由于第六步的迭代中,各共振的中心频率被修改,可能会与序数i不符,故有必要将共振参数按中心频率从低到高重新排序,使其满足如下条件:
步骤九、根据步骤四获得的语音的共振频谱包络、步骤八获得的EpR声道滤波器中各共振的、、参数,计算出插值频谱包络:
Claims (3)
1.一种从语音频谱包络自动获取EpR模型滤波器参数的方法,其特征在于采取如下步骤实现:步骤一、使用梯度下降算法计算EpR源滤波器的参数;步骤二、使用梯度下降算法计算EpR声道滤波器的参数;步骤三、根据步骤一、步骤二获得的参数,计算出差值频谱包络。
2.一种从语音频谱包络自动获取EpR模型源滤波器参数的方法,特征在于:定义EpR源滤波器函数的误差函数,给定EpR源滤波器函数参数的估计值,然后根据误差函数,分别计算关于EpR源滤波器函数参数的偏导数,并据此更新EpR源滤波器函数参数,循环迭代,直至迭代充分收敛。
3.一种从语音频谱包络自动获取EpR模型源滤波器参数的方法,特征在于:定义EpR源滤波器函数的误差函数,给定EpR源滤波器函数参数的估计值,然后根据误差函数,分别计算关于EpR源滤波器函数参数的偏导数,并据此更新EpR源滤波器函数参数,循环迭代,直至迭代充分收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410695263.9A CN105702247A (zh) | 2014-11-27 | 2014-11-27 | 一种从语音频谱包络自动获取EpR模型滤波器参数的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410695263.9A CN105702247A (zh) | 2014-11-27 | 2014-11-27 | 一种从语音频谱包络自动获取EpR模型滤波器参数的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105702247A true CN105702247A (zh) | 2016-06-22 |
Family
ID=56294930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410695263.9A Pending CN105702247A (zh) | 2014-11-27 | 2014-11-27 | 一种从语音频谱包络自动获取EpR模型滤波器参数的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105702247A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109416911A (zh) * | 2016-06-30 | 2019-03-01 | 雅马哈株式会社 | 声音合成装置及声音合成方法 |
-
2014
- 2014-11-27 CN CN201410695263.9A patent/CN105702247A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109416911A (zh) * | 2016-06-30 | 2019-03-01 | 雅马哈株式会社 | 声音合成装置及声音合成方法 |
CN109416911B (zh) * | 2016-06-30 | 2023-07-21 | 雅马哈株式会社 | 声音合成装置及声音合成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107610708B (zh) | 识别声纹的方法及设备 | |
CN111433847A (zh) | 语音转换的方法及训练方法、智能装置和存储介质 | |
JP2006500809A5 (zh) | ||
WO2019061865A1 (zh) | 一种阵列麦克风的校正方法、装置、设备及存储介质 | |
CN114023342A (zh) | 一种语音转换方法、装置、存储介质及电子设备 | |
Hwang et al. | Incorporating global variance in the training phase of GMM-based voice conversion | |
CN114203154A (zh) | 语音风格迁移模型的训练、语音风格迁移方法及装置 | |
CN109326278B (zh) | 一种声学模型构建方法及装置、电子设备 | |
CN105702247A (zh) | 一种从语音频谱包络自动获取EpR模型滤波器参数的方法 | |
JP6910609B2 (ja) | 信号解析装置、方法、及びプログラム | |
CN112686041A (zh) | 一种拼音标注方法及装置 | |
CN114444351B (zh) | 基于ccssr-hw-6-boo格式的激波噪声模拟方法 | |
CN102903367A (zh) | 离线迭代的声重放系统频响均衡方法和装置 | |
Qin et al. | Minimum generation error criterion considering global/local variance for HMM-based speech synthesis | |
Malek | Blind compensation of memoryless nonlinear distortions in sparse signals | |
JP5172536B2 (ja) | 残響除去装置、残響除去方法、コンピュータプログラムおよび記録媒体 | |
JP2016039493A (ja) | 頭部伝達関数のモデリング装置、その方法及びそのプログラム | |
JP5295037B2 (ja) | ConditionalRandomFieldsもしくはGlobalConditionalLog−linearModelsを用いる学習装置及びその学習装置におけるパラメータ学習方法、プログラム | |
CN114171043B (zh) | 回声的确定方法、装置、设备以及存储介质 | |
JP6764843B2 (ja) | 信号解析装置、方法、及びプログラム | |
TWI409802B (zh) | 音頻特徵處理方法及其裝置 | |
JP6673861B2 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム | |
Ghosh et al. | On smoothing articulatory trajectories obtained from Gaussian mixture model based acoustic-to-articulatory inversion | |
Karimov et al. | Computer simulation of audio circuits with vacuum tubes | |
JP6078402B2 (ja) | 音声認識性能推定装置とその方法とプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160622 |
|
WD01 | Invention patent application deemed withdrawn after publication |