CN104464744A

CN104464744A - 一种基于混合高斯随机过程的分簇语音转换方法及系统

Info

Publication number: CN104464744A
Application number: CN201410662811.8A
Authority: CN
Inventors: 徐宁; 胡芳; 蒋爱民; 刘小峰
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2014-11-19
Filing date: 2014-11-19
Publication date: 2015-03-25

Abstract

本发明涉及一种基于混合高斯随机过程的分簇语音转换方法及系统，本分簇语音转换方法包括：步骤S100，训练阶段，即将源、目标语音数据分别进行特征参数提取后进行训练；以及步骤S200，转换阶段，即将再次提取的源的特征参数与训练结果进行转换，并合成得到重构的语音数据；本分簇语音转换方案适用于大数据量环境下，即数据之间具有很强的关联性和重叠性；就中文语音而言，表面变化丰富的语音下，其本质构成的语音元数据是有限的；因此，通过建立具有混合结构的语音转换方法，可以对语音数据进行分簇建模，从而充分利用大数据，提高系统性能。

Description

一种基于混合高斯随机过程的分簇语音转换方法及系统

技术领域

本发明涉及用于处理音频数据的方法和系统，尤其涉及一种语音转换的方法和系统。

背景技术

语音转换的目的在于改变任意一个说话人的话音个性特征，使其听起来像另一个指定的目标人的声音。而实现这一目标，通常需要对大量数据进行训练才能完成。在大数据时代，数据呈现出量大、关联性强等特点。如何利用好这些数据，对语音转换任务来说，亦至关重要。就中文语音而言，虽然涉及到的字词读音非常丰富，但本质上都是由若干有限个声母、韵母、辅音，再配以一定的音调所构成的。因此，在语音转换的过程中，可以针对这一特点进行分簇建模；另一方面，需要借助于优秀的映射算法来精准高效的映射源和目标说话人之间的特征参数。一般来说，非线性算法应该能获得比线性映射算法更加优异的性能。

发明内容

本发明的目的是提供一种分簇语音转换方法，其借助于高斯随机过程这一数学工具，结合语音数据的特点，设计了一种新型的高斯随机过程结构，并在此基础上给出了训练和转换算法。该方法能在大数据量环境下，有效的利用数据间的关联性，提高转换精度。另外，该方法还是一种非线性映射方法，对复杂数据的建模具有良好的适应性。

为了解决上述技术问题，本发明提供了一种分簇语音转换方法，在于包括如下步骤：

步骤S100，训练阶段，即将源、目标语音数据分别进行特征参数提取后进行训练；以及步骤S200，转换阶段，即将再次提取的源的特征参数与训练结果进行转换，并合成得到重构的语音数据。

进一步，为了实现对源、目标语音数据分别进行特征参数提取；所述步骤S100中将源、目标语音数据分别进行特征参数提取的步骤包括：步骤S110，语音分析，即对源、目标语音数据分别进行语音分解；步骤S120，参数预处理，即提取经语音分解后的源、目标语音数据的特征参数，并将两特征参数对齐；以及步骤S130，特征参数训练，将两特征参数进行混合高斯随机过程训练。

进一步，为了实现对源、目标语音数据分别进行语音分解；所述步骤S110中对源、目标语音数据分别进行语音分解的步骤包括：步骤S111，对源或目标的语音信号进行固定时长的分帧，用互相关法对基音频率进行估计，以获得浊音、清音信号；以及步骤S112，在浊音信号设置一个最大浊音频率分量，用来划分谐波成分和随机成分的主能量区域；再利用最小二乘算法估计得到离散的谐波幅度值和相位值。

进一步，为了实现对浊音、清音的特征参数提取；所述步骤S120中提取特征参数的方法包括：通过提取源、目标语音数据中的浊音特征参数和清音特征参数，以获得所述源或目标的语音数据的特征参数；其中提取所述浊音特征参数的步骤包括：步骤S121，对步骤S112中得到的谐波幅度求取平方；步骤S122，根据功率谱密度函数和自相关函数的一一对应关系，得到关于浊音线性预测系数的托普里茨矩阵方程，求解该方程获得所述浊音线性预测系数；步骤S123，将所述浊音线性预测系数转换为浊音线性谱频率系数，该系数即为浊音特征参数；以及提取所述清音特征参数的方法包括：在清音信号，利用线性预测分析法对其进行分析，从而得到清音线性预测系数；再将所述清音线性预测系数转换为清音线性谱频率系数，该系数即为清音特征参数。

进一步，为了实现两特征参数对齐，所述步骤S120中对两特征参数对齐的步骤包括：步骤S124,对于源和目标的特征参数，利用动态时间规整算法将其中一特征参数的时间轴非线性的映射到另一特征参数的时间轴上，实现一一对应的匹配；步骤S125,在对齐的过程中，通过迭代优化一个预设的累积失真函数，并限制搜索区域，以获得时间匹配函数。

进一步，为了训练特征参数，所述步骤S130中将特征参数训练的步骤包括：步骤S131，构建具有混合结构的高斯随机过程模型；步骤S132，用马尔科夫链蒙特卡洛方法来近似估计所述高斯随机过程模型的参数，即该参数和隶属标识变量的联合后验概率密度函数；步骤S133，对概率密度函数进行迭代边缘化，分别得到对隶属标识变量概率分布和模型参数的概率分布的估计，以确定混合高斯随机过程的结构参数。

进一步，为了得到映射后的特征参数，所述步骤S200中将再次提取的源的特征参数的方法与步骤S100中源语音数据的特征参数提取的方法相同，且将该再次提取的源的特征参数与训练结果进行转换的步骤包括：步骤S210，根据再次提取的源的特征参数，以及训练好的混合高斯随机过程的结构参数，求取当前语音帧的隶属度函数值；步骤S220，在每一个分簇的混合成份的子空间中，根据混合高斯随机过程产生与之相对应的输出结果；步骤S230，将各输出结果叠加，其权系数为隶属度函数的值，最终得到映射后的特征参数。

进一步，为了实现语音数据重构，所述步骤S200中合成得到重构的语音数据的步骤包括：将在上述步骤S230得到的特征参数中的浊音信号的离散谐波幅度和相位值用作正弦信号的幅度值和相位值进行叠加后，与通过一个全极点滤波器将清音信号进行叠加，得到重构的语音数据。

又一方面，本发明还提供了一种分簇语音转换系统，以解决上述同样的技术问题。

本分簇语音转换系统包括：训练单元，其适于将源、目标语音数据分别进行特征参数提取后进行训练；以及转换合成单元，其适于将再次提取的源的特征参数与训练结果进行转换，并合成得到重构的语音数据。

进一步，所述训练单元包括：第一语音分析模块，对源、目标语音数据分别进行语音分解；第一参数预处理模块，将源、目标语音分解的结果进行特征参数提取后对齐；以及特征参数训练模块，将各特征参数进行混合高斯随机过程训练。

进一步，所述转换合成单元包括：第二语音分析模块，对源语音数据进行语音分解；第二参数预处理模块中的第二特征参数提取子模块将源的语音分解的结果进行特征参数提取；与特征参数训练模块和第二参数预处理模块相连的转换模块，其用于通过混合高斯随机过程将训练结果与源的提取特征参数进行转换。

进一步，所述第一语音分析模块适于将语音分解成浊音、清音信号。

进一步，为了实现对源、目标语音数据分别进行特征参数提取；所述第一参数预处理模块包括：第一特征参数提取子模块，适于提取通过所述浊音、清音信号的特征参数，以获得所述源或目标的语音数据的特征参数；特征参数对齐子模块，适于对于源和目标的特征参数，利用动态时间规整算法将其中一特征参数的时间轴非线性的映射到另一特征参数的时间轴上，实现一一对应的匹配，且在对齐的过程中，通过迭代优化一个预设的累积失真函数，并限制搜索区域，以获得时间匹配函数。

进一步，所述转换合成单元还包括：语音合成模块，用于将经转换模块重构的特征参数中的浊音信号与清音信号进行叠加，得到重构的语音数据。

进一步，所述语音合成模块适于所述浊音信号的离散谐波幅度和相位值用作正弦信号的幅度值和相位值进行叠加后，与通过一个全极点滤波器将清音信号进行叠加，得到所述重构的语音数据。

第三方面，本发明还提供了一种语音转换系统的工作方法，以解决上述同样的技术问题。

本语音转换系统的工作方法，即捕捉经训练得到的源、目标语音数据的特征参数集合之间的映射关系，以得到重构的语音数据。

进一步，捕捉所述映射关系的方法包括：利用高斯高斯随机过程模型进行训练的方法，其包括如下步骤：先构建具有混合结构的高斯随机过程模型；再用马尔科夫链蒙特卡洛方法来近似估计所述高斯随机过程模型的参数，即该参数和隶属标识变量的联合后验概率密度函数；最后对概率密度函数进行迭代边缘化，分别得到对隶属标识变量概率分布和模型参数的概率分布的估计，以确定混合高斯随机过程的结构参数。

进一步，捕捉所述映射关系的方法还包括：混合高斯随机过程转换的方法，其包括如下步骤：先根据再次提取的源的特征参数，以及训练好的混合高斯随机过程的结构参数，求取当前语音帧的隶属度函数值；再在每一个分簇的混合成份的子空间中，根据混合高斯随机过程产生与之相对应的输出结果；最后将各输出结果叠加，其权系数为隶属度函数的值，最终得到映射后的特征参数。

进一步，所述特征参数为浊音、清音信号的相应特征参数。

进一步，将所述浊音信号的离散谐波幅度和相位值用作正弦信号的幅度值和相位值进行叠加后，与通过一个全极点滤波器将清音信号进行叠加，得到重构的语音数据。

本发明的有益效果是：(1)本语音转换方案适用于大数据量环境下，即数据之间具有很强的关联性和重叠性。就中文语音而言，表面变化丰富的语音下，其本质构成的语音元数据是有限的。因此，通过建立具有混合结构的语音转换方法，可以对语音数据进行分簇建模，从而充分利用大数据，提高系统性能。

(2)本语音转换算法具有非线映射的特点，能较好的模拟现实环境下复杂的数据关系。即通过构建基于高斯随机过程的语音转换方法，能充分利用高斯随机过程的非线性映射的能力，对于语音信号这类变化性复杂的信号格外适用。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1示出了分簇语音转换方法的流程图；

图2示出了中将源、目标语音数据分别进行特征参数提取的步骤流程图；

图3示出了源、目标语音数据分别进行语音分解、特征参数提取和特征参数对齐的步骤流程图；

图4示出了特征参数训练的步骤流程图；

图5示出了转换的步骤流程图；

图6示出了分簇语音转换系统的原理框图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

本发明描述的语音转换系统，包括语音分析模块，第一、第二参数预处理模块，特征参数训练模块，转换模块，语音合成模块。所述语音分析模块用于对原始语音信号进行分解，语音合成模块用于对原始语音信号进行重组，所述第一参数预处理模块，用于对源、目标语音数据的特征参数进行整理和筛选，得到在时间上同步的特征参数集合；所述特征参数训练模块、转换模块，用于捕捉源、目标语音数据两个特征参数集合之间的映射关系，从而得到映射规律。

实施1

图1示出了分簇语音转换方法的流程图。

如图1所示，本发明的一种分簇语音转换方法，在于包括如下步骤：

图2示出了中将源、目标语音数据分别进行特征参数提取的步骤流程图。

如图2所示，所述步骤S100中将源、目标语音数据分别进行特征参数提取的步骤包括：步骤S110，语音分析，即对源、目标语音数据分别进行语音分解；步骤S120，参数预处理，即提取经语音分解后的源、目标语音数据的特征参数，并将两特征参数对齐；以及步骤S130，特征参数训练，将两特征参数进行混合高斯随机过程训练。

图3示出了源、目标语音数据分别进行语音分解、特征参数提取和特征参数对齐的步骤流程图。

所述步骤S110中对源、目标语音数据分别进行语音分解的步骤包括：步骤S111，对源或目标的语音信号进行固定时长的分帧，用互相关法对基音频率进行估计，以获得浊音、清音信号；以及步骤S112，在浊音信号设置一个最大浊音频率分量，用来划分谐波成分和随机成分的主能量区域；再利用最小二乘算法估计得到离散的谐波幅度值和相位值。

具体的语音分析的步骤包括：

步骤a1对语音信号进行固定时长的分帧，帧长20ms，帧移10ms。在一帧语音中，求解该语音的自相关函数，利用自相关函数的第一旁瓣峰值来近似估计基音周期，基音周期的倒数即为基音频率。

步骤a2根据a1步骤中得到的基音频率值(清音为0，浊音为非0)，确定该帧语音为清音或浊音。若为浊音，则为其设置一个最大浊音频率分量，用来划分谐波成分和随机成分的主能量区域。在最大浊音频率以下的频段，对信号进行建模——利用若干个正弦波的叠加来拟合信号。利用最小二乘算法来约束求解正弦波的离散幅度值和相位值；对于大于最大浊音频率的信号频段，不做处理。

所述步骤S120中提取特征参数的方法包括：通过提取源、目标语音数据中的浊音特征参数和清音特征参数，以获得所述源或目标的语音数据的特征参数。

其中，提取所述浊音特征参数的步骤包括：

步骤S121，对步骤S112中得到的谐波幅度求取平方。

步骤S122，根据功率谱密度函数和自相关函数的一一对应关系，得到关于浊音线性预测系数的托普里茨矩阵方程，求解该方程获得所述浊音线性预测系数。

步骤S123，将所述浊音线性预测系数转换为浊音线性谱频率系数，该系数即为浊音特征参数。

具体的实施过程包括如下步骤：

步骤c1对步骤a2中得到的离散正弦波的幅度求取平方，该数值被近似认为是离散功率谱函数。

步骤c2根据功率谱密度函数和自相关函数的一一对应关系，对(c1)的离散功率谱数值反变换，可以得到近似自相关函数，根据线性预测分析方法，利用自相关函数可以求解得到线性预测系数。

步骤c3线性预测系数构成的对偶函数，其在Z频域上的根，即为线性谱频率系数，该系数即为浊音特征参数。

提取所述清音特征参数的方法包括：步骤S121’，在清音信号，利用线性预测分析法对其进行分析，从而得到清音线性预测系数；再将所述清音线性预测系数转换为清音线性谱频率系数，该系数即为清音特征参数。具体的，若帧信号为在清音，则利用经典的线性预测分析法对其进行分析，建立一个全极点模型，并利用最小二乘方法约束求解模型系数，从而得到线性预测系数，即为清音特征参数。

所述步骤S120中对两特征参数对齐的步骤包括：

步骤S124,对于源和目标的特征参数，利用动态时间规整算法将其中一特征参数的时间轴非线性的映射到另一特征参数的时间轴上，实现一一对应的匹配。

步骤S125,在对齐的过程中，通过迭代优化一个预设的累积失真函数，并限制搜索区域，以获得时间匹配函数。

图4示出了特征参数训练的步骤流程图。

如图4所示，所述步骤S130中将特征参数训练的步骤包括：

步骤S131，构建具有混合结构的高斯随机过程模型。

步骤S132，用马尔科夫链蒙特卡洛方法来近似估计所述高斯随机过程模型的参数，即该参数和隶属标识变量的联合后验概率密度函数。

步骤S133，对概率密度函数进行迭代边缘化，分别得到对隶属标识变量概率分布和模型参数的概率分布的估计，以确定混合高斯随机过程的结构参数。

图5示出了转换的步骤流程图。

如图5所示，所述步骤S200中将再次提取的源的特征参数的方法与步骤S100中源语音数据的特征参数提取的方法相同，且将该再次提取的源的特征参数与训练结果进行转换的步骤包括：步骤S210，根据再次提取的源的特征参数，以及训练好的混合高斯随机过程的结构参数，求取当前语音帧的隶属度函数值；步骤S220，在每一个分簇的混合成份的子空间中，根据混合高斯随机过程产生与之相对应的输出结果；步骤S230，将各输出结果叠加，其权系数为隶属度函数的值，最终得到映射后的特征参数。

所述步骤S200中合成得到重构的语音数据的步骤包括：将在上述步骤S230得到的特征参数中的浊音信号的离散谐波幅度和相位值用作正弦信号的幅度值和相位值进行叠加后，与通过一个全极点滤波器将清音信号进行叠加，得到重构的语音数据。可选的，运用内插技术和相位补偿技术使得重构信号在时域波形上不产生失真。

其中，参数训练、转换过程以高斯随机过程为理论基础，并在基本的框架上扩展出一套混合结构，用于对数据进行分簇建模，提高精确性。同时，得益于高斯随机过程的非线性映射特点，系统可以实现理解关系较为复杂的特征参数话之间的转换。整个运作工程包含两个阶段，即参数训练和转换，具体的操作步骤如下。

参数训练步骤：

步骤e1构建包含混合结构的高斯随机过程模型，设混合度为N，每个混合成分的权系数分别为ri，其中i＝1,2,3...,N。则在给定输入输出向量集合(该集合为提取的源的特征参数)的前提下，输出向量序列近似等于N个高斯随机过程的加权组合。其中，高斯随机过程的输入即为给定的输入向量序列。所有的权系数以及每个高斯随机过程的均值和方差参数，均为待估计的未知参数。

步骤e2用马尔科夫链蒙特卡洛方法来近似估计权系数和模型参数(高斯过程的均值和方差)的联合后验概率密度函数，即首先假设权系数和模型参数之间满足相互独立特性，然后通过迭代的方式逐步估计两者的概率密度函数，每次迭代过程中，先固定一种未知变量，然后对另一种未知变量进行采样，用大量采样数据来近似其概率分布，最后将权系数和模型参数的概率分布函数相乘，可得到联合后验概率函数。

步骤e3对联合概率密度函数进行边缘化，分别得到对权系数的概率分布和模型参数的概率分布的估计，至此，混合高斯随机过程模型结构被确定。

转换步骤：

步骤f1在给定输入观测向量集合的条件下，根据训练好的混合高斯随机过程的结构参数，求取当前语音帧的隶属度函数值，所谓隶属度函数，指的是归一化后验权系数的比值。

步骤f2根据隶属度值，判别当前语音属于哪一个高斯子成分，随后在每一个分簇的子空间中，根据高斯随机过程的定义，产生与之相对应的输出。

步骤f3将所有成份的输出结果叠加起来，权系数就是隶属度函数的值，最终得到映射后的语音特征参数。其中，该语音特征参数为了源、目标语音数据的浊音、清音的特征参数。

所述重构的语音数据为对目标语音数据进行重构。

实施例2

图6示出了分簇语音转换系统的原理框图。

在实施例1基础上的一种分簇语音转换系统，其包括：

训练单元，其适于将源、目标语音数据分别进行特征参数提取后进行训练。

转换合成单元，其适于将再次提取的源的特征参数与训练结果进行转换，并合成得到重构的语音数据。参见实施例1中步骤S100和S200。

所述训练单元包括：第一语音分析模块，对源、目标语音数据分别进行语音分解；第一参数预处理模块，将源、目标语音分解的结果进行特征参数提取后对齐；以及特征参数训练模块，将各特征参数进行混合高斯随机过程训练。所述第一语音分析模块适于将语音分解成浊音、清音信号。

所述第一参数预处理模块包括：第一特征参数提取子模块，适于提取通过所述浊音、清音信号的特征参数，以获得所述源或目标的语音数据的特征参数；特征参数对齐子模块，适于对于源和目标的特征参数，利用动态时间规整算法将其中一特征参数的时间轴非线性的映射到另一特征参数的时间轴上，实现一一对应的匹配，且在对齐的过程中，通过迭代优化一个预设的累积失真函数，并限制搜索区域，以获得时间匹配函数。

上述关于训练单元的实施过程参见实施例1关于步骤S100中将源、目标语音数据分别进行特征参数提取的步骤，即步骤S110，语音分析；步骤S120，参数预处理；步骤S130，特征参数训练。

所述转换合成单元包括：

第二语音分析模块，对源语音数据进行语音分解；第二参数预处理模块中的第二特征参数提取子模块将源的语音分解的结果进行特征参数提取；与特征参数训练模块和第二参数预处理模块相连的转换模块，其用于通过混合高斯随机过程将训练结果与源的提取特征参数进行转换。

其中，第二语音分析模块与第一语音分析模块在处理源语音数据时的方法使相同的，以及第一、第二特征参数提取子模块在对源的语音分解的结果进行特征参数提取的方法也是相同的。

所述转换合成单元还包括：语音合成模块，用于将经转换模块重构的特征参数中的浊音信号与清音信号进行叠加，得到重构的语音数据。

所述语音合成模块适于所述浊音信号的离散谐波幅度和相位值用作正弦信号的幅度值和相位值进行叠加后，与通过一个全极点滤波器将清音信号进行叠加，得到所述重构的语音数据。

上述转换模块和语音合成模块的相关操作步骤参见实施例1中所述步骤S200中将再次提取的源的特征参数的方法与步骤S100中源语音数据的特征参数提取的方法相同，且将该再次提取的源的特征参数与训练结果进行转换的步骤。

本实施例中各模块还涉及到的功能和步骤与实施例1中出现的功能和步骤相同，这里不再赘述。

实施例3

在实施例1和实施例2基础上的一种语音转换系统的工作方法，该工作方法包括：捕捉经训练得到的源、目标语音数据的特征参数集合之间的映射关系，以得到重构的语音数据。

捕捉所述映射关系的方法包括：利用高斯高斯随机过程模型进行训练的方法，其包括如下步骤：

先构建具有混合结构的高斯随机过程模型；再用马尔科夫链蒙特卡洛方法来近似估计所述高斯随机过程模型的参数，即该参数和隶属标识变量的联合后验概率密度函数；最后对概率密度函数进行迭代边缘化，分别得到对隶属标识变量概率分布和模型参数的概率分布的估计，以确定混合高斯随机过程的结构参数。

捕捉所述映射关系的方法还包括：混合高斯随机过程转换的方法，其包括如下步骤：

先根据再次提取的源的特征参数，以及训练好的混合高斯随机过程的结构参数，求取当前语音帧的隶属度函数值；再在每一个分簇的混合成份的子空间中，根据混合高斯随机过程产生与之相对应的输出结果；最后将各输出结果叠加，其权系数为隶属度函数的值，最终得到映射后的特征参数。

所述特征参数为浊音、清音信号的相应特征参数。

将所述浊音信号的离散谐波幅度和相位值用作正弦信号的幅度值和相位值进行叠加后，与通过一个全极点滤波器将清音信号进行叠加，得到重构的语音数据。

其中，利用高斯高斯随机过程模型进行训练的方法(简称参数训练)、混合高斯随机过程转换的方法(简称转换)以高斯随机过程为理论基础，并在基本的框架上扩展出一套混合结构，用于对数据进行分簇建模，提高精确性。同时，得益于高斯随机过程的非线性映射特点，系统可以实现理解关系较为复杂的特征参数话之间的转换。整个运作工程包含两个阶段，即参数训练和转换，具体的操作步骤如下。

参数训练步骤：

步骤e3对联合概率密度函数进行边缘化，分别得到对权系数的概率分布和模型参数的概率分布的估计，至此，混合高斯随机过程模型结构被确定；

转换步骤：

本实施例所述的语音转换系统的工作方法还包括：对源、目标语音数据进行分解的方法，对相关参数预处理的方法(特征参数提取、特征参数对齐)，语音合成的方法。

本实施例中所涉及的功能和步骤与实施例1和实施例2中出现的功能和步骤相同，这里不再赘述。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种分簇语音转换方法，在于包括如下步骤：

步骤S100，训练阶段，即将源、目标语音数据分别进行特征参数提取后进行训练；以及

步骤S200，转换阶段，即将再次提取的源的特征参数与训练结果进行转换，并合成得到重构的语音数据。

2.根据权利要求1所述的分簇语音转换方法，其特征在于，所述步骤S100中将源、目标语音数据分别进行特征参数提取的步骤包括：

步骤S110，语音分析，即对源、目标语音数据分别进行语音分解；

步骤S120，参数预处理，即提取经语音分解后的源、目标语音数据的特征参数，并将两特征参数对齐；以及

步骤S130，特征参数训练，将两特征参数进行混合高斯随机过程训练。

3.根据权利要求2所述的分簇语音转换方法，其特征在于，所述步骤S110中对源、目标语音数据分别进行语音分解的步骤包括：

步骤S111，对源或目标的语音信号进行固定时长的分帧，用互相关法对基音频率进行估计，以获得浊音、清音信号；以及

步骤S112，在浊音信号设置一个最大浊音频率分量，用来划分谐波成分和随机成分的主能量区域；再利用最小二乘算法估计得到离散的谐波幅度值和相位值。

4.根据权利要求3所述的分簇语音转换方法，其特征在于，所述步骤S120中提取特征参数的方法包括：通过提取源、目标语音数据中的浊音特征参数和清音特征参数，以获得所述源或目标的语音数据的特征参数；其中

提取所述浊音特征参数的步骤包括：

步骤S121，对步骤S112中得到的谐波幅度求取平方；

步骤S122，根据功率谱密度函数和自相关函数的一一对应关系，得到关于浊音线性预测系数的托普里茨矩阵方程，求解该方程获得所述浊音线性预测系数；

步骤S123，将所述浊音线性预测系数转换为浊音线性谱频率系数，该系数即为浊音特征参数；以及

提取所述清音特征参数的方法包括：在清音信号，利用线性预测分析法对其进行分析，从而得到清音线性预测系数；再将所述清音线性预测系数转换为清音线性谱频率系数，该系数即为清音特征参数。

5.根据权利要求4所述的分簇语音转换方法，其特征在于，所述步骤S120中对两特征参数对齐的步骤包括：

步骤S124,对于源和目标的特征参数，利用动态时间规整算法将其中一特征参数的时间轴非线性的映射到另一特征参数的时间轴上，实现一一对应的匹配；

6.根据权利要求5所述的分簇语音转换方法，其特征在于，所述步骤S130中将特征参数训练的步骤包括：

步骤S131，构建具有混合结构的高斯随机过程模型；

步骤S132，用马尔科夫链蒙特卡洛方法来近似估计所述高斯随机过程模型的参数，即该参数和隶属标识变量的联合后验概率密度函数；

7.根据权利要求6所述的分簇语音转换方法，其特征在于，所述步骤S200中将再次提取的源的特征参数的方法与步骤S100中源语音数据的特征参数提取的方法相同，且将该再次提取的源的特征参数与训练结果进行转换的步骤包括：

步骤S210，根据再次提取的源的特征参数，以及训练好的混合高斯随机过程的结构参数，求取当前语音帧的隶属度函数值；

步骤S220，在每一个分簇的混合成份的子空间中，根据混合高斯随机过程产生与之相对应的输出结果；

步骤S230，将各输出结果叠加，其权系数为隶属度函数的值，最终得到映射后的特征参数。

8.根据权利要求7所述的分簇语音转换方法，其特征在于，所述步骤S200中合成得到重构的语音数据的步骤包括：

将在上述步骤S230得到的特征参数中的浊音信号的离散谐波幅度和相位值用作正弦信号的幅度值和相位值进行叠加后，与通过一个全极点滤波器将清音信号进行叠加，得到重构的语音数据。

9.一种分簇语音转换系统，其特征在于包括：

训练单元，其适于将源、目标语音数据分别进行特征参数提取后进行训练；

转换合成单元，其适于将再次提取的源的特征参数与训练结果进行转换，并合成得到重构的语音数据。

10.根据权利要求9所述的分簇语音转换系统，其特征在于，所述训练单元包括：

第一语音分析模块，对源、目标语音数据分别进行语音分解；

第一参数预处理模块，将源、目标语音分解的结果进行特征参数提取后对齐；以及

特征参数训练模块，将各特征参数进行混合高斯随机过程训练。

11.根据权利要求10所述的分簇语音转换系统，其特征在于，所述转换合成单元包括：

第二语音分析模块，对源语音数据进行语音分解；

第二参数预处理模块中的第二特征参数提取子模块将源的语音分解的结果进行特征参数提取；以及

与特征参数训练模块和第二参数预处理模块相连的转换模块，其用于通过混合高斯随机过程将训练结果与源的提取特征参数进行转换。

12.根据权利要求11所述的分簇语音转换系统，其特征在于，所述第一语音分析模块适于将语音分解成浊音、清音信号。

13.根据权利要求12所述的分簇语音转换系统，其特征在于，所述第一参数预处理模块包括：

第一特征参数提取子模块，适于提取通过所述浊音、清音信号的特征参数，以获得所述源或目标的语音数据的特征参数；

特征参数对齐子模块，适于对于源和目标的特征参数，利用动态时间规整算法将其中一特征参数的时间轴非线性的映射到另一特征参数的时间轴上，实现一一对应的匹配，且在对齐的过程中，通过迭代优化一个预设的累积失真函数，并限制搜索区域，以获得时间匹配函数。

14.根据权利要求13所述的分簇语音转换系统，其特征在于，所述转换合成单元还包括：

语音合成模块，用于将经转换模块重构的特征参数中的浊音信号与清音信号进行叠加，得到重构的语音数据。

15.根据权利要求14所述的分簇语音转换系统，其特征在于，所述语音合成模块适于所述浊音信号的离散谐波幅度和相位值用作正弦信号的幅度值和相位值进行叠加后，与通过一个全极点滤波器将清音信号进行叠加，得到所述重构的语音数据。

16.一种语音转换系统的工作方法，其特征在于，捕捉经训练得到的源、目标语音数据的特征参数集合之间的映射关系，以得到重构的语音数据。

17.根据权利要求16所述的工作方法，其特征在于，捕捉所述映射关系的方法包括：利用高斯高斯随机过程模型进行训练的方法，其包括如下步骤：

先构建具有混合结构的高斯随机过程模型；

再用马尔科夫链蒙特卡洛方法来近似估计所述高斯随机过程模型的参数，即该参数和隶属标识变量的联合后验概率密度函数；

最后对概率密度函数进行迭代边缘化，分别得到对隶属标识变量概率分布和模型参数的概率分布的估计，以确定混合高斯随机过程的结构参数。

18.根据权利要求17所述的工作方法，其特征在于，捕捉所述映射关系的方法还包括：混合高斯随机过程转换的方法，其包括如下步骤：

先根据再次提取的源的特征参数，以及训练好的混合高斯随机过程的结构参数，求取当前语音帧的隶属度函数值；

再在每一个分簇的混合成份的子空间中，根据混合高斯随机过程产生与之相对应的输出结果；

最后将各输出结果叠加，其权系数为隶属度函数的值，最终得到映射后的特征参数。

19.根据权利要求18所述的工作方法，其特征在于，所述特征参数为浊音、清音信号的相应特征参数。

20.根据权利要求19所述的工作方法，其特征在于，将所述浊音信号的离散谐波幅度和相位值用作正弦信号的幅度值和相位值进行叠加后，与通过一个全极点滤波器将清音信号进行叠加，得到重构的语音数据。