CN1144172C - 包括最大似然方法的基于本征音的发言者适应方法 - Google Patents
包括最大似然方法的基于本征音的发言者适应方法 Download PDFInfo
- Publication number
- CN1144172C CN1144172C CNB991063120A CN99106312A CN1144172C CN 1144172 C CN1144172 C CN 1144172C CN B991063120 A CNB991063120 A CN B991063120A CN 99106312 A CN99106312 A CN 99106312A CN 1144172 C CN1144172 C CN 1144172C
- Authority
- CN
- China
- Prior art keywords
- model
- spokesman
- vector
- group
- maximum likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 50
- 239000013598 vector Substances 0.000 claims abstract description 80
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000007476 Maximum Likelihood Methods 0.000 claims abstract description 40
- 230000003044 adaptive effect Effects 0.000 claims description 32
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 230000008901 benefit Effects 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 abstract description 19
- 230000007613 environmental effect Effects 0.000 abstract description 11
- 238000013144 data compression Methods 0.000 abstract description 2
- 230000001419 dependent effect Effects 0.000 abstract 1
- 230000014509 gene expression Effects 0.000 description 20
- 230000006870 function Effects 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 14
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000000513 principal component analysis Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000005755 formation reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010038743 Restlessness Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- VREFGVBLTWBCJP-UHFFFAOYSA-N alprazolam Chemical compound C12=CC(Cl)=CC=C2N2C(C)=NN=C2CN=C1C1=CC=CC=C1 VREFGVBLTWBCJP-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004900 laundering Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Complex Calculations (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
- Toys (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Image Analysis (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
根据数量相当大的训练发言者训练一组发言者相关模型,每个发言者一个模型,以预定的顺序提取模型参数,从而构成每个发言者一个的超矢量。对这组超矢量进行主要分量分析,产生限定一个本征空间的一组本征矢量。新的发言者提供适应数据,由所述适应数据构成一个超矢量,并根据最大似然估计把这个超矢量约束在本征空间内。使用这一新的发言者的本征空间内的合成系数构成一组新的模型参数,由这新的模型参数构成该发言者的适应模型。
Description
本发明一般涉及语音识别,尤其涉及发言者适应,借以校正语音识别模型的参数,以便更好地识别新的发言者的语音。
语音识别系统可以是发言者相关型或发言者无关型的。发言者相关系统被训练,以便通过被给予由个人利用的词的大量的例子(这些例子被称为“训练数据”)更好地理解个人的发言内容。发言者相关系统旨在对于使它们按照训练的个人非常精确而对于其它的人不精确。设计发言者无关系统用于说该系统所用的语言的任何人;一般地说,它们按照来自许多不同的人的数据被训练。对于在训练数据中不包括的发言者的语音进行识别的发言者无关系统的错误率,大约比和其对应的、对按照训练的发言者进行语音识别的发言者相关系统的错误率高出两倍到三倍。
在一种改进性能的努力中,许多语音识别系统包括用于进行发言者适应的装置,借以在使用期间调整语音识别系统,从而减少错误率。在当前的技术文献中基本上具有三种发言者识别方法。这些方法是:
(1)发言者归一化(也称为“变换”)-由新的发言者特征矢量产生的数据化信号的观测值被变换,以便更加类似于来自使发言者相关系统按照进行训练的基准发言者的观测值。在一些例子中,变换沿相反的方向进行:基准图形被变换,以便更加类似于来自新的发言者的数据。
(2)发言者分组-使用新的发言者的观测值选择训练发言者的组;每组和只根据该组中的发言者被训练的隐式马尔科夫模型(Hidden Markov Models)(HMMs)的一个完整的组相关。一旦该组最适合于被选择的发言者,便只使用来自该组的HMMs进行识别。
(3)模型适应-某个HMM参数被更新,使得反映适应数据的特征。两种最流行的模型适应技术是最大后验估计(MAP)和最大似然线性回归(MLLR)。
虽然这些适应技术被证明是有效的,但是都有一些缺点。一般地说,越是有效的适应技术,越要求大的计算资源,也要求按照各个发言者的要素进行大量的训练。
本发明提出了一种用于进行发言者和环境适应的全新的技术。这种技术能够使最初的发言者无关识别系统对新的发言者和新的声音环境快速地获得接近发言者相关系统的性能等级,而不需要每个新的发言者的大量的训练数据。我们把我们的技术称为“本征音适应”。这种技术使用一个脱机步骤,其中利用主分量分析(PCA)分析一个发言者相关模型的大的集合,产生一组我们称之为“本征音矢量”或“本征音”的本征矢量。这脱机步骤在计算上是相当充分的,尽管它只需进行一次。此后,每当语音识别系统被使用时,便根据由新的发言者获得的适应数据进行在计算上廉价的操作,以便获得由本征音覆盖的空间内的矢量。这新的矢量给出一个适合于新的发言者的模型。
不像模型适应技术,例如MAP和MLLR,花费最多的计算发生在PCA的脱机步骤中。这使得本发明能够利用和现用的识别系统一样小的计算花销,十分快地进行发言者或环境适应。
本发明的效果来自使本识别系统适应的训练发言者和新的单个发言者的集合的本征音的表示。换句话说,在PCA步骤中获得的本征空间代表所有训练发言者的集合的语音特性。限定这个n维空间的各个本征矢量是互不相关或者是正交的,并被按照用于解释数据中的变化的重要性的顺序列表排列。我们的经验表明,在这个阵列中的最高阶的本征矢量可以代表男女维数。当这本征矢量接受一个正的加权时,发言者可能是男性;当这本征矢量接受一个负的加权时,发言者可能是女性。不过,应当理解,各个本征矢量并不对于发言者当中的任何物理差别事先规定。而是在根据训练数据进行PCA时完全从训练数据导出本征矢量。当在适应期间一个新的发言者使用语音识别器时,模型输出参数被约束为先前确定的本征矢量的线性组合。换句话说,按照新的发言者被训练的发言者相关模型必须处于先前由训练发言者限定的本征空间内。这是一种相当昂贵的计算操作。这种技术即使在只使用少量的适应语音的情况下,也能快速地产生一个好的发言者相关模型。因而,这种技术适用于发言者和环境适应应用,其中可以不利用大量的适应数据。例如,这种技术可以很好地适用于语音启动的交互销售系统,其中新的发言者通过电话响应系统导航提醒(system navigation prompt),并且当发言者通过系统发出指令进行导航时,系统自动地适应新的发言者。
更具体地说,本发明使用最大似然技术把一新的矢量放入由本征音覆盖的空间内。这种最大似然技术涉及根据来自新的发言者的观测数据,同时也根据隐式马尔科夫模型是如何构成的知识构成一个辅助函数。使用这个辅助函数,通过取导数和求出局部最大值获得最大似然矢量。因而这最大似然矢量被固有地约束在由本征矢量覆盖的空间内,并代表在那一空间内的对于给出可利用的输入语音数据的新的发言者的最佳的表示。
本发明使用的最大似然技术提供许多重要优点。首先,已知观测数据的数量,由最大似然矢量构成的适应模型总是产生一组最佳的HMM模型。
第二,虽然最大似然技术涉及一些计算,但是计算负担是很小的,因为本征音表示极大地减少了用于描述个人语音的参数。而一般的隐式马尔科夫模型表示涉及数千个浮点数参数,本发明的本征音表示需要少得多的参数;一个典型的实施例可以使用25-100个参数表示一个给定的发言者,虽然使用更少的参数该系统也能工作。利用本发明能够大大减少计算负担,这是因为本征矢量是正交的,从而使得可以通过解一组计算机十分容易计算的线性方程进行最大似然计算。
第三,观测数据不必包括由隐式马尔科夫模型描述的每个声音单位的例子。因而,即使忽略一些声音单位的数据,这种最大似然技术也能使用。与此相反,使用投影操作把新的发言者的参数放入本征空间内需要发言者至少说一个由隐式马尔科夫模型描述的一个声音单位的例子。从实际上看,这种最大似然技术可以根据非常短的、并且可能是不完整的训练时间构成健壮的适应模型。因而这种技术适用于不能得到大量适应数据的发言者和环境适应应用。例如,这种技术可应用于声音启动的交互销售系统中,其中新的发言者通过电话响应系统导航提醒,并且当发言者通过系统发出指令进行导航时,系统自动地适应新的发言者。
为了更完整地理解本发明的目的和优点,可结合附图阅读下面的说明。
图1说明对于理解本发明是有用的一个示例的隐式马尔科夫模型(HMM);
图2是用于说明如何由多个训练发言者构成本征空间的数据流图;
图3是说明如何使用按照本发明的本征音构成一个适应模型的数据流图;
图4是本征空间的简化(两维)说明,用于比较投影操作和本发明的最大似然操作;
图5是数据结构图,用于说明来自新的发言者的观测数据是如何按照本发明通过本征空间被变换成适应模型的;以及
图6是说明本发明的最大似然本征空间适应处理的流程图。
为了更好地理解本发明的发言者适应技术,对语音识别系统有一个基本的理解是有帮助的。最近的语音识别器使用隐式马尔科夫模型(HMMs)代表语音。隐式马尔科夫模型是一种涉及状态图的模拟方法。任何语音单元(例如句子,词,字,音素或其类似物)可以利用被包括在那一模型中的全部知识源进行模拟。HMM代表以离散间隔产生一个可观测的输出序列的未知处理,所述输出是一些确定的字母(相应于预定组的语音单位)。这些模型被称为“隐式”的,因为已经产生了可观测的输出的状态序列是未知的。
如图1所示,HMM10由一组状态(S1,S2,…S5)、如图1箭头所示的确定在一对状态之间转换的矢量,以及概率数据的集合进行说明。具体地说,隐式马尔科夫模型包括一组和转换矢量相关的转换概率12和与在每一状态下观测的输出相关的输出概率14。该模型以规则的间隔,即离散间隔从一个状态到另一个状态被同步。在同步时刻,模型可以从其当前状态向转换矢量存在的任何状态改变。如上所述,转换可以从一个给定的状态回到其自身的状态。
转换概率代表当模型被同步时将要发生的从一种状态到另一种状态的转换的似然。因而,如图1所示,每个转换都和一个概率值(0和1之间)相连。剩下的任何状态的所有概率的和等于1。为了说明的目的,在转换概率表12中给出了一组示例的转换概率值。应当理解,在一个实施例中,这些值应当由训练数据产生,其中利用其余的任何状态的所有概率的和等于1的约束。
每当进行转换时,可以认为模型发出或输出其字母表中的一个。在图1所示的实施例中,采用基于音素的语音单位。因而在输出概率表14中相同的符号相应于在标准英语中找到的一些音素。根据输出概率值或在训练期间学习的函数,在每次转换时发出字母表中的字母。因而,发出的输出代表一个观测序列(基于训练数据),并且字母表中的每个字母具有被发送的概率。
在模拟语音时,一般的做法是将输出作为和离散的字母符号序列相反的连续的矢量序列处理。这需要将输出概率被表示为连续的概率函数,和单个数值相反。因而HMM通常基于包括一个或几个高斯分布的概率函数。当使用几个高斯函数时,它们一般被混合在一起,以便限定一个复合的概率分布,如16所示
是否被表示为单一的高斯函数或混合的高斯函数,可以由几个参数描述概率分布。如同转换概率值(表12),这些输出概率参数可以包括浮点数。参数表18表示一般用于根据训练发言者的观测数据表示概率密度函数的参数。如图1中在高斯函数16中的方程所示,对于要被模拟的观测矢量O的概率密度函数是对于乘以高斯密度N的每个混合分量的混合系数的迭代和,其中高斯密度具有平均矢量nj和代表倒频谱(cepstral)或滤波器组系数语音参数的协方差矩阵Uj。
隐式马尔克夫模型识别器的实现细节根据应用而有很大不同。图1所示的HMM的例子只用于说明隐式马尔克夫模型是如何构成的,并不是用于限制本发明的范围。在这方面,关于隐式马尔克夫模型的概念有许多改变。从下述可以更详细地看出,本发明的本征音适应技术可以容易地用于每个不同的隐式马尔克夫模型的改型和其它的基于参数的语音模拟系统。
本征音空间的构成
图2示出了用于构成代表多个训练发言者的本征空间的过程。其中假定T个训练发言者20提供训练数据22的主体,根据该数据可以构成本征空间。最好是合适的大量的发言者(100-200个数量级)提供训练数据。这些训练数据然后用于训练发言者相关(SD)模型,如24所示。在步24构成每个发言者的一个模型,每个模型代表要被识别系统理解的声音空间。按照上面图1中提供的描述,每个模型可以是一组HMM,对于每个声音单位有一个HMM。这在图2的26说明。
在T个发言者的全部训练数据都被用于训练各个发言者相关模型之后,在28构成一组T个超矢量。因而对于T个发言者的每一个有一个超矢量30。对于每个发言者的超矢量包括一个相应于该发言者的隐式马尔克夫模型的参数18的至少一点的有序的参数表(一般为浮点数)。相应于每个声音单位的参数被包括在给定的发言者的超矢量中。这些参数可以按照方便的顺序组织。所示顺序不是主要的;不过,一旦一种顺序被采用,所有的发言者便必须遵守。
然后,有序的隐式马尔克夫模型参数被联系而形成超矢量。要在超矢量中包括的HMM参数的选择可以根据可利用的处理功率。我们发现,由高斯平均构成超矢量能够给出好的结果。如果可以得到较大的处理功率,超矢量也可以包括其它的HMM参数,例如转换概率(图1的表12)或协方差矩阵参数(图1的参数18)。自然,如果隐式马尔克夫模型产生离散的输出(和概率密度相反),则可以使用这些输出值构成超矢量。
在对于每个训练发言者构成超矢量之后,在步32进行主要分量分析。对于T个超矢量的主要分量分析产生T个本征矢量,如34所示。因而,如果使用120个训练发言者,则系统将产生120个本征矢量。这些本征矢量限定了我们所说的本征音空间或本征空间。
构成本征音空间的本征矢量是不相关的;它们表示可以区分不同的发言者的不同的维数。在原始训练组中的每个超矢量可被表示为这些超矢量的线性组合。这些本征矢量按照其在模拟数据中的重要性排序:第一个本征矢量比第二个更重要,第二个比第三个更重要,如此等等。迄今我们利用这种技术进行的实验表明第一本征矢量似乎相应于男女维数(male-female dimension)。
虽然在步32产生产生最多为T本征矢量,但是在实际上,可以把一些本征矢量放弃,只保留前N个本征矢量。因而在步36,我们从T个本征矢量中选择地提取N个,以便在步38构成一个简化的参数本征空间。较高阶的本征矢量可被放弃,因为一般含有对于识别发言者而言不重要的信息。把本征空间减少为小于发言者的数量提供固有的数据压缩,这在利用有限的存储器和处理器资源构成实际的系统时是有帮助的。
进行适应
一旦本征空间被构成,便可以容易地进行发言者适应或环境适应虽然构造本征空间计算量较多,并且一般是脱机进行,但是适应是一种相对简单的计算操作,其可以在新的发言者使用系统的同时进行。现在返回图3,在步42来自新的发言者40的语音被用来根据HMM44的参数(每个声音单位一个)计算下面被称为提取统计特征的统计。我们可以以有监督的方式提取统计特征,其中训练系统预先知道训练语音的内容,或者以无监督的方式提取,其中语音识别系统使用发言者无关模型确定适应语音的内容。
利用提取统计特征建立的模型用于识别通常是非常不够的,至少开始如此。在步46这样构成超矢量,使得超矢量(超矢量48)在由训练发言者产生之前被约束在本征音空间38内。超矢量48利用强加的一种约束构成,即,用于识别的HMM模型必须是包括本征音空间38的本征音的线性组合。
提取的统计特征44用于估计将包括那一新的发言者的适应模型的系数的线性组合。因而在步50根据超矢量48构成一组新的HMM,以便产生适应模型52。如果需要,在步54可以进行选择的迭代处理,以便由适应模型52构成新的超矢量,并在以后构成另一组HMM,由这组HMM可以进一步构成适应模型。
图4以二维空间说明用于使新的发言者的语音模型约束在本征空间38内的处理。如上所述,本征空间是一个多维空间,其阶数小于或等于通过主要分量分析而产生的本征矢量数。为了简化说明,图4只示出了二维空间,但是应当理解,本征空间38一般是远高于二维的。
新的发言者由数据点60示意地表示。数据点60应当相应于图3所示的超矢量48。注意在60的新的发言者处于本征空间38之外。如上所述,适应过程涉及求出本征空间内的代表该新的发言者的好的适应模型的一点。该适应模型根据由新的发言者说出的输入语音,但是也被约束在本征空间38内。
一种用于把新的发言者放入本征空间内的简单的技术是使用由线62表示的简单的投影操作。投影操作求得本征空间内的一点,其尽可能接近相应于新的发言者的输入语音的本征空间外部的一点。这样,通过简单的投影便把在点64的新的发言者放入本征空间38内。应当注意,这些点实际上是可以重新构成HMM组的超矢量。
投影操作是相对粗糙的技术,其不能保证在本征空间内的点对新的发言者是最佳的。因此,投影操作要求新的发言者的超矢量包含一个完整的代表该发言者的整个HMM组的数据组。这要求带来一个严重的实际限制。当使用投影将新的发言者约束于本征空间时,该发言者必须提供足够的输入语音,使得所有语音单位都由这些数据表示。例如,如果设计隐式马尔克夫模型表示在英语中的全部音素,则训练发言者必须在可以使用简单投影技术之前提供所有音素所例子。在许多应用中,这个限制是不实际的。
本发明的最大似然技术解决了上述简单投影的两个缺点。本发明的最大似然技术求出本征空间38内的一点66,所述本征空间代表相应于具有产生由新的发言者提供的语音的最大概率的一组隐式马尔克夫模型的超矢量。为了说明的目的,最大似然处理由图4中的线68所示。
简单投影操作把超矢量的所有矢量作为具有同等重要性来处理,而最大似然技术则根据由实际的适应数据得到的概率,并且因而旨在更重地加重更可能的数据。和简单投影处理不同,最大似然技术即使新的发言者不提供整组训练数据时(即省略一些声音单位的数据)也能使用。事实上,最大似然技术考虑构成超矢量的上下文,即涉及某个模型比其它模型更像的概率的隐式马尔克夫模型,以便产生由新的发言者提供的输入语音。
在实际效果上,最大似然技术在和新的发言者的输入语音最相符的本征空间内选择超矢量,而和实际上可利用的输入语音的多少无关。为了说明,假定新的发言者是亚拉巴马出生的年轻女性,在收到由该发言者新发出的音节时,最大似然技术将选择代表所有音素的(甚至尚未在输入语音中表示的)和该发言者的本地口音相符的本征空间内的一点。
图5表示最大似然技术是如何操作的。由新的发言者输入的语音被用于对于超矢量70中的每个参数提取统计特征。如上所述,超矢量包括相应于倒频谱系数(cepstral coefficient)或其类似物的语音参数的联系表。在所示的实施例中,这些参数是代表从一组相应于新的发言者的隐式马尔科夫模型提取的高斯平均的浮点数。也可以使用其它的HMM参数。在说明中这些HMM平均以点表示,例如72。当超矢量70利用数据而被充分增加时,超矢量70将含有每个HMM平均的浮点数,其相应于由HMM模型表示的每个声音单位。为了说明的目的,此处假定音素“ah”的参数存在,而省略音素“iy”的参数。
本征空间38由一组本征矢量74,76和78表示。相应于来自新的发言者的观测数据的超矢量70可以通过用相应的本征值W1 ,W2…Wn乘以每个本征矢量在本征空间中表示。这些本征值在起初是未知的。最大似然技术求出这些未知的本征值的值。如同将要详细说明的,通过求出在本征空间内最好地表示新的发言者的最佳解来选择这些值。
在利用本征空间38的相应的本征矢量乘以本征值并将所得积相加之后,便产生一个适应模型80。而提取的输入语音(超矢量70)的统计特征可以具有一些被忽略大的参数值(例如“iy”参数),代表适应模型的超矢量80利用这些值被充分地增加。这是本发明的一个优点。此外,超矢量80中的值代表最佳解,即其具有在本征空间内表示新的发言者的最大似然。
各个本征值W1,W2…Wn可以看作其中包含最大似然矢量,此处叫做最大似然矢量。图4在82示意地说明该矢量。作为一种示意的表示,最大似然矢量82包括一组本征值W1,W2,...Wn。
使用最大似然技术进行适应的过程如图6所示。来自新的发言者的语音被用于提取一组统计特征,其中包括观测数据,如100所示。然后,提取的统计特征102被用于构成超矢量,如104所示。如图所示,提取的统计特征可以用于建立一组HMM模型102。
在108,使用超矢量106重构辅助函数Q。目前优选的实施例使用一个代表产生预定的HMM模型组102的观测数据的概率的辅助函数。如果该函数不仅包括概率项P,而且还包括该项的对数1ogP,则随后的辅助函数Q的倍增是容易实现的。
然后在步110通过分别相对于每个本征值W1,W2,...Wn取辅助函数的导数求辅助函数的最大值。例如,如果本征空间的维数是100,则该系统计算辅助函数Q的100个导数,并设每个为0对各个W求解。虽然这似乎要求大量的计算,但是远小于常规技术MAP或MLLR要求的数千次的计算费用。
这样获得的一组Ws代表用于识别本征空间中相应于最大似然的点的一点所需的本征值。因而这组Ws包括本征空间中的最大似然矢量。在这方面,每个本征矢量(图5中的本征矢量74,76和78)限定一组用于乘以本征值以便确定被约束在本征空间内的一点的正交的矢量或坐标。在112,这最大似然矢量用于构成相应于本征空间内的最佳点(图4中点66)的超矢量114。然后在步116可以利用超矢量114构成新的发言者的适应模型118。
在本发明的最大似然框架的范围中,我们希望对于模型λ使观测O=o1,...oT的似然最大。这可以通过用迭代方法求辅助函数Q(下面)最大值来实现,其中λ是在迭代时的模型,
是估计模型。我们有:
作为一次逼近,我们希望只求平均值的最大值。在概率P由一组HMM给出的情况下,我们获得下式:
其中
并设
ot为在时刻t时的特征矢量,
Cm (s)-1为状态s的混合高斯m的逆协方差,
γm (s)(t)P(使用混合高斯m|λ,ot。
假定对于新的发言者其高斯平均位于本征空间内。设该空间由平均超矢量
μj,j=1...E所覆盖,
其中
μm (s)(j)代表在本征矢量(本征模型)j的状态s中混合高斯m的平均矢量。
此时,我们需要:
其中
μj是正交的,wj是我们的发言者模型的本征值。这里我们假定任何新的发言者可被模拟成我们的被观测的发言者的数据库的线性组合。则
其中s在λ的状态中,m在M的混合高斯中。
因为我们需要求Q的最大值,所以只需要设
(注意因为本征矢量是正交的,
因而我们有
计算上式的导数,我们有:
由此我们求得一组线性方程
环境适应
虽然本发明至此已经针对发言者适应技术进行了说明,但是这种技术可以容易地扩展到环境适应。许多语音识别系统对环境条件是十分敏感的,例如麦克风的移动,室内声响,背景噪声,以及音频信号通道质量等。可以利用本征矢量模拟不同的发言环境,如同模拟不同的发言者一样。
在大多数的情况下,希望满足发言者适应和环境适应两种要求。为此我们只需要保证训练发言者在各种不同的环境中被记录。为获得好的性能,训练发言者的数量和被保留的本征音的数量需要大于在安静环境中进行本征音适应所需的数量。此外,其步骤和上述的相同。
为了构成适应环境而不是适应发言者的发言者无关系统,对上述技术进行稍微的修正。首先,训练E个发言者无关模型,其中E是在训练数据中的不同的环境数。E个模型中的每一个在相同的环境中按照许多不同的发言者被训练。理想的情况是,E个不同的记录环境应当尽量不同。此时,进行上述的本征音处理。在这种情况下,本征音矢量将代表环境之间改变的分量。因而,第一本征音矢量可以代表或不代表男女维数,如同在发言者适应例子中那样。
虽然本发明按照目前的优选实施例进行了说明,应当理解,本发明可以用于许多不同的用途。因而,上面的例子只用于解释本发明的构思,而不用于限制本发明的范围。
Claims (13)
1.一种用于进行发言者适应的方法,包括以下步骤:
通过提供关于多个训练发言者的一组模型,并对所述一组模型进行主要分量分析,从而产生限定一个本征空间的一组主要分量矢量,构成一个代表所述多个训练发言者的所述本征空间;
产生一个适应模型,使用来自新的发言者的输入语音训练所述适应模型,同时使用所述一组主要分量矢量约束所述适应模型,使得所述适应模型处于所述本征空间内。
2.如权利要求1所述的方法,其中所述训练发言者的模型确定多个模型参数,并且所述构成本征空间的步骤包括联系所述多个训练发言者的所述模型参数,构成一组超矢量,并对所述超矢量进行主要分量分析,借以产生所述主要分量矢量的步骤。
3.如权利要求2所述的方法,其中所述每个训练发言者的所述模型相应于一组不同的语音单位,并且其中每个超矢量被确定为相应于按预定顺序存储的所述语音单位的模型参数的结合。
4.如权利要求2所述的方法,其中所述模型参数是倒频谱系数。
5.如权利要求2所述的方法,其中所述模型参数是滤波器组系数。
6.如权利要求1所述的方法,其中所述进行主要分量分析的步骤产生一组在数量上和训练发言者的数量相等的主要分量矢量。
7.如权利要求1所述的方法,其中所述进行主要分量分析的步骤产生一个主要分量矢量的顺序表,并且其中所述构成本征空间的步骤包括放弃所述有序表的预定部分,从而减少所述本征空间的阶。
8.如权利要求1所述的方法,其中所述约束所述适应模型的步骤通过把所述输入语音投影在所述本征空间内进行。
9.如权利要求1所述的方法,其中所述约束所述适应模型的步骤通过根据所述输入语音在本征空间内选择一点进行。
10.如权利要求1所述的方法,其中在所述产生一个适应模型后,
使用来自新的发言者的输入语音产生一个最大似然矢量,并训练所述适应模型,同时使用所述一组主要分量矢量和所述最大似然矢量约束所述适应模型,使得所述适应模型处于所述本征空间内。
11.如权利要求10所述的方法,其中产生一个最大似然矢量的步骤包括:
确定一个代表产生预定的一组模型的观测数据的概率的辅助函数,其中所述输入语音提供所述观测数据;以及
求所述辅助函数的最大值,以便求得所述最大似然矢量。
12.如权利要求10所述的方法,其中所述适应模型通过利用所述主要分量矢量乘所述最大似然矢量而被约束。
13.如权利要求10所述的方法,其中所述求最大值的步骤按下述进行:
把所述最大似然矢量表示为一组本征值变量;
相对于所述本征值变量取所述辅助函数的一阶导数;并且
当所述一阶导数等于0时求出所述本征值变量的相应的值。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US070054 | 1998-04-30 | ||
US09/070,208 US6327565B1 (en) | 1998-04-30 | 1998-04-30 | Speaker and environment adaptation based on eigenvoices |
US09/070,054 US6263309B1 (en) | 1998-04-30 | 1998-04-30 | Maximum likelihood method for finding an adapted speaker model in eigenvoice space |
US070208 | 1998-04-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1243304A CN1243304A (zh) | 2000-02-02 |
CN1144172C true CN1144172C (zh) | 2004-03-31 |
Family
ID=26750711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB991063120A Expired - Fee Related CN1144172C (zh) | 1998-04-30 | 1999-04-29 | 包括最大似然方法的基于本征音的发言者适应方法 |
Country Status (7)
Country | Link |
---|---|
EP (1) | EP0953968B1 (zh) |
JP (2) | JPH11338491A (zh) |
KR (1) | KR100574769B1 (zh) |
CN (1) | CN1144172C (zh) |
AT (1) | ATE286616T1 (zh) |
DE (1) | DE69923026T2 (zh) |
TW (1) | TW436758B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6343267B1 (en) * | 1998-04-30 | 2002-01-29 | Matsushita Electric Industrial Co., Ltd. | Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques |
US6253181B1 (en) | 1999-01-22 | 2001-06-26 | Matsushita Electric Industrial Co., Ltd. | Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers |
US6571208B1 (en) * | 1999-11-29 | 2003-05-27 | Matsushita Electric Industrial Co., Ltd. | Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training |
DE10022700A1 (de) * | 2000-05-10 | 2001-11-22 | Sympalog Gmbh | Sprachdialogsystem |
AU5205700A (en) | 2000-06-15 | 2002-01-08 | Intel Corporation | Speaker adaptation using weighted feedback |
EP1178467B1 (en) * | 2000-07-05 | 2005-03-09 | Matsushita Electric Industrial Co., Ltd. | Speaker verification and identification |
DE10047723A1 (de) * | 2000-09-27 | 2002-04-11 | Philips Corp Intellectual Pty | Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern |
DE10047718A1 (de) * | 2000-09-27 | 2002-04-18 | Philips Corp Intellectual Pty | Verfahren zur Spracherkennung |
DE10047724A1 (de) * | 2000-09-27 | 2002-04-11 | Philips Corp Intellectual Pty | Verfahren zur Ermittlung eines Eigenraumes zur Darstellung einer Mehrzahl von Trainingssprechern |
KR20050063986A (ko) * | 2003-12-23 | 2005-06-29 | 한국전자통신연구원 | 고유음성 계수를 이용한 화자종속 음성인식 시스템 및 방법 |
WO2005070130A2 (en) * | 2004-01-12 | 2005-08-04 | Voice Signal Technologies, Inc. | Speech recognition channel normalization utilizing measured energy values from speech utterance |
JP4964194B2 (ja) * | 2008-07-09 | 2012-06-27 | 日本電信電話株式会社 | 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体 |
GB2510200B (en) * | 2013-01-29 | 2017-05-10 | Toshiba Res Europe Ltd | A computer generated head |
CN111833842B (zh) * | 2020-06-30 | 2023-11-03 | 讯飞智元信息科技有限公司 | 合成音模板发现方法、装置以及设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6391699A (ja) * | 1986-10-03 | 1988-04-22 | 株式会社リコー | 音声認識方式 |
JPH05232989A (ja) * | 1992-02-20 | 1993-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデルの話者適応化法 |
JPH071435B2 (ja) * | 1993-03-16 | 1995-01-11 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 音響モデル適応方式 |
JPH0792676B2 (ja) * | 1993-03-26 | 1995-10-09 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 音声認識方法 |
US5572624A (en) * | 1994-01-24 | 1996-11-05 | Kurzweil Applied Intelligence, Inc. | Speech recognition system accommodating different sources |
JPH08110792A (ja) * | 1994-10-12 | 1996-04-30 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 話者適応化装置及び音声認識装置 |
KR100322730B1 (ko) * | 1995-11-27 | 2002-06-20 | 윤종용 | 화자적응방법 |
JP3216565B2 (ja) * | 1996-08-02 | 2001-10-09 | 日本電信電話株式会社 | 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体 |
JPH10207485A (ja) * | 1997-01-22 | 1998-08-07 | Toshiba Corp | 音声認識装置及び話者適応方法 |
JP3905620B2 (ja) * | 1997-06-10 | 2007-04-18 | 本田技研工業株式会社 | 音声認識装置 |
-
1999
- 1999-04-29 CN CNB991063120A patent/CN1144172C/zh not_active Expired - Fee Related
- 1999-04-29 TW TW088106954A patent/TW436758B/zh not_active IP Right Cessation
- 1999-04-30 KR KR1019990015593A patent/KR100574769B1/ko not_active IP Right Cessation
- 1999-04-30 EP EP99303417A patent/EP0953968B1/en not_active Expired - Lifetime
- 1999-04-30 AT AT99303417T patent/ATE286616T1/de not_active IP Right Cessation
- 1999-04-30 DE DE69923026T patent/DE69923026T2/de not_active Expired - Fee Related
- 1999-04-30 JP JP11125125A patent/JPH11338491A/ja active Pending
-
2003
- 2003-06-23 JP JP2003178466A patent/JP2004004906A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
EP0953968B1 (en) | 2005-01-05 |
ATE286616T1 (de) | 2005-01-15 |
DE69923026D1 (de) | 2005-02-10 |
JPH11338491A (ja) | 1999-12-10 |
DE69923026T2 (de) | 2005-12-22 |
TW436758B (en) | 2001-05-28 |
KR100574769B1 (ko) | 2006-04-28 |
KR19990083632A (ko) | 1999-11-25 |
EP0953968A2 (en) | 1999-11-03 |
CN1243304A (zh) | 2000-02-02 |
JP2004004906A (ja) | 2004-01-08 |
EP0953968A3 (en) | 2000-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1178202C (zh) | 用于执行说话者适应或规范化的方法 | |
US11450332B2 (en) | Audio conversion learning device, audio conversion device, method, and program | |
CN1144172C (zh) | 包括最大似然方法的基于本征音的发言者适应方法 | |
CN1188828C (zh) | 基于本征话音的说话者检验和说话者识别 | |
CN1112669C (zh) | 采用连续密度隐藏式马尔克夫模型的语音识别方法和系统 | |
JP4590692B2 (ja) | 音響モデル作成装置及びその方法 | |
US6263309B1 (en) | Maximum likelihood method for finding an adapted speaker model in eigenvoice space | |
CN1298172A (zh) | 用于中等或大词汇量语音识别的上下文相关声模型 | |
US6327565B1 (en) | Speaker and environment adaptation based on eigenvoices | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
Shekofteh et al. | Feature extraction based on speech attractors in the reconstructed phase space for automatic speech recognition systems | |
CN1253851C (zh) | 基于事先知识的说话者检验及说话者识别系统和方法 | |
CN102237082B (zh) | 语音识别系统的自适应方法 | |
Kannadaguli et al. | Phoneme modeling for speech recognition in Kannada using Hidden Markov Model | |
Cui et al. | Multi-view and multi-objective semi-supervised learning for large vocabulary continuous speech recognition | |
JP2905674B2 (ja) | 不特定話者連続音声認識方法 | |
Oura et al. | A fully consistent hidden semi-Markov model-based speech recognition system | |
Oura et al. | A covariance-tying technique for HMM-based speech synthesis | |
CN1655232A (zh) | 上下文相关的汉语语音识别建模方法 | |
Kaur et al. | Speech based retrieval system for Punjabi language | |
Cetin et al. | Multi-rate and variable-rate modeling of speech at phone and syllable time scales [speech recognition applications] | |
Sarfjoo et al. | Cross-Lingual Speaker Adaptation for Statistical Speech Synthesis Using Limited Data. | |
JP2010117651A (ja) | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム | |
Kulkarni et al. | Marathi Isolated Digit Recognition System Using HTK | |
Tsiaras et al. | Towards a linear dynamical model based speech synthesizer. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |