CN1534597A - 利用具有转换状态空间模型的变化推理的语音识别方法 - Google Patents
利用具有转换状态空间模型的变化推理的语音识别方法 Download PDFInfo
- Publication number
- CN1534597A CN1534597A CNA2004100326977A CN200410032697A CN1534597A CN 1534597 A CN1534597 A CN 1534597A CN A2004100326977 A CNA2004100326977 A CN A2004100326977A CN 200410032697 A CN200410032697 A CN 200410032697A CN 1534597 A CN1534597 A CN 1534597A
- Authority
- CN
- China
- Prior art keywords
- voice unit
- probability
- parameter
- frame
- prime
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000008859 change Effects 0.000 title description 2
- 238000004519 manufacturing process Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims description 41
- 230000007704 transition Effects 0.000 claims description 35
- 230000002596 correlated effect Effects 0.000 claims description 2
- 239000000203 mixture Substances 0.000 abstract description 5
- 239000013598 vector Substances 0.000 description 18
- 238000003860 storage Methods 0.000 description 17
- 230000015654 memory Effects 0.000 description 16
- 239000011159 matrix material Substances 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 230000001172 regenerating effect Effects 0.000 description 9
- 238000009826 distribution Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000010410 layer Substances 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B01—PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
- B01D—SEPARATION
- B01D21/00—Separation of suspended solid particles from liquids by sedimentation
- B01D21/24—Feed or discharge mechanisms for settling tanks
- B01D21/245—Discharge mechanisms for the sediments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B01—PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
- B01D—SEPARATION
- B01D21/00—Separation of suspended solid particles from liquids by sedimentation
- B01D21/24—Feed or discharge mechanisms for settling tanks
- B01D21/2433—Discharge mechanisms for floating particles
-
- C—CHEMISTRY; METALLURGY
- C02—TREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
- C02F—TREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
- C02F1/00—Treatment of water, waste water, or sewage
- C02F1/40—Devices for separating or removing fatty or oily substances or similar floating material
Landscapes
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Analytical Chemistry (AREA)
- Organic Chemistry (AREA)
- Water Supply & Treatment (AREA)
- Environmental & Geological Engineering (AREA)
- Life Sciences & Earth Sciences (AREA)
- Hydrology & Water Resources (AREA)
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了开发出的一种方法,其包括1)定义对于连续有价值的隐藏相关生成式参数和观测语音音质的转换状态空间模型,以及2)根据观测的输入值序列,近似提供隐藏相关生成式参数的序列和语音单元序列的似然性的后验概率。在近似后验概率中,语音单元的边界是不固定的,但是是可以被最优确定的。在一个实施例中,使用了高斯近似混合。在另一个实施例中,使用了HMM后验概率。
Description
背景技术
本发明涉及模式识别,尤其涉及语音识别。
模式识别系统,例如语音识别系统,接收输入信号并且将信号解码以发现信号所代表的模式。例如在语音识别系统中,语音信号(经常称为测试信号)通过识别系统接收并且将其解码以识别由语音信号代表的字符串。
很多语音识别系统利用隐藏马尔可夫模型,在该隐藏马尔可夫模型中,也可以称为声学单元或者语言单元的语音单元是通过单层连接的状态表示的。利用训练信号,来确定每个语音单元的占用状态和在状态之间跃迁的概率分布。为了对语音信号解码,将信号分成帧,并且将每帧变换成特征向量。然后将特征向量比作状态的分布以识别通过帧表示的HMM状态的大部分可能序列。然后选择与那个序列对应的语音单元。
虽然基于HMM的识别系统在执行很多相对简单的语音识别任务时非常好,但是它们不能直接做语音的一些重要的动态元素的模型(并且众所周知很难执行象对话式语音一样的困难的任务)。因此,它们不能适应用于训练的语音信号和已经解码的语音信号之间的动态发音的差别。
例如,在临时的说话的调整中,说话者趋向于次清晰发音或者趋向于比他们的语音的清晰发音差。这就意味着在重新定向到下一个目标之前,用户的语音清晰度的递归定义轨道可能达不到想要的目标。由于训练信号是代表性地利用“读取”语音式样形成的,在语音式样中说话者提供比在次清晰的语音中更充分清晰的语音资料,因此次清晰语音不能与训练的HMM状态匹配。结果,识别器对临时语音提供的识别结果少于理想的识别结果。
对于过度清晰的语音来说存在相似的问题。在过度清晰的语音中,说话者尽极大的努力使与他们的语音不同的声音可识别。这种极大的努力能够包括改变某些语音单元的声音以致它们能够从相似的发声语音单元中区分出来,较长时间的保持某些语音单元的发声,或者在声音之间比较突然地进行跃迁,以致可以察觉出每个声音相对于相邻的声音来说是独特的。这些过程中的每一个使得利用HMM系统识别语音更加困难,因为每个技术导致语音信号的一组特征向量经常不能很好的与存在于训练数据中的特征向量相匹配。
即使对应于次清晰或者过度清晰的语音的特征向量匹配于在训练数据中的那些特征向量(获得其可能是非常昂贵的),由于对于HMM系统增加的语音的混淆导致通常的HMM技术仍然不能很好的执行,这里在HMM系统中没有考虑由次清晰或者过度清晰度引起的特征向量轨道变化的主要原因。这个问题将通过本发明明确的提出。
HMM系统处理人们说话速度的变化时也是比较困难的。因此,如果某人以比训练信号较慢或者较快的速度说话,那么HMM系统将对语音信号进行错误的解码。
已经提出了HMM系统的替代物。特别的,提出可以直接将语音信号的统计定义轨道或者相关生成式参数的性能建模。由于不能直接测量相关生成式值,因此这些模型称为隐藏动态模型(HDM)。隐藏动态模型是通常所说的转换状态空间模型的一类模型的一个例子,其在一个或者多个在前的帧和一个或者多个恒定选择的帧中的参数值的基础上对当前帧的参数值建摸。
HDMs的一个问题是它们难于训练,因为象预期最大化算法的通常的训练算法对于HDMs来说是难处理的。这主要是因为为了在给定输入值序列时获得适于隐藏参数序列的后验概率,必须在所有可能的语音单元序列的之中合计隐藏参数和可能的语音单元的组合的概率这个事实。这将导致计算量随着输入值的每一个附加帧而成指数规律地增加。
为了克服这个问题,在先技术的一些系统在训练期间假设语音单元的固定序列。定义这个序列的语音单元之间的边界是通过利用在训练HDM之前的HMM训练设置的。这与在隐藏动态模型中的其它参数相比在理论上并不是最优的,因为语音单元的边界参数是根据不同的标准确定的。
因此,需要训练系统在克服与这种训练相关联的难处理性质的时候允许边界与隐藏动态模型的其它参数一起训练。
发明概述
一种方法,其包括定义隐藏相关生成式参数的转换状态空间模型并且近似提供隐藏相关生成式参数的序列和基于输入值的语音单元序列的似然性的后验概率。在近似后验概率中,并不确定语音单元的边界。在第一个实施例中,使用高斯近似混合。在另一个实施例中,使用HMM后验近似。
附图的简要说明
图1是一个计算环境的框图,在该计算环境中可以实现本发明。
图2是可供选择的计算环境的框图,在该计算环境中可以实现本发明。
图3是在本发明的一个实施例中的语音识别系统的框图。
实施例的详细说明
图1说明了适合执行本发明的计算系统环境100的例子。该计算系统环境100仅仅是适合的计算环境的一个例子并不对本发明的使用或者功能的范围提出任何限定。计算环境100也不作为具有在典型的操作环境100中说明的元件的任一个或者组合的相关性或者需求的解释。
本发明可以运行在大量其它的通用、专用计算系统环境或者结构中。适合与本发明一起使用的公知的计算系统、环境和/或结构的例子包括,但是并不限制于,个人计算机、服务器计算机、手提式的或者膝上型装置、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机、大型计算机、电话系统、包括上述系统或者装置的任何一个的分布式计算环境等等。
本发明可以在象由计算机执行的程序模块的计算机可执行指令的普通环境中得到说明。通常,程序模块包括执行特定任务或者实现特定抽象数据类型的例行程序、程序、对象、组件、数据结构等等。将本发明设计成可以在分布式计算环境中实现,在该分布计算环境中任务可以通过远程处理装置来执行,该远程处理装置是通过通信网络连接的。在分布式计算环境中,将程序模块定位在包括记忆体存储器的本地和远程计算存储介质两者中。
参照附图1,用来实现本发明的示范系统包括计算机110形式的通用计算装置。计算机110的组件可以包括,但是并不限制于,处理单元120、系统存储器130以及用于将包括系统存储器的不同的系统组件与处理单元120连接的系统总线121。系统总线121可以是包括存储器总线或者存储控制器、外围总线和利用多种总线结构的任何一个的局域总线的多种类型中的任何一种。作为举例,但是并不作为限制,这种结构包括工业标准结构(ISA)总线、微通道结构(MCA)总线、增强的ISA(EISA)总线、视频电子标准协会(VESA)局域总线,以及也称作夹层(Mezzanine)总线的外设部件互连(PCI)总线。
计算机110典型地包括多种计算机可读介质。计算机可读介质能够是可以通过计算机110访问的任何可用的介质,并且其包括易失性和非易失性介质、可拆装和不可拆装性介质。作为举例,但是并不限制于该例子,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括在用于例如计算机可读指令、数据结构、程序模块或者其它数据的信息的存储的方法和技术中的易失性的和非易失性的、可拆装的和不可拆装的介质。计算机存储介质包括,但是并不限制于,RAM、ROM、EEPROM、闪存或者其它存储器技术、CD-ROM、数字化通用光盘(DVD)或者其它的光盘存储器、磁带盒、磁带、磁盘存储器或者其它的磁存储装置、或者用于存储期望信息的并且可以通过计算机110访问的任何其它介质。通信介质一般包含计算机可读指令、数据结构、程序模块或者在已调数据信号例如载波或者其它传送机构中的其它数据,并且该通信介质包括任何信息传输介质。术语“已调数据信号”的意思是具有一个或者多个特征集的信号,或者是以关于在信号中的编码信息的方式改变的信号。作为举例,但是并不限制于,通信介质包括象有线网或者直接有线连接的有线介质,以及象声学、RF、红外以及其它的无线介质。上述的任何的组合也可以包括在计算机可读介质的范围内。
系统存储器130包括以象只读存储器(ROM)131和随机存储器(RAM)132的易失性的和/或非易失性存储器的形式存在的计算机存储介质。例如在启动期间,包括帮助在计算机110中的元件之间传输信息的基本例程的基本输入/输出系统133(BIOS)被典型地存储在ROM131中。RAM132典型地包括:立即可存取的和/或不久就可以通过处理单元120操作的数据和/或程序模块。作为举例,但是并不限于,图1说明操作系统134、应用程序135、其它的应用程序模块136以及程序数据137。
计算机110也可以包括其它的可拆装/不可拆装、易失性/非易失性计算机存储介质。仅仅作为举例,图1说明了从不可拆装、非易失性磁介质中读出或者写入到其中的硬盘驱动器141,从可拆装、非易失性磁盘152中读出或者写入到其中的磁盘驱动器151,以及用于从例如CDROM或者其它光介质的可拆装、非易失性光盘156中读出或者写入其中的光盘驱动器155。其它可以用在典型的操作环境中的可拆装/不可拆装、易失性/非易失性计算机存储介质包括,但是并不限于,盒式磁带、快速存储卡、数字通用盘、数字录像磁带、固态RAM、固态ROM等等。硬盘驱动器141典型地通过象接口140的不可拆装存储器接口与系统总线121连接,并且磁盘驱动器151和光盘驱动器155典型地通过可拆装存储器接口,例如接口150与系统总线121连接。
上述和在图1中说明的驱动器和与之相关的计算机存储介质提供计算机可读指令、数据结构、程序模块和用于计算机的其它数据的存储。在图1中,例如,硬盘驱动器141是作为存储操作系统144、应用程序145、其它的程序模块146和程序数据147来说明的。注意这些组件能够与操作系统134、应用程序135、其它程序模块136和程序数据137相同或者不同。操作系统144、应用程序145、其它程序模块146和程序数据147在这里给出不同的编号最低限度的说明,它们是不同的副本。
用户可以通过象键盘162、麦克风163和象鼠标、轨迹球或者接触垫的点击设备161将命令和信息输入到计算机110中。其它的输入装置(没有示出)可以包括操纵杆、游戏垫、碟形卫星天线(satellite dish)、扫描器等等。这些或者其它输入装置经常通过与系统总线耦合的用户输入接口160与处理单元120连接,但是也可以通过其它的接口和总线结构,例如并行端口、博弈端口或者通用串行总线(USB)的总线结构连接。监视器191或者其它类型的显示装置也通过例如视频接口190的接口与系统总线121连接。除监视器之外,计算机也可以包括象扬声器197和打印机196的外围输出设备,其可以通过输出外围接口195连接。
计算机110可以利用与一个或者多个远程计算机例如远程计算机180的逻辑连接在网络环境中进行操作。该远程计算机180可以是个人计算机、手提装置、服务器、路由器、网络PC、对等设备或者其它的公用网络结点,并且典型地包括很多或者所有的上面描述的涉及计算机110的元件。在图1中描绘的逻辑连接包括局域网(LAN)171和广域网络(WAN)173,但是也可以包括其它的网络。这种网络环境在办公室、企业广域计算机网络(enterprise-wide computer networks)、企业内部网络和国际互联网中是很常见的。
当计算机110用在LAN网络环境中的时候,它通过网络接口或者适配器170与LAN171连接。当在WAN网络环境中使用的时候,计算机110典型地包括调制解调器172或者其它的用于在WAN173例如国际互联网上建立通信的装置。可以内置或者外置的调制解调器172可以通过用户输入接口160或者其它的适当的机构将其与系统总线121连接。在网络环境中,描绘相关计算机110或者其部分的程序模块可以存储在远程存储装置中。作为举例,但不限于,图1说明远程应用程序185是驻留于远程计算机180上的。可以理解显示的网络连接是例证式的,并且可以使用在计算机之间建立通信链接的其它装置。
图2是移动装置200的框图,该移动装置是典型的计算环境。移动装置200包括微处理器202、存储器204、输入/输出(I/O)组件206以及用于与远程计算机或者其它移动装置通信的通信接口208。在一个实施例中,上述组件彼此之间通过相配的总线210进行用于通信的连接。
存储器204是作为带有备用电池模块(没有示出)的象随机存储器(RAM)的非易失的电子存储器实现的,因此当移动装置的总电源关闭的时候,存储在存储器204中的信息不会丢失。存储器204的一部分最好配置为存放用于程序执行的可寻址存储器,而存储器204的另外一个部分最好用于存储,例如在硬盘驱动器上模拟存储。
存储器204包括操作系统212、应用程序214以及对象存储器216。在操作期间,操作系统212最好通过来自存储器204的处理器202执行。在一个较佳实施例中,操作系统212是来自微软公司的在商业上可用的WINDOWS CE版号的操作系统。操作系统212最好设计成用于移动装置并且通过一组陈列的应用程序接口和方法来执行能够通过应用程序214利用的数据库功能部件。在对象存储器216中的对象是通过应用程序214和操作系统212维护的,至少局部响应对陈列的应用程序接口和方法的调用。
通信接口208代表允许移动装置200发送和接收信息的很多装置和技术。仅举例来说,该装置包括有线和无线调制解调器、卫星接收器和广播调谐器。移动装置200也能够直接与计算机相连接以与之交换数据。在这种情况下,通信接口208可以是红外收发器或者串行通信连接或者并行通信连接,这些都能够传输流式信息。
输入/输出组件206包括象触摸屏、按钮、滚轮以及麦克风的多种输入装置,以及包括声频发生器、振动装置和显示器的多种输出装置。上面列出的装置是示例并且在移动装置200中并不需要存在所有的这些装置。此外,在本发明的范围内,其它输入/输出装置可以附加到移动装置200中或者与移动装置200一起存在。
本发明提供语音的再生模型。在这个模型中,将语音描绘成说话者尝试的输出,以根据语音执行语音单元序列对语言的定义(definition)。在这个尝试期间,说话者产生相关生成式值,该相关生成式值服从对于与当前语音单元相关联的目标的统计定义轨道(利用具有递归噪音的状态空间模式)。在本发明的实施例中,这个轨道是作为转换状态空间模型被建摸的。
本发明的模型是隐藏轨道模型的特定形式,在隐藏轨道模型中,该轨道是随着加到每帧中的噪音而递归定义的。这个状态空间模型包括两层,描述隐藏相关生成式参数(例如声道谐振频率)的动态或者轨道模型组件、以及将相关生成式参数翻译成象唛耳频率倒频谱系数(Mel-Frequency Cepstral Coefficients)的可观测的声学特征的映射模型组件。在状态空间模型中的状态方程预测适于相关生成式参数的连续状态值(X1,...,Xn,...,XN)的序列。映射模型或者观察方程在给定连续隐藏状态值序列时预测声观察向量Yn的序列。
该递归定义轨道和映射模型能够通过两个公式简单的表示:
xn=Asxn-1+(I-As)us+w 公式1
yn=Csxn+cs+v 公式2
其中n和s分别是帧号码和语音单元标记,X是隐藏相关生成式参数,y是声学特征向量,As和Cs是语音单元相依系统矩阵,us是语音单元相依目标,I是恒等矩阵,cs是语音单元相依常数,并且w和v是噪声项。
在一个实施例中,公式1和2的模型根据概率分布表示为:
p(sn=s|sn-1=s′)=πss′ 公式3
p(xn|sn=s,xn-1)=N(xn|Asxn-1+as,Bs) 公式4
p(yn|sn=s,xn)=N(yn|Csxn+cs,Ds) 公式5
其中Bs和Ds是精密矩阵(协方差矩阵的逆),其是以与噪音项w和v以及as=(I-As)ux相关的方差为基准的。
通常,训练公式3-5的模型参数需要迭代的两步处理。第一步骤称为推理,在这期间,计算后验分布p(s1∶N,x1∶N/y1∶N)给出模型参数的初始设置。在第二步期间,称为学习或者参数估计,更新模型参数。重复这些步骤直到模型参数收敛或者达到某最大数量的迭代为止。当执行广义预期最大化训练的时候,E步骤是推理步骤并且M步骤是学习步骤。
公式3-5的模型的推理步骤不能直接执行,因为后验计算是难处理的。本发明的一个实施例通过近似利用高斯模型混合的后验分布克服了这个问题。本发明的另一个实施例通过近似利用HMM后验的后验分布克服了这个问题。利用这种近似和变化的计算,使估计后验概率是可能的。下面将分别讨论每个近似。
高斯混合
在本发明的高斯混合的实施例中,后验概率p(S1∶N,x1∶N/y1∶N)是作为q(s1∶N,x1∶N/y1∶N)近似的,其定义为:
其中q()表示概率。注意在公式6的近似中,在帧n上相关生成式值的概率是不依赖于在其它时间帧期间的相关生成式参数的值的,并且仅仅取决于在帧n上的语音单元的值并且不取决于其它帧的语音单元的值。这样就大大的减小了为了计算近似而完成的计算量。
通过最小化在近似和实际后验分布之间的偏差,本发明者已经发现概率q(xn/sn,y1∶N)是高斯分布的必然结果:
q(xn|sn,y1∶N)=N(xn|ρs,n,Γs,n) 公式7
其中平均数ρs,n和协方差Γs,n通过下面的公式给出:
其中γs,n=q(sn=s/y1∶N)是在帧n上的语音单元的概率,并且作为下面的公式来计算:
logγs,n=f1+f2+f3 公式10
其中:
公式11
公式12
公式13
其中<>表示通过对两个相同大小的向量或者矩阵的元素方向乘积的求和获得标量。在这个发明的实践中,在训练期间,在上述公式中通过s’变量(离散状态)指示的总和项已经彻底的减小了,因为训练过程(script)是可靠的,以致能够强烈的约束可能的s序列。
在一个实施例中,推理步骤是通过适于利用公式10和ρs,n和Γs,n的在前的值的每个s,n组合的第一个决定γs,n执行的。由于在公式10中的γs,n的计算是取决于γs,n的,公式10是迭代估算的直到γs,n收敛为止。然后利用来自公式10的γs,n的新的值估算公式8,以产生一个Γs,n的更新值。然后Γs,n的更新值与γs,n一起使用以确定在公式9中的ρs,n。注意,公式8和9是组合的线性方程并且能够通过稀疏矩阵技术得到有效的解答。这个过程能够重复迭代以提高γs,n,Γs,n和ρs,n的值的精确度。
当推理步骤完成之后,γs,n,Γs,n和ρs,n的值用在学习步骤中,以设置模型参数Θ={A1∶S,a1∶s,B1∶S,C1∶S,c1∶S,D1∶S}的值,其是根据:
公式14
公式16
公式17
公式18
公式19
推理和学习步骤可以重复很多次以完成训练。
HMM后验
在第二个实施例中,后验是利用HMM后验近似的,HMM后验定义为:
如在高斯模型的混合中,在HMM后验模型中的概率q(xn/sn,y1∶N)是具有平均值ρs,n和协方差矩阵Γs,n的高斯分布。该平均值ρs,n和协方差矩阵Γs,n是利用具有γs,n的新定义的上面提到的公式8和9计算的。特别地,γs,n是利用反向—正向(backward-forward)处理确定的,反向—正向处理也定义了后验跃迁概率ηs′x,n=q(sn=s/sn-1-s′,y1∶N)。
反向—正向处理是通过初始化适于所有的s的值zs,N+1=1开始的。在反向通过(pass)期间,对于n=N,...,2执行下面的计算:
当n=1的时候
在正向通过期间,对n=2,...,N执行下面的计算:
其中
公式26
公式27
因此在推理步骤期间,首先利用公式21-27的反向—正向处理计算γs,n。然后利用上面提到的公式8和9以及计算出的γs,n计算平均值ρs,n和协方差Γs,n。在执行学习步骤之前,能够重复这些步骤使得γs,n、ρs,n和Γs,n的值能够达到稳定值。
当推理步骤完成之后,利用下面的公式,能够执行学习步骤以设置模型参数的值Θ={A1∶S,a1∶s,B1∶S,C1∶s,c1∶S,D1∶s}:
公式28
公式29
公式30
公式31
公式32
公式33
训练精化
如那些本领域技术人员认识到的,如果适于模型参数的初始值接近于通过训练识别的值,那么象上面讨论的那些高斯混合和HMM后验模型的重复局部最优化训练算法将能够比较好的执行。在本发明的一些实施例中,关于相关生成式参数的目标参数as是在手工标记(hand-labeled)的相关生成式值的基础上设置的。在一个特定的实施例中,相关生成式值是声道共振(VTR),目标是在来自说话者获取的手工标记的VTR数据的基础上初始化的。
因为音素边界在上述进行的近似中是不确定的,因此音素跃迁能够在每一帧中出现。对于自然语音来说,每个音素存在某个最短持续时间以致跃迁在每一帧上是不被允许的。为了解决这个问题,本发明的实施例利用了一串随时间变化的跃迁矩阵,该跃迁矩阵将适于跃迁的概率提供给在每一帧上的其它音素。矩阵是通过修改通过HMM训练识别的语音单元边界而建立的。对边界的修改涉及将来自出现在两帧之间的强固定边界的每个边界转换成在许多帧上延伸的概率边界。在强固定边界中,适于每个语音单元的ρs,n的值可以是表示对于帧的语音单元的百分之百概率的1,或者是表示对于帧的语音单元的零百分比概率的0。在修改的边界中,ρs,n的值能够是在0和1之间的任何一个值。
例如,如果HMM预测在语音单元s1和语音单元s2之间的固定边界,那么在一个实施例中,对于在固定边界之前的三帧和固定边界之后的三帧的语音单元s1和语音单元s2的概率将被设置成0.5。在另一个实施例中,穿过围绕固定边界的帧的语音单元s1和语音单元s2的概率逐渐改变。例如穿过相应帧的语音单元s1的概率可以是[1,0.8,0.6,0.5,0.4,0.2,0],而穿过相同的帧的语音单元s2的概率将是[0,0.2,0.4,0.5,0.6,0.8,0]。注意对于帧或者其相邻帧的没有预测的语音单元具有零概率。
注意在边界的每一侧的帧的数目可以不同于三,并且能够取决于由HMM训练设置的每个语音单元的中点。
隐藏生成式参数恢复(recovery)
如上面提到的一样,本发明的模型所根据的相关生成式参数被隐藏并且该相关生成式参数是不能直接测量的。然而,为了判断系统的性能并且为了收集在隐藏相关生成式参数上的数据,例如声音共振轨迹(vocal resonance tracks),需要恢复隐藏相关生成式参数的值。
在本发明中,一旦γs,n和ρs,n的值利用上述的高斯近似混合或者HMM后验近似已经训练完成,那么做到这点是很容易的。一旦那些值是已知的,隐藏相关生成式参数是简单的:
语音识别
当模型参数已经利用上面讨论的一个近似得到训练之后,模型参数和近似能够用于执行语音识别。在给定表示语音信号的观测特征向量的序列时,这涉及到识别大多数可能的语音单元序列,例如音素。
对于高斯近似混合来说,语音识别能够通过简单的测定基于观测特征向量和训练出的模型参数Θ={A1∶S,a1∶s,B1∶S,C1∶s,c1∶s,D1∶S}的γs,n、Γs,n和ρs,n来执行。然后选择在帧n上的具有最大γs,n的语音单元s作为适于帧n的语音单元。
为了避免非自然语音单元转换,能够用跃迁矩阵扩充这个识别系统,其将最小持续时间约束增加到语音单元中。因此在跃迁矩阵中,在语音单元之间的每个跃迁具有联合概率,至少对于每个语音单元的一些最小数量的帧来说,保留在语音单元中的概率高于跃迁到另一个语音单元的概率。为了利用这个跃迁矩阵执行语音识别,可以使用维特比译码器,该译码器在给定跃迁概率和γs,n概率时,通过可能的语音单元识别大部分可能路径。
对于HMM后验近似来说,语音识别是通过确定基于观测特征向量和训练出的模型参数Θ={A1∶S,a1∶S,B1∶S,C1∶S,c1∶S,D1∶S}的γs,n、ηss′n、Γs,n和ρs,n来执行的。然后在维特比译码中使用第一帧的语音单元概率γs,1和跃迁概率ηss′,n以识别语音单元s的大部分可能序列。对公式而言,维特比译码器根据下面的公式得出最大路径得分(score)VN:
V1(s)=γs,1 公式35
当用高斯近似混合的时候,能够将持续时间约束加到通过修改跃迁概率解码的HMM后验中,以增加与跃迁到其它语音单元中的似然性有关的保留在语音单元中的似然性。
图3提供了语音识别系统的框图,在该语音识别系统中能够使用本发明。在图3中,可以是训练者或者用户的说话者300将发言输入到麦克风304中。麦克风304也接收来自一个或者多个噪声源302的添加性噪声。将通过麦克风检测的音频信号转换为电信号,再将该电信号提供给模拟—数字转换器306。
模-数转换器306将来自麦克风304的模拟信号转换成一串数字值。在几个实施例中,模-数转换器306以16KHz采样模拟信号并且每个样本是16位,因此每秒钟产生32KB语音数据。将这些数字值提供给帧构造器307,该帧构造器在一个实施例中将值分组成10毫秒间隔启动的25毫秒帧。
通过帧构造器307产生的数据帧提供给特征抽取器308,该特征抽取器从每帧中抽取特征。特征抽取模块的范例包括用于执行线性预测编码(LPC)的模块,LPC导出倒频谱、感知线性预测(PLP)、听觉模型特征抽取以及唛耳频率倒频谱系数(MFCC)特征抽取。注意本发明并不限于这些特征抽取模块,并且其它的模块可以用在本发明的范围内。
如果输入信号是训练信号,那么将该系列特征向量提供给训练器324,该训练器使用特征向量和训练文本326训练本发明的再生模型328。例如可以使用上述的EM训练算法训练再生模型参数Θ={A1∶S,a1∶S,B1∶S,C1∶s,c1∶s,D1∶S}。如上面所述,为了训练再生模型328,训练器324训练近似模型327,例如上述的高斯近似混合或者HMM后验近似。
如上所述,重复EM训练算法。在这种情况下,当训练近似模型327的时候训练器324访问再生模型328,并且当训练再生模型328的时候,训练器324访问近似模型327。
一旦已经训练完再生模型328,就将输入语音信号转换成观测特征向量流。将这些向量提供给训练器324,训练器324以观测向量和再生模型328的参数为基础为近似模型327设置模型参数。然后解码器312在特征向量流、词典314、语言模型316、近似模型327和再生模型328的基础上识别词的大部分可能序列。在一个实施例中,词典314定义了有限状态网络,通过解码器312穿过有限状态网络以识别来自特征向量的序列。注意如上面所述,关于上面作为跃迁矩阵的这个网络可以包括组成词的语音单元的持续时间约束。
将大多数可能的假设词序列提供给置信量度模块320。置信量度模块320部分地以第二声音模块(没有示出)为基础识别通过语音识别器错误识别的大部分可能词。然后置信量度模块320将假设词的序列连同指示哪些词已经被错误的识别的标识符一起提供给输出模块322。那些本领域技术人员能够认识到置信量度模块320对于本发明的实践来说不是必须的。
虽然已经参考特定实施例对本发明进行了叙述,但是本领域的技术人员在不脱离本发明的精神和范围的情况下,可以在形式上和细节上对本发明进行变换。
Claims (26)
1.一种估计转换状态空间模型的后验概率的方法,该后验概率根据与帧序列联系在一起的输入值提供语音单元组和帧序列的隐藏参数组的似然性,其特征在于,所述方法包括:
通过将单个隐藏参数概率乘到一起形成隐藏参数概率的乘积的方法部分地近似后验概率,其中每个单个隐藏参数概率,在给定帧的语音单元和给定适于帧序列的输入值的帧时,提供隐藏参数的概率;并且
调整定义隐藏参数概率的参数,使隐藏参数概率提供后验概率的较好的近似。
2.如权利要求1所述的方法,其特征在于,所述近似后验概率进一步包括用语音单元概率的乘积乘以隐藏参数概率的乘积,其中每个语音单元概率为一帧提供语音单元的概率。
3.如权利要求2所述的方法,其特征在于,所述方法进一步包括调整语音单元概率,使语音单元概率提供较好的后验概率的近似。
4.如权利要求2所述的方法,其特征在于,所述方法进一步包括利用后验概率的近似解码输入值,以识别帧序列的语音单元序列。
5.如权利要求4所述的方法,其特征在于,所述利用的近似包括:为每一帧选择语音单元是选择该帧的具有最高语音单元概率的语音单元。
6.如权利要求4所述的方法,其特征在于,所述利用的近似包括:将持续时间约束应用到语音单元中,并且根据持续时间约束和语音单元概率选择最好的语音单元序列。
7.如权利要求1所述的方法,其特征在于,所述近似后验概率进一步包括用语音单元跃迁概率的乘积乘以隐藏参数概率的乘积,其中每个语音单元跃迁概率在给定另一帧中语音单元时,提供一帧中的语音单元的概率。
8.如权利要求7所述的方法,其特征在于,所述方法进一步包括调整语音单元跃迁概率,使语音单元跃迁概率提供后验概率的较好的近似。
9.如权利要求7所述的方法,其特征在于,所述方法进一步包括利用后验概率的近似解码输入值,以识别帧序列的语音单元序列。
10.如权利要求9所述的方法,其特征在于,所述利用的近似包括根据语音单元跃迁概率选择语音单元序列。
11.如权利要求10所述的方法,其特征在于,所述利用的近似包括将持续时间约束应用到语音单元,并且根据持续时间约束和语音单元跃迁概率选择最好的语音单元序列。
12.如权利要求1所述的方法,其特征在于,所述调整定义隐藏参数概率的参数包括根据转换状态空间模型参数调整参数以产生已调整的参数。
13.如权利要求12所述的方法,其特征在于,所述输入值从训练信号中产生,并且其中调整参数进一步包括根据定义隐藏参数概率的已经调整的参数调整转换状态空间模型的参数,以形成已经调整的转换状态空间模型参数,并且根据已经调整的转换状态空间模型参数调整定义隐藏参数概率的已经调整的参数。
14.如权利要求1所述的方法,其特征在于,所述方法进一步包括利用后验概率的近似识别帧序列的隐藏参数的序列。
15.一种包括计算机可执行指令的计算机可读介质,该计算机可执行指令的执行步骤包括:
定义包括隐藏相关生成式参数模型的语音的隐藏动态模型;并且
近似后验概率,该后验概率在不需要固定语音单元边界的条件下在输入值的序列的基础上提供隐藏相关生成式参数的序列和语音单元的序列的似然性。
16.如权利要求15所述的计算机可读介质,其特征在于,所述近似后验概率包括在给定该帧的语音单元和输入值序列时,为输入值帧确定描述隐藏相关生成式参数的似然性的模型参数。
17.如权利要求16所述的计算机可读介质,其特征在于,所述近似后验概率进一步包括确定语音单元概率,该语音单元概率在给定输入值序列时描述了一帧的语音单元的似然性。
18.如权利要求17所述的计算机可读介质,其特征在于,进一步包括利用语音单元概率为一帧选择语音单元。
19.如权利要求18所述的计算机可读介质,其特征在于,进一步包括为输入值的每一帧的多个语音单元的每一个确定语音单元概率。
20.如权利要求19所述的计算机可读介质,其特征在于,所述利用语音单元概率选择语音单元包括在每一帧选择具有最高语音单元概率的语音单元。
21.如权利要求19所述的计算机可读介质,其特征在于,进一步包括将持续时间约束应用到语音单元,并且其中利用语音单元概率选择语音单元包括在持续时间约束和每帧的多个语音单元概率的基础上选择最好的语音单元序列。
22.如权利要求16所述的计算机可读介质,其特征在于,所述近似后验概率进一步包括确定语音单元跃迁概率,该语音单元跃迁概率在一帧另一帧的语音单元和输入值序列时,描述了帧的语音单元的似然性。
23.如权利要求22所述的计算机可读介质,其特征在于,进一步包括利用语音单元跃迁概率为帧选择语音单元。
24.如权利要求16所述的计算机可读介质,其特征在于,所述确定描述隐藏相关生成式参数的似然性的模型参数包括在语音的隐藏动态模型的模型参数和描述相关生成式参数的似然性的模型参数的前值的基础上重复的调整模型参数。
25.如权利要求24所述的计算机可读介质,其特征在于,进一步包括在描述隐藏相关生成式参数的似然性的参数的基础上调整语音的隐藏动态模型的模型参数。
26.如权利要求16所述的计算机可读介质,其特征在于,进一步包括在描述隐藏相关生成式参数的似然性的模型参数的基础上识别输入值的每一帧的隐藏相关生成式参数。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/405,166 | 2003-04-01 | ||
US10/405,166 US6931374B2 (en) | 2003-04-01 | 2003-04-01 | Method of speech recognition using variational inference with switching state space models |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1534597A true CN1534597A (zh) | 2004-10-06 |
Family
ID=32850610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2004100326977A Pending CN1534597A (zh) | 2003-04-01 | 2004-03-31 | 利用具有转换状态空间模型的变化推理的语音识别方法 |
Country Status (7)
Country | Link |
---|---|
US (2) | US6931374B2 (zh) |
EP (1) | EP1465154B1 (zh) |
JP (1) | JP2004310098A (zh) |
KR (1) | KR20040088368A (zh) |
CN (1) | CN1534597A (zh) |
AT (1) | ATE445896T1 (zh) |
DE (1) | DE602004023555D1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102486922A (zh) * | 2010-12-03 | 2012-06-06 | 株式会社理光 | 说话人识别方法、装置和系统 |
CN107680584A (zh) * | 2017-09-29 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 用于切分音频的方法和装置 |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6931374B2 (en) * | 2003-04-01 | 2005-08-16 | Microsoft Corporation | Method of speech recognition using variational inference with switching state space models |
US7424423B2 (en) * | 2003-04-01 | 2008-09-09 | Microsoft Corporation | Method and apparatus for formant tracking using a residual model |
US7277850B1 (en) | 2003-04-02 | 2007-10-02 | At&T Corp. | System and method of word graph matrix decomposition |
US7643989B2 (en) * | 2003-08-29 | 2010-01-05 | Microsoft Corporation | Method and apparatus for vocal tract resonance tracking using nonlinear predictor and target-guided temporal restraint |
US7475011B2 (en) * | 2004-08-25 | 2009-01-06 | Microsoft Corporation | Greedy algorithm for identifying values for vocal tract resonance vectors |
US8938390B2 (en) | 2007-01-23 | 2015-01-20 | Lena Foundation | System and method for expressive language and developmental disorder assessment |
US8078465B2 (en) * | 2007-01-23 | 2011-12-13 | Lena Foundation | System and method for detection and analysis of speech |
US10223934B2 (en) | 2004-09-16 | 2019-03-05 | Lena Foundation | Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback |
US9355651B2 (en) | 2004-09-16 | 2016-05-31 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US9240188B2 (en) | 2004-09-16 | 2016-01-19 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US7899761B2 (en) * | 2005-04-25 | 2011-03-01 | GM Global Technology Operations LLC | System and method for signal prediction |
US7877256B2 (en) * | 2006-02-17 | 2011-01-25 | Microsoft Corporation | Time synchronous decoding for long-span hidden trajectory model |
US8010356B2 (en) | 2006-02-17 | 2011-08-30 | Microsoft Corporation | Parameter learning in a hidden trajectory model |
US8234116B2 (en) * | 2006-08-22 | 2012-07-31 | Microsoft Corporation | Calculating cost measures between HMM acoustic models |
US7805308B2 (en) * | 2007-01-19 | 2010-09-28 | Microsoft Corporation | Hidden trajectory modeling with differential cepstra for speech recognition |
WO2008091947A2 (en) | 2007-01-23 | 2008-07-31 | Infoture, Inc. | System and method for detection and analysis of speech |
US20080256613A1 (en) * | 2007-03-13 | 2008-10-16 | Grover Noel J | Voice print identification portal |
EP2608351A1 (en) * | 2011-12-20 | 2013-06-26 | ABB Research Ltd. | Handling resonances in a power transmission system |
EP2736042A1 (en) | 2012-11-23 | 2014-05-28 | Samsung Electronics Co., Ltd | Apparatus and method for constructing multilingual acoustic model and computer readable recording medium for storing program for performing the method |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
US10529357B2 (en) | 2017-12-07 | 2020-01-07 | Lena Foundation | Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5317673A (en) * | 1992-06-22 | 1994-05-31 | Sri International | Method and apparatus for context-dependent estimation of multiple probability distributions of phonetic classes with multilayer perceptrons in a speech recognition system |
JP3114468B2 (ja) * | 1993-11-25 | 2000-12-04 | 松下電器産業株式会社 | 音声認識方法 |
US5799272A (en) * | 1996-07-01 | 1998-08-25 | Ess Technology, Inc. | Switched multiple sequence excitation model for low bit rate speech compression |
JPH10111862A (ja) * | 1996-08-13 | 1998-04-28 | Fujitsu Ltd | 再帰型ニューラルネットワークに基づく時系列解析装置および方法 |
US5924066A (en) * | 1997-09-26 | 1999-07-13 | U S West, Inc. | System and method for classifying a speech signal |
TW413795B (en) * | 1999-02-26 | 2000-12-01 | Cyberlink Corp | An image processing method of 3-D head motion with three face feature points |
US6678658B1 (en) * | 1999-07-09 | 2004-01-13 | The Regents Of The University Of California | Speech processing using conditional observable maximum likelihood continuity mapping |
US6993462B1 (en) * | 1999-09-16 | 2006-01-31 | Hewlett-Packard Development Company, L.P. | Method for motion synthesis and interpolation using switching linear dynamic system models |
US6591146B1 (en) * | 1999-09-16 | 2003-07-08 | Hewlett-Packard Development Company L.C. | Method for learning switching linear dynamic system models from data |
JP2001126056A (ja) * | 1999-10-26 | 2001-05-11 | Mitsubishi Electric Inf Technol Center America Inc | 複数の形態で動作するシステムをモデリングするための方法および多様な形態で動作する動的システムをモデリングするための装置 |
GB2363557A (en) * | 2000-06-16 | 2001-12-19 | At & T Lab Cambridge Ltd | Method of extracting a signal from a contaminated signal |
JP2002251198A (ja) * | 2000-12-19 | 2002-09-06 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声認識システム |
US6928407B2 (en) * | 2002-03-29 | 2005-08-09 | International Business Machines Corporation | System and method for the automatic discovery of salient segments in speech transcripts |
US6931374B2 (en) * | 2003-04-01 | 2005-08-16 | Microsoft Corporation | Method of speech recognition using variational inference with switching state space models |
-
2003
- 2003-04-01 US US10/405,166 patent/US6931374B2/en not_active Expired - Fee Related
-
2004
- 2004-03-31 CN CNA2004100326977A patent/CN1534597A/zh active Pending
- 2004-03-31 KR KR1020040022168A patent/KR20040088368A/ko not_active Application Discontinuation
- 2004-04-01 JP JP2004109419A patent/JP2004310098A/ja active Pending
- 2004-04-01 EP EP04007985A patent/EP1465154B1/en not_active Expired - Lifetime
- 2004-04-01 AT AT04007985T patent/ATE445896T1/de not_active IP Right Cessation
- 2004-04-01 DE DE602004023555T patent/DE602004023555D1/de not_active Expired - Lifetime
- 2004-11-09 US US10/984,609 patent/US7487087B2/en not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102486922A (zh) * | 2010-12-03 | 2012-06-06 | 株式会社理光 | 说话人识别方法、装置和系统 |
CN102486922B (zh) * | 2010-12-03 | 2014-12-03 | 株式会社理光 | 说话人识别方法、装置和系统 |
CN107680584A (zh) * | 2017-09-29 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 用于切分音频的方法和装置 |
CN107680584B (zh) * | 2017-09-29 | 2020-08-25 | 百度在线网络技术(北京)有限公司 | 用于切分音频的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
EP1465154A2 (en) | 2004-10-06 |
US7487087B2 (en) | 2009-02-03 |
US20050119887A1 (en) | 2005-06-02 |
EP1465154A3 (en) | 2007-06-06 |
ATE445896T1 (de) | 2009-10-15 |
US6931374B2 (en) | 2005-08-16 |
EP1465154B1 (en) | 2009-10-14 |
KR20040088368A (ko) | 2004-10-16 |
JP2004310098A (ja) | 2004-11-04 |
DE602004023555D1 (de) | 2009-11-26 |
US20040199386A1 (en) | 2004-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1534597A (zh) | 利用具有转换状态空间模型的变化推理的语音识别方法 | |
CN1296886C (zh) | 语音识别系统和方法 | |
Zhou et al. | Vision-infused deep audio inpainting | |
Sudhakara et al. | An Improved Goodness of Pronunciation (GoP) Measure for Pronunciation Evaluation with DNN-HMM System Considering HMM Transition Probabilities. | |
US8280733B2 (en) | Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections | |
CN1178202C (zh) | 用于执行说话者适应或规范化的方法 | |
US6959276B2 (en) | Including the category of environmental noise when processing speech signals | |
CN1157712C (zh) | 语音识别方法和装置 | |
CN1169116C (zh) | 语音识别装置和识别方法 | |
KR101237799B1 (ko) | 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법 | |
CN1653520A (zh) | 确定和降噪相关联的不确定性的方法 | |
CN101030369A (zh) | 基于子词隐含马尔可夫模型的嵌入式语音识别方法 | |
JP4515054B2 (ja) | 音声認識の方法および音声信号を復号化する方法 | |
CN1667700A (zh) | 使用发音图表来改进新字的发音学习 | |
CN1908965A (zh) | 信息处理装置及其方法和程序 | |
CN1462366A (zh) | 说话人声音的后台学习 | |
CN1238058A (zh) | 语音处理系统 | |
CN1534598A (zh) | 采用增量贝叶斯学习进行噪声估计的方法 | |
JP5072206B2 (ja) | 音声分類および音声認識のための隠れ条件付確率場モデル | |
CN1521729A (zh) | 使用隐轨迹和隐马尔可夫模型进行语音识别的方法 | |
CN1750120A (zh) | 索引设备和索引方法 | |
CN1692405A (zh) | 语音处理设备、语言处理方法、存储介质及程序 | |
CN112185340B (zh) | 语音合成方法、语音合成装置、存储介质与电子设备 | |
CN1645476A (zh) | 使用切换状态空间模型的多模变分推导的语音识别方法 | |
US20070129946A1 (en) | High quality speech reconstruction for a dialog method and system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20041006 |
|
C20 | Patent right or utility model deemed to be abandoned or is abandoned |