CN1351745A

CN1351745A - 客户一服务器语音识别

Info

Publication number: CN1351745A
Application number: CN00807941A
Authority: CN
Inventors: E·特伦; S·贝斯林
Original assignee: Koninklijke Philips Electronics NV
Current assignee: J Kanso J Te Co
Priority date: 1999-03-26
Filing date: 2000-03-07
Publication date: 2002-05-29
Also published as: EP1181684A1; KR20010108402A; ATE281689T1; EP1181684B1; DE60015531T2; JP2002540479A; DE60015531D1; AU3165000A

Abstract

一种分布式语音识别系统(300)包括通过公共因特网(350)相连的至少一个服务器站(310)和客户站(330)。客户站(330)包括用于接收来自用户的语音输入信号的装置(331)。语音控制器(335)至少将部分语音输入信号导入到本地语音识别器(334)中。优选为有限的语音识别器(334)至少能识别部分语音输入,所述语音输入是例如用于起动全部识别的语音命令。根据识别结果,语音控制器(335)选择性地将一部分语音输入信号通过公共因特网(350)导入到服务器站(310)中。服务器站(310)包括:用于接收来自公共因特网的语音等效信号的装置(312)和用于识别所接收的语音等效信号的大/巨大词汇量的语音识别器(314)。

Description

客户-服务器语音识别

本发明涉及一种用于识别语音输入信号的分布式语音识别系统；该系统包括至少一个客户站和服务器站；客户站包括接收来自用户的语音输入信号的装置和通过公共因特网将表示所接收的语音的信号传输给服务器站的装置；以及服务器站包括用于从公共因特网接收语音等效信号的装置和用于识别所接收的语音等效信号的大/巨大词汇量语音识别器。

本发明还涉及一种识别分布式系统中语音输入信号的方法，所述系统包括至少一个客户站和服务器站。

US5819220公开了一种客户-服务器语音识别系统。其中客户站对于用户是本地的，而服务器位于通过公共因特网可到达的远处。该系统用于提供涉及万维网页的语音输入。用户向客户站提供语音输入，其利用传统浏览器显示网页。例如，语音可用于确定查询或用于填写页的信息单词段(例如名字、地址)。通常，客户站通过话筒和声卡的A/D转换器接收语音。将语音表示发送给公共因特网上的语音服务器。该服务器可设置在提供网页的万维网服务器中或可通过该万维网服务器进行访问。服务器也可以通过位置与万维网服务器无关的公共因特网进行访问。服务器识别语音。可将识别输出(例如所识别的单词序列)发回客户站或直接发送到万维网服务器。在公知系统中，在服务器中可使用大功率语音识别器，其能识别因特网环境中的语音，且对于这种语音识别也是最佳的。对于某种应用来说，在每种程度上需要识别器支持因特网环境中可能出现的巨大词汇量，其中实际上用户能访问任何主题的任何文件。在已知的客户-服务器系统中客户站没有任何语音识别器。

由于在所述的系统中所有语音输入都导入服务器，因此服务器上的负载会变得很高。特别在如果系统支持许多同时运行的客户站的情况下更是如此。

本发明的一个目的是通过减少服务器上的负载来改善陈述的系统及其方法。

为实现依照本发明的目的，所述系统的特征在于：客户站包括本地语音识别器和语音控制器；语音控制器将至少部分语音输入信号导入本地语音识别器中，并根据识别结果选择性地将一部分语音输入信号通过公共因特网导入服务器站。也可以通过在客户站中设置识别器，从而从服务器中去掉负荷。服务器的目标在于可为许多用户同时提供高质量的巨大词汇量语音识别的艰难任务，从服务器中减掉了本地识别器能容易完成的简单任务。尽管任务可能简单，但简单地通过不必向服务器发送全部语音输入，它们能消除服务器和公共因特网的高负荷。另外，由于客户能比较容易地访问与识别相关的本地信息，因此在客户处比在服务器中能更有效地执行某些识别任务。

正如从属权利要求2的方案所限定的，在客户站使用简单识别器。通过这种方式能将附加费用和客户站上的处理负载保持在低水平。

正如从属权利要求3的方案所限定的，利用本地识别器检测语音起动命令。即使用户没有说话或如果用户正在说话了但不想识别他/她的语音，也能解除中央识别器必需连续扫描来自客户站的语音输入信号。这也减轻了公共因特网不必要的负荷。

正如从属权利要求4的方案所限定的，利用本地识别器执行控制本地客户站的指令识别。客户站最适于确定哪一个本地操作可行(例如通过声音控制哪一个菜单项)。另外，这可以免除通过公共因特网发送语音再将识别结果发送回来，而本地站同样能很好地执行这些识别任务，甚至它更适合执行这些任务。

正如从属权利要求5的方案所限定的，客户站利用其本地识别器确定需要将语音信号发送给哪一个语音服务器。在存在若干个语音识别服务器的情况下可有效地利用该方式。它的一个例子是具有包含不同公司几个广告标语的网页。例如为允许用户进行短语语音询问，某些或所有这些公司都有它们自己的语音识别服务器。本地识别器/控制器可根据诸如“选择Philips”或“对Philips讲话”等语音确定路由命令选择服务器和语音路由。可从标语本身提取识别路由命令的信息。这些信息以标签的形式存在于标语中，并包括诸如文本和路由命令语音表示的数据项。本地识别器/控制器也可以根据与相应语音服务器关联的信息确定路由。例如，标语文本的单词可用作路由的基本成分。例如，如果用户说出了一个标语中出现的单词，则语音被导入到与该标语关联的语音服务器中。如果单词出现在多于一个的标语中，则语音发送到几个语音服务器中，或发送到最可能的一个服务器中(例如其相关标语具有相对最高的单词出现率)。代替利用标语中明确出现的单词，标语也可以例如通过链接与文本信息相关联起来。如果用户说出了该信息中的一个或多个单词，就选定该标语的语音服务器。

正如从属权利要求6的方案所限定的，可将服务器中的语音识别器用作在本地识别器不能完全识别用户输入情况下的一种“备份”。可根据类似于记分或置信量度的性能指标决定将语音输入传送到哪个服务器。通过该方式可在客户站使用传统的大词汇量识别器，而在服务器中使用强大的识别器。例如，服务器中的识别器可支持较大的词汇量或更专业的语音模型。本地识别器仍然可以运行并识别输入，即使并行输入服务器也能识别。通过这种方式仍然能“实时”地识别用户输入。可用服务器的可能较高质量结果代替本地识别器的可能较低精度的初步识别。选择器作出本地识别器与远程识别器识别结果之间的最终选择。该选择可基于性能指标进行。

为满足根据本发明的目的，在分布式系统中识别语音输入信号的方法包括：

在客户站中从用户处接收语音输入信号；

在客户站至少识别部分语音输入信号；

根据识别结果选择性地将表示一部分语音输入信号的信号通过公共因特网从客户站导入到服务器站中；

在服务器站中从公共因特网接收语音等效信号；以及

利用大/巨大词汇量的语音识别器识别服务器站中接收到的语音等效信号。

参照附图中所示的实施例进行的阐明将使本发明的这些和其它方面更加清楚。

图1表示典型语音识别器的元件；

图2表示基于HMM的单词模型；

图3是依照本发明的分布式语音识别系统的方框图；

图4更详细地表示利用公共因特网访问服务器站；

图5表示具有服务器站选择权的系统的方框图；

图6表示识别分布式系统中的语音输入信号的方法。

诸如大词汇量连续语音识别系统的语音识别系统通常利用识别模型集合来识别输入模式。例如，可利用声音模型和词汇表识别单词，并利用语言模型改善基础识别结果。图1表示大词汇量连续语言识别系统100的典型结构〔参见L.Rabiner，B-H.Juang，“Fundamentals of speech recognition”，Prentice Hall 1933，434到454页〕。系统100包括频谱分析子系统110和单元匹配子系统120。在频谱分析子系统110中，对语音输入信号(SIS)进行频谱和/或时间分析，以计算特征表示向量(观测向量OV)。通常，对语音信号进行数字化处理(例如以6.67kHz的速度采样)，并例如通过预强调对其进行预处理。将连续样值归集(块处理)成帧，例如该帧对应于32微秒的语音信号。例如，帧相继局部重叠16微秒。通常利用线性预测编码(LPC)频谱分析方法针对每个帧计算特征表示向量(观测向量)。例如，特征向量可具有24、32或63个分量。大词汇量连续语音识别的标准方法是假定语音生成的概率模型，借此被确定的单词序列W＝w₁w₂w₃…w_q产生声音观测向量序列Y＝y₁y₂y₃…y_T。通过确定最可能产生被观察的观察向量序列y₁y₂y₃…y_T(随着时间t＝1，…，T)的单词序列w₁w₂w₃…w_q，可在统计学上将识别误差降到最小，其中观测向量为频谱分析子程序110的输出。该结果导致最大后验概率的确定：

maxP(W|Y)，适合所有可能的单词序列W。

通过对条件概率施用Baye定理，将P(W|Y)给出如下：

P(W|Y)＝P(Y|W).P(W)/P(Y)

由于P(Y)与W无关，因此最可能的单词序列给出如下：

arg max P(Y|W).P(W) 给所有可能的单词序列W (1)

在单元匹配子程序120中，声音模型构成等式(1)的第一项。声音模型用于为给定单词串W估算观测矢量Y的序列概率P(Y|W)。对于大词汇量系统，这通常通过将观测向量与语音识别单元的目录进行匹配来执行。语音识别单元由声音参考序列表示。可以使用各种形式的语音识别单元。举例来说，可用一个语音识别单元表示整个单词或甚至一组单词。单词模型(WM)为给定词汇表的每个单词提供声音参考序列的录音。在大多数小词汇量的语音识别系统中，用语音识别单元表示整个单词，在该情况下单词模型与语音识别单元之间存在直接关系。在其它例如用于识别较大数量的单词(例如几百个单词)的小词汇量系统中或在大词汇量的系统中，可使用基于语言的诸如音素、双音素或音节的子单词单元以及诸如fenenes和fenones的派生单元。对于这种系统，由字典134和子单词模型132给出单词模型，所述字典134描述了与词汇表中的单词相关的子单词单元，子单词模型132描述了有关语音识别单元的声音参考序列。单词模型合成器136根据子单词模型132和字典134合成单词模型。

图2A表示基于全单词语音识别单元的系统单词模型200，其中利用十个声音参考(201到210)的序列为所示单词建立模型。图2B表示基于子单词单元的系统单词模型220，其中通过三个子单词模型(250、260和270)的序列为所示单词建立模型，其中每个子单词模型具有四个声音参考(251，252，253，254；261到264；271到274)的序列。图2所示的单词模型是基于Hidden Markov Model(HMM)，该模型广泛用于随机模型语音信号。利用这种模型，每个识别单元(单词模型或子单词模型)通常以HMM为特征，其参数由数据训练组估算出来。对于大词汇量的语音识别系统，由于需要大量训练数据为较大单元充分训练HMM，因此通常使用有限组的子单词单元，该组数例如为40。HMM状态与声音参考对应。已知有多种建立参考模型的技术，其包括不连续的或连续的概率密度。与一特定话语相关的每个声音参考序列也称为话语的声音录音。可以理解的是，如果使用除HMM外的其它识别技术，声音录音的细节将会不同。

图1的单词级别匹配系统130将观测向量与所有语音识别单元序列匹配，并提供向量与序列间的匹配可能性。如果利用子单词单元，则可通过利用字典134对匹配进行约束，以便将可能的子单词单元序列限定为字典134中的序列。这减少了可能的单词序列输出。

另外可利用句子等级匹配系统140，该系统可基于语言模型(LM)进一步对匹配进行约束，以便使被研究的路径是那些与单词序列对应的路径，其中所述单词序列是由语言模型确定的正确序列。照此语言模型构成了等式(1)的第二项P(W)。声音模型结果与语言模型结果的结合产生单元匹配子系统120的输出，该输出就是被识别的句子(RS)152。模式识别中使用的语言模型可包括语言和识别任务的句法和/或语义约束142。基于句法约束的语言模型通常是指语法144。语言模型利用的语法144提供了单词序列W＝w₁w₂w₃…w_q的概率，原则上其由下式给出：

P(W)＝P(w₁)P(w₂|w₁).P(w₃|w₁w₂)…P(w_q|w₁w₂w₃…w_q)

由于实际上不能可靠地为给定语言中的所有单词和所有序列长度估算条件单词概率，因此广泛使用N个字母组的单词模型。在N个字母组的模型中，项P(w_j|w₁w₂w₃…w_j-1)与P(w_j|w_j-N+1…w_j-1)近似。实际上使用双字母组或三字母组。在三字母组中，项P(w_j|w₁w₂w₃…w_j-1)与P(w_j|w_j-2w_j-1)近似。

图3表示依照本发明的分布式语音识别系统300的方框图。为了将所识别的语音转换成文本或类似表示的应用而具体描述系统工作的例子。该文本表示可用于口授目的，其中将文本表示输入到例如单词处理器或例如用于确定数据库中字段的文本字段的文件中。对于口授而言，当前大词汇量的识别器支持高达60000个单词的有效词汇量和字典。很难获得足够相关的数据建立足够精确地识别更大量单词的模型。通常，用户可将一定数量的单词加到有效词汇表/字典中。可以从300000到500000个单词的后台词汇(其也包括单词的声音录音)中检索到这些单词。为了口授或类似目的，例如巨大词汇表可由至少100000个有效单词或甚至超过300000个有效单词组成。可以理解的是，特别是对通过单击链接就可以产生完全不同上下文的互联网环境来说，优选的是能有效地识别许多后台词汇的单词。对于其它诸如识别名称的识别任务，通常其模型建立成具有附属于它的、某种优先命名概率形式的平面目录，而对于它不存在高质量的语言模型，此时已把超过50000个单词的词汇表归为巨大词汇表。

可以理解的是，识别结果不需要用于口授目的。其同样也可用作诸如对话系统的其它系统的输入，其中根据被识别的语音从数据库检索信息，或象订购一本书或预定旅行那样进行操作。

分布式识别系统300包括服务器站310和至少一个客户站。图中所示为三个客户站320、330和340，其中仅示出了客户站330的进一步细节。可利用传统计算机技术实现这些站。例如，客户站330可由台式个人计算机或工作站构成，而服务器站310可由PC服务器或工作站服务器构成。计算机可在计算机处理器中装载的适当程序的控制下运行。服务器站310和客户站320、330和340通过公共因特网350连接。

图4更详细地表示公共因特网400的使用。服务器站310可以看作是服务提供者，它通过公共因特网向用户(客户站)提供服务。由服务提供者提供的服务可对语音-到-文本的转化(通过公共因特网接收语音并将文本或类似形式的识别结果返回)产生约束。服务提供者还能提供增强功能，例如可作为对公共因特网中得到的各类信息的入口。这些增强功能可依赖于服务器站识别的语音，在该情况下所识别的语音不需要回到客户站。客户站通过访问提供者访问公共因特网410。图中所示为两个访问提供者410和420。在该例子中，访问提供者410向客户站320提供访问，而访问提供者420向客户站340提供访问。访问提供者与其客户站之间的连接通常通过宽域网产生，其类似于拨号电话或有线TV连接。

正如图3所示的，站分别包括用于分别通过公共因特网350进行通信的通信装置312和332。可以使用任何适于结合公共因特网350一起使用的通信装置。通常，通信装置由诸如通信接口或调制解调器等硬件和支持包括因特网协议TCP/IP的特定通信协议的软件驱动器形式的软件构成。客户站330包括用于例如通过接口331从客户处接收语音的装置。客户站330进一步包括对语音信号进行预处理以便使其适合于传送到服务器站310的装置。例如，客户站可包括类似于图1的频谱分析子系统110的频谱分析子系统333。服务器站310能够执行如为图1的系统100描述的任何其它任务。优选地，服务器站能够进行大或巨大词汇量的连续语音识别。实际上大词汇量的语音识别是公知的。对于巨大词汇量的语音识别，优选利用欧洲申请EP99200949.8中描述的技术。服务器站310包括利用单词模型和语言模型的识别器312，该识别器与图1的单元匹配子系统类似。可将诸如被识别的单词序列RS的识别输出传回客户站330。为了进一步进行处理(例如在对话系统中)，识别输出也可以在服务器站310中使用，或被传送到类似于因特网上的服务提供者的下一个站中。根据本发明，客户站330包括语音识别器334。在一个优选实施例中，客户站330的语音识别器334是有限的语音识别器，例如小词汇量或关键单词识别器。这些识别器是公知的，其能在有效成本下实施。客户站330进一步包括语音控制器335。语音控制器335分析本地识别器334的识别结果并根据识别结果选择性地将一部分语音输入信号通过公共因特网350导入服务器站310中。为此，客户站330包括可控制的开关336，该开关能确定通过接口331接收的(并由分析器333分析的)语音输入是否通过通信接口332发送到服务器站310中。根据本地识别器334的任务和可装到客户站330上的负荷，语音控制器335利用另一个开关仅将部分语音输入信号传送到本地语音识别器334中。例如，客户站330可包括语音有效性检测器，例如它能根据所接收的输入信号能级确定用户是否可能在说话。如果用户没在说话(能级低于阈值)，则不需要将信号导入本地识别器334中。该有效性检测器是公知的。如果负荷不是限制因素，则优选的是总是将语音导入本地识别器中，至少在当用户已起动有关程序并且因此已经表示了某时起动识别对话的愿望时应这样做。通过始终使本地识别器有效，可避免以能量的有效性为基础的检测器的不足。例如，很难实现该检测器阈值的精确设定，特别是在嘈杂环境中、例如在背景中有背景音乐或人说话的环境中更是如此。

在一个优选实施例中，语音识别器334是有限语音识别器，它能识别用于起动服务器站识别的语音命令。如果已经识别了这些预定命令(或许多预定起动命令中的一个)，语音控制器335就控制开关336将语音输入信号导入到服务器站310中。语音控制器335还通过通信装置332向服务器站310发送起动指令。该起动指令可以是隐含形式的。例如，每逢通过通信接口312接到语音时，就自动起动服务器310中的识别。

在一个可选择的实施例中，识别器334可用于识别至少一个与本地客户站330的操作有关的语音命令/控制指令。对于该任务，利用小词汇量或关键词识别器就足够了。应识别本地命令/控制指令的要求，语音控制器335将相应的机器控制指令发送给本地客户站330的站控制器337。例如，该机器指令可以是为Windows操作系统限定的操作系统或用户接口指令。语音控制器335以及站控制器337可以执行Windows下的任务。

在一个可选择的实施例中，如图5所示，系统500包括多个示为510、520和530的服务器站。服务器站的结构与图3所示服务器站310的结构类似。服务器站通过公共因特网540与至少一个客户站连接，图中示出的是客户站550。客户站550的结构与图3所述站330的结构相同。客户站550的语音识别器优选为有限语音识别器。该语音识别器用于识别语音路由命令。客户站的语音控制器选择性地将语音输入信号导入到与所识别的路由命令相关联的至少一个服务器中。该导入以将语音路由命令转化成服务器站网络地址的表格为基础。该表格可以预先确定，例如，可一次装入客户站或由客户站的用户输入。可选择的是这些表格是动态的。例如，表格可以嵌入通过因特网下载的诸如HTML文件的文件或与之相关。在这种文件中，不同区域与不同的各服务器相关联。例如，文件可包括几个广告标语，每个标语与其自身的识别服务器关联。

在一个可选择的实施例中，图3中客户站330的语音识别器334为大词汇量的语音识别器(或任选为巨大词汇量的语音识别器)。如果本地客户站330中的语音识别器334的识别结果性能指标低于预定阈值，语音控制器335就将部分(或全部)语音输入信号导入服务器站310中。该导入是通过变换开关336而完成的。原则上仅将最后部分的语音信号发送到服务器站310中、例如仅发送与识别较差的句子有关的部分就足够了。优选的是也将较早的语音内容发送给服务器站310，以便使服务器站能较好地与语音信号同步，并任选地根据较早部分的信号选择诸如声音或语音模型的适当识别模型。服务器站310将所识别的单词序列传送回客户站330。客户站330包括选择器，该选择器用于从由客户站识别器和服务器站识别器分别识别的单词序列中选择所识别的单词序列。因为反正总是要分析本地识别结果，因此实际上选择器的任务可与语音控制器335的任务合并。

图6表示在分布式系统中识别语音输入信号的方法，所述系统至少包括一个客户站600和服务器站620，它们能通过公共因特网610相连。该方法包括以下步骤：在步骤640中，客户站600接收来自用户的语音输入信号；在步骤650中，客户站600至少识别部分语音识别信号；在步骤660中，选择性地将表示一部分语音输入信号的信号从客户站600通过公共因特网610导入到服务器站620中；该导入取决于客户站600的输出。在步骤670中，服务器站620从公共因特网610接收到语音等效信号；在步骤680中，利用大/巨大词汇量的语音识别器识别服务器站620中接收的语音等效信号；任选的是，在步骤685中，服务器站通过公共因特网610将表示语音表示信号识别的识别结果信息(例如所识别语音的文本转录)发回客户站600；在步骤690中，客户站接收该信息。

Claims

1.一种识别语音输入信号的分布式语音识别系统，该系统包括至少一个服务器站和客户站；

客户站包括：用于接收来自用户的语音输入信号的装置；和用于将表示所接收的语音的信号通过公共因特网传送到服务器站的装置；以及

服务器站包括：用于接收来自公共因特网的语音等效信号的装置；和用于识别所接收的语音等效信号的大/巨大词汇量语音识别器；

其特征在于：客户站包括本地语音识别器和语音控制器；语音控制器能将至少部分语音输入信号导入本地语音识别器中，并根据识别结果选择性地将一部分语音输入信号通过公共因特网导入服务器站中。

2.根据权利要求1所述的系统，其中客户站的本地语音识别器是诸如小词汇量或关键词识别器的有限语音识别器。

3.根据权利要求1所述的系统，其中本地语音识别器可用于识别起动服务器站识别的语音命令；以及其中语音控制器响应识别起动命令将起动指令发送给服务器，并将语音输入信号导入服务器站。

4.根据权利要求1所述的系统，其中识别器用于至少识别与本地客户站操作有关的一条语音命令/控制指令，语音控制器用于将与被识别的命令/控制指令对应的机器控制指令发送给本地客户站的站控制器。

5.根据权利要求1所述的系统，特征在于，所述系统包括多个服务器站；语音识别器可用于识别语音路由命令；语音控制器用于选择性地将语音输入信号导入到至少一个关联的服务器中。

6.根据权利要求1所述的系统，其中客户站的语音识别器为大词汇量的语音识别器；如果本地客户站中语音识别器的语音识别结果性能指标低于预定阈值，则语音控制器就至少将一部分语音输入信号导入到服务器站中；

服务器站可将所识别的单词序列发回客户站；

客户站包括选择器，该选择器用于从由客户站识别器和服务器站识别器分别识别的单词序列中选择被识别的单词序列。

7.一种在分布式系统中识别语音输入信号的方法，所述系统包括至少一个服务器站和客户站；该方法包括：

在客户站中接收来自用户的语音输入信号；

在客户站中至少识别部分语音输入信号；

选择性地将表示一部分语音输入信号的信号从客户站通过公共因特网导入到服务器站中；该导入是根据客户站中的识别结果进行的；

在服务器站中接收来自公共因特网的语音等效信号；以及

利用大/巨大词汇量语音识别器识别服务器站中接收的语音等效信号。