JP4751569B2

JP4751569B2 - 音声認識のための処理、モジュール、装置及びサーバ

Info

Publication number: JP4751569B2
Application number: JP2002565299A
Authority: JP
Inventors: スフレ，フレデリック; タジーヌ，ヌール−エディーヌ
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2001-02-13
Filing date: 2002-02-12
Publication date: 2011-08-17
Anticipated expiration: 2022-02-12
Also published as: EP1362343A1; JP2004530149A; US20050102142A1; WO2002065454A1; EP1362343B1; CN1491412A; CN1228762C; FR2820872A1; US7983911B2; MXPA03007178A; FR2820872B1; ES2291440T3; KR20030076661A; KR100908358B1; DE60222093T2; DE60222093D1

Description

【０００１】
本発明は、音声インターフェイスに関する。
【０００２】
より詳細には、本発明は音声認識を利用した端末における言語モデル及び/または音声ユニットの最適化に関する。
【０００３】
情報システムあるいは制御システムは、より速くそして/またはより直感的にユーザとのやりとりが可能となるよう音声インターフェイスの利用を拡大している。システムがより複雑になってきているので、音声認識に関する必要性が、認識の幅（広い語彙レベル）と認識の速度（時間）の両方に関して増大している。
【０００４】
言語モデル（アプリケーションの語彙の中のある与えられた語が文章が書かれている順序において他の語や語のグループに続く確率）及び音声ユニットの利用に基づく様々な音声認識処理が知られている。これらの従来技術に関しては、「音声認識のための統計的方法（Statistical methods for speech recognition）Frederik Jelinek, MIT Press, 1997」において説明されている。
【０００５】
これらの技術は、代表的音声サンプル（例えば、コマンドを指示する端末のユーザからの発声）から生成された言語モデルと音声ユニットによるものである。
【０００６】
実際、言語モデルでは、システムのユーザの通常の発話スタイル、特に、口ごもったり、出だしのつまづき、気持ちの変化などのユーザの欠点が考慮されねばならない。
【０００７】
使用される言語モデルの質は、音声認識の信頼性に大きな影響を与える。この質はしばしば言語モデルのパープレキシティ（perplexity）と呼ばれるインデックスにより評価される。このパープレキシティは、大まかにはシステムが符号化された各語に対して行わねばならない選択数を表したものである。パープレキシティが低いほど、言語モデルの質は高くなる。
【０００８】
言語モデルでは、しばしば対話的システムによりしばしば行われるように、音声信号を文字列に変換する必要がある。質問に答えるためには、その質問を理解できる理解論理（comprehension logic）を構築する必要がある。
【０００９】
豊富な語彙を有する言語モデルを構成に関しては、２つの標準的方法がある。
【００１０】
第１の方法はいわゆるNグラム（N-gram）統計方法であり、２-グラム、３-グラムがよく使われる。Nグラム統計方法は、センテンス中のある語の出現確率はその語に先行するN個の語にのみ依存し、センテンス中の他の部分には依存しないという仮定の下に成り立っている。
【００１１】
例えば、１０００個の語からなる語彙に対して３-グラムの場合、この言語モデルを定義するためには１０００^３の場合を規定する必要があり、これは不可能である。従って、通常これらの語はモデル設計者により明示的に定義されるか、あるいは自己組織化手法により演繹されるいくつかの集合に分類される。
【００１２】
このため、この言語モデルはテキストコーパス（text corpus）から自動的に構築される。
【００１３】
このタイプの言語モデルは、フレーズの理解が不要な音声信号をテキストに変換するだけの音声ディクテーションシステムに主に利用される。
【００１４】
第２の方法は確率文法により構文の記述に関するものである。典型的には、いわゆるバッカス・ナウアー記法（BNF）に従い記述された規則の集合により定義された文脈自由文法、あるいはこの形式の文脈的文法（contextual grammar）への発展型である。文法を記述する規則は大抵がハンドメイドである。このタイプの言語モデルはコマンドアプリケーション及び制御アプリケーションに適しており、認識フレーズの後には、電化製品を制御するためのフレーズやデータベースの中の情報を検索するためのフレーズが続く。
【００１５】
アプリケーションの中の言語モデルには、このアプリケーションが認識のために必要とする表現群（例えば、センテンス）が記述されている。従来技術の欠点は、この言語モデルの質が低ければ、認識システムは、たとえそれが音響音声的符号化レベルにおいて高い性能を持っていたとしても、特定の表現に対してあまり良い性能を発揮しない。
【００１６】
統計タイプの言語モデルは、適切な発話、言語モデルにおける明確な表現定義を備えていない。表現の中には、単により高い先験的出現確率を持っているものもある。
【００１７】
確率文法タイプの言語モデルでは、その言語モデルに属する表現と属さない表現との区別が明らかである。従って、このタイプの言語モデルでは、使われている音声モデルの質とは無関係に認識不可能な表現が存在する。一般に、このような表現は、それ自体の意味を持たないものであるか、あるいは構築されたシステムのアプリケーションの分野以外の意味を持ったものである。
【００１８】
確率タイプ及びそれから派生した言語モデルは、コマンドアプリケーションや制御アプリケーションに特に効果的である。このタイプの文法はしばしばハンドメイドで書かれたものであり、対話型システムの構築に関する主要な問題の１つは高品質の言語モデルを提供するということにある。
【００１９】
特に、文法形式のモデルに関する限り、特に言語が多くの人々により使用される場合（例えば、市場性の高い電化製品の遠隔制御などの場合）、当該言語を完全に定義することは不可能である。表現、フレーズの変換（フォーマルな言語からスラングへの変換）、及び/あるいは文法エラーなどの考えられるすべての要素を考慮するということは不可能である。
【００２０】
本発明は、認識されなかった表現の記録に基づき、言語モデルを遠隔的に修正及び改善することを可能にする音声認識処理及びシステムに関する。
【００２１】
より詳細には、本発明は、言語モデルを利用した少なくとも１つの端末において実現される音声認識プロセスであって：
・前記端末の１つにおいて少なくとも１つの認識されない表現を検出するステップ；
・前記認識されない表現を表すデータを前記端末に記録するステップ；
・前記端末により第１送信チャンネルを介して前記記録されたデータをリモートサーバに送信するステップ；
・前記リモートサーバのレベルにおいて前記データを解析し、前記認識されない表現の少なくとも部分的に考慮した前記言語モデルの補正情報を生成するステップ；及び
・前記認識されない表現が少なくとも部分的にこの後認識可能になるよう、第２送信チャンネルを介して前記リモートサーバから少なくとも１つの端末に前記補正情報を送信するステップ；からなることを特徴とするプロセスである。
【００２２】
従って、本発明は、局所的に認識されなかった表現に対する音声認識を可能にする様々な要素の更新を行う新規なアプローチに関する。ここで、リモートサーバは補正情報を生成するためのリソース（例えば、人間及び/あるいは計算能力）が備えられている。
【００２３】
ここで、言語モデルは：
厳密な意味での言語モデル（例えば、認識対象のデータがテキスト形式である場合）；
１つ以上の厳密な意味での言語モデルと１つ以上の音声ユニット群から構成されるモデル（音声サンプルに適用される音声認識の場合に対応する）；
から構成される。
【００２４】
本発明は、単なる語彙の更新以上のことが行われる。具体的には、ある表現のすべての語が端末の言語モデルにおいて用いられている語彙に含まれているにもかかわらず、この表現は認識されない可能性がある。言語モデルの単なる更新だけで、この表現はこの後認識されるようになる。言語モデルが導出される情報アイテムの中の１つである語彙の更新では、必ずしも十分でない。
【００２５】
ここでは、表現は広い意味で解釈され、端末とユーザ間のやりとりを可能にする任意の口頭による表現に関する。表現（あるいは発話）は、センテンス、フレーズ、分離した語、分離していない語、端末のためのコード、指示、コマンドなどからなる。
【００２６】
補正情報は、各端末の言語モデル及び/あるいは音声ユニット群の部分的あるいは全体的修正を、その中の要素を消去、置換あるいは追加することにより可能にする情報からなる。
【００２７】
サーバは、各端末からデータを受信し、すべての端末から得た情報を共有することにより、データの送信先端末だけでなくその他の端末すべての言語モデル及び/あるいは音声ユニット群を改善する。
【００２８】
本発明は、特定のユーザに特有な言語スタイルやフレーズ変換（例えば、「午後８時」や「夜８時」の代わりに（事前には想定するのが困難な冗長）「夜午後８時」）を考慮に入れることができる。このための準備は言語モデルの構築の過程では実行されない。
【００２９】
さらに、本発明は言語の進化（新たなフレーズ変換や表現）を考慮している。
【００３０】
本発明は、確率タイプの言語モデルにも確率文法タイプの言語モデルにも同じように良好に適用することができる。本発明が確率タイプの言語モデルに適用されるとき、一般に認識に影響を与える多くの補正データが存在する一方、確率文法タイプの言語モデルの補正データはわずかしかないが、それらは認識効果及び信頼性に大きな影響を与える。
【００３１】
本発明による音声認識プロセスでは、前記認識されない表現を表す前記データは、音声信号を記述するパラメータを表す圧縮された音声記録からなる。
【００３２】
これにより、リモートサーバに送信されるデータ量を制限しながら、サーバレベルの詳細な解析のためソースに送る音声データを好適に考慮することができる。
【００３３】
本発明による音声認識プロセスでは、前記端末により送信するステップにおいて、前記端末は前記リモートサーバに、表現が認識されなかったとき、前記音声認識プロセスの使用状況に関する情報と認識されない表現を発した発話者に関する情報からなるグループを形成する少なくとも１つの情報アイテムを送信する。
【００３４】
これにより、遠隔操作により端末により認識されなかった表現の音声認識が容易になる。
【００３５】
さらに、認識されなかった表現内容の妥当性の確認が、文脈の機能として実行される。（例えば、アドレス先の端末がビデオレコーダーのとき、「送信を記録する」というコマンドは意味を持ち、携帯電話のときは意味を持たない。）
本発明による音声認識プロセスは、さらに、前記記録されたデータ及び/または前記補正情報の暗号化及び/またはスクランブル化を実行するステップを備える。
【００３６】
これにより、データは効果的に安全化され、秘匿性を維持することができる。
【００３７】
本発明は、言語モデルを利用した音声認識モジュールに関し、
・認識されない表現を検出する分析器；
・少なくとも１つの認識されない表現を表すデータの記録装置；
・前記記録されたデータをリモートサーバに送信する送信機；及び
・前記音声認識モジュールにより前記認識されない表現が少なくとも部分的にこの後認識可能になるよう、前記音声認識モジュールに送られる前記言語モデルの補正するための補正情報を受信する受信機；
からなり、前記補正情報は、前記データの前記リモートサーバのレベルでの解析及び前記認識されない表現を少なくとも部分的に考慮した前記言語モデルの補正情報の生成後、前記リモートサーバにより送信されることを特徴とする。
【００３８】
本発明は、言語モデルを利用した音声認識装置に関し、
・認識されない表現を検出する分析器；
・少なくとも１つの認識されない表現を表すデータの記録装置；
・前記記録されたデータをリモートサーバに送信する送信機；及び
・前記音声認識装置により前記認識されない表現が少なくとも部分的にこの後認識可能になるよう、前記音声認識装置に送られる前記言語モデルの補正するための補正情報を受信する受信機；
からなり、前記補正情報は、前記データの前記リモートサーバのレベルでの解析及び前記認識されない表現を少なくとも部分的に考慮した前記言語モデルの補正情報の生成後、前記リモートサーバにより送信されることを特徴とする。
【００３９】
本発明は、言語モデルを利用した少なくとも１つのリモート端末からなる端末群において認識処理が実現される音声認識サーバに関し、
・音声認識処理中、前記端末群の少なくとも１つのリモート端末により検出された少なくとも１つの認識されない表現を表すデータを受信する受信機；及び
・前記受信されたデータの前記音声認識サーバのレベルでの解析に基づき得られた補正情報を前記端末群に送信する送信機；
からなり、前記認識されない表現が少なくとも部分的にこの後認識可能になるよう、前記補正情報により前記端末群の各端末による前記言語モデルの補正が可能になることを特徴とする。
【００４０】
これら音声認識モジュール、装置及びサーバの特徴及び効果は、前述の音声認識プロセスと同様であり、その説明は省略される。
【００４１】
本発明のその他の特徴及び効果は、本発明を限定しない以下で与えられる好適な実施例と添付された図面を参照することにより、より明らかになるであろう。
【００４２】
本発明の基本原理は端末上で実現される音声認識に関するものであり、本発明による音声認識処理では、リモートサーバが必要と判断したとき、当該リモートサーバにより更新可能な言語モデル及び/あるいは音声ユニット群が使用される。
【００４３】
基本的には、各端末は発話者により発せられた表現（例えば、センテンスやコマンド）を認識し、対応するアクションを実行することができる。
【００４４】
しかしながら、人間には理解可能であるにもかかわらず音声認識を実行する装置やモジュールには認識されない表現がある。
【００４５】
このような認識の失敗にはいくつかの理由がある。
発話者により使用されている語彙が言語モデルに含まれていない
発音（例えば、なまり）
音声認識装置やモジュールには用意されていないフレーズの変換
などである。
【００４６】
具体的には、言語モデル及び音声ユニット群は、これまで考慮されてこなかった（考慮できなかった）典型的な人々により習慣的に使用されている表現、語、発音及び/あるいはフレーズをサンプルとした統計データに基づき構築される。
【００４７】
本発明は、音声認識装置やモジュールにより認識されない表現を検出することに関する。
【００４８】
ある表現が認識されなかったとき、端末はこの認識されなかった表現に対応する信号を表すデータをリモートサーバへの送信のため記録する（例えば、この表現の音声デジタル記録）。
【００４９】
端末群からの認識されなかった表現が集まる遠隔サーバでは、オペレータがこれら認識されなかった表現を解析する。
【００５０】
認識されなかった表現の中のあるものは、理解不可能及び/あるいは利用不可能と判断され、破棄される。
【００５１】
他方、それ以外のものはマン/マシーンリンク（man/machine link）を介してオペレータにより理解可能であり、（オペレータが必要と判断すれば）端末により認識されなかった表現はサーバにより認識可能なコードに変換される。
【００５２】
そして、サーバは、言語モデル及び/あるいは音声ユニット群の補正のための情報を生成するため、これらの認識されなかった表現をその変換結果とともに取り入れる。
【００５３】
ここでの補正とは、
モデルの修正；及び/あるいは
モデルの補強
を意味する。
【００５４】
サーバが各端末にこの補正情報を送ることにより、端末は言語モデル及び/あるいは音声ユニット群を更新し、当該端末自身や他の端末により認識されなかった表現を取り込むことが可能となる。
【００５５】
これにより、認識されなかった表現に関する情報がすべての端末により共有されることにより、各端末の音声認識性能が改善される。
【００５６】
本発明では、認識されなかった表現に関する解析はオペレータでなく大きなリソースを有するサーバにより実行されてもよい。
【００５７】
本発明では、端末は、認識されなかった表現に対応する信号データとともに、文脈データ（例えば、時刻、日付、音声コマンドの失敗後手動あるいは音声を通じ実行されたコントロール、場所、端末のタイプなど）をサーバに送ってもよい。
【００５８】
これにより、オペレータ及び/またはサーバによる解析作業が容易になる。
【００５９】
本発明による技術が実現される音声制御ボックス（voice-controlled box）を備えるシステムの概要が図１に示される。
【００６０】
本システムは、
オペレータ１２２により制御されるリモートサーバ１１６；及び
複数のユーザシステム１１４、１１７、１１８
から構成される。
【００６１】
リモートサーバ１１６は、通信ダウンリンク１１５、１１９、１２０を介しそれぞれユーザシステム１１４、１１７、１１８にリンクされる。これらのリンクは恒久的なものでもよいし、あるいは一時的なものでもよい。これらのリンクは当業者には既知の任意のタイプのものであってよい。またこれらのリンクはテレビで使用されるRF、衛星や有線チャンネルに基づく放送用のものでもよいし、インターネットリンクのような他のタイプのものでもよい。
【００６２】
図１は、通信アップリンク１２１を介しサーバ１１６にリンクされたユーザシステム１１４を示す。このリンクは同様に当業者に既知の任意のタイプのもの（特に、電話、インターネットなど）であってよい。
【００６３】
ユーザシステム１１４は、
発話者により生成される音声信号を収集するためのマイクからなる音源１００；
音声認識ボックス１０２；
電化製品１０７を駆動するための制御ボックス１０５；
例えば、テレビ、ビデオレコーダー、携帯通信端末のような制御対象の電化製品１０７；
認識に失敗したと検出された表現を記憶するための記憶ユニット１０９；
サーバ１１６との相互通信を可能にするインターフェイス１１２；
から構成される。
【００６４】
音源１００は、リンク１０１を介し音声認識ボックス１０２に接続され、音声信号を表すアナログ波を音声認識ボックス１０２に送信する。
【００６５】
音声認識ボックス１０２は、リンク１０４を介し文脈情報１０４（例えば、制御ボックス１０５により制御される電化製品１０７のタイプや制御コードのリスト）を抽出し、リンク１０３を介し制御ボックス１０５にコマンドを送る。
【００６６】
制御ボックス１０５は、それの言語モデル及び辞書により認識された情報に基づき、例えば赤外線によりリンク１０６を介し電化製品１０７にコマンドを送信する。
【００６７】
制御ボックス１０５は、認識されてない表現を単に拒絶するのでなく検出し、この認識されなかった信号をリンク１０８を介し記憶ユニット１０９に送信し、この認識されなかった表現を記憶する。
【００６８】
記憶ユニット１０９は、リンク１１１を介して認識されなかった表現に関するデータをインターフェイス１１２に送信する。送信されたデータはその後リンク１２１を介してサーバ１１６に転送される。送信完了後、インターフェイス１１０は信号１１０を記憶ユニット１０９に送り、送信されたデータは消去される。
【００６９】
制御ボックス１０５は、さらに、リンク１１５を介しリモートサーバからインターフェイス１１２が受信した補正データをリンク１１３を介して受信する。この補正データは言語モデル及び/または音声ユニット群の更新のため制御ボックス１０５に利用される。
【００７０】
上述の実施例によると、音源１００、音声認識ボックス１０２、制御ボックス１０５、記憶ユニット１０９及びインターフェイス１１２が１つの装置を構成し、リンク１０１、１０３、１０４、１０８、１１１、１１０、１１３はこの装置の内部リンクとして機能する。リンク１０６は典型的には無線リンクである。
【００７１】
図１に示された上述の実施例の第１の変形例として、構成要素１００、１０２、１０５、１０９、１１２は部分的あるいは完全に分離し、１つの装置を構成していなくてもよい。この場合、リンク１０１、１０３、１０４、１０８、１１１、１１０、１１３は有線あるいはそれ以外の内部リンクとして機能する。
【００７２】
第２の変形例として、音源１００、音声認識ボックス１０２、制御ボックス１０５、記憶ユニット１０９、インターフェイス１１２及び電化製品１０７が１つの装置を構成し、内部バス（リンク１０１、１０３、１０４、１０８、１１１、１１０、１１３、１０６）により相互接続される。この装置が、例えば、携帯電話や携帯通信端末であるとき、この変形例は特に有用である。
【００７３】
図２は、音声認識ボックス１０２のような音声制御ボックスの概略図である。
【００７４】
音声認識ボックス１０２は、外部から音響音声デコーダ（APD）２００（または「フロントエンド」）により処理された音源アナログ波１０１を受信する。APD２００は、典型的にはリンク２０１を介して認識エンジン２０３に送られる口内共鳴（oral resonance）を表すコードブックに属する実数ベクトルあるいはベクトルを生成するために、一定の間隔（典型的には１０ms毎）で音源波１０１をサンプリングする。例えば、APD２００は、「音声の認知的線形予測分析（Perceptual Linear Prediction Analysis of Speech）Hynek Hermansky, Journal of the Acoustical Society of America, pp1738-1752, Vol. 97, No. 4, 1990」による認知的線形予測（PLP）に基づいている。
【００７５】
辞書２０２を利用して、認識エンジン２０３は受信した実数ベクトルを（ある語が他の語の後に続く確率を表す）隠れマルコフモデル（HMM）と言語モデルを使って解析する。認識エンジンに関しては、「音声認識のための統計的方法（Statistical Methods for Speech Recognition）Frederick Jelinek, MIT Press, 1997」において詳細な解説が与えられている。
【００７６】
本実施例による言語モデルでは、（特に隠れマルコフネットワークを利用した）認識エンジン２０３が、アプリケーションにおいて発話者により利用可能な表現の所与の語の後にどの語が続くかを決定し、その確率を与える。これらの語はアプリケーションの語彙に属する。この語彙は小規模（１０〜３００語）あるいは大規模（３００，０００語以上）の言語モデルと無関係であってもよい。
【００７７】
特許出願 PCT/FR00/03329（Thomson Multimediaによる１９９９年１１月２９日出願）において、複数の構文ブロックを備えた言語モデルが開示されている。本発明は、そこで開示されたモジュラー式の言語モデルに好適に利用される。これは、モジュールは個別に更新できるので、過度に大量のファイルをダウンロードすることを回避できるからである。
【００７８】
言語モデルは、言語モデル搭載モジュール２０７により送信される。モジュール２０７は、リンク１１３を介してサーバから送られた言語モデル、言語モデル及び/または音声ユニット群の更新・補正情報を受信する。
【００７９】
ここで、辞書２０２は、そこから語を参照している言語モデルに属している。従って、辞書２０２自身はモジュール２０７により読み込まれた言語モデルを介して更新及び/あるいは補正される。
【００８０】
ビテビアルゴリズム（Viterbi algorithm）に基づく認識処理の実行後、認識エンジン２０３は、拒絶モジュール２１１に言語モデルに従い発せられた表現に対しベストなスコアを示す文字列の順序付けられたリストを与える。
【００８１】
拒絶モジュール２１１は、認識エンジン２０３の下流の作業を行い、以下の原則の１つ以上に従い動作する。
ビテビアルゴリズムに特有の理由から、スコアがあまりに低く認識エンジン２０３の計算精度に関する許容限界を超えてしまうため、認識エンジン２０３は適切なリストを生成しないかもしれない。このとき完全な矛盾のない提案はない。従って、拒絶モジュール２１１が所定の許容限度以下のスコアを検出すると、表現は拒絶される。
ビテビアルゴリズムにより計算されたリストの各要素は、言語モデルによりその要素のスコアがすべての可能な表現の中で相対的に高いレベルにあるため維持された。さらに、これら各表現に関するマルコフネットワークにより、観察されているスコアと関連した表現を生成するネットワークの本来的な確率の評価が可能となる。拒絶モジュール２１１はこの確率を解析し、もしその値が確率に関する所定の閾値未満であれば、表現は拒絶される。
ビテビアルゴリズムにより与えられたベストの提案に対して、拒絶モジュール２１１はビテビアルゴリズムの展開中には考慮されてこなかった基準を使って、表現の補足的処理を実行する。例えば、母音と関係しているため発声されねばならない信号部分が、実際そうであるかどうかチェックされる。もし提示された表現がこれらの条件を満たさなければ、表現は拒絶される。
【００８２】
拒絶モジュール２１１が表現を拒絶すると、先に示されたように、この表現は認識されなかったと判断され、拒絶された表現を示す信号が認識エンジン２０３に送られる。これと同時に、拒絶モジュール２１１は、リンク１０８を介して認識されなかった表現の記録要求を記憶ユニット１０９に送る。
【００８３】
認識エンジン２０３は、音声サンプルの形式でAPD２００から発せられた表現を認識する。認識エンジン２０３は、音声ユニット群を使って、マルコフモデルの形式での語の音声表示を構築する。ここで、辞書２０２の各語はおそらくいくつかの「フォネティゼーション（phonetization）」を有する。また同時に、認識エンジン２０３は、厳密な意味でより大きな複雑性あるいはより小さな複雑性をもつ表現を認識するための言語モデルを利用する。
【００８４】
認識エンジン２０３は、認識され（すなわち、モジュール２１１により拒絶されていない）、かつ受信したベクトルに基づき特定された表現を、これらの表現を電化製品１０７により理解可能なコマンドに変換するための手段２０５に供給する。この手段２０５は、人口知能変換処理を行って、制御ボックス１０５に１つ以上のコマンド１０３を送る前に、制御ボックス１０５により供給された文脈１０４を考慮する。
【００８５】
図３は、図１に示されるような図２の構成を実現する音声認識モジュールあるいは装置１０２を示す。
【００８６】
音声認識ボックス１０２は、アドレスとデータバスにより相互接続された
音声インターフェイス３０１；
アナログデジタル変換器３０２；
プロセッサ３０４；
不揮発性メモリ３０５；
RAM（Random Access Memory）３０６；
受信モジュール３１２；
送信モジュール３１３；及び
入出力インターフェイス３０７；
から構成される。
【００８７】
図３に示された各構成要素は当業者に既知のものであり、ここでは説明は省略される。
【００８８】
また、本明細書を通じて使用される「レジスタ」という用語は、各メモリにおいて容量の小さな（数ビットのデータビットの）メモリ領域と容量の大きな（プログラム全体やトランザクションデータ系列すべての保持が可能な）メモリ領域両方を示す。
【００８９】
不揮発性メモリ３０５（ROM）は、「prog」レジスタ３０８にプロセッサ３０４を動作させるためのプログラムを保持している。
【００９０】
RAM３０６は、データ、変数及び処理の中間結果をレジスタの中に保持する。ここでは、簡単化のために、レジスタにはそこに保持されているデータと同じ名前が付けられる。RAM３０６は、
認識されなかった表現の記録「Exp_Not_Rec」が保持されているレジスタ３０９；
認識されなかったセンテンス「Nb_Exp_Not_Rec」のカウンタ３１０；及び
レジスタ３１１の中の言語モデル「Model_Language」；
から構成される。
【００９１】
さらに、受信モジュール３１２と送信モジュール３１３は、リモートサーバ１１６とのデータの送受信が可能である。送受信に関する有線あるいは無線技術は、電気通信の分野の当業者には既知のものであり、さらなる詳細な説明は省略される。
【００９２】
図４は、図１のシステムにおけるサーバ１１６を示す。
【００９３】
ここで、サーバ１１６は任意のマン/マシーンインターフェイス（例えば、キーボードやスクリーン）４０４を介しオペレータ１２２により制御されている。
【００９４】
サーバ１１６は、
受信機４００；
分析器４０１；
言語モジュール及び/あるいは音声ユニット群の補正を構成するモジュール４０２；及び
送信機４０３；
から構成される。
【００９５】
受信機４００は、端末の送信機３１３と適合し、各端末からリンク１２１を介して認識されなかった表現と補完的データ（例えば、文脈データ）を表すデータ（例えば、記録）を受信することができる。
【００９６】
分析器４０１は、リンク１２１を介して受信機４００からデータを受信し、インターフェイス４０４を介して受信したデータを端末を操作するオペレータ１２２に送る。この端末には、サーバ１１６との対話やそれの制御のためのスクリーンとキーボード、認識されなかった表現の記録を聴くためのスピーカーやヘッドフォンが取り付けられている。
【００９７】
インターフェイス４０４を介して、分析器４０１はオペレータ１２２からの情報の受信が可能である。この情報は以下を示すものである。
言語モデルによりカバーされない認識されなかった表現が理解されないままになっている。この表現が端末に対するアプリケーション内での意味を持っていない。この表現が端末と関連付けられていない。（従って、この表現は言語モデルに含まれるべきでない。）この表現はこの後言語モデルの補正のため無視され、分析器４０１により廃棄される。
認識されなかった表現は厳密な意味で言語モデルに属する。（これは純粋な認識問題に関するものである。）この場合、厳密な意味で、この表現は言語モデルでなく、音声ユニット群の修正に関係している。
オペレーターによる表現内容の特定の後、言語モデルに属さず、端末に対して意図した意味を有する認識されなかった表現を、例えば、制御コードの形式に変換する。このことは厳密な意味で言語モデルの補正に関係している。
【００９８】
上記第２及び第３の解決法を組み合わせることが可能である。この場合、これは、厳密な意味で音声ユニット群と言語モデル両方の修正に関係するものである。
【００９９】
本実施例は、認識されなかった表現の手動での処理に対応している。本実施例によると、オペレーター１２２は認識されなかった表現を聞き、それが拒絶された理由を解析する。オペレーター１２２は、この表現が言語モデルに属しているかどうか判断する。その表現が言語モデルに属している場合、オペレーター１２２は表現を分析し、本来的な認識問題（言語モデルに属し、認識されるべきであったにもかかわらず、ノイズや発話者のなまりのような他の理由のため認識されなかった表現）を特定する。
【０１００】
本実施例の第１の変形例では、処理は自動化され、オペレーターの介入は必要とされない。この場合、サーバ１１６と分析器４０１は、端末と比較して大きな計算パワーを持つ必要がなる。この変形例では、分析器４０１は端末よりもより適切な方法で、例えば、より高性能の言語モデル及び/またはより複雑な音声ユニット群を利用することによって、認識されなかった各表現を解析する。ここでは、分析器４０１は、（しばしば発話者のコマンドへの迅速な応答を要する）端末のようなリアルタイムの計算要求に従うことなく、よりも長い処理時間を必要とする認識を許容する。
【０１０１】
本実施例の第２の変形例では、処理は半自動化され、オペレータの介入は分析器４０１では解決できない場合に限られる。
【０１０２】
上述された好適実施例では、サーバ１１６の基本構造は、図３に示された端末と同様の構成とされる。サーバ１１６は、アドレスとデータバスにより相互接続された；
プロセッサ；
RAM；
不揮発性メモリ；
適当な送信モジュール；
受信モジュール；及び
マン/マシーンリンクアップインターフェイス；
から構成される。
【０１０３】
図５は、図２に示された認識エンジン２０３により実行される表現の判定処理及び認識されなかった表現データの記録処理に関するフローチャートを示す。図５によると、最初のステップである初期化５００において、マイクロプロセッサ３０４はプログラム３０８の実行を開始し、RAM３０６の変数を初期化する。
【０１０４】
ステップ５０１において、マイクロプロセッサ３０４は、表現が入力されるのを待ち、発話者からの表現を受信する。
【０１０５】
ステップ５０２において、受信した表現の音声認識処理を実行した後、マイクロプロセッサ３０４は図２の拒絶モジュール２１１に関して与えられた１つ以上の基準に従い、その表現が認識されたかどうか判定する。
【０１０６】
もし認識されていれば、ステップ５０４において、端末１０２は受信された表現に適用された音声認識の結果を考慮し、コマンドのような適切なアクションを実行する。
【０１０７】
もし認識されていなければ、ステップ５０３において、認識されなかった表現は圧縮され、図６に示されたリモートサーバ１１６への送信のため、記憶ユニット１０９に記録される。
【０１０８】
ステップ５０３あるいは５０４の完了後、次の表現の入力を待つステップ５０１が繰り返される。
【０１０９】
図６は、図２の拒絶モジュールにより実行される認識されなかった表現データの送信処理に関するフローチャートである。最初のステップである初期化６００において、マイクロプロセッサ３０４はプログラム３０８の実行を開始し、RAM３０６の変数を初期化する。
【０１１０】
ステップ６０１において、マイクロプロセッサ３０４は音声認識モジュール１０２により認識されなかった表現の入力を待ち、認識されなかった表現の記録を受信する。
【０１１１】
ステップ６０２において、端末１１４は電気通信の分野の当業者には既知の方法に従い、リモートサーバ１１６に接続する。
【０１１２】
ステップ６０３において、認識されなかった表現の記録が整形され、リモートサーバ１１６に送信される。
【０１１３】
ステップ６０４において、端末１１４はリモートサーバ１１６との接続を切断し、リモートサーバ１１６と記憶ユニット１０９とのインターフェイス１１２の間で、表現の記録の送信を示す認識されなかった表現に対応するデータを記憶するための信号が送信される。これらの表現に対応するデータは、その後記憶ユニット１０９から消去される。
【０１１４】
続いて、ステップ６０１が繰り返される。
【０１１５】
図７は、図２の言語モデルを読み取るためのモジュール２０７により実現される補正データの受信処理に関するフローチャートを示す。
【０１１６】
最初のステップである初期化７００の後、ステップ７０１において、端末はサーバ１１６により複数の端末に配信される補正データの入力を待つ。
【０１１７】
ステップ７０２において、端末は、音声認識モジュールにより利用される言語モデル及び/または音声ユニット群を更新するため、補正データを考慮する。この補正データに関しては、
言語モデル及び/または音声ユニット群の既存データの取り替え；
既存データの修正；
既存データの補強；及び/または
既存データの消去；
が可能である。
【０１１８】
ステップ７０２の実行後、ステップ７０３が繰り返される。
【０１１９】
図８は、図４に示されるリモートサーバにおいて実行される受信処理及び補正データ処理に関するフローチャートである。
【０１２０】
最初のステップ８００において、パラメータが初期化され、サーバ管理のためのプログラムが始動される。そして、サーバ１１６は端末からの接続要求（図６のステップ６０２の実行）を待ち、電機通信の分野の当業者には既知の方法により端末との接続が確立される。
【０１２１】
ステップ８０２において、サーバ１１６は、前述のステップ６０３を実行する接続された端末からのデータを受信する。このデータには、端末により拒絶された１つ以上の表現の記録が、これらの表現は端末において実行された音声認識モジュールにより認識されなかったため、含まれている。すべてのデータが受信されると、端末とサーバ１１６との接続は切断される。
【０１２２】
ステップ８０３において、サーバ１１６は受信した各表現記録を、オペレータ１２２により手動で、あるいは図４に関して示された様々な変形例に従い自動的にあるいは半自動的に処理する。
【０１２３】
ステップ８０４において、サーバ１１６は、受信した１つ以上の表現が理解可能であるか、そしてこの表現を送信した端末と関連性があるかどうか判定する。その後、言語モデル及び/または音声ユニットが更新される。
【０１２４】
もし判定結果が否定されれば、ステップ８０１が繰り返される。
【０１２５】
もし判定結果が肯定されれば、サーバ１１６は、いくつかの形式を取りうる言語モデルの補正を構成し、補正データの受信後、端末において（前述の）ステップ６０７を可能にする。この補正データは、
補正を特定する標識（特に、置換、修正、補強あるいは消去）；及び
標識の機能としての補正データ；
から構成される。
【０１２６】
ここで、もし言語モデルが複数の構文ブロックから構成される場合（特に、上述の特許 PCT/FR00/03329 のような言語モデルの場合）、各モジュールは別々に補正可能である。この場合、補正データはモジュールの標識と補正されるモジュールから構成される。
【０１２７】
ステップ８０６において、サーバ１１６は、ステップ６０７により言語モデル及び/あるいは音声ユニット群を更新できる１つあるいは好適には複数の端末群に補正データを配信する。
【０１２８】
その後、ステップ８０１が繰り返される。
【０１２９】
この手順は複数回繰り返されてもよい。またアプリケーションは新たな質問を加えることによりアップグレードすることも可能である。
【０１３０】
もちろん本発明はここまで述べられた実施例に限定されるものではない。
【０１３１】
特に、当業者は本発明を実現する端末の定義を変更することができるであろう。本発明は、音声認識処理を実行する任意の装置及び/あるいはモジュール（例えば、マルチメディア端末、テレビ、ビデオレコーダ、マルチメディアデジタルでコーダ（あるいはセットトップボックス）、オーディオ装置、ビデオ装置、固定端末、携帯端末）に関するものである。
【０１３２】
同様に、本発明は、任意のタイプのリモートサーバ（例えば、インターネットサーバ、テレビ番組放送装置に接続された装置、移動通信ネットワークに接続された装置、サービスプロバイダー装置など）に関する。
【０１３３】
さらに、本発明によると、認識されなかったセンテンスに対応するデータの送信チャンネルと、言語モデル及び/または音声ユニット群を補正するためのデータの送信チャンネルは任意のものであってよく、特に、
RF送信パス；
衛星送信パス；
テレビ配信ネットワークチャンネル；
インターネットタイプネットワークチャンネル；
電話ネットワークチャンネル；
携帯電話ネットワークチャンネル；
携帯型メディア；
を含む。
【０１３４】
さらに、本発明は認識されないセンテンスだけでなく、任意のタイプの音声表現、例えば、１つ以上のセンテンス、分離した語、分離していない語、フレーズ、マシーンとユーザ間の対話を可能にする音声コードなどに関する。このような口頭による表現は、コマンドだけでなく、マシーンとユーザ間の対話を形成する任意のタイプのデータ、例えば、ユーザによりマシーンに送信される情報データ、コンフィギュレーションデータ、プログラミングデータなどと関連していてもよい。
【０１３５】
本発明による言語モデルの更新方法は、厳密な意味での音声認識処理に適用されるだけでなく、スペルミスやタイプミスを支援するテキスト入力認識処理にも上述のマルコフモデルや厳密な意味での言語モデルに基づく適用が可能である。
【０１３６】
本発明は、ハードウェア的構成に限定されるものでなく、コンピュータプログラムの指示により実現されてもよいし、ハードウェアとソフトウェアの組み合わせにより実現されてもよい。本発明が部分的あるいは完全にソフトウェア的に実現される場合、対応する指示系列は取り出し可能な記憶手段（例えば、ディスケット、CD-ROM、DVD-ROMなど）に保持されてもよい。このような記憶手段はコンピュータやマイクロプロセッサにより部分的あるいは完全に読み出し可能なものである。
【図面の簡単な説明】
【図１】図１は、本発明による技術が実現される音声制御ボックスを備えたシステムの概略図である。
【図２】図２は、図１のシステムの音声認識ボックスの概略図である。
【図３】図３は、図２の構成を実現する音声認識ボックスの電子図である。
【図４】図４は、図１のシステムのサーバの概略図である。
【図５】図５は、図２の認識エンジンにより実行される表現のチェック処理と認識されなかった表現に関するデータの記録処理のためのフローチャートである。
【図６】図６は、図２の拒絶モジュールにより実行される認識されなかった表現に関するデータの送信処理のためのフローチャートである。
【図７】図７は、図２の言語モデルを搭載したモジュールにより実行される補正情報の受信処理のためのフローチャートである。
【図８】図８は、図４のリモートサーバにおいて実行される補正情報の受信処理と補正情報の処理のためのフローチャートである。

Claims

言語モデルを利用した複数の端末からなる端末群において実現される音声認識方法であって、
前記端末の１つにおいて、少なくとも１つの認識されない表現を検出し、前記認識されない表現を表すデータを前記端末に記録することをトリガーするステップと、
前記認識されない表現を検出するステップと、前記認識されない表現を表すデータを記録するステップとを繰り返すステップと、
前記端末により第１送信チャンネルを介して前記記録されたデータの全体をリモートサーバに送信するステップと、
前記リモートサーバのレベルにおいて前記データを解析し、前記認識されない表現を少なくとも一部を考慮して前記言語モデルを訂正する情報を生成するステップと、
前記認識されない表現の少なくとも一部の以降における認識が可能になるよう、第２送信チャンネルを介して前記リモートサーバから前記端末群に前記訂正する情報を送信するステップと、
を有する方法。
請求項１記載の方法であって、前記認識されない表現を表す前記データは、音声信号を記述するパラメータを表す圧縮された音声記録を有する方法。
請求項１または２記載の方法であって、前記端末により送信するステップにおいて、前記端末は前記リモートサーバに、表現が認識されなかったとき、前記音声認識方法の使用状況に関する情報と、認識されない表現を発した発話者に関する情報とからなるグループからなる少なくとも１つの情報アイテムを送信する方法。
請求項１乃至３何れか１項記載の方法であって、さらに、前記記録されたデータ及び／または前記訂正する情報の暗号化及び／またはスクランブル化を実行するステップを備える方法。
言語モデルを利用した複数のリモート端末からなる端末群において認識処理が実現される音声認識サーバであって、
前記端末群の一部を構成し、音声認識処理中に認識されない表現を検出した複数の端末によって前記認識されない複数の表現を表すデータを受信する受信機と、
前記受信されたデータの前記音声認識サーバのレベルでの解析に基づき得られる訂正情報の全体を前記端末群の一部を構成する各リモート端末に送信する送信機と、
を有し、
前記訂正情報は、前記端末群の各端末による前記認識されない表現の以降の認識を可能にするため前記言語モデルの訂正を可能にするサーバ。