JP4751569B2 - 音声認識のための処理、モジュール、装置及びサーバ - Google Patents
音声認識のための処理、モジュール、装置及びサーバ Download PDFInfo
- Publication number
- JP4751569B2 JP4751569B2 JP2002565299A JP2002565299A JP4751569B2 JP 4751569 B2 JP4751569 B2 JP 4751569B2 JP 2002565299 A JP2002565299 A JP 2002565299A JP 2002565299 A JP2002565299 A JP 2002565299A JP 4751569 B2 JP4751569 B2 JP 4751569B2
- Authority
- JP
- Japan
- Prior art keywords
- terminal
- language model
- expression
- unrecognized
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 18
- 230000014509 gene expression Effects 0.000 claims description 87
- 238000012937 correction Methods 0.000 claims description 42
- 238000000034 method Methods 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 20
- 230000005540 biological transmission Effects 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 5
- 230000005236 sound signal Effects 0.000 claims description 2
- 238000003860 storage Methods 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 206010017577 Gait disturbance Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Description
本発明は、音声インターフェイスに関する。
【0002】
より詳細には、本発明は音声認識を利用した端末における言語モデル及び/または音声ユニットの最適化に関する。
【0003】
情報システムあるいは制御システムは、より速くそして/またはより直感的にユーザとのやりとりが可能となるよう音声インターフェイスの利用を拡大している。システムがより複雑になってきているので、音声認識に関する必要性が、認識の幅(広い語彙レベル)と認識の速度(時間)の両方に関して増大している。
【0004】
言語モデル(アプリケーションの語彙の中のある与えられた語が文章が書かれている順序において他の語や語のグループに続く確率)及び音声ユニットの利用に基づく様々な音声認識処理が知られている。これらの従来技術に関しては、「音声認識のための統計的方法(Statistical methods for speech recognition)Frederik Jelinek, MIT Press, 1997」において説明されている。
【0005】
これらの技術は、代表的音声サンプル(例えば、コマンドを指示する端末のユーザからの発声)から生成された言語モデルと音声ユニットによるものである。
【0006】
実際、言語モデルでは、システムのユーザの通常の発話スタイル、特に、口ごもったり、出だしのつまづき、気持ちの変化などのユーザの欠点が考慮されねばならない。
【0007】
使用される言語モデルの質は、音声認識の信頼性に大きな影響を与える。この質はしばしば言語モデルのパープレキシティ(perplexity)と呼ばれるインデックスにより評価される。このパープレキシティは、大まかにはシステムが符号化された各語に対して行わねばならない選択数を表したものである。パープレキシティが低いほど、言語モデルの質は高くなる。
【0008】
言語モデルでは、しばしば対話的システムによりしばしば行われるように、音声信号を文字列に変換する必要がある。質問に答えるためには、その質問を理解できる理解論理(comprehension logic)を構築する必要がある。
【0009】
豊富な語彙を有する言語モデルを構成に関しては、2つの標準的方法がある。
【0010】
第1の方法はいわゆるNグラム(N-gram)統計方法であり、2-グラム、3-グラムがよく使われる。Nグラム統計方法は、センテンス中のある語の出現確率はその語に先行するN個の語にのみ依存し、センテンス中の他の部分には依存しないという仮定の下に成り立っている。
【0011】
例えば、1000個の語からなる語彙に対して3-グラムの場合、この言語モデルを定義するためには10003の場合を規定する必要があり、これは不可能である。従って、通常これらの語はモデル設計者により明示的に定義されるか、あるいは自己組織化手法により演繹されるいくつかの集合に分類される。
【0012】
このため、この言語モデルはテキストコーパス(text corpus)から自動的に構築される。
【0013】
このタイプの言語モデルは、フレーズの理解が不要な音声信号をテキストに変換するだけの音声ディクテーションシステムに主に利用される。
【0014】
第2の方法は確率文法により構文の記述に関するものである。典型的には、いわゆるバッカス・ナウアー記法(BNF)に従い記述された規則の集合により定義された文脈自由文法、あるいはこの形式の文脈的文法(contextual grammar)への発展型である。文法を記述する規則は大抵がハンドメイドである。このタイプの言語モデルはコマンドアプリケーション及び制御アプリケーションに適しており、認識フレーズの後には、電化製品を制御するためのフレーズやデータベースの中の情報を検索するためのフレーズが続く。
【0015】
アプリケーションの中の言語モデルには、このアプリケーションが認識のために必要とする表現群(例えば、センテンス)が記述されている。従来技術の欠点は、この言語モデルの質が低ければ、認識システムは、たとえそれが音響音声的符号化レベルにおいて高い性能を持っていたとしても、特定の表現に対してあまり良い性能を発揮しない。
【0016】
統計タイプの言語モデルは、適切な発話、言語モデルにおける明確な表現定義を備えていない。表現の中には、単により高い先験的出現確率を持っているものもある。
【0017】
確率文法タイプの言語モデルでは、その言語モデルに属する表現と属さない表現との区別が明らかである。従って、このタイプの言語モデルでは、使われている音声モデルの質とは無関係に認識不可能な表現が存在する。一般に、このような表現は、それ自体の意味を持たないものであるか、あるいは構築されたシステムのアプリケーションの分野以外の意味を持ったものである。
【0018】
確率タイプ及びそれから派生した言語モデルは、コマンドアプリケーションや制御アプリケーションに特に効果的である。このタイプの文法はしばしばハンドメイドで書かれたものであり、対話型システムの構築に関する主要な問題の1つは高品質の言語モデルを提供するということにある。
【0019】
特に、文法形式のモデルに関する限り、特に言語が多くの人々により使用される場合(例えば、市場性の高い電化製品の遠隔制御などの場合)、当該言語を完全に定義することは不可能である。表現、フレーズの変換(フォーマルな言語からスラングへの変換)、及び/あるいは文法エラーなどの考えられるすべての要素を考慮するということは不可能である。
【0020】
本発明は、認識されなかった表現の記録に基づき、言語モデルを遠隔的に修正及び改善することを可能にする音声認識処理及びシステムに関する。
【0021】
より詳細には、本発明は、言語モデルを利用した少なくとも1つの端末において実現される音声認識プロセスであって:
・前記端末の1つにおいて少なくとも1つの認識されない表現を検出するステップ;
・前記認識されない表現を表すデータを前記端末に記録するステップ;
・前記端末により第1送信チャンネルを介して前記記録されたデータをリモートサーバに送信するステップ;
・前記リモートサーバのレベルにおいて前記データを解析し、前記認識されない表現の少なくとも部分的に考慮した前記言語モデルの補正情報を生成するステップ;及び
・前記認識されない表現が少なくとも部分的にこの後認識可能になるよう、第2送信チャンネルを介して前記リモートサーバから少なくとも1つの端末に前記補正情報を送信するステップ;からなることを特徴とするプロセスである。
【0022】
従って、本発明は、局所的に認識されなかった表現に対する音声認識を可能にする様々な要素の更新を行う新規なアプローチに関する。ここで、リモートサーバは補正情報を生成するためのリソース(例えば、人間及び/あるいは計算能力)が備えられている。
【0023】
ここで、言語モデルは:
厳密な意味での言語モデル(例えば、認識対象のデータがテキスト形式である場合);
1つ以上の厳密な意味での言語モデルと1つ以上の音声ユニット群から構成されるモデル(音声サンプルに適用される音声認識の場合に対応する);
から構成される。
【0024】
本発明は、単なる語彙の更新以上のことが行われる。具体的には、ある表現のすべての語が端末の言語モデルにおいて用いられている語彙に含まれているにもかかわらず、この表現は認識されない可能性がある。言語モデルの単なる更新だけで、この表現はこの後認識されるようになる。言語モデルが導出される情報アイテムの中の1つである語彙の更新では、必ずしも十分でない。
【0025】
ここでは、表現は広い意味で解釈され、端末とユーザ間のやりとりを可能にする任意の口頭による表現に関する。表現(あるいは発話)は、センテンス、フレーズ、分離した語、分離していない語、端末のためのコード、指示、コマンドなどからなる。
【0026】
補正情報は、各端末の言語モデル及び/あるいは音声ユニット群の部分的あるいは全体的修正を、その中の要素を消去、置換あるいは追加することにより可能にする情報からなる。
【0027】
サーバは、各端末からデータを受信し、すべての端末から得た情報を共有することにより、データの送信先端末だけでなくその他の端末すべての言語モデル及び/あるいは音声ユニット群を改善する。
【0028】
本発明は、特定のユーザに特有な言語スタイルやフレーズ変換(例えば、「午後8時」や「夜8時」の代わりに(事前には想定するのが困難な冗長)「夜午後8時」)を考慮に入れることができる。このための準備は言語モデルの構築の過程では実行されない。
【0029】
さらに、本発明は言語の進化(新たなフレーズ変換や表現)を考慮している。
【0030】
本発明は、確率タイプの言語モデルにも確率文法タイプの言語モデルにも同じように良好に適用することができる。本発明が確率タイプの言語モデルに適用されるとき、一般に認識に影響を与える多くの補正データが存在する一方、確率文法タイプの言語モデルの補正データはわずかしかないが、それらは認識効果及び信頼性に大きな影響を与える。
【0031】
本発明による音声認識プロセスでは、前記認識されない表現を表す前記データは、音声信号を記述するパラメータを表す圧縮された音声記録からなる。
【0032】
これにより、リモートサーバに送信されるデータ量を制限しながら、サーバレベルの詳細な解析のためソースに送る音声データを好適に考慮することができる。
【0033】
本発明による音声認識プロセスでは、前記端末により送信するステップにおいて、前記端末は前記リモートサーバに、表現が認識されなかったとき、前記音声認識プロセスの使用状況に関する情報と認識されない表現を発した発話者に関する情報からなるグループを形成する少なくとも1つの情報アイテムを送信する。
【0034】
これにより、遠隔操作により端末により認識されなかった表現の音声認識が容易になる。
【0035】
さらに、認識されなかった表現内容の妥当性の確認が、文脈の機能として実行される。(例えば、アドレス先の端末がビデオレコーダーのとき、「送信を記録する」というコマンドは意味を持ち、携帯電話のときは意味を持たない。)
本発明による音声認識プロセスは、さらに、前記記録されたデータ及び/または前記補正情報の暗号化及び/またはスクランブル化を実行するステップを備える。
【0036】
これにより、データは効果的に安全化され、秘匿性を維持することができる。
【0037】
本発明は、言語モデルを利用した音声認識モジュールに関し、
・認識されない表現を検出する分析器;
・少なくとも1つの認識されない表現を表すデータの記録装置;
・前記記録されたデータをリモートサーバに送信する送信機;及び
・前記音声認識モジュールにより前記認識されない表現が少なくとも部分的にこの後認識可能になるよう、前記音声認識モジュールに送られる前記言語モデルの補正するための補正情報を受信する受信機;
からなり、前記補正情報は、前記データの前記リモートサーバのレベルでの解析及び前記認識されない表現を少なくとも部分的に考慮した前記言語モデルの補正情報の生成後、前記リモートサーバにより送信されることを特徴とする。
【0038】
本発明は、言語モデルを利用した音声認識装置に関し、
・認識されない表現を検出する分析器;
・少なくとも1つの認識されない表現を表すデータの記録装置;
・前記記録されたデータをリモートサーバに送信する送信機;及び
・前記音声認識装置により前記認識されない表現が少なくとも部分的にこの後認識可能になるよう、前記音声認識装置に送られる前記言語モデルの補正するための補正情報を受信する受信機;
からなり、前記補正情報は、前記データの前記リモートサーバのレベルでの解析及び前記認識されない表現を少なくとも部分的に考慮した前記言語モデルの補正情報の生成後、前記リモートサーバにより送信されることを特徴とする。
【0039】
本発明は、言語モデルを利用した少なくとも1つのリモート端末からなる端末群において認識処理が実現される音声認識サーバに関し、
・音声認識処理中、前記端末群の少なくとも1つのリモート端末により検出された少なくとも1つの認識されない表現を表すデータを受信する受信機;及び
・前記受信されたデータの前記音声認識サーバのレベルでの解析に基づき得られた補正情報を前記端末群に送信する送信機;
からなり、前記認識されない表現が少なくとも部分的にこの後認識可能になるよう、前記補正情報により前記端末群の各端末による前記言語モデルの補正が可能になることを特徴とする。
【0040】
これら音声認識モジュール、装置及びサーバの特徴及び効果は、前述の音声認識プロセスと同様であり、その説明は省略される。
【0041】
本発明のその他の特徴及び効果は、本発明を限定しない以下で与えられる好適な実施例と添付された図面を参照することにより、より明らかになるであろう。
【0042】
本発明の基本原理は端末上で実現される音声認識に関するものであり、本発明による音声認識処理では、リモートサーバが必要と判断したとき、当該リモートサーバにより更新可能な言語モデル及び/あるいは音声ユニット群が使用される。
【0043】
基本的には、各端末は発話者により発せられた表現(例えば、センテンスやコマンド)を認識し、対応するアクションを実行することができる。
【0044】
しかしながら、人間には理解可能であるにもかかわらず音声認識を実行する装置やモジュールには認識されない表現がある。
【0045】
このような認識の失敗にはいくつかの理由がある。
発話者により使用されている語彙が言語モデルに含まれていない
発音(例えば、なまり)
音声認識装置やモジュールには用意されていないフレーズの変換
などである。
【0046】
具体的には、言語モデル及び音声ユニット群は、これまで考慮されてこなかった(考慮できなかった)典型的な人々により習慣的に使用されている表現、語、発音及び/あるいはフレーズをサンプルとした統計データに基づき構築される。
【0047】
本発明は、音声認識装置やモジュールにより認識されない表現を検出することに関する。
【0048】
ある表現が認識されなかったとき、端末はこの認識されなかった表現に対応する信号を表すデータをリモートサーバへの送信のため記録する(例えば、この表現の音声デジタル記録)。
【0049】
端末群からの認識されなかった表現が集まる遠隔サーバでは、オペレータがこれら認識されなかった表現を解析する。
【0050】
認識されなかった表現の中のあるものは、理解不可能及び/あるいは利用不可能と判断され、破棄される。
【0051】
他方、それ以外のものはマン/マシーンリンク(man/machine link)を介してオペレータにより理解可能であり、(オペレータが必要と判断すれば)端末により認識されなかった表現はサーバにより認識可能なコードに変換される。
【0052】
そして、サーバは、言語モデル及び/あるいは音声ユニット群の補正のための情報を生成するため、これらの認識されなかった表現をその変換結果とともに取り入れる。
【0053】
ここでの補正とは、
モデルの修正;及び/あるいは
モデルの補強
を意味する。
【0054】
サーバが各端末にこの補正情報を送ることにより、端末は言語モデル及び/あるいは音声ユニット群を更新し、当該端末自身や他の端末により認識されなかった表現を取り込むことが可能となる。
【0055】
これにより、認識されなかった表現に関する情報がすべての端末により共有されることにより、各端末の音声認識性能が改善される。
【0056】
本発明では、認識されなかった表現に関する解析はオペレータでなく大きなリソースを有するサーバにより実行されてもよい。
【0057】
本発明では、端末は、認識されなかった表現に対応する信号データとともに、文脈データ(例えば、時刻、日付、音声コマンドの失敗後手動あるいは音声を通じ実行されたコントロール、場所、端末のタイプなど)をサーバに送ってもよい。
【0058】
これにより、オペレータ及び/またはサーバによる解析作業が容易になる。
【0059】
本発明による技術が実現される音声制御ボックス(voice-controlled box)を備えるシステムの概要が図1に示される。
【0060】
本システムは、
オペレータ122により制御されるリモートサーバ116;及び
複数のユーザシステム114、117、118
から構成される。
【0061】
リモートサーバ116は、通信ダウンリンク115、119、120を介しそれぞれユーザシステム114、117、118にリンクされる。これらのリンクは恒久的なものでもよいし、あるいは一時的なものでもよい。これらのリンクは当業者には既知の任意のタイプのものであってよい。またこれらのリンクはテレビで使用されるRF、衛星や有線チャンネルに基づく放送用のものでもよいし、インターネットリンクのような他のタイプのものでもよい。
【0062】
図1は、通信アップリンク121を介しサーバ116にリンクされたユーザシステム114を示す。このリンクは同様に当業者に既知の任意のタイプのもの(特に、電話、インターネットなど)であってよい。
【0063】
ユーザシステム114は、
発話者により生成される音声信号を収集するためのマイクからなる音源100;
音声認識ボックス102;
電化製品107を駆動するための制御ボックス105;
例えば、テレビ、ビデオレコーダー、携帯通信端末のような制御対象の電化製品107;
認識に失敗したと検出された表現を記憶するための記憶ユニット109;
サーバ116との相互通信を可能にするインターフェイス112;
から構成される。
【0064】
音源100は、リンク101を介し音声認識ボックス102に接続され、音声信号を表すアナログ波を音声認識ボックス102に送信する。
【0065】
音声認識ボックス102は、リンク104を介し文脈情報104(例えば、制御ボックス105により制御される電化製品107のタイプや制御コードのリスト)を抽出し、リンク103を介し制御ボックス105にコマンドを送る。
【0066】
制御ボックス105は、それの言語モデル及び辞書により認識された情報に基づき、例えば赤外線によりリンク106を介し電化製品107にコマンドを送信する。
【0067】
制御ボックス105は、認識されてない表現を単に拒絶するのでなく検出し、この認識されなかった信号をリンク108を介し記憶ユニット109に送信し、この認識されなかった表現を記憶する。
【0068】
記憶ユニット109は、リンク111を介して認識されなかった表現に関するデータをインターフェイス112に送信する。送信されたデータはその後リンク121を介してサーバ116に転送される。送信完了後、インターフェイス110は信号110を記憶ユニット109に送り、送信されたデータは消去される。
【0069】
制御ボックス105は、さらに、リンク115を介しリモートサーバからインターフェイス112が受信した補正データをリンク113を介して受信する。この補正データは言語モデル及び/または音声ユニット群の更新のため制御ボックス105に利用される。
【0070】
上述の実施例によると、音源100、音声認識ボックス102、制御ボックス105、記憶ユニット109及びインターフェイス112が1つの装置を構成し、リンク101、103、104、108、111、110、113はこの装置の内部リンクとして機能する。リンク106は典型的には無線リンクである。
【0071】
図1に示された上述の実施例の第1の変形例として、構成要素100、102、105、109、112は部分的あるいは完全に分離し、1つの装置を構成していなくてもよい。この場合、リンク101、103、104、108、111、110、113は有線あるいはそれ以外の内部リンクとして機能する。
【0072】
第2の変形例として、音源100、音声認識ボックス102、制御ボックス105、記憶ユニット109、インターフェイス112及び電化製品107が1つの装置を構成し、内部バス(リンク101、103、104、108、111、110、113、106)により相互接続される。この装置が、例えば、携帯電話や携帯通信端末であるとき、この変形例は特に有用である。
【0073】
図2は、音声認識ボックス102のような音声制御ボックスの概略図である。
【0074】
音声認識ボックス102は、外部から音響音声デコーダ(APD)200(または「フロントエンド」)により処理された音源アナログ波101を受信する。APD200は、典型的にはリンク201を介して認識エンジン203に送られる口内共鳴(oral resonance)を表すコードブックに属する実数ベクトルあるいはベクトルを生成するために、一定の間隔(典型的には10ms毎)で音源波101をサンプリングする。例えば、APD200は、「音声の認知的線形予測分析(Perceptual Linear Prediction Analysis of Speech)Hynek Hermansky, Journal of the Acoustical Society of America, pp1738-1752, Vol. 97, No. 4, 1990」による認知的線形予測(PLP)に基づいている。
【0075】
辞書202を利用して、認識エンジン203は受信した実数ベクトルを(ある語が他の語の後に続く確率を表す)隠れマルコフモデル(HMM)と言語モデルを使って解析する。認識エンジンに関しては、「音声認識のための統計的方法(Statistical Methods for Speech Recognition)Frederick Jelinek, MIT Press, 1997」において詳細な解説が与えられている。
【0076】
本実施例による言語モデルでは、(特に隠れマルコフネットワークを利用した)認識エンジン203が、アプリケーションにおいて発話者により利用可能な表現の所与の語の後にどの語が続くかを決定し、その確率を与える。これらの語はアプリケーションの語彙に属する。この語彙は小規模(10〜300語)あるいは大規模(300,000語以上)の言語モデルと無関係であってもよい。
【0077】
特許出願 PCT/FR00/03329(Thomson Multimediaによる1999年11月29日出願)において、複数の構文ブロックを備えた言語モデルが開示されている。本発明は、そこで開示されたモジュラー式の言語モデルに好適に利用される。これは、モジュールは個別に更新できるので、過度に大量のファイルをダウンロードすることを回避できるからである。
【0078】
言語モデルは、言語モデル搭載モジュール207により送信される。モジュール207は、リンク113を介してサーバから送られた言語モデル、言語モデル及び/または音声ユニット群の更新・補正情報を受信する。
【0079】
ここで、辞書202は、そこから語を参照している言語モデルに属している。従って、辞書202自身はモジュール207により読み込まれた言語モデルを介して更新及び/あるいは補正される。
【0080】
ビテビアルゴリズム(Viterbi algorithm)に基づく認識処理の実行後、認識エンジン203は、拒絶モジュール211に言語モデルに従い発せられた表現に対しベストなスコアを示す文字列の順序付けられたリストを与える。
【0081】
拒絶モジュール211は、認識エンジン203の下流の作業を行い、以下の原則の1つ以上に従い動作する。
ビテビアルゴリズムに特有の理由から、スコアがあまりに低く認識エンジン203の計算精度に関する許容限界を超えてしまうため、認識エンジン203は適切なリストを生成しないかもしれない。このとき完全な矛盾のない提案はない。従って、拒絶モジュール211が所定の許容限度以下のスコアを検出すると、表現は拒絶される。
ビテビアルゴリズムにより計算されたリストの各要素は、言語モデルによりその要素のスコアがすべての可能な表現の中で相対的に高いレベルにあるため維持された。さらに、これら各表現に関するマルコフネットワークにより、観察されているスコアと関連した表現を生成するネットワークの本来的な確率の評価が可能となる。拒絶モジュール211はこの確率を解析し、もしその値が確率に関する所定の閾値未満であれば、表現は拒絶される。
ビテビアルゴリズムにより与えられたベストの提案に対して、拒絶モジュール211はビテビアルゴリズムの展開中には考慮されてこなかった基準を使って、表現の補足的処理を実行する。例えば、母音と関係しているため発声されねばならない信号部分が、実際そうであるかどうかチェックされる。もし提示された表現がこれらの条件を満たさなければ、表現は拒絶される。
【0082】
拒絶モジュール211が表現を拒絶すると、先に示されたように、この表現は認識されなかったと判断され、拒絶された表現を示す信号が認識エンジン203に送られる。これと同時に、拒絶モジュール211は、リンク108を介して認識されなかった表現の記録要求を記憶ユニット109に送る。
【0083】
認識エンジン203は、音声サンプルの形式でAPD200から発せられた表現を認識する。認識エンジン203は、音声ユニット群を使って、マルコフモデルの形式での語の音声表示を構築する。ここで、辞書202の各語はおそらくいくつかの「フォネティゼーション(phonetization)」を有する。また同時に、認識エンジン203は、厳密な意味でより大きな複雑性あるいはより小さな複雑性をもつ表現を認識するための言語モデルを利用する。
【0084】
認識エンジン203は、認識され(すなわち、モジュール211により拒絶されていない)、かつ受信したベクトルに基づき特定された表現を、これらの表現を電化製品107により理解可能なコマンドに変換するための手段205に供給する。この手段205は、人口知能変換処理を行って、制御ボックス105に1つ以上のコマンド103を送る前に、制御ボックス105により供給された文脈104を考慮する。
【0085】
図3は、図1に示されるような図2の構成を実現する音声認識モジュールあるいは装置102を示す。
【0086】
音声認識ボックス102は、アドレスとデータバスにより相互接続された
音声インターフェイス301;
アナログデジタル変換器302;
プロセッサ304;
不揮発性メモリ305;
RAM(Random Access Memory)306;
受信モジュール312;
送信モジュール313;及び
入出力インターフェイス307;
から構成される。
【0087】
図3に示された各構成要素は当業者に既知のものであり、ここでは説明は省略される。
【0088】
また、本明細書を通じて使用される「レジスタ」という用語は、各メモリにおいて容量の小さな(数ビットのデータビットの)メモリ領域と容量の大きな(プログラム全体やトランザクションデータ系列すべての保持が可能な)メモリ領域両方を示す。
【0089】
不揮発性メモリ305(ROM)は、「prog」レジスタ308にプロセッサ304を動作させるためのプログラムを保持している。
【0090】
RAM306は、データ、変数及び処理の中間結果をレジスタの中に保持する。ここでは、簡単化のために、レジスタにはそこに保持されているデータと同じ名前が付けられる。RAM306は、
認識されなかった表現の記録「Exp_Not_Rec」が保持されているレジスタ309;
認識されなかったセンテンス「Nb_Exp_Not_Rec」のカウンタ310;及び
レジスタ311の中の言語モデル「Model_Language」;
から構成される。
【0091】
さらに、受信モジュール312と送信モジュール313は、リモートサーバ116とのデータの送受信が可能である。送受信に関する有線あるいは無線技術は、電気通信の分野の当業者には既知のものであり、さらなる詳細な説明は省略される。
【0092】
図4は、図1のシステムにおけるサーバ116を示す。
【0093】
ここで、サーバ116は任意のマン/マシーンインターフェイス(例えば、キーボードやスクリーン)404を介しオペレータ122により制御されている。
【0094】
サーバ116は、
受信機400;
分析器401;
言語モジュール及び/あるいは音声ユニット群の補正を構成するモジュール402;及び
送信機403;
から構成される。
【0095】
受信機400は、端末の送信機313と適合し、各端末からリンク121を介して認識されなかった表現と補完的データ(例えば、文脈データ)を表すデータ(例えば、記録)を受信することができる。
【0096】
分析器401は、リンク121を介して受信機400からデータを受信し、インターフェイス404を介して受信したデータを端末を操作するオペレータ122に送る。この端末には、サーバ116との対話やそれの制御のためのスクリーンとキーボード、認識されなかった表現の記録を聴くためのスピーカーやヘッドフォンが取り付けられている。
【0097】
インターフェイス404を介して、分析器401はオペレータ122からの情報の受信が可能である。この情報は以下を示すものである。
言語モデルによりカバーされない認識されなかった表現が理解されないままになっている。この表現が端末に対するアプリケーション内での意味を持っていない。この表現が端末と関連付けられていない。(従って、この表現は言語モデルに含まれるべきでない。)この表現はこの後言語モデルの補正のため無視され、分析器401により廃棄される。
認識されなかった表現は厳密な意味で言語モデルに属する。(これは純粋な認識問題に関するものである。)この場合、厳密な意味で、この表現は言語モデルでなく、音声ユニット群の修正に関係している。
オペレーターによる表現内容の特定の後、言語モデルに属さず、端末に対して意図した意味を有する認識されなかった表現を、例えば、制御コードの形式に変換する。このことは厳密な意味で言語モデルの補正に関係している。
【0098】
上記第2及び第3の解決法を組み合わせることが可能である。この場合、これは、厳密な意味で音声ユニット群と言語モデル両方の修正に関係するものである。
【0099】
本実施例は、認識されなかった表現の手動での処理に対応している。本実施例によると、オペレーター122は認識されなかった表現を聞き、それが拒絶された理由を解析する。オペレーター122は、この表現が言語モデルに属しているかどうか判断する。その表現が言語モデルに属している場合、オペレーター122は表現を分析し、本来的な認識問題(言語モデルに属し、認識されるべきであったにもかかわらず、ノイズや発話者のなまりのような他の理由のため認識されなかった表現)を特定する。
【0100】
本実施例の第1の変形例では、処理は自動化され、オペレーターの介入は必要とされない。この場合、サーバ116と分析器401は、端末と比較して大きな計算パワーを持つ必要がなる。この変形例では、分析器401は端末よりもより適切な方法で、例えば、より高性能の言語モデル及び/またはより複雑な音声ユニット群を利用することによって、認識されなかった各表現を解析する。ここでは、分析器401は、(しばしば発話者のコマンドへの迅速な応答を要する)端末のようなリアルタイムの計算要求に従うことなく、よりも長い処理時間を必要とする認識を許容する。
【0101】
本実施例の第2の変形例では、処理は半自動化され、オペレータの介入は分析器401では解決できない場合に限られる。
【0102】
上述された好適実施例では、サーバ116の基本構造は、図3に示された端末と同様の構成とされる。サーバ116は、アドレスとデータバスにより相互接続された;
プロセッサ;
RAM;
不揮発性メモリ;
適当な送信モジュール;
受信モジュール;及び
マン/マシーンリンクアップインターフェイス;
から構成される。
【0103】
図5は、図2に示された認識エンジン203により実行される表現の判定処理及び認識されなかった表現データの記録処理に関するフローチャートを示す。図5によると、最初のステップである初期化500において、マイクロプロセッサ304はプログラム308の実行を開始し、RAM306の変数を初期化する。
【0104】
ステップ501において、マイクロプロセッサ304は、表現が入力されるのを待ち、発話者からの表現を受信する。
【0105】
ステップ502において、受信した表現の音声認識処理を実行した後、マイクロプロセッサ304は図2の拒絶モジュール211に関して与えられた1つ以上の基準に従い、その表現が認識されたかどうか判定する。
【0106】
もし認識されていれば、ステップ504において、端末102は受信された表現に適用された音声認識の結果を考慮し、コマンドのような適切なアクションを実行する。
【0107】
もし認識されていなければ、ステップ503において、認識されなかった表現は圧縮され、図6に示されたリモートサーバ116への送信のため、記憶ユニット109に記録される。
【0108】
ステップ503あるいは504の完了後、次の表現の入力を待つステップ501が繰り返される。
【0109】
図6は、図2の拒絶モジュールにより実行される認識されなかった表現データの送信処理に関するフローチャートである。最初のステップである初期化600において、マイクロプロセッサ304はプログラム308の実行を開始し、RAM306の変数を初期化する。
【0110】
ステップ601において、マイクロプロセッサ304は音声認識モジュール102により認識されなかった表現の入力を待ち、認識されなかった表現の記録を受信する。
【0111】
ステップ602において、端末114は電気通信の分野の当業者には既知の方法に従い、リモートサーバ116に接続する。
【0112】
ステップ603において、認識されなかった表現の記録が整形され、リモートサーバ116に送信される。
【0113】
ステップ604において、端末114はリモートサーバ116との接続を切断し、リモートサーバ116と記憶ユニット109とのインターフェイス112の間で、表現の記録の送信を示す認識されなかった表現に対応するデータを記憶するための信号が送信される。これらの表現に対応するデータは、その後記憶ユニット109から消去される。
【0114】
続いて、ステップ601が繰り返される。
【0115】
図7は、図2の言語モデルを読み取るためのモジュール207により実現される補正データの受信処理に関するフローチャートを示す。
【0116】
最初のステップである初期化700の後、ステップ701において、端末はサーバ116により複数の端末に配信される補正データの入力を待つ。
【0117】
ステップ702において、端末は、音声認識モジュールにより利用される言語モデル及び/または音声ユニット群を更新するため、補正データを考慮する。この補正データに関しては、
言語モデル及び/または音声ユニット群の既存データの取り替え;
既存データの修正;
既存データの補強;及び/または
既存データの消去;
が可能である。
【0118】
ステップ702の実行後、ステップ703が繰り返される。
【0119】
図8は、図4に示されるリモートサーバにおいて実行される受信処理及び補正データ処理に関するフローチャートである。
【0120】
最初のステップ800において、パラメータが初期化され、サーバ管理のためのプログラムが始動される。そして、サーバ116は端末からの接続要求(図6のステップ602の実行)を待ち、電機通信の分野の当業者には既知の方法により端末との接続が確立される。
【0121】
ステップ802において、サーバ116は、前述のステップ603を実行する接続された端末からのデータを受信する。このデータには、端末により拒絶された1つ以上の表現の記録が、これらの表現は端末において実行された音声認識モジュールにより認識されなかったため、含まれている。すべてのデータが受信されると、端末とサーバ116との接続は切断される。
【0122】
ステップ803において、サーバ116は受信した各表現記録を、オペレータ122により手動で、あるいは図4に関して示された様々な変形例に従い自動的にあるいは半自動的に処理する。
【0123】
ステップ804において、サーバ116は、受信した1つ以上の表現が理解可能であるか、そしてこの表現を送信した端末と関連性があるかどうか判定する。その後、言語モデル及び/または音声ユニットが更新される。
【0124】
もし判定結果が否定されれば、ステップ801が繰り返される。
【0125】
もし判定結果が肯定されれば、サーバ116は、いくつかの形式を取りうる言語モデルの補正を構成し、補正データの受信後、端末において(前述の)ステップ607を可能にする。この補正データは、
補正を特定する標識(特に、置換、修正、補強あるいは消去);及び
標識の機能としての補正データ;
から構成される。
【0126】
ここで、もし言語モデルが複数の構文ブロックから構成される場合(特に、上述の特許 PCT/FR00/03329 のような言語モデルの場合)、各モジュールは別々に補正可能である。この場合、補正データはモジュールの標識と補正されるモジュールから構成される。
【0127】
ステップ806において、サーバ116は、ステップ607により言語モデル及び/あるいは音声ユニット群を更新できる1つあるいは好適には複数の端末群に補正データを配信する。
【0128】
その後、ステップ801が繰り返される。
【0129】
この手順は複数回繰り返されてもよい。またアプリケーションは新たな質問を加えることによりアップグレードすることも可能である。
【0130】
もちろん本発明はここまで述べられた実施例に限定されるものではない。
【0131】
特に、当業者は本発明を実現する端末の定義を変更することができるであろう。本発明は、音声認識処理を実行する任意の装置及び/あるいはモジュール(例えば、マルチメディア端末、テレビ、ビデオレコーダ、マルチメディアデジタルでコーダ(あるいはセットトップボックス)、オーディオ装置、ビデオ装置、固定端末、携帯端末)に関するものである。
【0132】
同様に、本発明は、任意のタイプのリモートサーバ(例えば、インターネットサーバ、テレビ番組放送装置に接続された装置、移動通信ネットワークに接続された装置、サービスプロバイダー装置など)に関する。
【0133】
さらに、本発明によると、認識されなかったセンテンスに対応するデータの送信チャンネルと、言語モデル及び/または音声ユニット群を補正するためのデータの送信チャンネルは任意のものであってよく、特に、
RF送信パス;
衛星送信パス;
テレビ配信ネットワークチャンネル;
インターネットタイプネットワークチャンネル;
電話ネットワークチャンネル;
携帯電話ネットワークチャンネル;
携帯型メディア;
を含む。
【0134】
さらに、本発明は認識されないセンテンスだけでなく、任意のタイプの音声表現、例えば、1つ以上のセンテンス、分離した語、分離していない語、フレーズ、マシーンとユーザ間の対話を可能にする音声コードなどに関する。このような口頭による表現は、コマンドだけでなく、マシーンとユーザ間の対話を形成する任意のタイプのデータ、例えば、ユーザによりマシーンに送信される情報データ、コンフィギュレーションデータ、プログラミングデータなどと関連していてもよい。
【0135】
本発明による言語モデルの更新方法は、厳密な意味での音声認識処理に適用されるだけでなく、スペルミスやタイプミスを支援するテキスト入力認識処理にも上述のマルコフモデルや厳密な意味での言語モデルに基づく適用が可能である。
【0136】
本発明は、ハードウェア的構成に限定されるものでなく、コンピュータプログラムの指示により実現されてもよいし、ハードウェアとソフトウェアの組み合わせにより実現されてもよい。本発明が部分的あるいは完全にソフトウェア的に実現される場合、対応する指示系列は取り出し可能な記憶手段(例えば、ディスケット、CD-ROM、DVD-ROMなど)に保持されてもよい。このような記憶手段はコンピュータやマイクロプロセッサにより部分的あるいは完全に読み出し可能なものである。
【図面の簡単な説明】
【図1】 図1は、本発明による技術が実現される音声制御ボックスを備えたシステムの概略図である。
【図2】 図2は、図1のシステムの音声認識ボックスの概略図である。
【図3】 図3は、図2の構成を実現する音声認識ボックスの電子図である。
【図4】 図4は、図1のシステムのサーバの概略図である。
【図5】 図5は、図2の認識エンジンにより実行される表現のチェック処理と認識されなかった表現に関するデータの記録処理のためのフローチャートである。
【図6】 図6は、図2の拒絶モジュールにより実行される認識されなかった表現に関するデータの送信処理のためのフローチャートである。
【図7】 図7は、図2の言語モデルを搭載したモジュールにより実行される補正情報の受信処理のためのフローチャートである。
【図8】 図8は、図4のリモートサーバにおいて実行される補正情報の受信処理と補正情報の処理のためのフローチャートである。
Claims (5)
- 言語モデルを利用した複数の端末からなる端末群において実現される音声認識方法であって、
前記端末の1つにおいて、少なくとも1つの認識されない表現を検出し、前記認識されない表現を表すデータを前記端末に記録することをトリガーするステップと、
前記認識されない表現を検出するステップと、前記認識されない表現を表すデータを記録するステップとを繰り返すステップと、
前記端末により第1送信チャンネルを介して前記記録されたデータの全体をリモートサーバに送信するステップと、
前記リモートサーバのレベルにおいて前記データを解析し、前記認識されない表現を少なくとも一部を考慮して前記言語モデルを訂正する情報を生成するステップと、
前記認識されない表現の少なくとも一部の以降における認識が可能になるよう、第2送信チャンネルを介して前記リモートサーバから前記端末群に前記訂正する情報を送信するステップと、
を有する方法。 - 請求項1記載の方法であって、前記認識されない表現を表す前記データは、音声信号を記述するパラメータを表す圧縮された音声記録を有する方法。
- 請求項1または2記載の方法であって、前記端末により送信するステップにおいて、前記端末は前記リモートサーバに、表現が認識されなかったとき、前記音声認識方法の使用状況に関する情報と、認識されない表現を発した発話者に関する情報とからなるグループからなる少なくとも1つの情報アイテムを送信する方法。
- 請求項1乃至3何れか1項記載の方法であって、さらに、前記記録されたデータ及び/または前記訂正する情報の暗号化及び/またはスクランブル化を実行するステップを備える方法。
- 言語モデルを利用した複数のリモート端末からなる端末群において認識処理が実現される音声認識サーバであって、
前記端末群の一部を構成し、音声認識処理中に認識されない表現を検出した複数の端末によって前記認識されない複数の表現を表すデータを受信する受信機と、
前記受信されたデータの前記音声認識サーバのレベルでの解析に基づき得られる訂正情報の全体を前記端末群の一部を構成する各リモート端末に送信する送信機と、
を有し、
前記訂正情報は、前記端末群の各端末による前記認識されない表現の以降の認識を可能にするため前記言語モデルの訂正を可能にするサーバ。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0101910A FR2820872B1 (fr) | 2001-02-13 | 2001-02-13 | Procede, module, dispositif et serveur de reconnaissance vocale |
FR01/01910 | 2001-02-13 | ||
PCT/FR2002/000518 WO2002065454A1 (fr) | 2001-02-13 | 2002-02-12 | Procede, module, dispositif et serveur de reconnaissance vocale |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004530149A JP2004530149A (ja) | 2004-09-30 |
JP4751569B2 true JP4751569B2 (ja) | 2011-08-17 |
Family
ID=8859932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002565299A Expired - Fee Related JP4751569B2 (ja) | 2001-02-13 | 2002-02-12 | 音声認識のための処理、モジュール、装置及びサーバ |
Country Status (10)
Country | Link |
---|---|
US (1) | US7983911B2 (ja) |
EP (1) | EP1362343B1 (ja) |
JP (1) | JP4751569B2 (ja) |
KR (1) | KR100908358B1 (ja) |
CN (1) | CN1228762C (ja) |
DE (1) | DE60222093T2 (ja) |
ES (1) | ES2291440T3 (ja) |
FR (1) | FR2820872B1 (ja) |
MX (1) | MXPA03007178A (ja) |
WO (1) | WO2002065454A1 (ja) |
Families Citing this family (67)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030182113A1 (en) * | 1999-11-22 | 2003-09-25 | Xuedong Huang | Distributed speech recognition for mobile communication devices |
JP4267385B2 (ja) | 2003-06-30 | 2009-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム |
US8954325B1 (en) * | 2004-03-22 | 2015-02-10 | Rockstar Consortium Us Lp | Speech recognition in automated information services systems |
US7542904B2 (en) * | 2005-08-19 | 2009-06-02 | Cisco Technology, Inc. | System and method for maintaining a speech-recognition grammar |
EP1760566A1 (en) * | 2005-08-29 | 2007-03-07 | Top Digital Co., Ltd. | Voiceprint-lock system for electronic data |
US20070136069A1 (en) * | 2005-12-13 | 2007-06-14 | General Motors Corporation | Method and system for customizing speech recognition in a mobile vehicle communication system |
US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
WO2007117626A2 (en) | 2006-04-05 | 2007-10-18 | Yap, Inc. | Hosted voice recognition system for wireless devices |
US8214213B1 (en) * | 2006-04-27 | 2012-07-03 | At&T Intellectual Property Ii, L.P. | Speech recognition based on pronunciation modeling |
EP2033489B1 (en) | 2006-06-14 | 2015-10-28 | Personics Holdings, LLC. | Earguard monitoring system |
TWI321313B (en) * | 2007-03-03 | 2010-03-01 | Ind Tech Res Inst | Apparatus and method to reduce recognization errors through context relations among dialogue turns |
US11750965B2 (en) | 2007-03-07 | 2023-09-05 | Staton Techiya, Llc | Acoustic dampening compensation system |
US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
US8352264B2 (en) | 2008-03-19 | 2013-01-08 | Canyon IP Holdings, LLC | Corrective feedback loop for automated speech recognition |
US11683643B2 (en) | 2007-05-04 | 2023-06-20 | Staton Techiya Llc | Method and device for in ear canal echo suppression |
US11856375B2 (en) | 2007-05-04 | 2023-12-26 | Staton Techiya Llc | Method and device for in-ear echo suppression |
US8335829B1 (en) | 2007-08-22 | 2012-12-18 | Canyon IP Holdings, LLC | Facilitating presentation by mobile device of additional content for a word or phrase upon utterance thereof |
US9053489B2 (en) | 2007-08-22 | 2015-06-09 | Canyon Ip Holdings Llc | Facilitating presentation of ads relating to words of a message |
US9129599B2 (en) * | 2007-10-18 | 2015-09-08 | Nuance Communications, Inc. | Automated tuning of speech recognition parameters |
US8326631B1 (en) * | 2008-04-02 | 2012-12-04 | Verint Americas, Inc. | Systems and methods for speech indexing |
JP5327838B2 (ja) * | 2008-04-23 | 2013-10-30 | Necインフロンティア株式会社 | 音声入力分散処理方法及び音声入力分散処理システム |
US8600067B2 (en) | 2008-09-19 | 2013-12-03 | Personics Holdings Inc. | Acoustic sealing analysis system |
US8374872B2 (en) * | 2008-11-04 | 2013-02-12 | Verizon Patent And Licensing Inc. | Dynamic update of grammar for interactive voice response |
WO2011052412A1 (ja) * | 2009-10-28 | 2011-05-05 | 日本電気株式会社 | 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体 |
CA2799848A1 (en) * | 2010-05-19 | 2011-11-24 | Sanofi-Aventis Deutschland Gmbh | Modification of operational data of an interaction and/or instruction determination process |
US20110307250A1 (en) * | 2010-06-10 | 2011-12-15 | Gm Global Technology Operations, Inc. | Modular Speech Recognition Architecture |
US9484018B2 (en) * | 2010-11-23 | 2016-11-01 | At&T Intellectual Property I, L.P. | System and method for building and evaluating automatic speech recognition via an application programmer interface |
US9472185B1 (en) | 2011-01-05 | 2016-10-18 | Interactions Llc | Automated recognition system for natural language understanding |
US9245525B2 (en) | 2011-01-05 | 2016-01-26 | Interactions Llc | Automated speech recognition proxy system for natural language understanding |
JP5837341B2 (ja) * | 2011-06-24 | 2015-12-24 | 株式会社ブリヂストン | 路面状態判定方法とその装置 |
GB2493413B (en) | 2011-07-25 | 2013-12-25 | Ibm | Maintaining and supplying speech models |
JP2013127536A (ja) * | 2011-12-19 | 2013-06-27 | Sharp Corp | 音声出力装置、当該音声出力装置を備える通信端末、当該音声出力装置を備える補聴器、音声出力装置を制御するためのプログラム、音声出力装置の使用者に応じた音声を提供するための方法、および、音声出力装置の変換データを更新するためのシステム |
AU2018202888B2 (en) * | 2013-01-17 | 2020-07-02 | Samsung Electronics Co., Ltd. | Image processing apparatus, control method thereof, and image processing system |
JP6025785B2 (ja) * | 2013-07-08 | 2016-11-16 | インタラクションズ リミテッド ライアビリティ カンパニー | 自然言語理解のための自動音声認識プロキシシステム |
US9305554B2 (en) * | 2013-07-17 | 2016-04-05 | Samsung Electronics Co., Ltd. | Multi-level speech recognition |
DE102013216427B4 (de) * | 2013-08-20 | 2023-02-02 | Bayerische Motoren Werke Aktiengesellschaft | Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung |
EP3040985B1 (en) * | 2013-08-26 | 2023-08-23 | Samsung Electronics Co., Ltd. | Electronic device and method for voice recognition |
EP2851896A1 (en) | 2013-09-19 | 2015-03-25 | Maluuba Inc. | Speech recognition using phoneme matching |
DE102013219649A1 (de) * | 2013-09-27 | 2015-04-02 | Continental Automotive Gmbh | Verfahren und System zum Erstellen oder Ergänzen eines benutzerspezifischen Sprachmodells in einem mit einem Endgerät verbindbaren lokalen Datenspeicher |
US10043534B2 (en) | 2013-12-23 | 2018-08-07 | Staton Techiya, Llc | Method and device for spectral expansion for an audio signal |
DE102014200570A1 (de) * | 2014-01-15 | 2015-07-16 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren und System zur Erzeugung eines Steuerungsbefehls |
US9601108B2 (en) * | 2014-01-17 | 2017-03-21 | Microsoft Technology Licensing, Llc | Incorporating an exogenous large-vocabulary model into rule-based speech recognition |
CN103956168A (zh) * | 2014-03-29 | 2014-07-30 | 深圳创维数字技术股份有限公司 | 一种语音识别方法、装置及终端 |
US10749989B2 (en) | 2014-04-01 | 2020-08-18 | Microsoft Technology Licensing Llc | Hybrid client/server architecture for parallel processing |
KR102225404B1 (ko) * | 2014-05-23 | 2021-03-09 | 삼성전자주식회사 | 디바이스 정보를 이용하는 음성인식 방법 및 장치 |
JP2016009193A (ja) * | 2014-06-23 | 2016-01-18 | ハーマン インターナショナル インダストリーズ インコーポレイテッド | ユーザ適合音声認識 |
US10163453B2 (en) | 2014-10-24 | 2018-12-25 | Staton Techiya, Llc | Robust voice activity detector system for use with an earphone |
WO2016067418A1 (ja) * | 2014-10-30 | 2016-05-06 | 三菱電機株式会社 | 対話制御装置および対話制御方法 |
US9711141B2 (en) * | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
KR102325724B1 (ko) * | 2015-02-28 | 2021-11-15 | 삼성전자주식회사 | 다수의 기기에서 텍스트 데이터 동기화 |
US20160274864A1 (en) * | 2015-03-20 | 2016-09-22 | Google Inc. | Systems and methods for enabling user voice interaction with a host computing device |
CN104758075B (zh) * | 2015-04-20 | 2016-05-25 | 郑洪� | 基于语音识别控制的家用口腔护理工具 |
US10325590B2 (en) * | 2015-06-26 | 2019-06-18 | Intel Corporation | Language model modification for local speech recognition systems using remote sources |
US10616693B2 (en) | 2016-01-22 | 2020-04-07 | Staton Techiya Llc | System and method for efficiency among devices |
US9858918B2 (en) * | 2016-03-15 | 2018-01-02 | GM Global Technology Operations LLC | Root cause analysis and recovery systems and methods |
US9761227B1 (en) * | 2016-05-26 | 2017-09-12 | Nuance Communications, Inc. | Method and system for hybrid decoding for enhanced end-user privacy and low latency |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
US10229682B2 (en) | 2017-02-01 | 2019-03-12 | International Business Machines Corporation | Cognitive intervention for voice recognition failure |
US10636423B2 (en) * | 2018-02-21 | 2020-04-28 | Motorola Solutions, Inc. | System and method for managing speech recognition |
CN108683937B (zh) * | 2018-03-09 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | 智能电视的语音交互反馈方法、系统及计算机可读介质 |
US10951994B2 (en) | 2018-04-04 | 2021-03-16 | Staton Techiya, Llc | Method to acquire preferred dynamic range function for speech enhancement |
KR102544250B1 (ko) * | 2018-07-03 | 2023-06-16 | 삼성전자주식회사 | 소리를 출력하는 디바이스 및 그 방법 |
US11087739B1 (en) * | 2018-11-13 | 2021-08-10 | Amazon Technologies, Inc. | On-device learning in a hybrid speech processing system |
CN110473530B (zh) * | 2019-08-21 | 2021-12-07 | 北京百度网讯科技有限公司 | 指令分类方法、装置、电子设备及计算机可读存储介质 |
KR102332565B1 (ko) * | 2019-12-13 | 2021-11-29 | 주식회사 소리자바 | 음성 인식 힌트 적용 장치 및 방법 |
CN113052191A (zh) * | 2019-12-26 | 2021-06-29 | 航天信息股份有限公司 | 一种神经语言网络模型的训练方法、装置、设备及介质 |
US11552966B2 (en) | 2020-09-25 | 2023-01-10 | International Business Machines Corporation | Generating and mutually maturing a knowledge corpus |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5384892A (en) * | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
ZA948426B (en) * | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
JPH07222248A (ja) | 1994-02-08 | 1995-08-18 | Hitachi Ltd | 携帯型情報端末における音声情報の利用方式 |
US5852801A (en) * | 1995-10-04 | 1998-12-22 | Apple Computer, Inc. | Method and apparatus for automatically invoking a new word module for unrecognized user input |
US6058363A (en) * | 1997-01-02 | 2000-05-02 | Texas Instruments Incorporated | Method and system for speaker-independent recognition of user-defined phrases |
US6173259B1 (en) * | 1997-03-27 | 2001-01-09 | Speech Machines Plc | Speech to text conversion |
US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
US5953700A (en) * | 1997-06-11 | 1999-09-14 | International Business Machines Corporation | Portable acoustic interface for remote access to automatic speech/speaker recognition server |
WO1999018556A2 (en) * | 1997-10-08 | 1999-04-15 | Koninklijke Philips Electronics N.V. | Vocabulary and/or language model training |
US5937385A (en) * | 1997-10-20 | 1999-08-10 | International Business Machines Corporation | Method and apparatus for creating speech recognition grammars constrained by counter examples |
US6195641B1 (en) | 1998-03-27 | 2001-02-27 | International Business Machines Corp. | Network universal spoken language vocabulary |
US6157910A (en) * | 1998-08-31 | 2000-12-05 | International Business Machines Corporation | Deferred correction file transfer for updating a speech file by creating a file log of corrections |
US6185535B1 (en) * | 1998-10-16 | 2001-02-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Voice control of a user interface to service applications |
US6275803B1 (en) * | 1999-02-12 | 2001-08-14 | International Business Machines Corp. | Updating a language model based on a function-word to total-word ratio |
US6195636B1 (en) * | 1999-02-19 | 2001-02-27 | Texas Instruments Incorporated | Speech recognition over packet networks |
WO2000058942A2 (en) | 1999-03-26 | 2000-10-05 | Koninklijke Philips Electronics N.V. | Client-server speech recognition |
US6408272B1 (en) * | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
US6463413B1 (en) * | 1999-04-20 | 2002-10-08 | Matsushita Electrical Industrial Co., Ltd. | Speech recognition training for small hardware devices |
US6360201B1 (en) * | 1999-06-08 | 2002-03-19 | International Business Machines Corp. | Method and apparatus for activating and deactivating auxiliary topic libraries in a speech dictation system |
JP2001013985A (ja) | 1999-07-01 | 2001-01-19 | Meidensha Corp | 音声認識システムの辞書管理方式 |
US6484136B1 (en) * | 1999-10-21 | 2002-11-19 | International Business Machines Corporation | Language model adaptation via network of similar users |
US20030182113A1 (en) * | 1999-11-22 | 2003-09-25 | Xuedong Huang | Distributed speech recognition for mobile communication devices |
JP3728177B2 (ja) * | 2000-05-24 | 2005-12-21 | キヤノン株式会社 | 音声処理システム、装置、方法及び記憶媒体 |
JP2003036088A (ja) * | 2001-07-23 | 2003-02-07 | Canon Inc | 音声変換の辞書管理装置 |
US7016849B2 (en) * | 2002-03-25 | 2006-03-21 | Sri International | Method and apparatus for providing speech-driven routing between spoken language applications |
-
2001
- 2001-02-13 FR FR0101910A patent/FR2820872B1/fr not_active Expired - Fee Related
-
2002
- 2002-02-12 KR KR1020037010428A patent/KR100908358B1/ko active IP Right Grant
- 2002-02-12 US US10/467,586 patent/US7983911B2/en not_active Expired - Fee Related
- 2002-02-12 WO PCT/FR2002/000518 patent/WO2002065454A1/fr active IP Right Grant
- 2002-02-12 MX MXPA03007178A patent/MXPA03007178A/es active IP Right Grant
- 2002-02-12 DE DE60222093T patent/DE60222093T2/de not_active Expired - Lifetime
- 2002-02-12 JP JP2002565299A patent/JP4751569B2/ja not_active Expired - Fee Related
- 2002-02-12 CN CNB028049195A patent/CN1228762C/zh not_active Expired - Fee Related
- 2002-02-12 ES ES02703691T patent/ES2291440T3/es not_active Expired - Lifetime
- 2002-02-12 EP EP02703691A patent/EP1362343B1/fr not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1362343A1 (fr) | 2003-11-19 |
JP2004530149A (ja) | 2004-09-30 |
US20050102142A1 (en) | 2005-05-12 |
WO2002065454A1 (fr) | 2002-08-22 |
EP1362343B1 (fr) | 2007-08-29 |
CN1491412A (zh) | 2004-04-21 |
CN1228762C (zh) | 2005-11-23 |
FR2820872A1 (fr) | 2002-08-16 |
US7983911B2 (en) | 2011-07-19 |
MXPA03007178A (es) | 2003-12-04 |
FR2820872B1 (fr) | 2003-05-16 |
ES2291440T3 (es) | 2008-03-01 |
KR20030076661A (ko) | 2003-09-26 |
KR100908358B1 (ko) | 2009-07-20 |
DE60222093T2 (de) | 2008-06-05 |
DE60222093D1 (de) | 2007-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4751569B2 (ja) | 音声認識のための処理、モジュール、装置及びサーバ | |
CN110473531B (zh) | 语音识别方法、装置、电子设备、系统及存储介质 | |
US7848926B2 (en) | System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words | |
KR101183344B1 (ko) | 사용자 정정들을 이용한 자동 음성 인식 학습 | |
US9117450B2 (en) | Combining re-speaking, partial agent transcription and ASR for improved accuracy / human guided ASR | |
EP2008189B1 (en) | Automatic language model update | |
US5732187A (en) | Speaker-dependent speech recognition using speaker independent models | |
JP5706384B2 (ja) | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム | |
JP5149107B2 (ja) | 音響処理装置およびプログラム | |
US20070118373A1 (en) | System and method for generating closed captions | |
JP4869268B2 (ja) | 音響モデル学習装置およびプログラム | |
CN113314124B (zh) | 文本输出方法及系统、存储介质、电子装置 | |
JP2002091477A (ja) | 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
WO2000049599A1 (fr) | Traducteur de sons vocaux, procede de traduction de sons vocaux et support d'enregistrement sur lequel est enregistre un programme de commande de traduction de sons vocaux | |
CN113327609A (zh) | 用于语音识别的方法和装置 | |
WO2006083020A1 (ja) | 抽出された音声データを用いて応答音声を生成する音声認識システム | |
US7624010B1 (en) | Method of and system for improving accuracy in a speech recognition system | |
US20020087317A1 (en) | Computer-implemented dynamic pronunciation method and system | |
JP5271299B2 (ja) | 音声認識装置、音声認識システム、及び音声認識プログラム | |
Rodríguez et al. | Computer assisted transcription of speech | |
US20030105632A1 (en) | Syntactic and semantic analysis of voice commands | |
US7206738B2 (en) | Hybrid baseform generation | |
JP2001013992A (ja) | 音声理解装置 | |
US20240161739A1 (en) | System and method for hybrid generation of text from audio | |
EP1100075A1 (en) | Method for the construction of a continuous speech recognizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070807 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071023 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080123 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090507 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20090616 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20090717 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20101029 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20101104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110329 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110523 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4751569 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140527 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |