[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4498902B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP4498902B2
JP4498902B2 JP2004346788A JP2004346788A JP4498902B2 JP 4498902 B2 JP4498902 B2 JP 4498902B2 JP 2004346788 A JP2004346788 A JP 2004346788A JP 2004346788 A JP2004346788 A JP 2004346788A JP 4498902 B2 JP4498902 B2 JP 4498902B2
Authority
JP
Japan
Prior art keywords
voice
state
input means
voice command
manual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004346788A
Other languages
English (en)
Other versions
JP2006154476A (ja
Inventor
悠希 住吉
玲子 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2004346788A priority Critical patent/JP4498902B2/ja
Publication of JP2006154476A publication Critical patent/JP2006154476A/ja
Application granted granted Critical
Publication of JP4498902B2 publication Critical patent/JP4498902B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

この発明は、例えばナビゲーションシステムを音声で操作するために使用される音声認識装置に関し、特にその操作性を向上させる技術に関する。
従来、ユーザが発話した音声を認識して認識結果を出力する音声認識装置が知られている。このような音声認識装置として、例えば、特許文献1は、音声によるコマンド入力の利用促進を図るためのコマンド受付装置を開示している。このコマンド受付装置は、タッチパネルやリモコン等による手動操作と音声操作の両方を受け付けることができ、音声入力可能なコマンドがスイッチ装置等を介して手動入力された場合には、音声認識機能を用いてもそれらのコマンドを認識できるため、音声によるコマンド入力ができる旨を、例えば表示装置の表示画面上に適応画面とコマンドを表示してユーザに案内(教示)する。例えば、手動入力操作でメニュー画面を表示させた場合であれば、『音声入力で操作できます。“地図画面”で「メニュー画面」とお話し下さい。』と表示する。音声ガイドであれば、スピーカから同じ内容を発声して案内する。このような案内があれば、次回からは、相対的に操作が面倒であると考えられる手動入力等の入力方法に代えて音声入力による簡便なコマンド入力方法をユーザが採用することが期待される。
また、特許文献2は、キー入力操作または音声入力によって自動車等の現在位置を地図と共に通知装置に通知できる走行位置表示装置を開示している。この走行位置表示装置は、音声認識手段の変換結果をキー入力手段から入力されたキーイベントと関連付けて音声コマンドとして登録する音声コマンド登録手段を備えている。これにより、ユーザの指定した任意のキー操作列を1つの音声コマンドに登録することにより、認識できる音声を拡張することができる。
特開2003−114698号公報 特開2001−117586号公報
しかしながら、上述した従来の音声認識装置では、手動操作に対応する音声コマンドが存在するか否かのみを判断し、手動操作で入力したコマンドが音声によっても入力可能な場合には、音声コマンドをユーザに提示するので、目的を達成するまでに複数ステップの手動操作による入力が必要となる場合に、目的を達成するまでの途中段階の各ステップで音声コマンドが提示される。その結果、ユーザが目的を達成するまでの一連の音声操作方法を理解できないという問題がある。
また、従来の音声認識装置では、手動操作に対応する音声コマンドが存在するか否かのみを判断して、ユーザに音声コマンドを提示するため、音声対話機能を有することにより音声コマンドを覚える必要がない場合であっても音声コマンドが提示される。その結果、ユーザは不要な音声コマンドを覚えてしまうという問題がある。
さらに、従来の音声認識装置では、常に全ての音声認識辞書が有効状態に設定されるため、ユーザが覚えているか、または曖昧に覚えていて試しに発話した音声コマンドを誤認識するという問題、および発話した音声コマンドが本当に存在するか否か判断できないという問題がある。
この発明は、上述した諸問題を解消するためになされたものであり、その課題は、機器の音声操作に好適な音声コマンドをユーザに提示できる操作性に優れた音声認識装置を提供することにある。
この発明に係る音声認識装置は、音声を入力する音声入力手段と、音声入力手段から入力された音声を音声コマンドとして認識する音声認識手段と、手動操作により入力を行う手動入力手段と、手動入力手段の手動操作により生じた状態が所期の目的が達成された目的達成状態であるかどうかを記憶した状態管理テーブルと、手動入力手段の手動操作により生じた状態と音声入力手段から入力される音声コマンドとの対応関係を記憶した音声コマンド対応表と、手動入力手段の手動操作により順次生じた状態を状態管理テーブルの内容と照合して目的達成状態になったことを判断した時に、手動入力手段の手動操作により生じた目的達成状態に対応する音声コマンドが音声コマンド対応表に存在すれば、該音声コマンドによって手動入力手段の手動操作に対応する機能を実現できる旨を表すメッセージを生成する制御手段と、制御手段で生成されたメッセージを出力する出力手段とを備え、制御手段は、手動入力手段が手動操作されない時間を計測するタイマ部を備え、手動入力手段の手動操作により順次生じた状態を状態管理テーブルの内容と照合して目的達成状態になったことを判断する前に、タイマ手段によって手動入力手段が一定時間以上操作されなかったことが計測された時は、その時点までに手動入力手段の手動操作により生じた状態に対応する音声コマンドが音声コマンド対応表に存在すれば、該音声コマンドによって手動入力手段の手動操作に対応する機能を実現できる旨を表すメッセージを生成する
この発明によれば、手動操作と音声コマンドによる音声操作との両方が可能であり、所期の目的を達成するために複数回の手動操作を行った場合に、手動入力手段の手動操作により順次生じた状態が目的達成状態になった時に、その目的達成状態に対応する音声コマンドが存在すれば、該音声コマンドによって手動入力手段の手動操作に対応する機能を実現できる旨を表すメッセージを生成して出力する。従って、目的達成状態に至る途中段階では、手動操作に対応する音声コマンドが存在しても出力されないので、ユーザは目的達成のために最適な音声コマンドを理解することができ、目的達成までの一連の音声操作方法の理解が容易になる。その結果、機器の音声操作に好適な音声コマンドをユーザに提示できる操作性に優れた音声認識装置を提供できる。また、当該音声認識装置は、目的を達成するためにリモコンを操作している途中で、一定時間以上操作されなかった場合に、その状態を目的達成状態として、その状態に至るまでの手動操作に対応する音声コマンドをユーザに提示するように構成したので、任意の状態に対しても、ユーザは手動操作に対応する音声コマンドを知ることができる。

以下、この発明の実施の形態を、図面を参照しながら詳細に説明する。
実施の形態1.
この発明の実施の形態1に係る音声認識装置は、手動入力の途中段階では音声コマンドを提示せず、目的達成状態に至ったときにユーザに音声コマンドを提示するようにしたものである。
図1は、この発明の実施の形態1に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、音声認識処理装置1、リモートコントローラ(以下、「リモコン」と略する)2、マイクロフォン(以下、「マイク」と略する)3、モニタ4およびスピーカ5から構成されている。
リモコン2は、音声認識装置を手動によって操作するために使用される。このリモコン2は、キー(図示は省略する)の操作に応じて該キーに対応するキーコードを生成し、例えば赤外線により音声認識処理装置1に送る。なお、手動操作に使用する機器としては、リモコン2の代わりに、タッチパネル、押釦スイッチといった他の入力手段を用いることもできる。マイク3は、音声認識装置を音声によって操作するために使用される。このマイク3は、ユーザによって発話された音声を電気信号に変換し、アナログの音声信号として音声認識処理装置1に送る。
モニタ4は、音声認識処理装置1から送られてくるアナログの映像信号に応じて画像やテロップを、その画面に表示する。モニタ4は、例えば液晶ディスプレイ装置やCRT装置から構成することができる。スピーカ5は、音声認識処理装置1から送られてくるアナログの音声信号に応じて音声を出力する。
音声認識処理装置1は、キー入力手段6、音声入力手段7、制御手段8、操作履歴保存手段9、状態管理テーブル10、音声コマンド対応表11、音声ガイド生成手段12、画面テロップ生成手段13、音声出力手段14、画面出力手段15、音声認識手段16、音声認識辞書17および認識辞書管理手段18から構成されている。この発明の手動入力手段は、キー入力手段6に対応する。また、この発明の出力手段は、音声出力手段14および画面出力手段15に対応する。
キー入力手段6は、リモコン2から赤外線によって送られてくるキーコードを受信してデジタルの電気信号に変換する。このキー入力手段6でデジタルの電気信号に変換されたキーコードは制御手段8に送られる。音声入力手段7は、例えばA/D変換器から構成されており、人が発話することによってマイク3で生成されたアナログの音声信号を入力し、音声認識手段16で取り扱い可能なデジタルの音声データに変換する。この音声入力手段7における変換によって得られた音声データは、音声認識手段16に送られる。
制御手段8は、キー入力手段6、操作履歴保存手段9、状態管理テーブル10、音声コマンド対応表11、音声ガイド生成手段12、画面テロップ生成手段13、音声認識手段16および認識辞書管理手段18との間でデータを送受することにより音声認識処理装置1の全体を制御する。この制御手段8の詳細は後述する。
操作履歴保存手段9は、ユーザの手動操作によってリモコン2から送られてくるキーの操作状態や、このキーの操作に応答して実行された処理によって変更された音声認識装置の状態の履歴を保存する。この操作履歴保存手段9は、制御手段8によってアクセスされる。
状態管理テーブル10は、上述したリモコン2のキーの操作状態や音声認識装置の状態を管理するために使用される。図2は、状態管理テーブル10に記憶される情報の例を示す。この状態管理テーブル10は、音声認識装置の様々な状態(手動入力/状態)と、その状態が目的達成状態であるか否かを表す情報を記憶している。ここで、目的達成状態は、所望の情報を得るための一連の操作手順を完了した状態、例えば、目的地を設定した状態、周辺施設を選択した状態、場所または施設を表示した状態などとすることができる。図2に示す例では、目的達成状態として、目的地の設定完了により「“目的地を設定しました”テロップ表示」された状態または電話番号検索の終了により「電話番号検索の[検索]キー押下」がなされた状態が規定されている。この状態管理テーブル10は、制御手段8によってアクセスされる。
音声コマンド対応表11は、上述したリモコン2のキーの操作状態や音声認識装置の状態に対応する音声コマンドの一覧を記憶している。図3は、音声コマンド対応表11に記憶される情報の例を示す。音声コマンド対応表11は、音声認識装置の様々な状態(手動入力/状態)と、その状態を実現させるための音声コマンドが存在する場合には、その状態に対応する音声コマンドを記憶している。この音声コマンド対応表は制御手段8によって参照される。
音声ガイド生成手段12は、制御手段8からの指示に応じて、スピーカ5を介して音声でユーザに提示するための音声出力データを生成する。この音声ガイド生成手段12で生成された音声出力データは、音声出力手段14に送られる。画面テロップ生成手段13は、制御手段8からの指示に応じて、モニタ4を介してテロップでユーザに提示するための画面出力データを生成する。この画面テロップ生成手段13で生成された画面出力データは、画面出力手段15に送られる。
音声出力手段14は、例えばD/A変換器から構成されており、音声ガイド生成手段12から送られてくる音声出力データをアナログの音声信号に変換し、スピーカ5に送る。これにより、スピーカ5から音声出力データに応じたメッセージ、つまり音声ガイドが出力される。画面出力手段15は、例えばD/A変換器から構成されており、画面テロップ生成手段13から送られてくる画面出力データをアナログの映像信号に変換し、モニタ4に送る。これにより、モニタ4に画面出力データに応じたメッセージ、つまり画面テロップを含む画像が表示される。
音声認識手段16は、音声認識辞書17を参照して音声認識処理を行う。この音声認識手段16は、音声入力手段7から送られてくる音声データを分析し、この分析結果と音声認識辞書17から認識辞書管理手段18を介して取得した語彙とを比較するマッチング処理を行う。このマッチング処理によって得られた認識結果は、制御手段8に送られる。音声認識辞書17は、語彙の種別によって分類された複数の認識辞書、例えば住所に使用される語彙(県名、市町村名など)を含む「住所辞書」、施設名に使用される語彙(東京タワー等)を含む「施設名辞書」、電話番号に使用される語彙(数字)を含む「電話番号辞書」などから構成されている。各認識辞書は、固有の辞書番号を有する。
認識辞書管理手段18は、音声認識辞書17を構成する複数の認識辞書を、辞書管理テーブル19を用いて管理する。図4は、辞書管理テーブル19に記憶される情報の例を示す。この辞書管理テーブル19は、辞書情報として、「認識語彙情報」、「辞書番号」、「辞書状態」および「最終使用日時」を記憶している。認識語彙情報は、認識辞書に含まれる複数の語彙(音声コマンド)を含む。辞書番号は、各認識辞書に付される固有の番号である。辞書状態は、有効状態または無効状態のいずれかであり、有効状態であれば、その認識辞書に対応する音声コマンドを認識できるが、無効状態であれば認識不可能である。また、最終使用日時は、認識語彙(音声コマンド)を使用した年月日であり、当該認識辞書が参照される毎に更新される。
この認識辞書管理手段18は、制御手段8から送られてくる辞書切替要求に応じて、辞書管理テーブル19の辞書状態を変更して、認識対象とする1つの認識辞書を選択する。また、認識辞書管理手段18は、音声認識が行われる際に、選択された認識辞書の内容を読み出して音声認識手段16に送る。
次に、制御手段8の詳細を説明する。制御手段8は、状態管理部81、状態確認部82、音声コマンド取得部83、タイマ部84、認識辞書状態変更部85、認識辞書無効化部86および現時刻取得部87から構成されている。
状態管理部81は、キー入力手段6からキーコードが送られてきた場合に、そのキーコードに対応するように音声認識装置の状態を変更し、変更後の状態を操作履歴保存手段9に保存する。状態確認部82は、操作履歴保存手段9から現状態を取得し、この現状態と状態管理テーブル10に記憶されている情報とを比較し、目的達成状態であるか否かを判断する。そして、目的達成状態であれば音声コマンド取得部83に対して現状態を送り、音声コマンドの取得を指示する。一方、目的達成状態でなければタイマ部84に対して現状態を送り、時間の計測を開始させる。
音声コマンド取得部83は、状態確認部82またはタイマ部84から現状態が送られてきた場合に、その現状態に対応する音声コマンドを、音声コマンド対応表11から取得する。そして、音声コマンド対応表11から取得した音声コマンドを音声ガイド生成手段12および画面テロップ生成手段13へ送る。また、音声コマンド取得部83は、音声コマンド対応表11から取得した音声コマンドを認識辞書状態変更部85に送る。
タイマ部84は、リモコン2からキー入力がない状態の継続時間を計測する。このタイマ部84は、タイマ作動中でもキー入力手段6を監視する。そして、タイマ作動中にキー入力があれば計測を停止する。一方、タイマ作動中にキー入力がなければ、状態確認部82から受け取った現状態を音声コマンド取得部83に送る。
認識辞書状態変更部85は、音声コマンド取得部83から送られてくる音声コマンドを含む認識辞書を特定し、その特定された認識辞書に切り替えるように辞書切替要求を認識辞書管理手段18に送る。認識辞書無効化部86は、音声認識装置の起動後に、未使用辞書を無効状態に変更するための要求を、認識辞書管理手段18に送る。現時刻取得部87は、図示しない時計から現在の時刻(年月日)を取得し、認識辞書管理手段18に送る。
次に、上記のように構成される、この発明の実施の形態1に係る音声認識装置の動作を説明する。なお、以下では、この音声認識装置がカーナビゲーションシステム(以下、「カーナビ」と略する)に適用された場合を例に挙げて説明する。
まず、カーナビの施設検索機能を用いて検索した○○公園を目的地として設定する場合の手動操作の手順を、図5を参照しながら説明する。この場合、図5に示すように、[メニュー]キー押下(ステップ1)→[目的地を設定する]を選択(ステップ2)→[名称から設定]を選択(ステップ3)→[○○公園]と入力(ステップ4)→[リスト]を選択(ステップ5)→名称を選択(ステップ6)→[実行]キー押下(ステップ7)、といった7回の手動入力が必要となる。
上記手動操作の手順では、例えばステップ1の「[メニュー]キー押下」に対応する音声コマンド「メニュー画面」が存在し、「メニュー画面」と発話すれば“[メニュー]キー押下”と同じ動作を実現できるが、目的を達成する途中段階の操作であるため音声コマンドは提示されない。この発明の実施の形態1に係る音声認識装置では、上記のような手動操作に対しては、ステップ7の「[実行]キー押下」によって目的地の設定を終了後に、例えば『音声では、「○○公園」→「目的地に設定」と発話して操作できます』のようなメッセージがユーザに提示される。
次に、上述した機能を実現するための音声認識装置の動作を、図6に示すフローチャートを参照しながら説明する。
電源投入により音声認識装置が起動されると、まず、キー入力があるかどうかが調べられる(ステップST1)。具体的には、制御手段8の状態管理部81は、キー入力手段6からキーコードが送られてきたかどうかを調べる。このステップST1でキー入力がないことが判断されると、このステップST1を一定の周期で繰り返し実行しながら待機状態に入る。そして、このステップST1の繰り返し実行による待機状態で、キー入力があることが判断されると、手動入カコマンドC1が取得される(ステップST2)。
次いで、状態管理部81から現在の状態が取得され、初期状態Q1とされる(ステップST3)。次いで、ステップST3で取得された初期状態Q1が操作履歴保存手段9に保存され(ステップST4)、受け付けた手動入カコマンドに対する処理が行われる(ステップST5)。例えば、手動入カコマンドがメニューキーの押下を表している場合は、それに対する処理としてメニュー画面を表示させる処理が行われる。このように、コマンドに対する処理によって状態が変化するため、次いで、状態管理テーブル10から現在の状態が取得され、現状態Q2とされる(ステップST6)。そして、手動入カコマンドC1と現状態Q2とが操作履歴保存手段9に保存される(ステップST7)。
次いで、現状態Q2が目的達成状態であるか否かが調べられる(ステップST8)。すなわち、状態確認部82は、操作履歴保存手段9から現状態Q2を取得し、状態管理テーブル10に記憶されている情報(図2参照)を参照して、現状態Q2が目的達成状態であるか否か(目的達成状態が○または×か)判断する。このステップST8で、目的達成状態でないことが判断されると、次の手動入力を待つために、シーケンスはステップST1に戻る。一方、ステップST8で、目的達成状態であることが判断されると、状態確認部82は、現状態Q2を音声コマンド取得部83に渡し、音声コマンドを提示させる必要があるか否かを判断するためにステップST9に進む。
ステップST9においては、手動入力に対応する音声コマンドがあるかどうかが調べられる。具体的には、操作履歴保存手段9に保存されている手動操作に対応する音声コマンドが存在するか否かが、手動操作とそれに対応する音声コマンドの一覧が記載されている音声コマンド対応表11(図3参照)を用いて判断される。このステップST9において、手動操作に対応する音声コマンドがないことが判断されると、シーケンスはステップST13へ進む。
一方、ステップST9において、手動入力に対応する音声コマンドがあることが判断されると、その音声コマンドが音声コマンド対応表11から取得される(ステップST10)。すなわち、音声コマンド取得部83は、現状態Q2に対応する音声コマンドを音声コマンド対応表11から取得する。次いで、音声ガイド生成手段12で音声ガイドが生成され、画面テロップ生成手段13で画面テロップが生成される(ステップST11)。次いで、音声出力手段14で生成された音声ガイドと画面出力手段15で生成された画面テロップがスピーカ5およびモニタ4にそれぞれ送られ、ユーザに提示される(ステップST12)。その後、操作履歴が初期化される(ステップST13)。具体的には、初期状態Q1、現状態Q2、手動入カコマンドC1といった操作履歴が初期化される。
以上説明したように、この発明の実施の形態1に係る音声認識装置によれば、手動操作と音声コマンドによる音声操作との両方が可能であり、所期の目的を達成するために複数回の手動操作を行った場合に、リモコン2の手動操作により順次生じた状態が状態管理テーブル10を参照することにより目的達成状態になったことが判断された時に、その目的達成状態に対応する音声コマンドが音声コマンド対応表11に存在すれば、その音声コマンドによってリモコン2の手動操作に対応する機能を実現できる旨を表すメッセージ(音声ガイドと画面テロップ)を生成して出力する。従って、目的達成状態に至る途中段階では、手動操作に対応する音声コマンドが存在しても出力されないので、ユーザは目的達成のために最適な音声コマンドを理解することができ、目的達成までの一連の音声操作方法の理解が容易になる。その結果、機器の音声操作に好適な音声コマンドをユーザに提示できる操作性に優れた音声認識装置を提供できる。
実施の形態2.
この発明の実施の形態2に係る音声認識装置は、目的を達成するためにリモコン2を操作している途中で、一定時間以上操作されなかった場合に、目的達成状態に至ったものとみなしてユーザにメッセージを提示するようにしたものである。
この発明の実施の形態2に係る音声認識装置の構成は、上述した実施の形態1に係る音声認識装置の構成と同じである。
次に、この発明の実施の形態2に係る音声認識装置の動作を、図7に示すフローチャートを参照しながら説明する。なお、実施の形態1に係る音声認識装置と同一の処理が行われるステップには、図6のフローチャートで使用した符号と同一の符号を付して説明を省略する。
ステップST8で、目的達成状態であることが判断されると、上述したように、音声コマンドを提示させる必要があるか否かを判断するためにステップST9に進む。一方、ステップST8で、目的達成状態でないことが判断されると、まず、タイマ部84が初期化される(ステップST14)。具体的には、タイマ部84のカウント値Tがゼロに設定される。次いで、タイマ部84におけるカウントが開始される(ステップST15)。すなわち、状態確認部82は、タイマ部84に現状態Q2を渡してカウントを開始させる。
次いで、キー入力があるかどうかが調べられる(ステップST16)。このステップST16の処理は、ステップST1の処理と同じである。このステップST16において、キー入力があることが判断されると、目的を達成するための次の操作がなされたことが認識され、シーケンスはステップST2に戻る。一方、ステップST16において、キー入力がないことが判断されると、次いで、カウント値Tは5秒(sec)以上になったかどうかが調べられる(ステップST17)。ここで、カウント値Tが5秒以上になっていないことが判断されると、シーケンスはステップST16に戻り、上述した処理が繰り返される。そして、この繰り返し実行の途中で、ステップST17において、カウント値Tが5秒以上になったことが判断されると、現状態をユーザの目的達成状態と認識し、シーケンスはステップST9に進む。
以上説明したように、この発明の実施の形態2に係る音声認識装置によれば、目的を達成するためにリモコン2を操作している途中で、一定時間以上操作されなかった場合に、その状態を目的達成状態として、その状態に至るまでの手動操作に対応する音声コマンドをユーザに提示するように構成したので、任意の状態に対しても、ユーザは手動操作に対応する音声コマンドを知ることができる。
実施の形態3.
この発明の実施の形態3に係る音声認識装置は、音声対話機能を有する場合は、必要な音声コマンドのみをユーザに提示するようにしたものである。
この発明の実施の形態3に係る音声認識装置の構成は、上述した実施の形態1に係る音声認識装置の構成と同じである。ただし、制御手段8は、音声対話機能を有するものとする。なお、音声対話機能を実現するための構成および動作は周知であるので、説明を省略する。
次に、この発明の実施の形態3に係る音声認識装置の動作を説明する。なお、以下では、この音声認識装置がカーナビに適用され、電話番号を検索する場合を例に挙げて説明する。この音声認識装置の動作は、図1のフローチャートを参照して説明した動作と同じである。
手動操作で電話番号を検索する場合は、図8に示すように、[メニュー]キー押下(ステップ1)→[場所・施設を探す]を選択(ステップ2)→[電話番号から設定]を選択(ステップ3)→[電話番号]を入力(ステップ4)→[検索]キー押下(ステップ5)という手順で進められる。そして、ステップ5で[検索]キーが押下されると、電話番号検索の[検索]キー押下は、図2に示すように、目的達成状態を表しており、その電話番号検索の[検索]キー押下に対応する音声コマンドは、図3に示すように、「電話番号検索」であるので、例えば、『音声では、「電話番号検索」と発話して操作できます』のようなメッセージがユーザに提示される。
従って、次回に音声操作で電話番号を検索する場合は、図9に示すように、「電話番号検索」と発話(ステップ1)→『電話番号をお話ください』というガイダンス(ステップ2)→電話番号発話(ステップ3)→『検索または修正とお話ください』というガイダンス(ステップ4)→「検索」と発話(ステップ5)という音声対話の手順で進めることができる。
このように、手動操作のステップ5に[検索]キー押下に対応する音声コマンド「検索」が存在するので、「検索」と発話すれば“[検索]キー押下”と同じ動作を実現できるが、この音声認識装置では、音声ガイダンス『検索または修正とお話ください』に従って入力すればよいので、発話すべき語彙(「検索」)や発話のタイミングを知らなくても電話番号検索を開始させることができる。
以上説明したように、この発明の実施の形態3に係る音声認識装置によれば、音声認識装置が音声認識機能を有する場合は、音声対話の開始に必要な音声コマンドのみがユーザに提示されるので、ユーザは不要な音声コマンドを覚える必要がない。
実施の形態4.
この発明の実施の形態4に係る音声認識装置は、ユーザに提示した音声コマンドに対応する認識辞書のみを有効状態にするようにしたものである。
この発明の実施の形態4に係る音声認識装置の構成は、上述した実施の形態1に係る音声認識装置の構成と同じである。
次に、この発明の実施の形態4に係る音声認識装置の動作を、図10に示すフローチャートを参照しながら説明する。なお、実施の形態1に係る音声認識装置と同一の処理が行われるステップには、図6のフローチャートで使用した符号と同一の符号を付して説明を省略する。なお、初期状態では、音声認識辞書17を構成する複数の認識辞書の全ては無効状態にされているものとする。
ステップST12において、音声出力手段14で生成された音声ガイドと画面出力手段15で生成された画面テロップがスピーカ5およびモニタ4にそれぞれ送られ、ユーザに提示されると、次いで、提示した音声コマンドに対応する認識辞書が認識辞書管理手段18から検出される(ステップST18)。次いで、認識辞書の状態が取得される(ステップST19)。次いで、ステップST18で検出された認識辞書が無効状態であるか否かが調べられる(ステップST20)。このステップST20で、無効状態でない、つまり有効状態であると判断された場合は、シーケンスはステップST13へ進む。
上記ステップST20において、無効状態であると判断された場合は、ユーザに提示した音声コマンドを利用できるようにするために、その音声コマンドに対応する認識辞書の状態が無効状態から有効状態に変更される(ステップST21)。そして、有効状態に変更した認識辞書の情報が初期化される(ステップST22)。具体的には、辞書管理テーブル19の最終使用日時が、認識辞書を有効状態にした日付、つまり現時刻取得部87で取得された時刻(年月日)に変更される。その後、シーケンスはステップST13に進む。
以上説明したように、この発明の実施の形態4に係る音声認識装置によれば、初期状態では、音声コマンドを認識するための認識辞書を全て無効状態としておき、ユーザに提示した音声コマンドに対応する認識辞書のみを有効状態にし、その後に利用できるようにしたので、無効状態の認識辞書は利用できず、ユーザは認識率が高い状態で音声コマンドを利用することができる。また、利用可能な音声入カコマンドがユーザに対して明確になるため、ユーザが発話した音声コマンドが認識されなかった場合に、発話した音声コマンドが存在しないのか、または誤認識されたのか判断できないという状況の発生を回避することができる。
実施の形態5.
この発明の実施の形態5に係る音声認識装置は、実施の形態4に係る音声認識装置において、有効状態にした認識辞書が一定期間使用されなかった場合、無効状態にするようにしたものである。
この発明の実施の形態5に係る音声認識装置の構成は、上述した実施の形態1に係る音声認識装置の構成と同じである。
次に、この発明の実施の形態5に係る音声認識装置の動作を、図11に示すフローチャートを参照しながら説明する。なお、実施の形態4に係る音声認識装置と同一の処理が行われるステップには、図10のフローチャートで使用した符号と同一の符号を付して説明を省略する。
電源投入により音声認識装置が起動されると、まず、長期間(例えば6月間)未使用の認識辞書が抽出される(ステップST23)。すなわち、認識辞書管理手段18の辞書管理テーブル19から各認識辞書の辞書情報を取得され、この辞書情報に含まれる最終使用日時を参照することにより長期間使用されていない認識辞書が抽出される。次いで、抽出された認識辞書の状態が有効状態から無効状態へ変更される(ステップST24)。すなわち、制御手段8の認識辞書無効化部86は、認識辞書管理手段18に対し、抽出された認識辞書を無効状態に変更すべき旨を指示する認識辞書状態変更要求を送る。これにより、有効状態にされた認識辞書が一定期間使用されなかった場合に無効状態にされて利用不可能にされる。その後、シーケンスはステップST1に進む。
以上説明したように、この発明の実施の形態5に係る音声認識装置によれば、有効状態にした認識辞書が一定期間使用されなかった場合は無効状態にされるので、ユーザが頻繁に利用する音声コマンドの認識率が高くなる。
この発明の実施の形態1に係る音声認識装置の構成を示すブロック図である。 この発明の実施の形態1に係る音声認識装置で使用される状態管理テーブルの記憶内容を示す図である。 この発明の実施の形態1に係る音声認識装置で使用される音声コマンド対応表の記憶内容を示す図である。 この発明の実施の形態1に係る音声認識装置で使用される辞書管理テーブルの記憶内容を示す図である。 この発明の実施の形態1に係る音声認識装置の手動操作の手順を説明するための図である。 この発明の実施の形態1に係る音声認識装置の動作を説明するためのフローチャートである。 この発明の実施の形態2に係る音声認識装置の動作を説明するためのフローチャートである。 この発明の実施の形態3に係る音声認識装置の手動操作の手順を説明するための図である。 この発明の実施の形態3に係る音声認識装置の音声操作の手順を説明するための図である。 この発明の実施の形態4に係る音声認識装置の動作を説明するためのフローチャートである。 この発明の実施の形態5に係る音声認識装置の動作を説明するためのフローチャートである。
符号の説明
1 音声認識処理装置、2 リモコン、3 マイク、4 モニタ、5 スピーカ、6 キー入力手段、7 音声入力手段、8 制御手段、9 操作履歴保存手段、10 状態管理テーブル、11 音声コマンド対応表、12 音声ガイド生成手段、13 画面テロップ生成手段、14 音声出力手段、15 画面出力手段、16 音声認識手段、17 音声認識辞書、18 認識辞書管理手段、19 辞書管理テーブル、81 状態管理部、82 状態確認部、83 音声コマンド取得部、84 タイマ部、85 認識辞書状態変更部、86 認識辞書無効化部、87 現時刻取得部。

Claims (4)

  1. 音声を入力する音声入力手段と、
    前記音声入力手段から入力された音声を音声コマンドとして認識する音声認識手段と、
    手動操作により入力を行う手動入力手段と、
    前記手動入力手段の手動操作により生じた状態が所期の目的が達成された目的達成状態であるかどうかを記憶した状態管理テーブルと、
    前記手動入力手段の手動操作により生じた状態と前記音声入力手段から入力される音声コマンドとの対応関係を記憶した音声コマンド対応表と、
    前記手動入力手段の手動操作により順次生じた状態を前記状態管理テーブルの内容と照合して目的達成状態になったことを判断した時に、前記手動入力手段の手動操作により生じた目的達成状態に対応する音声コマンドが前記音声コマンド対応表に存在すれば、該音声コマンドによって前記手動入力手段の手動操作に対応する機能を実現できる旨を表すメッセージを生成する制御手段と、
    前記制御手段で生成されたメッセージを出力する出力手段
    とを備え、
    前記制御手段は、
    前記手動入力手段が手動操作されない時間を計測するタイマ部を備え、
    前記手動入力手段の手動操作により順次生じた状態を状態管理テーブルの内容と照合して目的達成状態になったことを判断する前に、前記タイマ手段によって手動入力手段が一定時間以上操作されなかったことが計測された時は、その時点までに前記手動入力手段の手動操作により生じた状態に対応する音声コマンドが前記音声コマンド対応表に存在すれば、該音声コマンドによって前記手動入力手段の手動操作に対応する機能を実現できる旨を表すメッセージを生成することを特徴とする音声認識装置。
  2. 音声を入力する音声入力手段と、
    前記音声入力手段から入力された音声を音声コマンドとして認識する音声認識手段と、
    手動操作により入力を行う手動入力手段と、
    前記手動入力手段の手動操作により生じた状態が所期の目的が達成された目的達成状態であるかどうかを記憶した状態管理テーブルと、
    前記手動入力手段の手動操作により生じた状態と前記音声入力手段から入力される音声コマンドとの対応関係を記憶した音声コマンド対応表と、
    前記手動入力手段の手動操作により順次生じた状態を前記状態管理テーブルの内容と照合して目的達成状態になったことを判断した時に、前記手動入力手段の手動操作により生じた目的達成状態に対応する音声コマンドが前記音声コマンド対応表に存在すれば、該音声コマンドによって前記手動入力手段の手動操作に対応する機能を実現できる旨を表すメッセージを生成する制御手段と、
    前記制御手段で生成されたメッセージを出力する出力手段
    とを備え、
    前記制御手段は、音声対話機能を有し、
    前記手動入力手段の手動操作により順次生じた状態を前記状態管理テーブルの内容と照合して目的達成状態になったことを判断した時に、前記手動入力手段の手動操作に対応する機能を実現できる音声対話の開始に必要な音声コマンドのみを提示するメッセージを生成することを特徴とする音声認識装置。
  3. 音声を入力する音声入力手段と、
    前記音声入力手段から入力された音声を音声コマンドとして認識する音声認識手段と、
    手動操作により入力を行う手動入力手段と、
    前記手動入力手段の手動操作により生じた状態が所期の目的が達成された目的達成状態であるかどうかを記憶した状態管理テーブルと、
    前記手動入力手段の手動操作により生じた状態と前記音声入力手段から入力される音声コマンドとの対応関係を記憶した音声コマンド対応表と、
    前記手動入力手段の手動操作により順次生じた状態を前記状態管理テーブルの内容と照合して目的達成状態になったことを判断した時に、前記手動入力手段の手動操作により生じた目的達成状態に対応する音声コマンドが前記音声コマンド対応表に存在すれば、該音声コマンドによって前記手動入力手段の手動操作に対応する機能を実現できる旨を表すメッセージを生成する制御手段と、
    前記制御手段で生成されたメッセージを出力する出力手段
    とを備え、
    前記音声認識手段で音声を認識するために使用される複数の認識辞書と、
    前記複数の認識辞書の各々を有効状態または無効状態に設定して管理する認識辞書管理手段とを備え、
    前記制御手段は、初期状態で無効状態に設定されている前記複数の認識辞書のうち、生成したメッセージに含まれる音声コマンドに対応する認識辞書のみを有効状態に変更するように前記認識辞書管理手段に指示する認識辞書状態変更部を備えたことを特徴とする音声認識装置。
  4. 制御手段は、有効状態に設定されている認識辞書が一定期間使用されなかった場合に該認識辞書を無効状態に変更するように前記認識辞書管理手段に指示する認識辞書無効化部を備えたことを特徴とする請求項記載の音声認識装置。
JP2004346788A 2004-11-30 2004-11-30 音声認識装置 Expired - Fee Related JP4498902B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004346788A JP4498902B2 (ja) 2004-11-30 2004-11-30 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004346788A JP4498902B2 (ja) 2004-11-30 2004-11-30 音声認識装置

Publications (2)

Publication Number Publication Date
JP2006154476A JP2006154476A (ja) 2006-06-15
JP4498902B2 true JP4498902B2 (ja) 2010-07-07

Family

ID=36632853

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004346788A Expired - Fee Related JP4498902B2 (ja) 2004-11-30 2004-11-30 音声認識装置

Country Status (1)

Country Link
JP (1) JP4498902B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010078851A (ja) * 2008-09-25 2010-04-08 Nissan Motor Co Ltd 音声入力装置及び音声入力方法
JP5436142B2 (ja) * 2009-10-20 2014-03-05 キヤノン株式会社 画像処理装置、画像処理システムおよび画像処理装置の制御方法
US10140770B2 (en) 2016-03-24 2018-11-27 Toyota Jidosha Kabushiki Kaisha Three dimensional heads-up display unit including visual context for voice commands
KR102480728B1 (ko) * 2017-11-10 2022-12-23 삼성전자주식회사 전자장치 및 그 제어방법

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03280120A (ja) * 1990-03-29 1991-12-11 Nec Home Electron Ltd 操作履歴を利用したガイダンスシステム
JPH0451299A (ja) * 1990-06-20 1992-02-19 Hitachi Ltd 音声認識制御装置
JPH08272572A (ja) * 1995-03-30 1996-10-18 Mitsubishi Electric Corp 移動体通信端末
JP2000338992A (ja) * 1999-05-26 2000-12-08 Fujitsu Ten Ltd 音声認識装置
JP2001216129A (ja) * 2000-02-02 2001-08-10 Denso Corp コマンド入力装置
JP2001282284A (ja) * 2000-03-31 2001-10-12 Denso Corp 音声認識装置
JP2002215186A (ja) * 2001-01-12 2002-07-31 Auto Network Gijutsu Kenkyusho:Kk 音声認識システム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03280120A (ja) * 1990-03-29 1991-12-11 Nec Home Electron Ltd 操作履歴を利用したガイダンスシステム
JPH0451299A (ja) * 1990-06-20 1992-02-19 Hitachi Ltd 音声認識制御装置
JPH08272572A (ja) * 1995-03-30 1996-10-18 Mitsubishi Electric Corp 移動体通信端末
JP2000338992A (ja) * 1999-05-26 2000-12-08 Fujitsu Ten Ltd 音声認識装置
JP2001216129A (ja) * 2000-02-02 2001-08-10 Denso Corp コマンド入力装置
JP2001282284A (ja) * 2000-03-31 2001-10-12 Denso Corp 音声認識装置
JP2002215186A (ja) * 2001-01-12 2002-07-31 Auto Network Gijutsu Kenkyusho:Kk 音声認識システム

Also Published As

Publication number Publication date
JP2006154476A (ja) 2006-06-15

Similar Documents

Publication Publication Date Title
US8818816B2 (en) Voice recognition device
JP3662780B2 (ja) 自然言語を用いた対話システム
JP6570651B2 (ja) 音声対話装置および音声対話方法
IE86422B1 (en) Method for voice activation of a software agent from standby mode
WO2007007256A1 (en) Correcting a pronunciation of a synthetically generated speech object
JP2012027487A (ja) 車載用音声認識装置
JP2004029270A (ja) 音声制御装置
JP4498902B2 (ja) 音声認識装置
JP4056711B2 (ja) 音声認識装置
JP2009265307A (ja) 音声認識装置及びこれを用いる車両システム
WO2016103465A1 (ja) 音声認識システム
JP2006058390A (ja) 音声認識装置
JP2018045675A (ja) 情報提示方法、情報提示プログラム及び情報提示システム
JP4498906B2 (ja) 音声認識装置
US20090055167A1 (en) Method for translation service using the cellular phone
JP2008268517A (ja) 音声認識機能付き操作器
US7562006B2 (en) Dialog supporting device
JPH07319383A (ja) 地図表示装置
CN110010122B (zh) 护理床语音控制方法
KR20060007148A (ko) 음성인식구동방법
JP2006058641A (ja) 音声認識装置
JP2007183516A (ja) 音声対話装置及び音声認識方法
JP2006208486A (ja) 音声入力装置
JP2004184803A (ja) 車両用音声認識装置
JP2000101705A (ja) 無線電話機

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070116

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071012

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080718

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100406

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100414

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130423

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4498902

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130423

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140423

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees