JP2004062517A - Voice controller, voice control method and program - Google Patents
Voice controller, voice control method and program Download PDFInfo
- Publication number
- JP2004062517A JP2004062517A JP2002219831A JP2002219831A JP2004062517A JP 2004062517 A JP2004062517 A JP 2004062517A JP 2002219831 A JP2002219831 A JP 2002219831A JP 2002219831 A JP2002219831 A JP 2002219831A JP 2004062517 A JP2004062517 A JP 2004062517A
- Authority
- JP
- Japan
- Prior art keywords
- gui
- voice
- dictionary
- association data
- converting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、音声制御装置、音声制御方法、およびプログラムに関し、特に音声認識技術を用いたユーザインタフェースに関する。
【0002】
【従来の技術】
従来の技術としては、特開平10−222337の「コンピュータシステム」のように、音声によりウインドウやアプリケーション制御を行うものが知られている。この方式では、ウインドウやアプリケーションの制御コマンドとキーワードとを対応付けておき、キーワードを音声認識用の辞書として登録しておく。音声入力よりキーワードが認識されると、キーワードに対応した制御コマンドが実行される。
【0003】
こうした音声認識では、共通の辞書と各アプリケーション用の辞書を用意しておく。アプリケーション毎に辞書を用意することにより、同じ発声でもアプリケーションごとに違う操作を割り当てることが可能になる。アプリケーション用の辞書は、音声により対象のアプリケーションが起動されたり、ウインドウが切り替わったりすると切り替わる仕組みになっている。
【0004】
【発明が解決しようとする課題】
前述の方式では、GUIの状態を監視するのでなく、入力された音声の認識結果によりアプリケーション用の辞書を切り替えている。このような場合、マウスやタッチパネルなどの音声入力以外の方法でウインドウやアプリケーションの選択状態を変更すると、対応した辞書への切り替えは起こらない。そのため、アプリケーションやウインドウの選択状態と認識用辞書のとの対応関係が擦れてしまうため、音声での制御を続行することが不可能になるという問題点があった。
【0005】
一般に、音声を用いたユーザインタフェースは、多項目から一つのを選択する際には、選択候補を表示する空間や選択の手順を削減できるという利点がある。たとえば、多項目からの選択をプルダウンメニューなどのグラフィカルユーザインタフェース(GUI)で実現しようとすると、メニューに階層構造をもたせて何度もメニュー表示と選択とを繰り返したり、表示した膨大な候補の中から該当する項目を探すために時間を要する。
【0006】
本発明の目的は、音声とGUIの両方のユーザインタフェースからの入力可能にすることにより、状況に応じて使い分けることができる使い勝手のよいユーザインタフェースを実現する音声制御装置、音声制御方法、およびプログラム提供することである。
【0007】
【課題を解決するための手段】
本発明の第1の音声制御装置は、グラフィカルユーザインタフェース(GUI)と、
音声から文字列へ変換する規則を格納した辞書を保持する辞書保持手段と、入力した音声を前記辞書を参照して文字に変換する音声認識手段と、音声認識手段で認識された文字列をコマンド列に変換しGUIに設定するコマンド変換手段と、GUIの状態を監視するGUI監視手段と、GUI監視手段が認識したGUIの状態と前記音声認識手段が参照する音声認識の方式や辞書とを対応付ける対応付けデータを保持する対応付けデータ保持手段と、GUIの状態に対応する対応付けデータを対応付けデータ保持手段から読み込み音声認識手段で参照する音声認識方式や辞書を切り替える対応付け変更手段とを有することを特徴とする。
【0008】
本発明の第2の音声制御装置は、第1の音声制御装置において、選択されたGUIの識別情報を取得するGUI取得手段と、前記音声認識手段の認識結果を前記GUIに設定する方法を含む設定方法データを保持する設定方法データベースと、GUIの識別情報および前記GUIが選択された場合に使用する辞書と設定方法データベースに保持されるGUIへの設定方法とを関連付けた対応付けデータを生成し前記対応付けデータ保持手段へ格納する関連付け手段とを有することを特徴とする。
【0009】
本発明の第1の音声制御方法は、音声から文字列へ変換する規則を格納した辞書を参照して入力した音声文字に変換する音声認識ステップと、音声認識ステップで認識された文字列をコマンド列に変換しグラフィカルユーザインタフェース(GUI)に設定するコマンド変換ステップと、GUIの状態と前記音声認識手段が参照する音声認識の方式や辞書とを対応付ける対応付けデータを保持する対応付けデータ保持手段からGUIの状態に応じた対応付けデータを読み込み音声認識ステップで参照する音声認識方式や辞書を切り替える対応付け変更ステップとを有することを特徴とする。
【0010】
本発明の第2の音声制御方法は、第1の音声制御方法において、選択されたGUIの識別情報を取得するGUI取得ステップと、GUIの識別情報および前記GUIが選択された場合に使用する辞書と前記音声認識ステップの認識結果を前記GUIに設定する方法とを関連付けた対応付けデータを生成し前記対応付けデータ保持手段へ格納する関連付けステップとを有することを特徴とする。
【0011】
本発明の第1のプログラムは、音声から文字列へ変換する規則を格納した辞書を参照して入力した音声文字に変換する音声認識ステップと、音声認識ステップで認識された文字列をコマンド列に変換しグラフィカルユーザインタフェース(GUI)に設定するコマンド変換ステップと、GUIの状態と前記音声認識手段が参照する音声認識の方式や辞書とを対応付ける対応付けデータを保持する対応付けデータ保持手段からGUIの状態に応じた対応付けデータを読み込み音声認識ステップで参照する音声認識方式や辞書を切り替える対応付け変更ステップとをコンピュータに実行させる。
【0012】
本発明の第2のプログラムは、第1のプログラムにおいて、選択されたGUIの識別情報を取得するGUI取得ステップと、GUIの識別情報および前記GUIが選択された場合に使用する辞書と前記音声認識ステップの認識結果を前記GUIに設定する方法とを関連付けた対応付けデータを生成し前記対応付けデータ保持手段へ格納する関連付けステップとをコンピュータに実行させる。
【0013】
【発明の実施の形態】
次に、本発明の第1の実施の形態について図面を参照して詳細に説明する。
図1を参照すると、本発明の第1の実施の形態は、キーボードなどの入力手段と表示装置などの出力手段と様々なグラフィカルユーザインタフェース(GUI)とを含むGUI1と、マイク等の音声入力機器を通じて入力された音声データを文字に変換する音声認識手段2と、音声データを文字に変換するための辞書を保持する辞書保持手段3と、音声認識手段2において変換された文字をコマンドに変換しGUI1に入力するコマンド変換手段4と、GUI1の状態を監視するGUI監視手段5と、GUI1の状態と音声認識手段2における音声認識の方式やアクティブにする辞書との対応付けを行う対応付けデータを保持する対応付けデータ保持手段6と、GUI1の状態が変化した場合、GUI監視手段5からの通知をうけて対応付けデータ保持手段6より現在アクティブになっているGUI1に対応する対応付けデータを読み込み、音声認識手段2の認識方式やアクティブにする辞書を切り替える対応付け変更手段7より構成される。
【0014】
図2〜図6を参照して、本実施の形態の動作について詳細に説明する。
図2は、GUI1の動作を説明するための図である。GUI1はユーザとの様々なインタフェースに対応した複数のGUIを含んでおり、図2はGUIの一例として、画面にウインドウ21、ウインドウ22、ウインドウ23が起動されており、ウインドウ21がアクティブになっていることを示している。また、ウインドウ21は、テキストボックス202、リストボックス203、ボタン204より構成されている。
【0015】
ウインドウ21では、テキストボックス202にキーボードで駅名を入力し、リストボックス203より時刻を選択し、ボタン204をクリックして検索を行う操作を示している。
【0016】
図3は、対応付けデータ保持手段6に格納されたデータの一例である。
対応付けデータは、アクティブになっているGUIに応じた辞書を切り替えるための規則が格納されている。図3の例では、データ1からデータNのN個の対応付けデータが格納されている。各対応付けデータは、アクティブになっているアプリケーション名、ウインドウ名、GUI名、切り替えるべき辞書名、コマンド変換方法より構成される。コマンド変換方法とは、音声が認識された場合、認識結果を用いてGUIを制御する方法を意味している。
【0017】
図3を参照すると、データ1は、アプリケーション1のウインドウ21上のテキストボックス202がアクティブになったとき、一般地名強化辞書1に辞書を切り替え、上記が実行された場合、認識結果がテキストボックス202に挿入されること意味している。
【0018】
データ2では、アプリケーション1のウインドウ21上のリストボックス203がアクティブになったとき、時刻辞書2に辞書を切り替え、上記が実行された場合、認識結果がテキストボックス202の表示が認識結果に応じて切り替えられること意味している。
【0019】
データ3では、アプリケーション1のウインドウ21においてテキストボックス202およびリストボックス203がともにアクティブでないとき、メニュー・ボタン辞書3に切り替え、上記が実行された場合、認識結果に該当するGUI名のボタンまたは、メニューをクリックすることを意味している。
【0020】
データNでは、データN以外で指定された以外のGUIの状態にアプリケーション辞書Nを起動し、上記が起動されたとき認識結果に該当するアプリケーション名のアプリケーションを起動することを意味している。
【0021】
図4は、辞書保持手段3に格納される辞書の一例である。図4では、音声認識方式がディクテーションの場合の辞書とCFGの場合の辞書と2種類の例を説明する。
【0022】
図4(a)および(b)はディクテーション用の辞書の一例である。ディクテーション用の辞書では、個々の単語の読みや表記や品詞や出現頻度等を記録するための単語列データと、単語間の出現頻度とを持つことにより、比較的広範囲の発話の認識が可能になる。
【0023】
図4(a)は、前述の読みや表記や出現頻度等の個々の単語を記録するための単語列データの一例である。図4(a)に示すように、単語列データは、辞書名、登録する品詞、読み、表記、単語出現頻度より構成される。
【0024】
この例では、単語列データに「固有名詞 地名」、「名詞」、「助詞」、「助動詞」の4種類の品詞が登録されている。「固有名詞 地名」として、「とうきょう」、「おおさか」、「きょうと」の読みを持つ3つの単語が登録されており、それぞれの表記は、「東京」、「京都」、「大阪」となっている。また、これらの単語出現頻度は、2.0となっている。
【0025】
「名詞」として、「えき」、「し」、「まち」の3つの単語が登録されており、それぞれの表記は、「駅」、「市」、「町」となっている。また、これらの単語出現頻度は、「えき」が1.0、「し」および「まち」が0.5になっている。「助詞」として、「で」、「は」の2つの単語が登録されている。「助動詞」として、「です」、「ます」の2つの単語が登録されている。
【0026】
なお、単語出現頻度は、個々の単語ごとの出現のしやすさで、値が大きいほど認識結果として出現する確率が高いことを意味している。前述の例では、固有名詞は、4つの品詞の中でもっとも出現しやすいことを示している。また、名詞の中では、「えき」は「まち」や「し」に比べて出現しやすいことを意味している。
【0027】
図4(b)は、ディクテーション用の品詞間の出現頻度を示した表である。この表では、「固有名詞 地名」と「名詞」の出現頻度を1.2とし、助動詞と助詞の出現頻度を0.1としている。これは、「固有名詞 地名」と「地名」の組み合わせの方が「助動詞」と「助詞」の組み合わせよりも出現しやすいことを示している。
【0028】
図4(c)および(d)は、CFG用の辞書の一例である。CFG用の辞書では、単語列と単語列の組み合わせで記述する。
図4(c)は、単語列の一例である。この列では、「時刻」、「接頭語」、「語尾」の3種類の単語列の登録例を示している。各単語列は、読みと表記より構成されている。単語列「時刻」では、4つの単語を登録しており、それぞれの読みは、「ろくじ」、「ごぜんろくじ」、「あさろくじ」、「あさのろくじ」、対応する表記は、「6:00」としている。
【0029】
図4(d)は、文法の一例である。文法は認識可能な単語列の順列で定義する。この例では、3つの単語列の順列を示しており、文法1では単語列「接頭語」と単語列「時刻」と単語列「語尾」の組み合わせが認識できることを示しており、このような組み合わせを定義することで「あのー、あさのろくじです」を認識することができる。同様に、文法2では、単語列「接頭語」と単語列「時刻」の組み合わせが認識できることを示しており、このような組み合わせを定義することで「ええと、あさのろくじ」を認識することができる。文法3では、単語列「時刻」と単語列「語尾」の組み合わせが認識できることを示しており、このような組み合わせを定義することで「ろくじにしてください」を認識することができる。
【0030】
図5は、GUIが変更された場合の動作を説明するためのフローチャートである。前述の具体例を用いて、ウインドウ21のアクティブなGUIがテキストボックス202から同じウインドウ21内のリストボックス203に変更された場合を説明する。
【0031】
GUI監視手段5では、保存されたGUIの情報と現在アクティブなGUIの情報とを比較し、異なっていれば、アクティブなGUIが変更されたと判断する。GUIの情報は、アプリケーション名、ウインドウ名、GUI名、GUIの識別番号で記述する。GUIの識別番号は、起動中のGUIを識別するための番号で、この値を記録しておけば、同じウインドウ名、同じGUI名のGUIがあっても、GUIが変更されたことがわかる。なお、GUIの変更がなければ終了する(ステップA1)。
【0032】
GUIが変更された場合、現在のGUIの情報をGUI監視手段5と対応付け変更手段7に送り、更新する(ステップA2)。
【0033】
対応付け変更手段7では、これを受けて、対応付けデータ保持手段6から対応するデータを読み込む(ステップA3)。前述の例で説明すると、アプリケーション名がアプリ1、ウインドウ名がウインドウ21、GUI名がリストボックス203の場合に対応する対応付けデータであるデータ2が対応付けデータ保持手段6より読み込まれる。
【0034】
また、対応付け変更手段7は、音声認識手段2に、辞書変更命令を送る。辞書変更命令では、切り替えるべき辞書名も併せて送る。音声認識手段2はこれを受けて、辞書を切り替える(ステップA4)。前述の例で説明すると、音声認識手段2では、選択する辞書であるデータ2の時刻辞書2に変更する。
【0035】
さらに、対応付け変更手段7は、ステップA3で読み込んだ対応付けデータに記述されたコマンド変換方法をコマンド変換手段4に送り、コマンド変換手段4では、コマンド変換方法を変更する(ステップA5)。前述の例で説明すると、コマンド変換手段4に、データ2のコマンド変換方法が送られる。これにより、コマンド変換手段4は、音声認識手段2より認識結果として値が送られてきた場合、値と同名に表示を変更するようになる。
【0036】
図6は、音声認識手段2に音声が入力された場合の動作を説明するためのフローチャートである。前述の例に従って、テキストボックス202がアクティブになっている場合を一例として説明する。
【0037】
音声認識手段2に音声が入力されると、現在選択中の辞書を使用して音声認識を行う(ステップB1)。音声認識の結果、認識結果が得られない場合は終了する。
【0038】
音声が認識された場合、入力した音声と最も近い「よみ」が認識結果として返す(ステップB2)。読みに対応する値が設定されているので、この値を取得する(ステップB3)。前述の図4で説明したように、選択中の辞書が一般地名強化辞書1で、読みが「とうきょう」の場合、値として「東京駅」が取得される。
【0039】
コマンド変換手段4では、あらかじめ、現在のGUIの状態に対応した対応付けデータを対応付け変更手段7を通して読み込んでいる。前述の値を受けて対応付けデータに記述されたGUIへの設定方法にGUIに設定する(ステップB4)。前述の例に従って説明すると、テキストボックス202がアクティブになっている場合、コマンド変換手段4には、データ1が読み込まれている。ステップA3で取得した値が「東京」である場合、コマンド変換手段4は、データ1に従って、テキストボックス202に「東京」を設定する。
【0040】
次に、本発明の第2の実施の形態について図面を参照して説明する。第2の実施の形態は、第1の実施の形態における対応付けデータの生成に関するものである。
【0041】
図7に示すように本発明の第2の実施の形態の構成は、GUI1と、選択中のGUIの識別情報を取得するGUI取得手段702と、音声認識用の辞書保持手段3と、前述の文法を用いて認識した結果をGUIに設定する方法を格納した設定方法データベース703と、前述のGUI取得手段702で取得したGUIの識別情報と前述のGUIが選択された場合に使用する辞書とGUIへの設定方法とを関連付けて設定方法を作成する対応付け手段704と、作成した対応付けデータを格納する対応付けデータ保持手段6とを含む。
【0042】
次に第2の実施の形態の動作を第1の実施の形態で用いた例に基づいて説明する。図8は、第2の実施の形態の動作を説明するためのフローチャートである。まず、対応付けデータを作成する対象となるGUIを含むアプリケーションおよびウインドウを起動し、対象のGUIをアクティブにする(ステップC1)。
【0043】
以下のフローチャートの動作の具体例として、図2に示したウインドウ21におけるテキストボックス202、リストボックス203、ボタン204に対応する対応付けデータを作成する方法を説明する。ステップC1を受けて、GUIの識別情報を取得する(ステップC2)。
【0044】
図9はGUIの識別情報を説明するための図である。GUIの識別情報としては、ウインドウ名、GUI名、GUIのタイプを含む。テキストボックス202をアクティブにした場合、ウインドウ名としてウインドウ21、GUI名としてテキストボックス202、GUIタイプとしてテキストボックス、であること意味している。
【0045】
ステップC2のGUIの識別情報を受けて、設定方法データベース703より設定方法データを取得する(ステップC3)。設定方法は、GUIの型毎に音声認識手段2の結果をGUI設定する方法である。設定方法データは、設定方法名と設定するGUIの型とGUIへの設定方法から構成される。
【0046】
図10は、設定方法データベース703の一例を示し、設定方法データベース703には設定方法1から設定方法3までの3つの設定方法データが格納されている。設定方法1では、設定するGUIの型がテキストボックスの場合、音声認識手段2での結果をテキストボックスに設定することを定めている。設定方法2では、設定するGUIの型がリストボックスの場合、音声認識手段2での結果と一致する表記をリストの中から選択して表示することを定めている。設定方法3では、設定するGUIの型がボタンまたはメニューの場合、音声認識手段2の結果と一致するボタンまたはメニューを実行することを定めている。例えば、図9のステップC2において識別されたGUIがテキストボックス型である場合、設定方法1が選択される。
【0047】
次に、選択したGUIに対応させる辞書を辞書保持手段3より選択する(ステップC4)。辞書保持手段3にはあらかじめ作成された辞書が複数格納されている。
【0048】
最後に、ステップC2で取得したGUIの識別情報とステップC3で取得した設定方法とステップC4で設定した辞書とを組み合わせて対応付けデータとし、対応付けデータ保持手段6に保存する。
【0049】
【発明の効果】
第1の効果は、音声で入力GUIを制御できることにより、キーボード、マウス、タッチパネルなどの入力装置に非接触でGUIを制御できることである。
【0050】
第2の効果は、全てのGUIを監視し、監視対象のアプリケーションとは別にプログラムを持つことで、既存のアプリケーションに音声入力機能を追加できることである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の構成図である。
【図2】本発明の第1の実施の形態の動作を説明するためのGUIの一例である。
【図3】本発明の第1の実施の形態の動作を説明するための対応付けデータ6に格納されたデータの一例である。
【図4】本発明の第1の実施の形態の動作を説明するための辞書保持手段3に格納された辞書の一例である。
【図5】本発明の第1の実施の形態の動作を説明するためのフローチャートである。
【図6】本発明の第1の実施の形態の動作を説明するためのフローチャートである。
【図7】本発明の第2の実施の形態の構成図である。
【図8】本発明の第2の実施の形態の動作を説明するためのフローチャートである。
【図9】本発明の第2の実施の形態の動作を説明するための選択中のGUIの情報の一例である。
【図10】本発明の第2の実施の形態の動作を説明するための設定方法データベース703に格納されたデータの一例である。
【符号の説明】
1 GUI
2 音声認識手段
3 辞書保持手段
4 コマンド変換手段
5 GUI監視手段
6 対応付けデータ保持手段
7 対応付け変更手段
21、22、23 ウインドウ
202 テキストボックス
203 リストボックス
204 ボタン
702 GUI取得手段
703 設定方法データベース
704 対応付け手段[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a voice control device, a voice control method, and a program, and more particularly, to a user interface using a voice recognition technology.
[0002]
[Prior art]
As a conventional technique, there is known a technique in which windows and applications are controlled by voice, such as a "computer system" disclosed in Japanese Patent Application Laid-Open No. 10-222337. In this method, control commands for windows and applications are associated with keywords, and the keywords are registered as a dictionary for speech recognition. When the keyword is recognized from the voice input, a control command corresponding to the keyword is executed.
[0003]
In such speech recognition, a common dictionary and a dictionary for each application are prepared. By preparing a dictionary for each application, it becomes possible to assign a different operation to each application even for the same utterance. The dictionary for the application is configured to switch when the target application is activated by voice or when the window is switched.
[0004]
[Problems to be solved by the invention]
In the above-described method, the dictionary for the application is switched according to the recognition result of the input voice, instead of monitoring the state of the GUI. In such a case, if the selection state of the window or application is changed by a method other than voice input such as a mouse or a touch panel, switching to the corresponding dictionary does not occur. Therefore, the correspondence between the selection state of the application or the window and the dictionary for recognition is rubbed, so that there is a problem that it is impossible to continue the control by voice.
[0005]
In general, a user interface using voice has an advantage that, when one of multiple items is selected, a space for displaying a selection candidate and a selection procedure can be reduced. For example, when trying to realize selection from multiple items with a graphical user interface (GUI) such as a pull-down menu, a menu is given a hierarchical structure, and menu display and selection are repeated many times. It takes time to find the corresponding item from.
[0006]
An object of the present invention is to provide a voice control device, a voice control method, and a program that realize an easy-to-use user interface that can be properly used depending on the situation by enabling input from both voice and GUI user interfaces. It is to be.
[0007]
[Means for Solving the Problems]
A first voice control device of the present invention includes a graphical user interface (GUI);
Dictionary holding means for holding a dictionary storing rules for converting voice to character strings; voice recognition means for converting input voice to characters by referring to the dictionary; and a command for inputting a character string recognized by the voice recognition means. A command conversion means for converting into a column and setting the GUI, a GUI monitoring means for monitoring the status of the GUI, and associating the GUI status recognized by the GUI monitoring means with a voice recognition method or dictionary referred to by the voice recognition means. An association data holding unit that holds the association data; and an association change unit that reads the association data corresponding to the state of the GUI from the association data holding unit and switches a voice recognition method or a dictionary that is referred to by the voice recognition unit. It is characterized by the following.
[0008]
The second voice control device of the present invention includes, in the first voice control device, a GUI obtaining means for obtaining identification information of a selected GUI, and a method of setting a recognition result of the voice recognition means in the GUI. A setting method database that holds setting method data, association data that associates identification information of the GUI, a dictionary used when the GUI is selected, and a setting method for the GUI held in the setting method database are generated. An association unit for storing the data in the association data holding unit.
[0009]
A first voice control method according to the present invention includes a voice recognition step of converting a voice string input in reference to a dictionary storing rules for converting a voice into a character string, and a command for converting the character string recognized in the voice recognition step into a command. A command conversion step of converting into a column and setting the same in a graphical user interface (GUI); and a correspondence data holding unit for holding association data for associating a GUI state with a speech recognition method or a dictionary referred to by the speech recognition unit. And an association changing step of switching the dictionary or the voice recognition method referred to in the voice recognition step by reading the association data according to the state of the GUI.
[0010]
A second voice control method according to the present invention, in the first voice control method, comprises: a GUI obtaining step of obtaining identification information of a selected GUI; and a dictionary used when the GUI is selected and the GUI is selected. And a method of generating association data in which the method associates a method of setting a recognition result of the voice recognition step with the GUI and storing the association data in the association data holding unit.
[0011]
According to a first program of the present invention, a speech recognition step of converting a speech string input by referring to a dictionary storing rules for converting speech to a character string, and converting the character string recognized in the speech recognition step into a command string A command conversion step of converting and setting a GUI to a graphical user interface; and a mapping data holding means for holding mapping data for associating a GUI state with a speech recognition method or a dictionary referred to by the speech recognition means. The computer causes the computer to execute an association change step of reading the association data according to the state and switching the speech recognition method or dictionary referred to in the audio recognition step.
[0012]
According to a second program of the present invention, in the first program, a GUI acquisition step of acquiring identification information of a selected GUI, identification information of the GUI, a dictionary used when the GUI is selected, and the voice recognition And causing the computer to execute an associating step of generating association data that associates the method of setting the recognition result of the step with the GUI and storing the association data in the association data holding unit.
[0013]
BEST MODE FOR CARRYING OUT THE INVENTION
Next, a first embodiment of the present invention will be described in detail with reference to the drawings.
Referring to FIG. 1, a first embodiment of the present invention relates to a
[0014]
The operation of the present embodiment will be described in detail with reference to FIGS.
FIG. 2 is a diagram for explaining the operation of GUI1. The
[0015]
The
[0016]
FIG. 3 is an example of data stored in the association
The association data stores rules for switching dictionaries according to the active GUI. In the example of FIG. 3, N pieces of association data of
[0017]
Referring to FIG. 3, when the
[0018]
In the
[0019]
In the data 3, when the
[0020]
The data N means that the application dictionary N is activated in a GUI state other than that specified by the data N, and when the above is activated, the application having the application name corresponding to the recognition result is activated.
[0021]
FIG. 4 is an example of a dictionary stored in the dictionary holding unit 3. FIG. 4 illustrates two examples of a dictionary when the speech recognition method is dictation and a dictionary when the speech recognition method is CFG.
[0022]
FIGS. 4A and 4B are examples of dictation dictionaries. Dictation dictionaries can recognize a relatively wide range of utterances by having word string data to record the reading, notation, part of speech, and appearance frequency of each word, and the appearance frequency between words. Become.
[0023]
FIG. 4A is an example of word string data for recording individual words such as the aforementioned reading, notation, and appearance frequency. As shown in FIG. 4A, the word string data includes a dictionary name, a registered part of speech, a reading, a notation, and a word appearance frequency.
[0024]
In this example, four types of parts of speech, “proper noun place name”, “noun”, “particle”, and “auxiliary verb” are registered in the word string data. As the "proper noun place name", three words having the readings of "Tokyo", "Osaka", and "Kyoto" are registered, and the notation is "Tokyo", "Kyoto", and "Osaka". I have. The frequency of appearance of these words is 2.0.
[0025]
As the "noun", three words "Eki", "Shi", and "Town" are registered, and the notation of each word is "Station", "City", and "Town". The frequency of appearance of these words is 1.0 for "Eki" and 0.5 for "shi" and "machi". Two words “de” and “ha” are registered as “particles”. Two words, “is” and “mas”, are registered as “auxiliary verbs”.
[0026]
The word appearance frequency is the ease of appearance for each word, and means that the larger the value, the higher the probability of appearance as a recognition result. In the above example, proper nouns are most likely to appear among the four parts of speech. Also, in nouns, "eki" means that it appears more easily than "machi" or "shi".
[0027]
FIG. 4B is a table showing the frequency of appearance between dictation parts of speech. In this table, the appearance frequency of “proper noun place name” and “noun” is 1.2, and the appearance frequency of auxiliary verbs and particles is 0.1. This indicates that the combination of “proper noun place name” and “place name” appears more easily than the combination of “auxiliary verb” and “particle”.
[0028]
FIGS. 4C and 4D are examples of a dictionary for CFG. In a dictionary for CFG, a word string and a word string are described in combination.
FIG. 4C is an example of a word string. This column shows an example of registration of three types of word strings, “time”, “prefix”, and “end”. Each word string is composed of a reading and a notation. In the word string "time", four words are registered, and each reading is "Rokuji", "Gozenkuro", "Asakuroku", "Asanokuroku", and the corresponding notation is " 6:00 ”.
[0029]
FIG. 4D shows an example of the grammar. The grammar is defined by a permutation of a recognizable word string. In this example, a permutation of three word strings is shown, and the
[0030]
FIG. 5 is a flowchart for explaining the operation when the GUI is changed. The case where the active GUI of the
[0031]
The GUI monitoring means 5 compares the stored information of the GUI with the information of the currently active GUI, and if different, determines that the active GUI has been changed. The GUI information is described by an application name, a window name, a GUI name, and a GUI identification number. The identification number of the GUI is a number for identifying the running GUI, and if this value is recorded, it can be understood that the GUI has been changed even if there is a GUI having the same window name and the same GUI name. If there is no change in the GUI, the process ends (step A1).
[0032]
If the GUI has been changed, the current GUI information is sent to the GUI monitoring means 5 and the association changing means 7 and updated (step A2).
[0033]
In response to this, the
[0034]
The
[0035]
Further, the
[0036]
FIG. 6 is a flowchart for explaining an operation when a voice is input to the
[0037]
When a voice is input to the voice recognition means 2, voice recognition is performed using the currently selected dictionary (step B1). If the result of the speech recognition does not yield a recognition result, the process ends.
[0038]
When the voice is recognized, the "reading" closest to the input voice is returned as a recognition result (step B2). Since a value corresponding to reading has been set, this value is obtained (step B3). As described above with reference to FIG. 4, when the dictionary being selected is the general place
[0039]
The
[0040]
Next, a second embodiment of the present invention will be described with reference to the drawings. The second embodiment relates to the generation of the association data in the first embodiment.
[0041]
As shown in FIG. 7, the configuration of the second embodiment of the present invention comprises a
[0042]
Next, the operation of the second embodiment will be described based on an example used in the first embodiment. FIG. 8 is a flowchart for explaining the operation of the second embodiment. First, an application and a window including a GUI for which association data is to be created are activated, and the target GUI is activated (step C1).
[0043]
As a specific example of the operation of the following flowchart, a method of creating association data corresponding to the
[0044]
FIG. 9 is a diagram for explaining the identification information of the GUI. The GUI identification information includes a window name, a GUI name, and a GUI type. When the
[0045]
Upon receiving the identification information of the GUI in step C2, the setting method data is acquired from the setting method database 703 (step C3). The setting method is a method of setting the result of the voice recognition means 2 for each type of GUI. The setting method data includes a setting method name, a GUI type to be set, and a setting method for the GUI.
[0046]
FIG. 10 shows an example of the
[0047]
Next, a dictionary corresponding to the selected GUI is selected from the dictionary holding means 3 (step C4). The dictionary holding means 3 stores a plurality of dictionaries created in advance.
[0048]
Finally, the identification information of the GUI acquired in step C2, the setting method acquired in step C3, and the dictionary set in step C4 are combined as association data, and stored in the association
[0049]
【The invention's effect】
A first effect is that the input GUI can be controlled by voice so that the GUI can be controlled without contacting an input device such as a keyboard, a mouse, and a touch panel.
[0050]
The second effect is that a voice input function can be added to an existing application by monitoring all GUIs and having a program separately from the application to be monitored.
[Brief description of the drawings]
FIG. 1 is a configuration diagram of a first embodiment of the present invention.
FIG. 2 is an example of a GUI for describing an operation of the first exemplary embodiment of the present invention.
FIG. 3 is an example of data stored in
FIG. 4 is an example of a dictionary stored in the dictionary holding means 3 for explaining the operation of the first exemplary embodiment of the present invention.
FIG. 5 is a flowchart for explaining the operation of the first exemplary embodiment of the present invention.
FIG. 6 is a flowchart for explaining the operation of the first exemplary embodiment of the present invention.
FIG. 7 is a configuration diagram of a second embodiment of the present invention.
FIG. 8 is a flowchart for explaining the operation of the second exemplary embodiment of the present invention.
FIG. 9 is an example of information of a GUI under selection for explaining the operation of the second exemplary embodiment of the present invention.
FIG. 10 is an example of data stored in a
[Explanation of symbols]
1 GUI
2 voice recognition means 3 dictionary holding means 4 command conversion means 5 GUI monitoring means 6 association data holding means 7 association changing means 21, 22, 23
Claims (6)
音声から文字列へ変換する規則を格納した辞書を保持する辞書保持手段と、
入力した音声を前記辞書を参照して文字に変換する音声認識手段と、
音声認識手段で認識された文字列をコマンド列に変換しGUIに設定するコマンド変換手段と、
GUIの状態を監視するGUI監視手段と、
GUI監視手段が認識したGUIの状態と前記音声認識手段が参照する音声認識の方式や辞書とを対応付ける対応付けデータを保持する対応付けデータ保持手段と、
GUIの状態に対応する対応付けデータを対応付けデータ保持手段から読み込み音声認識手段で参照する音声認識方式や辞書を切り替える対応付け変更手段を有することを特徴とする音声制御装置。A graphical user interface (GUI);
Dictionary holding means for holding a dictionary storing rules for converting speech to character strings;
Voice recognition means for converting the input voice to characters by referring to the dictionary,
Command conversion means for converting the character string recognized by the voice recognition means into a command string and setting the same in a GUI;
GUI monitoring means for monitoring the status of the GUI;
Association data holding means for holding association data for associating a state of the GUI recognized by the GUI monitoring means with a speech recognition method or dictionary referred to by the speech recognition means;
A voice control device comprising: an association changing unit that reads association data corresponding to a state of a GUI from an association data holding unit and switches a speech recognition method or a dictionary to be referred to by a speech recognition unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002219831A JP2004062517A (en) | 2002-07-29 | 2002-07-29 | Voice controller, voice control method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002219831A JP2004062517A (en) | 2002-07-29 | 2002-07-29 | Voice controller, voice control method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004062517A true JP2004062517A (en) | 2004-02-26 |
Family
ID=31940637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002219831A Pending JP2004062517A (en) | 2002-07-29 | 2002-07-29 | Voice controller, voice control method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004062517A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006086755A (en) * | 2004-09-15 | 2006-03-30 | Ricoh Co Ltd | Image forming apparatus, image forming method, program for executing its method by computer, image processor, and image processing system |
JP2006172435A (en) * | 2004-12-14 | 2006-06-29 | Microsoft Corp | Semantic canvas |
JP2007280364A (en) * | 2006-03-10 | 2007-10-25 | Nec (China) Co Ltd | Method and device for switching/adapting language model |
JP2020170051A (en) * | 2019-04-01 | 2020-10-15 | 富士ゼロックス株式会社 | Information processor and information processing program |
-
2002
- 2002-07-29 JP JP2002219831A patent/JP2004062517A/en active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006086755A (en) * | 2004-09-15 | 2006-03-30 | Ricoh Co Ltd | Image forming apparatus, image forming method, program for executing its method by computer, image processor, and image processing system |
JP4520262B2 (en) * | 2004-09-15 | 2010-08-04 | 株式会社リコー | Image forming apparatus, image forming method, program for causing computer to execute the method, image processing apparatus, and image processing system |
JP2006172435A (en) * | 2004-12-14 | 2006-06-29 | Microsoft Corp | Semantic canvas |
JP2007280364A (en) * | 2006-03-10 | 2007-10-25 | Nec (China) Co Ltd | Method and device for switching/adapting language model |
US8078467B2 (en) | 2006-03-10 | 2011-12-13 | Nec (China) Co., Ltd. | Device and method for language model switching and adaptation |
JP2020170051A (en) * | 2019-04-01 | 2020-10-15 | 富士ゼロックス株式会社 | Information processor and information processing program |
JP7363075B2 (en) | 2019-04-01 | 2023-10-18 | 富士フイルムビジネスイノベーション株式会社 | Information processing device and information processing program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cohen et al. | The role of voice input for human-machine communication. | |
US5890122A (en) | Voice-controlled computer simulateously displaying application menu and list of available commands | |
JP3662780B2 (en) | Dialogue system using natural language | |
US7848926B2 (en) | System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words | |
JP5142720B2 (en) | Interactive conversational conversations of cognitively overloaded users of devices | |
US7480619B1 (en) | Integration manager and natural interaction processor | |
JP3476007B2 (en) | Recognition word registration method, speech recognition method, speech recognition device, storage medium storing software product for registration of recognition word, storage medium storing software product for speech recognition | |
JP2001272995A (en) | Speech recognition method and system | |
JPH06138815A (en) | Finger language/word conversion system | |
JP2010524137A (en) | Input method editor with second language mode | |
US6253176B1 (en) | Product including a speech recognition device and method of generating a command lexicon for a speech recognition device | |
JP2001209393A (en) | Method and device for inputting natural language | |
JP2000508093A (en) | Reduced keyboard disambiguation system | |
JP2002116796A (en) | Voice processor and method for voice processing and storage medium | |
JP2008090625A (en) | Character input device, character input method, control program, and recording medium | |
JP2011154099A (en) | Dictionary for speech recognition utilized in speech recognition device and learning method of language model for speech recognition | |
JP2016061855A (en) | Audio learning device and control program | |
BRPI0613699A2 (en) | mobile dictionary search that uses handwriting recognition | |
JP6712940B2 (en) | Voice input device, voice input method | |
Kephart et al. | An embodied cognitive assistant for visualizing and analyzing exoplanet data | |
US8000965B2 (en) | Information-processing device and method that attains speech-recognition to recognize data input via speech | |
JP2004062517A (en) | Voice controller, voice control method and program | |
JPH07219590A (en) | Speech information retrieval device and method | |
WO2003079188A1 (en) | Method for operating software object using natural language and program for the same | |
JP6022111B2 (en) | Motion design apparatus and motion design program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050308 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050616 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20070115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070705 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070717 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070913 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080226 |