JP4622861B2

JP4622861B2 - 音声入力システム、音声入力方法、および、音声入力用プログラム

Info

Publication number: JP4622861B2
Application number: JP2005517688A
Authority: JP
Inventors: 健花沢; 誠也長田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2004-02-10
Filing date: 2005-02-02
Publication date: 2011-02-02
Anticipated expiration: 2025-02-02
Also published as: JPWO2005076259A1; WO2005076259A1

Description

本発明は、音声入力システム、音声入力方法、および、音声入力用プログラムに関し、特に、音声認識を利用した音声入力システム、音声入力方法、および、音声入力用プログラムに関する。

電子辞書や駅名・住所・人名入力などの単語、あるいは、フレーズを入力するシステムにおける入力方法として、キー入力による入力時の手間を省くために音声認識を利用する方法がある。

従来の音声入力システムの一例が、特許文献１に記載されている。この従来のシステムは、音声入力装置と、音声認識手段と、キー入力装置と、キー入力制御手段と、カテゴリ情報別辞書検索手段と、認識辞書と、認識辞書検索手段と、文字入力手段とから構成されている。

上述の従来の音声入力システムは、次のように動作する。

すなわち、キー入力装置でキーを押下中に音声入力装置から音声の入力を行うと、入力された音声データが音声認識手段で認識される。カテゴリ情報別辞書検索手段により押下されているキーに割り当てられたカテゴリ種別のレコードのみを対象にして認識辞書を検索するカテゴリ情報別辞書検索処理が行われ、マッチングのとれたレコードに対応した認識結果が出力される。
特開２００１−１５９８９６号公報

特許文献１記載の発明の問題点は、キー入力で認識対象を限定することにより認識精度を補う方法を用いた場合でも、なお誤認識の可能性があり、結果として目的の単語を選択することができないことがある、ということである。

その理由は、誤認識したときの回復手段がないためである。

本発明の目的は、検索対象の単語を一覧表示することで誤認識したときの回復手段を備えた音声入力システムを提供することにある。

請求項１記載の発明は、ある順序関係で単語を順序づけして記憶する単語入力用辞書と、キーと対応づけられて前記順序関係をもとに認識する認識単語の部分集合が定義された音声認識用辞書と、キー入力手段で入力されたキーと入力された音声に対し前記キーに対応した認識単語の部分集合を利用して前記入力された音声を認識し認識結果候補を出力する音声認識手段と、前記認識結果候補の単語一覧を表示手段に表示する認識候補表示手段と、前記認識結果候補の前記認識単語の中の一つが前記キー入力手段を介して選択されたときに、前記選択された認識単語に対応する前記単語入力用辞書内の単語の前記順序関係において近傍の単語を前記表示手段に表示し、前記近傍の単語を表示した後、前記キー入力手段を再度用いて、表示された単語の集合を再帰的に部分集合に絞り込んで表示する検索辞書単語表示手段と、を備えることを特徴とする音声入力システムである。

請求項２記載の発明は、請求項１記載の音声入力システムであって、単語間の順序関係が、表音表記順または五十音順であり、音声入力単語の表音表記における先頭の１ないし複数の文字の、１つまたはその集合をキー入力手段のキー入力により指定可能とすることを特徴とする

請求項３記載の発明は、請求項１または２記載の音声入力システムであって、前記音声認識手段は、キー入力によって音声入力の開始を行うことを特徴とする。

請求項４記載の発明は、請求項１から３のいずれか１項記載の音声入力システムであって、前記検索辞書単語表示手段は、前記検索辞書単語表示手段により表示された１つまたは複数の単語集合の先頭からの共通部分を確定し、非共通部分の最初の１つまたは複数の文字をキー入力手段を再度用いて受け付け、表示された単語集合を再帰的に部分集合に絞り込んで表示することを特徴とする。

請求項５記載の発明は、ある順序関係で単語を順序づけして記憶する単語入力用辞書と、キーと対応づけられて順序関係をもとに認識する認識単語の部分集合が定義された音声認識用辞書と、キー入力手段で入力されたキーと入力された音声に対しキーに対応した認識単語の部分集合を利用して入力された音声を認識し認識結果候補を出力する手順と、認識結果候補の認識単語一覧を表示手段に表示する手順と、前記認識結果候補の前記認識単語の中の一つが前記キー入力手段を介して選択されたときに、前記選択された認識単語に対応する前記単語入力用辞書内の単語の前記順序関係において近傍の単語を前記表示手段に表示し、前記近傍の単語を表示した後、前記キー入力手段を再度用いて、表示された単語の集合を再帰的に部分集合に絞り込んで表示する手順と、を備えることを特徴とする音声入力方法である。

請求項６記載の発明は、請求項５記載の音声入力方法であって、単語間の順序関係が、表音表記順または五十音順であり、音声入力単語の表音表記における先頭の１ないし複数の文字の、１つまたはその集合を前記キー入力手段でのキー入力により指定する手順を含むことを特徴とする。

請求項７記載の発明は、請求項５または６記載の音声入力方法であって、キー入力によって音声入力の開始を行う手順を備えることを特徴とする。

請求項８記載の発明は、請求項５から７のいずれか１項記載の音声入力方法であって、前記単語入力用辞書から選択して表示された１つまたは複数の単語集合の先頭からの共通部分を確定し、非共通部分の最初の１つまたは複数の文字をキー入力手段を再度用いて受け付け、表示された単語集合を再帰的に部分集合に絞り込んで表示する手順を備えることを特徴とする。

請求項９記載の発明は、ある順序関係で単語を順序づけして記憶する単語入力用辞書と、キーと対応づけられて順序関係をもとに認識する認識単語の部分集合が定義された音声認識用辞書と、キー入力手段で入力されたキーと入力された音声に対しキーに対応した認識単語の部分集合を利用して入力された音声を認識し認識結果候補を出力する手順と、認識結果候補の認識単語一覧を表示手段に表示する手順と、前記認識結果候補の前記認識単語の中の一つが前記キー入力手段を介して選択されたときに、前記選択された認識単語に対応する前記単語入力用辞書内の単語の前記順序関係において近傍の単語を前記表示手段に表示し、前記近傍の単語を表示した後、前記キー入力手段を再度用いて、表示された単語の集合を再帰的に部分集合に絞り込んで表示する手順と、をコンピュータに実行させることを特徴とする音声入力用プログラムである。

請求項１０記載の発明は、請求項９記載の音声入力用プログラムであって、単語間の順序関係が、表音表記順または五十音順であり、音声入力単語の表音表記における先頭の１ないし複数の文字の、１つまたはその集合を前記キー入力手段でのキー入力により指定する手順をコンピュータに実行させることを特徴とする。

請求項１１記載の発明は、請求項９または１０記載の音声入力用プログラムであって、キー入力によって音声入力の開始を行う手順をコンピュータに実行させることを特徴とする。

請求項１２記載の発明は、請求項９から１１のいずれか１項記載の音声入力用プログラムであって、前記単語入力用辞書から選択して表示された１つまたは複数の単語集合の先頭からの共通部分を確定し、非共通部分の最初の１つまたは複数の文字をキー入力手段を再度用いて受け付け、表示された単語集合を再帰的に部分集合に絞り込んで表示する手順をコンピュータに実行させることを特徴とする。

本発明の効果は、仮に誤認識しても目的の単語が選択できることである。

その理由は、音声認識の結果として得られる認識結果候補から検索辞書単語を検索する際に検索辞書中の前後の単語も同時に提示するためである。

次に、本発明を実施するための第１の最良の形態について図面を参照して詳細に説明する。

図１は、本発明を実施するための第１の最良の形態の音声入力システムの全体の構成を示すブロック図である。

図１を参照すると、本発明を実施するための第１の最良の形態の音声入力システムは、例えば、単語が五十音順（あらかじめ単語間に定義された順序関係であれば、五十音順でなくてもよい）に登録された検索辞書１０９と、認識辞書１０５と、音声入力を行うマイクロフォン１０３と、マイクオンのためのキー入力と候補選択のためのキー入力、および単語選択のためのキー入力を受け付けるキー入力装置１０４（たとえば、キーボード）と、ディスプレイ等の表示装置１１１と、認識辞書１０５を用いて入力音声から確からしい順に複数の候補を探索する音声認識部１０６と、音声認識部１０６の認識結果である候補単語一覧を表示装置１１１に表示し、その中の１つをユーザに候補選択のためのキー入力により選択させる認識候補表示部１０７と、認識候補表示部１０７で候補が選択された場合に選択された候補および五十音順でその前後の単語を検索辞書１０９から選択して五十音順（あらかじめ単語間に定義された順序関係であれば、五十音順でなくてもよい）に表示装置１１１に表示する検索辞書単語表示部１０８とから構成される。

検索辞書１０９、認識辞書１０５は、メモリ、または、ハードディスク等の記憶装置に格納されている。音声認識部１０６、認識候補表示部１０７、検索辞書単語表示部１０８は、コンピュータに、ハードウェア、または、ソフトウェア、または、それらの組み合わせとして実現できる。また、図示ないが、音声入力システムは、主記憶装置を内蔵しており、音声認識部１０６、認識候補表示部１０７、検索辞書単語表示部１０８は、ハードウェア資源である主記憶装置を使用する。たとえば、音声認識部１０６は、認識結果の候補を主記憶装置に格納し、認識候補表示部１０７は、認識結果の候補を主記憶装置から読み出して表示装置１１１に表示する。以下、主記憶装置の使用は、情報処理装置における一般的な動作なので、いちいち記述しない。

次に、本発明を実施するための第１の最良の形態の音声入力システムの動作について図面を参照して説明する。

図２は、本発明を実施するための第１の最良の形態の音声入力システムの動作を示すフローチャートである。

マイクオンのキー入力に対して処理をスタートし、マイクロフォン１０３が入力音声を入力する（図２ステップＳ０２）。音声認識部１０６が、入力された音声を認識辞書１０５により音声認識し、認識結果の候補を出力する（ステップＳ０３）。音声認識の結果として得られる認識結果の候補を認識候補表示部１０７が表示装置１１１に表示する（ステップＳ０４）。ユーザがキー入力装置１０４から候補選択のためのキー入力をして表示された候補のうち一つを選択すると、（ステップＳ０５）、検索辞書単語表示部１０８は、選択された候補、および、五十音順でその前後の単語を検索辞書１０９から選択して、検索辞書単語（検索結果）として表示装置１１１に表示する（ステップＳ０６）。表示された検索辞書単語（検索結果）のうち一つをユーザがキー入力装置１０４から単語選択のためのキー入力をして選択する（ステップＳ０７）。

次に、本発明の第２の発明を実施するための最良の形態の音声入力システムについて図面を参照して説明する。

図３は、本発明を実施するための第２の最良の形態の音声入力システムの全体の構成を示すブロック図である。

本発明の第２の最良の形態は、例えば、単語が五十音順に登録された検索辞書１０９と、辞書中の単語の部分集合がそれぞれキーと対応づけられた認識辞書３０１と、音声入力を行うマイクロフォン１０３と、ディスプレイ等の表示装置１１１と、マイクオンのためのキー入力と辞書選択のためのキー入力、候補選択のためのキー入力、および単語選択のためのキー入力を受け付けるキー入力装置１０４と、辞書選択のためのキー入力に応じて認識辞書３０１の認識対象となる部分集合を選択する辞書選択部３０２と、辞書選択部３０２によって選択された認識辞書３０１の部分集合を用いて入力音声から確からしい順に複数の候補を探索する音声認識部１０６と、音声認識部１０６の認識結果である候補単語一覧を表示し、その中の１つをユーザの候補選択のためのキー入力により選択させる認識候補表示部１０７と、認識候補表示部１０７で候補が選択された場合に選択された候補および五十音順でその前後の単語を検索辞書１０９から選択して五十音順に表示する検索辞書単語表示部１０８とから構成される。

次に、本発明を実施するための第２の最良の形態の音声入力システムの動作について図面を参照して説明する。

図４は、本発明を実施するための第２の最良の形態の音声入力システムの動作を示すフローチャートである。

図４を参照すると、辞書選択のためのキー入力に対して処理をスタートし、辞書選択部３０２が、入力した辞書選択のためのキーに応じて認識辞書３０１の部分集合を選択する（図４ステップＡ０２）。キー入力装置１０４は、マイクオンのためのキー入力を受け付ける（ステップＡ０３）。マイクロフォン１０３が、入力音声１０１を入力する（ステップＡ０４）。音声認識部１０６が、入力された音声を認識辞書１０５により音声認識し、認識結果の候補を出力する（ステップＡ０５）。認識候補表示部１０７は、音声認識の結果として得られる認識結果の候補を表示する（ステップＡ０６）。ユーザが、キー入力装置１０４から表示された候補のうち一つを候補選択のためのキー入力をして選択すると（ステップＡ０７）、検索辞書単語表示部１０８は、選択された候補、および、五十音順でその前後の単語を検索辞書１０９から選択して検索辞書単語（検索結果）として表示装置１１１に表示する（ステップＡ０８）。表示された検索辞書単語（検索結果）のうち一つをユーザがキー入力装置１０４から単語選択のためのキー入力をして選択する（ステップＡ０９）。

次に、本発明を実施するための第２の最良の形態の音声入力システムの別の動作について図面を参照して説明する。

図５は、本発明を実施するための第２の最良の形態の音声入力システムの別の動作を示すフローチャートである。

図５を参照すると、辞書選択のためのキー入力１０２に対して処理をスタートし、辞書選択部３０２が、入力した辞書選択のためのキーに応じて認識辞書３０１の部分集合を選択する（図５ステップＢ０２）。キー入力装置１０４は、マイクオンのためのキー入力を受け付ける（ステップＢ０３）。マイクロフォン１０３は、入力音声を入力する（ステップＢ０４）。音声認識部１０６は、入力された音声を音声認識する（ステップＢ０５）。認識候補表示部１０７は、音声認識の結果として得られる認識結果の候補を表示装置１１１に表示する（ステップＢ０６）。ユーザが、表示された候補のうち一つをキー入力装置１０４から候補選択のためのキー入力をして選択すると（ステップＢ０７）、検索辞書単語表示部１０８は、選択された候補および五十音順でその前後の単語を検索辞書１０９から選択して検索辞書単語（検索結果）として表示装置１１１に表示する（ステップＢ０８）。表示された検索辞書単語（検索結果）をさらに絞り込む場合には、キー入力装置１０４は、２回目以降のキー入力を受け付ける（ステップＢ０９）。再度表示された検索結果をこれ以上絞り込まない場合には、そのうち一つをユーザがキー入力装置１０４から単語選択のためのキー入力をして選択する（ステップＢ１０）。

次に、本発明を実施するための第１の最良の形態の実施例について辞書単語検索を例として説明する。

図６は、本発明を実施するための第１の最良の形態の実施例の動作を示す説明図である。

図１０は、検索辞書単語表示部１０８が表示装置１１１に表示する検索辞書単語一覧を示す説明図である。

図１１は、表示装置１１１に表示される認識結果候補、検索辞書単語一覧を示す説明図である。

図６を参照すると、ユーザがマイクオンのキー入力をして「警官（けいかん）」と発声した場合、マイクロフォン１０３が音声を入力し、入力音声を音声認識部１０６が認識する。認識辞書１０５は、単語をひらがなで登録している。音声認識部１０６が、認識結果候補として、例えば、確からしさの順位とともに、「えいかん」、「けいかん」などの認識結果候補を出力すると、認識候補表示部１０７は、認識結果候補を、最も確からしい認識結果候補がユーザに認識できるように（たとえば、下線）、表示装置１１１に表示する。ユーザによって、認識結果候補の１つ（この場合、けいかん）が選択されると（たとえば、クリック）、検索辞書単語表示部１０８は、図１０に示すように、検索辞書中の「けいかん」に対応する単語、および、五十音順（その他の順序でもよい）でその前後の単語である「警戒」「計画」「警官」「景観」「景気」などを表示装置１１１に一覧表示する。また、ユーザの意図しない認識結果候補が、最も確からしいとして表示される（下線が引かれる）場合もあるが、ユーザが、意図した認識結果候補を選択すれば、検索辞書単語表示部１０８は、同様に、図１０のように表示する。

また、図１１に示すように、認識候補表示部１０７が、検索辞書単語表示部１０８と連携し、音声認識部１０６から入力した最も確からしい音声認識候補に対応する検索辞書単語一覧を表示することも可能である。図１１の左側が認識結果候補であり、右側が、検索辞書単語一覧である。

ユーザは、目的の単語である「警官」が一覧中に存在するのでそれを選択すると、例えば、国語辞典ならその単語の意味が、和英辞典ならその単語の英訳が得られることになる。この例では国語辞典や和英辞典の単語検索部を想定して入力言語は日本語、検索対象は１単語となっているが、入力言語が日本語以外の場合や検索対象が複数単語の組み合わせからなる場合も同様である。

例えば、英和辞典の単語検索を想定すると、ユーザが「ｐｏｌｉｃｅｓｔａｔｉｏｎ」の和訳を知りたくて「ぽりすすてーしょん」と発声した場合に、音声認識を行って認識結果候補として「ｐｏｌｉｃｅｓｔａｔｉｏｎ」、あるいは表音表記順またはアルファベット順でそれに近い候補が得られれば、それを選択することで、「ｐｏｌｉｃｅｓｔａｔｉｏｎ」が選択可能となり、最終的に目的の単語あるいはフレーズの和訳を得ることが可能となる。

また、認識辞書３０１は検索辞書１０９中の単語をすべて含んでも良いが、代表的なもののみ登録してそれ以外は検索辞書単語一覧から選択しても良い。例えば検索辞書１０９を東京都内の駅名とした場合に、認識辞書３０１には「しんじゅく」のみ登録しておき、「新宿御苑前」「新宿三丁目」は検索辞書単語一覧から選択するようにしても良い。同様に、検索辞書１０９には含まれない単語を認識辞書３０１に持っていても良い。

次に、本発明を実施するための第２の最良の形態の第１の実施例について説明する。

図７は、本発明を実施するための第２の最良の形態の第１の実施例の動作を示す説明図である。

認識辞書３０１中の各単語は、先頭文字ごとに部分集合に分けられている。音声認識部１０６は、ユーザの辞書選択のためのキー入力によりキーと同じ先頭文字の部分集合のみを対象として音声認識を行う。ユーザが、「警官」という単語を検索したい場合、その先頭文字である「ｋ」を辞書選択のためにキー入力してから、マイクオンのキー入力をして「けいかん」と発声すると、辞書選択部３０２は、「か行」または「が行」の文字で始まる単語のみからなる認識辞書３０１の部分集合を選択し、音声認識部１０６に出力する。音声認識部１０６は、マイクロフォン１０３から音声を認識し、辞書選択部３０２からの出力にしたがい、認識結果候補として、例えば、「けいかく」「けいさん」などの認識結果候補を出力する。認識候補表示部１０７は、認識結果候補を表示装置１１１に表示する。

ユーザにより、目的の単語に五十音順で近い「けいかく」が選択されると、検索辞書単語表示部１０８は、図１０に示すように「計画」「警官」「景観」などの検索辞書単語一覧を表示する。このとき、ユーザは、目的の単語である「警官」が一覧中に存在するのでそれを選択可能となる。

また、この例では、仮に誤認識して認識結果候補として「けいかん」が得られなかったとしても、先頭文字が「か行」または「が行」に限定されていることから「けいかく」「けいさん」など「けいかん」に五十音順で近い単語が認識結果候補として得られる。その結果、ユーザは、五十音順で近い「けいかく」を選択するのが容易になる。ユーザにより「けいかく」が選択されると、検索辞書単語表示部１０８は、検索辞書単語一覧として「計画」「警官」「景観」などが五十音順に表示するので、ユーザは、目的の単語「警官」を容易に選択できる。すなわち、単語の先頭文字の限定と五十音順の一覧表示により、音声による単語入力が容易かつ高確度で行えることになる。

ここで、検索辞書単語一覧では、「ｋ」が、指定されていることから「か行」または「が行」の文字で始まる単語のみを表示しても良いし、五十音順で「か行」または「が行」の前後の文字から始まる単語も含めて表示しても良い。

図７の例では先頭文字を１つだけ指定しているが、先頭の複数文字を指定する場合、文字ではなく単語の種類を指定する場合も同様である。例えば、「けいかん」を単語検索するために、「ｋ」と「ｅ」を連続してキー入力し、認識対象として「け」で始まる単語のみからなる認識辞書３０１の部分集合を辞書選択部３０２で選択させることができる。これにより「警官」が認識結果候補として出現しやすくなる。

また、単語の種類として意味的カテゴリ「食べ物」「乗り物」「職業」などを定義し、キー入力装置１０４に意味的カテゴリのキーを割り振り、例えば「職業」カテゴリに対応するキー入力を行い、認識対象として「職業」のみからなる認識辞書３０１の部分集合を辞書選択部３０２で選択させることができる。これにより「けいかん」と発声したときに「警官」が認識結果候補として出現しやすくなる。

次に、本発明を実施するための第２の最良の形態の第２の実施例について説明する。

図８は、本発明を実施するための第２の最良の形態の第２の実施例の動作を示す説明図である。

図８を参照すると、認識辞書３０１中の各単語は先頭文字ごとに部分集合に分けられており、ユーザの辞書選択のためのキー入力によりキーと同じ先頭文字の部分集合のみを対象として音声認識が行われる。「警官」という単語を検索する場合、ユーザが、その先頭文字である「ｋ」をマイクオンのキー入力として押下しながら「けいかん」と発声すると、辞書選択部３０２は、「か行」または「が行」の文字で始まる単語のみからなる認識辞書３０１の部分集合を選択し、音声認識部１０６に出力する。

音声認識部１０６は、マイクロフォン１０３からの入力音声を認識し、辞書選択部３０２からの出力にしたがい、認識結果候補として、例えば「けいかく」「けいさん」などを出力する。認識候補表示部１０７は、音声認識部１０６からの認識結果候補を表示装置１１１に表示する。ユーザにより、目的の単語に五十音順で近い「けいかく」が選択されると、検索辞書単語表示部１０８は、図１０に示すように、「計画」「警官」「景観」などが検索辞書単語一覧を表示する。このとき、ユーザは、目的の単語である「警官」が一覧中に存在するので、それを選択可能となる。この例では、図７の例に比べてユーザのキー入力が１回減っており、キー入力の手間が少ないという効果がある。

次に、本発明を実施するための第２の最良の形態の第３の実施例について説明する。

図９は、本発明を実施するための第２の最良の形態の第３の実施例の動作を示す説明図である。

図９を参照すると、認識辞書３０１中の各単語は先頭文字ごとに部分集合に分けられており、ユーザの辞書選択のためのキー入力によりキーと同じ先頭文字の部分集合のみを対象として音声認識が行われる。「警官」という単語を検索する場合、ユーザは、その先頭文字である「ｋ」を辞書選択のためにキー入力してから、マイクオンのキー入力をして、「けいかん」と発声する。辞書選択部３０２は、「か行」または「が行」の文字で始まる単語のみからなる認識辞書３０１の単語の部分集合を選択し音声認識部１０６に出力する。音声認識部１０６は、マイクロフォン１０３からの入力音声を認識し、辞書選択部３０２の出力にしたがい、例えば「けいかく」「けいさん」などを認識結果候補として出力する。認識候補表示部１０７は、認識結果候補を表示装置１１１に表示する。ユーザにより、目的の単語に五十音順で近い「けいかく」が選択されると、検索辞書単語表示部１０８は、図１０に示すように「計画」「警官」「景観」などを検索辞書単語一覧として表示する。このとき、一覧表示されている単語の共通部分である「けいか」までを検索辞書単語表示部１０８が自動的に確定するので、ユーザが、次の単語選択のためのキー入力として「ｎ」を入力すると、検索辞書単語表示部１０８は、さらに絞り込んだ「警官」「景観」だけの検索辞書単語一覧を表示する。この手順を繰り返すことで、ユーザは目的の単語である「警官」を選択可能となる。

図７〜図９の例では、辞書選択部３０２が認識辞書３０１の部分集合を選択しているが、辞書選択部３０２が、辞書選択のためのキー入力により、複数の認識辞書３０１の中の１つあるいは複数を選択することも同様に可能である。

図１２は、認識辞書３０１の選択の表示例を示す説明図である。

図１２を参照すると、日本の地名を都道府県別の認識辞書３０１として用意しておき、キー入力で「東京」を選んだ後に、東京都内の地名である「きたみ」と音声入力するような構成が可能である。

次に、本発明を実施するための第３の最良の形態の音声入力システムついて図面を参照して説明する。

本発明を実施するための第３の最良の形態は、図２、図４、または、図５の各ステップを含む方法である。

次に、本発明を実施するための第４の最良の形態の音声入力システムついて図面を参照して説明する。

本発明を実施するための第４の最良の形態は、実施するための第３の最良の形態の各ステップをコンピュータ（音声認識部１０６、認識候補表示部１０７、検索辞書単語表示部１０８、辞書選択部３０２）に実行させるプログラムである。

以上では、音声をマイクロフォン１０３から入力したが、ネットワークを介して音声データを入力し、音声データを音声波形に変換し、音声認識部１０６で認識する構成も可能である。

以上説明したように、本発明は、以下の効果を持つ。

第１の効果は、仮に誤認識しても目的の単語が選択できることである。

その理由は、音声認識の結果として得られる認識結果候補から検索辞書１０９の単語を検索する際に検索辞書１０９中の前後の単語も同時に表示するためである。

第２の効果は、誤認識の発生確率が低くなり、目的の単語が選択しやすくなることである。

その第１の理由は、認識辞書３０１の単語をサブセットに分けることで探索効率が良くなり、その結果として処理速度と認識精度が向上し、さらに先頭文字を指定させることで先頭文字の認識結果が保証されるためである。

第２の理由は、音声認識を開始する際に発声内容に関連した認識辞書３０１の選択のためのキー入力を要求することで、ユーザに発声すべき単語を意識させ、丁寧な発声を促すためである。

第３の効果は、大規模な検索辞書１０９内の一部の単語しか認識辞書３０１に存在しなかった場合に、認識辞書３０１に存在しない検索辞書１０９の単語を選択できることである。

その理由は、認識辞書３０１に存在しないために、近い単語に誤認識しても、その前後の単語を検索辞書１０９から選択することが可能なためである。

第４の効果は、ユーザの目的の単語が検索辞書１０９に存在しない場合に、その単語が検索辞書１０９に存在しないということをユーザが知ることができることである。

その理由は、例えば、五十音順で目的の単語の前後の単語を表示することでその単語が検索辞書１０９に存在しないことを示すことができるためである。

本発明は、種々の電子機器に適用可能である。たとえば、単語の意味や訳語を知るための電子辞書に適用できる。また、携帯電話や携帯情報端末などの入力インタフェースにも適用できる。

本発明を実施するための第１の最良の形態の音声入力システムの全体の構成を示すブロック図である。本発明を実施するための第１の最良の形態の音声入力システムの動作を示すフローチャートである。本発明を実施するための第２の最良の形態の音声入力システムの全体の構成を示すブロック図である。本発明を実施するための第２の最良の形態の音声入力システムの動作を示すフローチャートである。本発明を実施するための第２の最良の形態の音声入力システムの別の動作を示すフローチャートである。本発明を実施するための第１の最良の形態の実施例の動作を示す説明図である。本発明を実施するための第２の最良の形態の第１の実施例の動作を示す説明図である。本発明を実施するための第２の最良の形態の第２の実施例の動作を示す説明図である。本発明を実施するための第２の最良の形態の第３の実施例の動作を示す説明図である。検索辞書単語一覧を示す説明図である。認識結果候補、検索辞書単語一覧を示す説明図である。認識辞書の選択の表示例を示す説明図である。

符号の説明

１０３マイクロフォン
１０４キー入力装置
１０５認識辞書
１０６音声認識部
１０７認識候補表示部
１０８検索辞書単語表示部
１０９検索辞書
１１１表示装置
３０１認識辞書
３０２辞書選択部

Claims

ある順序関係で単語を順序づけして記憶する単語入力用辞書と、
キーと対応づけられて前記順序関係をもとに認識する認識単語の部分集合が定義された音声認識用辞書と、
キー入力手段で入力されたキーと入力された音声に対し前記キーに対応した認識単語の部分集合を利用して前記入力された音声を認識し認識結果候補を出力する音声認識手段と、
前記認識結果候補の単語一覧を表示手段に表示する認識候補表示手段と、
前記認識結果候補の前記認識単語の中の一つが前記キー入力手段を介して選択されたときに、前記選択された認識単語に対応する前記単語入力用辞書内の単語の前記順序関係において近傍の単語を前記表示手段に表示し、前記表示された１つまたは複数の単語集合の先頭からの共通部分を確定し、非共通部分の最初の１つまたは複数の文字を前記キー入力手段を再度用いて受け付け、表示された単語集合を再帰的に部分集合に絞り込んで表示する検索辞書単語表示手段と、を備えることを特徴とする音声入力システム。
単語間の順序関係が、表音表記順または五十音順であり、音声入力単語の表音表記における先頭の１ないし複数の文字の、１つまたはその集合を前記キー入力手段でのキー入力により指定可能とすることを特徴とする請求項１記載の音声入力システム。
前記音声認識手段は、キー入力によって音声入力の開始を行うことを特徴とする請求項１または２記載の音声入力システム。
ある順序関係で単語を順序づけして記憶する単語入力用辞書と、
キーと対応づけられて前記順序関係をもとに認識する認識単語の部分集合が定義された音声認識用辞書と、を備える音声入力システムの動作方法において、
キー入力手段で入力されたキーと入力された音声に対し前記キーに対応した認識単語の部分集合を利用して前記入力された音声を認識し認識結果候補を出力する手順と、
前記認識結果候補の認識単語一覧を表示手段に表示する手順と、
前記認識結果候補の前記認識単語の中の一つが前記キー入力手段を介して選択されたときに、前記選択された認識単語に対応する前記単語入力用辞書内の単語の前記順序関係において近傍の単語を前記表示手段に表示し、前記表示された１つまたは複数の単語集合の先頭からの共通部分を確定し、非共通部分の最初の１つまたは複数の文字を前記キー入力手段を再度用いて受け付け、表示された単語集合を再帰的に部分集合に絞り込んで表示する手順と、を備えることを特徴とする音声入力方法。
単語間の順序関係が、表音表記順または五十音順であり、音声入力単語の表音表記における先頭の１ないし複数の文字の、１つまたはその集合を前記キー入力手段でのキー入力により指定する手順を備えることを特徴とする請求項４記載の音声入力方法。
キー入力によって音声入力の開始を行う手順を備えることを特徴とする請求項４または
５記載の音声入力方法。
ある順序関係で単語を順序づけして記憶する単語入力用辞書と、
キーと対応づけられて前記順序関係をもとに認識する認識単語の部分集合が定義された音声認識用辞書と、を備える音声入力システムのコンピュータに下記手順を実行させるプログラムにおいて、
キー入力手段で入力されたキーと入力された音声に対し前記キーに対応した認識単語の部分集合を利用して前記入力された音声を認識し認識結果候補を出力する手順と、
前記認識結果候補の認識単語一覧を表示手段に表示する手順と、
前記認識結果候補の前記認識単語の中の一つが前記キー入力手段を介して選択されたときに、前記選択された認識単語に対応する前記単語入力用辞書内の単語の前記順序関係において近傍の単語を前記表示手段に表示し、前記表示された１つまたは複数の単語集合の先頭からの共通部分を確定し、非共通部分の最初の１つまたは複数の文字を前記キー入力手段を再度用いて受け付け、表示された単語集合を再帰的に部分集合に絞り込んで表示する手順と、をコンピュータに実行させることを特徴とする音声入力用プログラム。
単語間の順序関係が、表音表記順または五十音順であり、音声入力単語の表音表記における先頭の１ないし複数の文字の、１つまたはその集合を前記キー入力手段でのキー入力により指定する手順をコンピュータに実行させることを特徴とする請求項７記載の音声入力用プログラム。
キー入力によって音声入力の開始を行う手順をコンピュータに実行させることを特徴とする請求項７または８記載の音声入力用プログラム。