[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4622861B2 - 音声入力システム、音声入力方法、および、音声入力用プログラム - Google Patents

音声入力システム、音声入力方法、および、音声入力用プログラム Download PDF

Info

Publication number
JP4622861B2
JP4622861B2 JP2005517688A JP2005517688A JP4622861B2 JP 4622861 B2 JP4622861 B2 JP 4622861B2 JP 2005517688 A JP2005517688 A JP 2005517688A JP 2005517688 A JP2005517688 A JP 2005517688A JP 4622861 B2 JP4622861 B2 JP 4622861B2
Authority
JP
Japan
Prior art keywords
input
recognition
word
dictionary
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005517688A
Other languages
English (en)
Other versions
JPWO2005076259A1 (ja
Inventor
健 花沢
誠也 長田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2005076259A1 publication Critical patent/JPWO2005076259A1/ja
Application granted granted Critical
Publication of JP4622861B2 publication Critical patent/JP4622861B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声入力システム音声入力方法、および、音声入力用プログラムに関し、特に、音声認識を利用した音声入力システム音声入力方法、および、音声入力用プログラムに関する。
電子辞書や駅名・住所・人名入力などの単語、あるいは、フレーズを入力するシステムにおける入力方法として、キー入力による入力時の手間を省くために音声認識を利用する方法がある。
従来の音声入力システムの一例が、特許文献1に記載されている。この従来のシステムは、音声入力装置と、音声認識手段と、キー入力装置と、キー入力制御手段と、カテゴリ情報別辞書検索手段と、認識辞書と、認識辞書検索手段と、文字入力手段とから構成されている。
上述の従来の音声入力システムは、次のように動作する。
すなわち、キー入力装置でキーを押下中に音声入力装置から音声の入力を行うと、入力された音声データが音声認識手段で認識される。カテゴリ情報別辞書検索手段により押下されているキーに割り当てられたカテゴリ種別のレコードのみを対象にして認識辞書を検索するカテゴリ情報別辞書検索処理が行われ、マッチングのとれたレコードに対応した認識結果が出力される。
特開2001−159896号公報
特許文献1記載の発明の問題点は、キー入力で認識対象を限定することにより認識精度を補う方法を用いた場合でも、なお誤認識の可能性があり、結果として目的の単語を選択することができないことがある、ということである。
その理由は、誤認識したときの回復手段がないためである。
本発明の目的は、検索対象の単語を一覧表示することで誤認識したときの回復手段を備えた音声入力システムを提供することにある。
請求項1記載の発明は、ある順序関係で単語を順序づけして記憶する単語入力用辞書と、キーと対応づけられて前記順序関係をもとに認識する認識単語の部分集合が定義された音声認識用辞書と、キー入力手段で入力されたキーと入力された音声に対し前記キーに対応した認識単語の部分集合を利用して前記入力された音声を認識し認識結果候補を出力する音声認識手段と、前記認識結果候補の単語一覧を表示手段に表示する認識候補表示手段と、前記認識結果候補の前記認識単語の中の一つが前記キー入力手段を介して選択されたときに前記選択された認識単語に対応する前記単語入力用辞書内の単語の前記順序関係において近傍の単語を前記表示手段に表示し、前記近傍の単語を表示した後、前記キー入力手段を再度用いて、表示された単語の集合を再帰的に部分集合に絞り込んで表示する検索辞書単語表示手段と、を備えることを特徴とする音声入力システムである
請求項2記載の発明は請求項1記載の音声入力システムであって、単語間の順序関係が、表音表記順または五十音順であり、音声入力単語の表音表記における先頭の1ないし複数の文字の、1つまたはその集合をキー入力手段のキー入力により指定可能とすることを特徴とする
請求項3記載の発明は請求項1または2記載の音声入力システムであって、前記音声認識手段は、キー入力によって音声入力の開始を行うことを特徴とする。
請求項4記載の発明は請求項1から3のいずれか1項記載の音声入力システムであって、前記検索辞書単語表示手段は、前記検索辞書単語表示手段により表示された1つまたは複数の単語集合の先頭からの共通部分を確定し、非共通部分の最初の1つまたは複数の文字をキー入力手段を再度用いて受け付け、表示された単語集合を再帰的に部分集合に絞り込んで表示することを特徴とする。
請求項5記載の発明は、ある順序関係で単語を順序づけして記憶する単語入力用辞書と、キーと対応づけられて順序関係をもとに認識する認識単語の部分集合が定義された音声認識用辞書と、キー入力手段で入力されたキーと入力された音声に対しキーに対応した認識単語の部分集合を利用して入力された音声を認識し認識結果候補を出力する手順と、認識結果候補の認識単語一覧を表示手段に表示する手順と、前記認識結果候補の前記認識単語の中の一つが前記キー入力手段を介して選択されたときに前記選択された認識単語に対応する前記単語入力用辞書内の単語の前記順序関係において近傍の単語を前記表示手段に表示し、前記近傍の単語を表示した後、前記キー入力手段を再度用いて、表示された単語の集合を再帰的に部分集合に絞り込んで表示する手順と、を備えることを特徴とする音声入力方法である
請求項6記載の発明は請求項5記載の音声入力方法であって、単語間の順序関係が、表音表記順または五十音順であり、音声入力単語の表音表記における先頭の1ないし複数の文字の、1つまたはその集合を前記キー入力手段でのキー入力により指定する手順を含むことを特徴とする。
請求項7記載の発明は請求項5または6記載の音声入力方法であって、キー入力によって音声入力の開始を行う手順を備えることを特徴とする。
請求項8記載の発明は請求項5から7のいずれか1項記載の音声入力方法であって、前記単語入力用辞書から選択して表示された1つまたは複数の単語集合の先頭からの共通部分を確定し、非共通部分の最初の1つまたは複数の文字をキー入力手段を再度用いて受け付け、表示された単語集合を再帰的に部分集合に絞り込んで表示する手順を備えることを特徴とする。
請求項9記載の発明は、ある順序関係で単語を順序づけして記憶する単語入力用辞書と、キーと対応づけられて順序関係をもとに認識する認識単語の部分集合が定義された音声認識用辞書と、キー入力手段で入力されたキーと入力された音声に対しキーに対応した認識単語の部分集合を利用して入力された音声を認識し認識結果候補を出力する手順と、認識結果候補の認識単語一覧を表示手段に表示する手順と、前記認識結果候補の前記認識単語の中の一つが前記キー入力手段を介して選択されたときに前記選択された認識単語に対応する前記単語入力用辞書内の単語の前記順序関係において近傍の単語を前記表示手段に表示し、前記近傍の単語を表示した後、前記キー入力手段を再度用いて、表示された単語の集合を再帰的に部分集合に絞り込んで表示する手順と、をコンピュータに実行させることを特徴とする音声入力用プログラムである
請求項10記載の発明は請求項9記載の音声入力用プログラムであって、単語間の順序関係が、表音表記順または五十音順であり、音声入力単語の表音表記における先頭の1ないし複数の文字の、1つまたはその集合を前記キー入力手段でのキー入力により指定する手順をコンピュータに実行させることを特徴とする。
請求項11記載の発明は請求項9または10記載の音声入力用プログラムであって、キー入力によって音声入力の開始を行う手順をコンピュータに実行させることを特徴とする。
請求項12記載の発明は請求項9から11のいずれか1項記載の音声入力用プログラムであって、前記単語入力用辞書から選択して表示された1つまたは複数の単語集合の先頭からの共通部分を確定し、非共通部分の最初の1つまたは複数の文字をキー入力手段を再度用いて受け付け、表示された単語集合を再帰的に部分集合に絞り込んで表示する手順をコンピュータに実行させることを特徴とする。
本発明の効果は、仮に誤認識しても目的の単語が選択できることである。
その理由は、音声認識の結果として得られる認識結果候補から検索辞書単語を検索する際に検索辞書中の前後の単語も同時に提示するためである。
次に、本発明を実施するための第1の最良の形態について図面を参照して詳細に説明する。
図1は、本発明を実施するための第1の最良の形態の音声入力システムの全体の構成を示すブロック図である。
図1を参照すると、本発明を実施するための第1の最良の形態の音声入力システムは、例えば、単語が五十音順(あらかじめ単語間に定義された順序関係であれば、五十音順でなくてもよい)に登録された検索辞書109と、認識辞書105と、音声入力を行うマイクロフォン103と、マイクオンのためのキー入力と候補選択のためのキー入力、および単語選択のためのキー入力を受け付けるキー入力装置104(たとえば、キーボード)と、ディスプレイ等の表示装置111と、認識辞書105を用いて入力音声から確からしい順に複数の候補を探索する音声認識部106と、音声認識部106の認識結果である候補単語一覧を表示装置111に表示し、その中の1つをユーザに候補選択のためのキー入力により選択させる認識候補表示部107と、認識候補表示部107で候補が選択された場合に選択された候補および五十音順でその前後の単語を検索辞書109から選択して五十音順(あらかじめ単語間に定義された順序関係であれば、五十音順でなくてもよい)に表示装置111に表示する検索辞書単語表示部108とから構成される。
検索辞書109、認識辞書105は、メモリ、または、ハードディスク等の記憶装置に格納されている。音声認識部106、認識候補表示部107、検索辞書単語表示部108は、コンピュータに、ハードウェア、または、ソフトウェア、または、それらの組み合わせとして実現できる。また、図示ないが、音声入力システムは、主記憶装置を内蔵しており、音声認識部106、認識候補表示部107、検索辞書単語表示部108は、ハードウェア資源である主記憶装置を使用する。たとえば、音声認識部106は、認識結果の候補を主記憶装置に格納し、認識候補表示部107は、認識結果の候補を主記憶装置から読み出して表示装置111に表示する。以下、主記憶装置の使用は、情報処理装置における一般的な動作なので、いちいち記述しない。
次に、本発明を実施するための第1の最良の形態の音声入力システムの動作について図面を参照して説明する。
図2は、本発明を実施するための第1の最良の形態の音声入力システムの動作を示すフローチャートである。
マイクオンのキー入力に対して処理をスタートし、マイクロフォン103が入力音声を入力する(図2ステップS02)。音声認識部106が、入力された音声を認識辞書105により音声認識し、認識結果の候補を出力する(ステップS03)。音声認識の結果として得られる認識結果の候補を認識候補表示部107が表示装置111に表示する(ステップS04)。ユーザがキー入力装置104から候補選択のためのキー入力をして表示された候補のうち一つを選択すると、(ステップS05)、検索辞書単語表示部108は、選択された候補、および、五十音順でその前後の単語を検索辞書109から選択して、検索辞書単語(検索結果)として表示装置111に表示する(ステップS06)。表示された検索辞書単語(検索結果)のうち一つをユーザがキー入力装置104から単語選択のためのキー入力をして選択する(ステップS07)。
次に、本発明の第2の発明を実施するための最良の形態の音声入力システムについて図面を参照して説明する。
図3は、本発明を実施するための第2の最良の形態の音声入力システムの全体の構成を示すブロック図である。
本発明の第2の最良の形態は、例えば、単語が五十音順に登録された検索辞書109と、辞書中の単語の部分集合がそれぞれキーと対応づけられた認識辞書301と、音声入力を行うマイクロフォン103と、ディスプレイ等の表示装置111と、マイクオンのためのキー入力と辞書選択のためのキー入力、候補選択のためのキー入力、および単語選択のためのキー入力を受け付けるキー入力装置104と、辞書選択のためのキー入力に応じて認識辞書301の認識対象となる部分集合を選択する辞書選択部302と、辞書選択部302によって選択された認識辞書301の部分集合を用いて入力音声から確からしい順に複数の候補を探索する音声認識部106と、音声認識部106の認識結果である候補単語一覧を表示し、その中の1つをユーザの候補選択のためのキー入力により選択させる認識候補表示部107と、認識候補表示部107で候補が選択された場合に選択された候補および五十音順でその前後の単語を検索辞書109から選択して五十音順に表示する検索辞書単語表示部108とから構成される。
次に、本発明を実施するための第2の最良の形態の音声入力システムの動作について図面を参照して説明する。
図4は、本発明を実施するための第2の最良の形態の音声入力システムの動作を示すフローチャートである。
図4を参照すると、辞書選択のためのキー入力に対して処理をスタートし、辞書選択部302が、入力した辞書選択のためのキーに応じて認識辞書301の部分集合を選択する(図4ステップA02)。キー入力装置104は、マイクオンのためのキー入力を受け付ける(ステップA03)。マイクロフォン103が、入力音声101を入力する(ステップA04)。音声認識部106が、入力された音声を認識辞書105により音声認識し、認識結果の候補を出力する(ステップA05)。認識候補表示部107は、音声認識の結果として得られる認識結果の候補を表示する(ステップA06)。ユーザが、キー入力装置104から表示された候補のうち一つを候補選択のためのキー入力をして選択すると(ステップA07)、検索辞書単語表示部108は、選択された候補、および、五十音順でその前後の単語を検索辞書109から選択して検索辞書単語(検索結果)として表示装置111に表示する(ステップA08)。表示された検索辞書単語(検索結果)のうち一つをユーザがキー入力装置104から単語選択のためのキー入力をして選択する(ステップA09)。
次に、本発明を実施するための第2の最良の形態の音声入力システムの別の動作について図面を参照して説明する。
図5は、本発明を実施するための第2の最良の形態の音声入力システムの別の動作を示すフローチャートである。
図5を参照すると、辞書選択のためのキー入力102に対して処理をスタートし、辞書選択部302が、入力した辞書選択のためのキーに応じて認識辞書301の部分集合を選択する(図5ステップB02)。キー入力装置104は、マイクオンのためのキー入力を受け付ける(ステップB03)。マイクロフォン103は、入力音声を入力する(ステップB04)。音声認識部106は、入力された音声を音声認識する(ステップB05)。認識候補表示部107は、音声認識の結果として得られる認識結果の候補を表示装置111に表示する(ステップB06)。ユーザが、表示された候補のうち一つをキー入力装置104から候補選択のためのキー入力をして選択すると(ステップB07)、検索辞書単語表示部108は、選択された候補および五十音順でその前後の単語を検索辞書109から選択して検索辞書単語(検索結果)として表示装置111に表示する(ステップB08)。表示された検索辞書単語(検索結果)をさらに絞り込む場合には、キー入力装置104は、2回目以降のキー入力を受け付ける(ステップB09)。再度表示された検索結果をこれ以上絞り込まない場合には、そのうち一つをユーザがキー入力装置104から単語選択のためのキー入力をして選択する(ステップB10)。
次に、本発明を実施するための第1の最良の形態の実施例について辞書単語検索を例として説明する。
図6は、本発明を実施するための第1の最良の形態の実施例の動作を示す説明図である。
図10は、検索辞書単語表示部108が表示装置111に表示する検索辞書単語一覧を示す説明図である。
図11は、表示装置111に表示される認識結果候補、検索辞書単語一覧を示す説明図である。
図6を参照すると、ユーザがマイクオンのキー入力をして「警官(けいかん)」と発声した場合、マイクロフォン103が音声を入力し、入力音声を音声認識部106が認識する。認識辞書105は、単語をひらがなで登録している。音声認識部106が、認識結果候補として、例えば、確からしさの順位とともに、「えいかん」、「けいかん」などの認識結果候補を出力すると、認識候補表示部107は、認識結果候補を、最も確からしい認識結果候補がユーザに認識できるように(たとえば、下線)、表示装置111に表示する。ユーザによって、認識結果候補の1つ(この場合、けいかん)が選択されると(たとえば、クリック)、検索辞書単語表示部108は、図10に示すように、検索辞書中の「けいかん」に対応する単語、および、五十音順(その他の順序でもよい)でその前後の単語である「警戒」「計画」「警官」「景観」「景気」などを表示装置111に一覧表示する。また、ユーザの意図しない認識結果候補が、最も確からしいとして表示される(下線が引かれる)場合もあるが、ユーザが、意図した認識結果候補を選択すれば、検索辞書単語表示部108は、同様に、図10のように表示する。
また、図11に示すように、認識候補表示部107が、検索辞書単語表示部108と連携し、音声認識部106から入力した最も確からしい音声認識候補に対応する検索辞書単語一覧を表示することも可能である。図11の左側が認識結果候補であり、右側が、検索辞書単語一覧である。
ユーザは、目的の単語である「警官」が一覧中に存在するのでそれを選択すると、例えば、国語辞典ならその単語の意味が、和英辞典ならその単語の英訳が得られることになる。この例では国語辞典や和英辞典の単語検索部を想定して入力言語は日本語、検索対象は1単語となっているが、入力言語が日本語以外の場合や検索対象が複数単語の組み合わせからなる場合も同様である。
例えば、英和辞典の単語検索を想定すると、ユーザが「police station」の和訳を知りたくて「ぽりすすてーしょん」と発声した場合に、音声認識を行って認識結果候補として「police station」、あるいは表音表記順またはアルファベット順でそれに近い候補が得られれば、それを選択することで、「police station」が選択可能となり、最終的に目的の単語あるいはフレーズの和訳を得ることが可能となる。
また、認識辞書301は検索辞書109中の単語をすべて含んでも良いが、代表的なもののみ登録してそれ以外は検索辞書単語一覧から選択しても良い。例えば検索辞書109を東京都内の駅名とした場合に、認識辞書301には「しんじゅく」のみ登録しておき、「新宿御苑前」「新宿三丁目」は検索辞書単語一覧から選択するようにしても良い。同様に、検索辞書109には含まれない単語を認識辞書301に持っていても良い。
次に、本発明を実施するための第2の最良の形態の第1の実施例について説明する。
図7は、本発明を実施するための第2の最良の形態の第1の実施例の動作を示す説明図である。
認識辞書301中の各単語は、先頭文字ごとに部分集合に分けられている。音声認識部106は、ユーザの辞書選択のためのキー入力によりキーと同じ先頭文字の部分集合のみを対象として音声認識を行う。ユーザが、「警官」という単語を検索したい場合、その先頭文字である「k」を辞書選択のためにキー入力してから、マイクオンのキー入力をして「けいかん」と発声すると、辞書選択部302は、「か行」または「が行」の文字で始まる単語のみからなる認識辞書301の部分集合を選択し、音声認識部106に出力する。音声認識部106は、マイクロフォン103から音声を認識し、辞書選択部302からの出力にしたがい、認識結果候補として、例えば、「けいかく」「けいさん」などの認識結果候補を出力する。認識候補表示部107は、認識結果候補を表示装置111に表示する。
ユーザにより、目的の単語に五十音順で近い「けいかく」が選択されると、検索辞書単語表示部108は、図10に示すように「計画」「警官」「景観」などの検索辞書単語一覧を表示する。このとき、ユーザは、目的の単語である「警官」が一覧中に存在するのでそれを選択可能となる。
また、この例では、仮に誤認識して認識結果候補として「けいかん」が得られなかったとしても、先頭文字が「か行」または「が行」に限定されていることから「けいかく」「けいさん」など「けいかん」に五十音順で近い単語が認識結果候補として得られる。その結果、ユーザは、五十音順で近い「けいかく」を選択するのが容易になる。ユーザにより「けいかく」が選択されると、検索辞書単語表示部108は、検索辞書単語一覧として「計画」「警官」「景観」などが五十音順に表示するので、ユーザは、目的の単語「警官」を容易に選択できる。すなわち、単語の先頭文字の限定と五十音順の一覧表示により、音声による単語入力が容易かつ高確度で行えることになる。
ここで、検索辞書単語一覧では、「k」が、指定されていることから「か行」または「が行」の文字で始まる単語のみを表示しても良いし、五十音順で「か行」または「が行」の前後の文字から始まる単語も含めて表示しても良い。
図7の例では先頭文字を1つだけ指定しているが、先頭の複数文字を指定する場合、文字ではなく単語の種類を指定する場合も同様である。例えば、「けいかん」を単語検索するために、「k」と「e」を連続してキー入力し、認識対象として「け」で始まる単語のみからなる認識辞書301の部分集合を辞書選択部302で選択させることができる。これにより「警官」が認識結果候補として出現しやすくなる。
また、単語の種類として意味的カテゴリ「食べ物」「乗り物」「職業」などを定義し、キー入力装置104に意味的カテゴリのキーを割り振り、例えば「職業」カテゴリに対応するキー入力を行い、認識対象として「職業」のみからなる認識辞書301の部分集合を辞書選択部302で選択させることができる。これにより「けいかん」と発声したときに「警官」が認識結果候補として出現しやすくなる。
次に、本発明を実施するための第2の最良の形態の第2の実施例について説明する。
図8は、本発明を実施するための第2の最良の形態の第2の実施例の動作を示す説明図である。
図8を参照すると、認識辞書301中の各単語は先頭文字ごとに部分集合に分けられており、ユーザの辞書選択のためのキー入力によりキーと同じ先頭文字の部分集合のみを対象として音声認識が行われる。「警官」という単語を検索する場合、ユーザが、その先頭文字である「k」をマイクオンのキー入力として押下しながら「けいかん」と発声すると、辞書選択部302は、「か行」または「が行」の文字で始まる単語のみからなる認識辞書301の部分集合を選択し、音声認識部106に出力する。
音声認識部106は、マイクロフォン103からの入力音声を認識し、辞書選択部302からの出力にしたがい、認識結果候補として、例えば「けいかく」「けいさん」などを出力する。認識候補表示部107は、音声認識部106からの認識結果候補を表示装置111に表示する。ユーザにより、目的の単語に五十音順で近い「けいかく」が選択されると、検索辞書単語表示部108は、図10に示すように、「計画」「警官」「景観」などが検索辞書単語一覧を表示する。このとき、ユーザは、目的の単語である「警官」が一覧中に存在するので、それを選択可能となる。この例では、図7の例に比べてユーザのキー入力が1回減っており、キー入力の手間が少ないという効果がある。
次に、本発明を実施するための第2の最良の形態の第3の実施例について説明する。
図9は、本発明を実施するための第2の最良の形態の第3の実施例の動作を示す説明図である。
図9を参照すると、認識辞書301中の各単語は先頭文字ごとに部分集合に分けられており、ユーザの辞書選択のためのキー入力によりキーと同じ先頭文字の部分集合のみを対象として音声認識が行われる。「警官」という単語を検索する場合、ユーザは、その先頭文字である「k」を辞書選択のためにキー入力してから、マイクオンのキー入力をして、「けいかん」と発声する。辞書選択部302は、「か行」または「が行」の文字で始まる単語のみからなる認識辞書301の単語の部分集合を選択し音声認識部106に出力する。音声認識部106は、マイクロフォン103からの入力音声を認識し、辞書選択部302の出力にしたがい、例えば「けいかく」「けいさん」などを認識結果候補として出力する。認識候補表示部107は、認識結果候補を表示装置111に表示する。ユーザにより、目的の単語に五十音順で近い「けいかく」が選択されると、検索辞書単語表示部108は、図10に示すように「計画」「警官」「景観」などを検索辞書単語一覧として表示する。このとき、一覧表示されている単語の共通部分である「けいか」までを検索辞書単語表示部108が自動的に確定するので、ユーザが、次の単語選択のためのキー入力として「n」を入力すると、検索辞書単語表示部108は、さらに絞り込んだ「警官」「景観」だけの検索辞書単語一覧を表示する。この手順を繰り返すことで、ユーザは目的の単語である「警官」を選択可能となる。
図7〜図9の例では、辞書選択部302が認識辞書301の部分集合を選択しているが、辞書選択部302が、辞書選択のためのキー入力により、複数の認識辞書301の中の1つあるいは複数を選択することも同様に可能である。
図12は、認識辞書301の選択の表示例を示す説明図である。
図12を参照すると、日本の地名を都道府県別の認識辞書301として用意しておき、キー入力で「東京」を選んだ後に、東京都内の地名である「きたみ」と音声入力するような構成が可能である。
次に、本発明を実施するための第3の最良の形態の音声入力システムついて図面を参照して説明する。
本発明を実施するための第3の最良の形態は、図2、図4、または、図5の各ステップを含む方法である。
次に、本発明を実施するための第4の最良の形態の音声入力システムついて図面を参照して説明する。
本発明を実施するための第4の最良の形態は、実施するための第3の最良の形態の各ステップをコンピュータ(音声認識部106、認識候補表示部107、検索辞書単語表示部108、辞書選択部302)に実行させるプログラムである。
以上では、音声をマイクロフォン103から入力したが、ネットワークを介して音声データを入力し、音声データを音声波形に変換し、音声認識部106で認識する構成も可能である。
以上説明したように、本発明は、以下の効果を持つ。
第1の効果は、仮に誤認識しても目的の単語が選択できることである。
その理由は、音声認識の結果として得られる認識結果候補から検索辞書109の単語を検索する際に検索辞書109中の前後の単語も同時に表示するためである。
第2の効果は、誤認識の発生確率が低くなり、目的の単語が選択しやすくなることである。
その第1の理由は、認識辞書301の単語をサブセットに分けることで探索効率が良くなり、その結果として処理速度と認識精度が向上し、さらに先頭文字を指定させることで先頭文字の認識結果が保証されるためである。
第2の理由は、音声認識を開始する際に発声内容に関連した認識辞書301の選択のためのキー入力を要求することで、ユーザに発声すべき単語を意識させ、丁寧な発声を促すためである。
第3の効果は、大規模な検索辞書109内の一部の単語しか認識辞書301に存在しなかった場合に、認識辞書301に存在しない検索辞書109の単語を選択できることである。
その理由は、認識辞書301に存在しないために、近い単語に誤認識しても、その前後の単語を検索辞書109から選択することが可能なためである。
第4の効果は、ユーザの目的の単語が検索辞書109に存在しない場合に、その単語が検索辞書109に存在しないということをユーザが知ることができることである。
その理由は、例えば、五十音順で目的の単語の前後の単語を表示することでその単語が検索辞書109に存在しないことを示すことができるためである。
本発明は、種々の電子機器に適用可能である。たとえば、単語の意味や訳語を知るための電子辞書に適用できる。また、携帯電話や携帯情報端末などの入力インタフェースにも適用できる。
本発明を実施するための第1の最良の形態の音声入力システムの全体の構成を示すブロック図である。 本発明を実施するための第1の最良の形態の音声入力システムの動作を示すフローチャートである。 本発明を実施するための第2の最良の形態の音声入力システムの全体の構成を示すブロック図である。 本発明を実施するための第2の最良の形態の音声入力システムの動作を示すフローチャートである。 本発明を実施するための第2の最良の形態の音声入力システムの別の動作を示すフローチャートである。 本発明を実施するための第1の最良の形態の実施例の動作を示す説明図である。 本発明を実施するための第2の最良の形態の第1の実施例の動作を示す説明図である。 本発明を実施するための第2の最良の形態の第2の実施例の動作を示す説明図である。 本発明を実施するための第2の最良の形態の第3の実施例の動作を示す説明図である。 検索辞書単語一覧を示す説明図である。 認識結果候補、検索辞書単語一覧を示す説明図である。 認識辞書の選択の表示例を示す説明図である。
符号の説明
103 マイクロフォン
104 キー入力装置
105 認識辞書
106 音声認識部
107 認識候補表示部
108 検索辞書単語表示部
109 検索辞書
111 表示装置
301 認識辞書
302 辞書選択部

Claims (9)

  1. ある順序関係で単語を順序づけして記憶する単語入力用辞書と、
    キーと対応づけられて前記順序関係をもとに認識する認識単語の部分集合が定義された音声認識用辞書と、
    キー入力手段で入力されたキーと入力された音声に対し前記キーに対応した認識単語の部分集合を利用して前記入力された音声を認識し認識結果候補を出力する音声認識手段と、
    前記認識結果候補の単語一覧を表示手段に表示する認識候補表示手段と、
    前記認識結果候補の前記認識単語の中の一つが前記キー入力手段を介して選択されたときに、前記選択された認識単語に対応する前記単語入力用辞書内の単語の前記順序関係において近傍の単語を前記表示手段に表示し、前記表示された1つまたは複数の単語集合の先頭からの共通部分を確定し、非共通部分の最初の1つまたは複数の文字を前記キー入力手段を再度用いて受け付け、表示された単語集合を再帰的に部分集合に絞り込んで表示する検索辞書単語表示手段と、を備えることを特徴とする音声入力システム。
  2. 単語間の順序関係が、表音表記順または五十音順であり、音声入力単語の表音表記における先頭の1ないし複数の文字の、1つまたはその集合を前記キー入力手段でのキー入力により指定可能とすることを特徴とする請求項1記載の音声入力システム。
  3. 前記音声認識手段は、キー入力によって音声入力の開始を行うことを特徴とする請求項1または2記載の音声入力システム。
  4. ある順序関係で単語を順序づけして記憶する単語入力用辞書と、
    キーと対応づけられて前記順序関係をもとに認識する認識単語の部分集合が定義された音声認識用辞書と、を備える音声入力システムの動作方法において、
    キー入力手段で入力されたキーと入力された音声に対し前記キーに対応した認識単語の部分集合を利用して前記入力された音声を認識し認識結果候補を出力する手順と、
    前記認識結果候補の認識単語一覧を表示手段に表示する手順と、
    前記認識結果候補の前記認識単語の中の一つが前記キー入力手段を介して選択されたときに、前記選択された認識単語に対応する前記単語入力用辞書内の単語の前記順序関係において近傍の単語を前記表示手段に表示し、前記表示された1つまたは複数の単語集合の先頭からの共通部分を確定し、非共通部分の最初の1つまたは複数の文字を前記キー入力手段を再度用いて受け付け、表示された単語集合を再帰的に部分集合に絞り込んで表示する手順と、を備えることを特徴とする音声入力方法。
  5. 単語間の順序関係が、表音表記順または五十音順であり、音声入力単語の表音表記における先頭の1ないし複数の文字の、1つまたはその集合を前記キー入力手段でのキー入力により指定する手順を備えることを特徴とする請求項4記載の音声入力方法。
  6. キー入力によって音声入力の開始を行う手順を備えることを特徴とする請求項4または
    5記載の音声入力方法。
  7. ある順序関係で単語を順序づけして記憶する単語入力用辞書と、
    キーと対応づけられて前記順序関係をもとに認識する認識単語の部分集合が定義された音声認識用辞書と、を備える音声入力システムのコンピュータに下記手順を実行させるプログラムにおいて、
    キー入力手段で入力されたキーと入力された音声に対し前記キーに対応した認識単語の部分集合を利用して前記入力された音声を認識し認識結果候補を出力する手順と、
    前記認識結果候補の認識単語一覧を表示手段に表示する手順と、
    前記認識結果候補の前記認識単語の中の一つが前記キー入力手段を介して選択されたときに、前記選択された認識単語に対応する前記単語入力用辞書内の単語の前記順序関係において近傍の単語を前記表示手段に表示し、前記表示された1つまたは複数の単語集合の先頭からの共通部分を確定し、非共通部分の最初の1つまたは複数の文字を前記キー入力手段を再度用いて受け付け、表示された単語集合を再帰的に部分集合に絞り込んで表示する手順と、をコンピュータに実行させることを特徴とする音声入力用プログラム。
  8. 単語間の順序関係が、表音表記順または五十音順であり、音声入力単語の表音表記における先頭の1ないし複数の文字の、1つまたはその集合を前記キー入力手段でのキー入力により指定する手順をコンピュータに実行させることを特徴とする請求項7記載の音声入力用プログラム。
  9. キー入力によって音声入力の開始を行う手順をコンピュータに実行させることを特徴とする請求項7または8記載の音声入力用プログラム。
JP2005517688A 2004-02-10 2005-02-02 音声入力システム、音声入力方法、および、音声入力用プログラム Expired - Fee Related JP4622861B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004033386 2004-02-10
JP2004033386 2004-02-10
PCT/JP2005/001471 WO2005076259A1 (ja) 2004-02-10 2005-02-02 音声入力システム、電子機器、音声入力方法、および、音声入力用プログラム

Publications (2)

Publication Number Publication Date
JPWO2005076259A1 JPWO2005076259A1 (ja) 2007-10-18
JP4622861B2 true JP4622861B2 (ja) 2011-02-02

Family

ID=34836131

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005517688A Expired - Fee Related JP4622861B2 (ja) 2004-02-10 2005-02-02 音声入力システム、音声入力方法、および、音声入力用プログラム

Country Status (2)

Country Link
JP (1) JP4622861B2 (ja)
WO (1) WO2005076259A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2013145505A1 (ja) * 2012-03-27 2015-12-10 日本電気株式会社 情報提示装置、情報提示方法、及び情報提示用プログラム
JP6427755B2 (ja) * 2014-02-24 2018-11-28 パナソニックIpマネジメント株式会社 データ入力装置、データ入力方法、プログラム及び車載機

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63259686A (ja) * 1987-04-17 1988-10-26 カシオ計算機株式会社 音声入力装置
JPH0968998A (ja) * 1995-08-31 1997-03-11 Matsushita Electric Ind Co Ltd 音声認識方法及び音声認識装置
JPH09259123A (ja) * 1996-03-26 1997-10-03 Mitsubishi Electric Corp 文字入力装置及び文字入力方法
JP2000163427A (ja) * 1998-11-25 2000-06-16 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2003228394A (ja) * 2002-01-31 2003-08-15 Nippon Telegr & Teleph Corp <Ntt> 音声入力を利用する名詞特定装置およびその方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0863185A (ja) * 1994-08-24 1996-03-08 Ricoh Co Ltd 音声認識装置
JPH08160988A (ja) * 1994-12-07 1996-06-21 Sony Corp 音声認識装置
JP2001159896A (ja) * 1999-12-02 2001-06-12 Nec Software Okinawa Ltd 音声認識機能を利用した簡易文字入力方法
JP4509361B2 (ja) * 2000-11-16 2010-07-21 株式会社東芝 音声認識装置、認識結果修正方法及び記録媒体
US7124085B2 (en) * 2001-12-13 2006-10-17 Matsushita Electric Industrial Co., Ltd. Constraint-based speech recognition system and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63259686A (ja) * 1987-04-17 1988-10-26 カシオ計算機株式会社 音声入力装置
JPH0968998A (ja) * 1995-08-31 1997-03-11 Matsushita Electric Ind Co Ltd 音声認識方法及び音声認識装置
JPH09259123A (ja) * 1996-03-26 1997-10-03 Mitsubishi Electric Corp 文字入力装置及び文字入力方法
JP2000163427A (ja) * 1998-11-25 2000-06-16 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2003228394A (ja) * 2002-01-31 2003-08-15 Nippon Telegr & Teleph Corp <Ntt> 音声入力を利用する名詞特定装置およびその方法

Also Published As

Publication number Publication date
JPWO2005076259A1 (ja) 2007-10-18
WO2005076259A1 (ja) 2005-08-18

Similar Documents

Publication Publication Date Title
JP3962763B2 (ja) 対話支援装置
US20070100619A1 (en) Key usage and text marking in the context of a combined predictive text and speech recognition system
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
US8543375B2 (en) Multi-mode input method editor
JP5362095B2 (ja) インプットメソッドエディタ
US9710452B2 (en) Input method editor having a secondary language mode
US9484034B2 (en) Voice conversation support apparatus, voice conversation support method, and computer readable medium
RU2589873C2 (ru) Способ и устройство обработки ввода
JP2011254553A (ja) 小型キーパッド用日本語入力メカニズム
US20050131686A1 (en) Information processing apparatus and data input method
WO2014201834A1 (en) Method and device of matching speech input to text
US11501764B2 (en) Apparatus for media entity pronunciation using deep learning
KR20090130028A (ko) 분산 음성 검색을 위한 방법 및 장치
US20100121870A1 (en) Methods and systems for processing complex language text, such as japanese text, on a mobile device
TW201337911A (zh) 電子裝置以及語音識別方法
JP5688677B2 (ja) 音声入力支援装置
JP2006053906A (ja) コンピューティングデバイスへの入力を提供するための効率的なマルチモーダル方法
JP4570509B2 (ja) 読み生成装置、読み生成方法及びコンピュータプログラム
JP4622861B2 (ja) 音声入力システム、音声入力方法、および、音声入力用プログラム
JP4084515B2 (ja) アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体
JP2008216461A (ja) 音声認識・キーワード抽出・知識ベース検索連携装置
KR100910302B1 (ko) 멀티모달 기반의 정보 검색 장치 및 방법
JP2007265131A (ja) 対話情報抽出装置,対話情報抽出方法およびプログラム
JP2006065651A (ja) 商標称呼検索プログラム、商標称呼検索装置及び商標称呼検索方法
JP2002014751A (ja) オンラインヘルプシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080111

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20091015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101018

R150 Certificate of patent or registration of utility model

Ref document number: 4622861

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131112

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees