JP3588975B2 - Voice input device - Google Patents
Voice input device Download PDFInfo
- Publication number
- JP3588975B2 JP3588975B2 JP13579397A JP13579397A JP3588975B2 JP 3588975 B2 JP3588975 B2 JP 3588975B2 JP 13579397 A JP13579397 A JP 13579397A JP 13579397 A JP13579397 A JP 13579397A JP 3588975 B2 JP3588975 B2 JP 3588975B2
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- word
- hierarchy
- partial
- partial dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Navigation (AREA)
- Traffic Control Systems (AREA)
Description
【0001】
【発明の属する技術分野】
この発明は、少ない入力回数で大語彙認識を行なうことができる音声入力装置に関する。
【0002】
【従来の技術】
音声を識別して情報を読み取る音声入力装置は、手を介さずに指令やデータなどの入力ができるため、障害者用ワープロ、車載ナビゲーションといったような手操作が困難な場面に採用されつつある。
典型的な音声入力装置は、図13に示すように、音声を取り込み、電気信号に変えて音声信号を出力するマイク500と、アナログの音声信号をA/D変換してディジタル情報に変換させるA/Dコンバータ501と、音声信号から単語認識をするのに用いられる単語辞書を記憶した外部記憶装置503と、CPUとメモリを持ち単語辞書をメモリに読み込ませたうえでCPUが音声信号と辞書内の単語との一致度判定により音声認識を行なう信号処理装置502とを有する。
スイッチ505は装置使用者に操作され音声信号の取り込みタイミングを信号処理装置502に与える。モニタ504は認識された単語を表示する。
【0003】
一般に音声による入力は、認識対象の語数が多くなる程認識率が低下するため、大語彙認識の場合階層化した辞書が使用される。入力の際、辞書の分類に従って複数回音声入力を繰り返して階層を進み、認識対象語数を絞り込んだ状態で認識し、誤認識率を低下させるようにしている。
【0004】
上記従来の装置における音声認識の詳細について、図14のフローチャートに従って説明する。
ここでは、JRの駅名である「桜木町」を音声で入力する場合を示す。このような駅名入力は、自動車のナビゲーション装置の目的地設定などに用いられている。外部記憶装置503には例えば図2のような階層化した単語辞書を記憶させてある。
【0005】
まず、ステップ521において、音声入力の初期状態で、信号処理装置502は階層化された単語辞書の、階層の最上位の部分辞書を最初の認識対象とし設定する。ここでは図2中の部分辞書aが設定される。
次に、装置使用者はスイッチ505を操作してマイク500に「施設」を発話する。これは「桜木町」が「施設」という範疇に含まれることを使用者が認識しているためである。
スイッチ505が操作されたことは、ステップ522において、検出される。これによって音声認識処理が開始される。
【0006】
ステップ523では、信号処理装置502内のCPUが設定された階層の部分辞書を外部記憶装置503からメモリに読み込ませる。初期では部分辞書aが読み込まれる。
信号処理装置502は、スイッチ505が操作されるまでの音声の平均パワーを演算しており、スイッチ505が操作された後、音声の平均パワーに比べて音声信号の瞬間パワーが所定値以上大きくなったとき、使用者が発話開始したと判断し、ステップ524において音声取り込みを開始する。
【0007】
ステップ525では、CPUが入力された音声とメモリに読み込んだ部分辞書内の単語との一致度を演算する。初期では「住所」、「施設」それぞれとの一致度を演算する。
【0008】
そして、音声信号の瞬間パワーが所定値以下になった時、使用者の発話が終了したと判断し、ステップ526において、音声の取り込みを終了する。
入力音声と部分辞書内の単語との一致度の演算を終了すると、ステップ527において、CPUが最も一致度高い単語を選択する。ここでは「施設」の方が一致度が高いので選択される。
【0009】
ステップ528では、選択された一致度の高い単語が認識の結果としてモニタ504において表示される。
ステップ529では、選択された単語が下の階層の部分辞書名であるかどうかを判定し、辞書名である場合ステップ523へ、そうでない場合ステップ530へ進む。ここでは単語「施設」は図2の単語辞書に示されるように下の階層の部分辞書eの辞書名となっているので、ステップ523に戻る。
【0010】
ステップ523では、CPUが外部記憶装置503から新たに部分辞書eをメモリに読み込む。このように、処理を繰り返すたび階層が進む。選択された単語の下に部分辞書がなくなると、ステップ530で、認識された単語は目的語となり出力される。ここでは「桜木町」が出力される。
【0011】
【発明が解決しようとする課題】
上記のように従来の音声入力装置においては、一つの単語を伝えるのに、その単語の属する最下層までの部分辞書名を階層毎に入力しなければならない。その階層は単語数が多いほど複雑になるので、大語彙の中からの認識になるほど使用者にとって入力負担が大きいという問題があった。また使用者が最も伝えたいのは目的語であるにも係わらず、目的語の入力が最後で感覚的に違和感を抱かせ、使い勝手がよくないという問題があった。
本発明は、上記従来の問題点に鑑み、少ない入力回数で正確な音声入力を実現することを目的としている。
【0012】
【課題を解決するための手段】
発話音声を情報化して入力する音声入力手段と、
複数の単語を含む部分辞書からなるとともに階層構造を持った単語辞書と、
使用する部分辞書を決定する部分辞書決定手段と、
前記音声入力手段からの入力音声と決定された部分辞書内の単語との一致度を演算する演算手段と、
演算された単語のうち最も一致度の高い単語を選択して出力する単語選択手段とを有し、
前記部分辞書決定手段は、初めに所定の最下層の部分辞書を決定し、上位階層への変更指示を受けた場合、指示された上位階層の部分辞書を決定し、入力により単語選択手段が選択した単語が示す階層に変更し、該階層下の所定の最下層部分辞書を決定するものとした。
【0013】
前記部分辞書決定手段により初めに決定される部分辞書は前回使用された最下層の部分辞書であることが望ましい。
また前回使用された最下層の部分辞書の代わりに使用頻度の高い最下層の部分辞書を用いても可能である。
【0014】
音声入力装置には表示手段を接続し、単語選択手段が選択した単語及び上位の階層構造を表示するのが望ましい。
前記表示手段はタッチパネルを合わせ持ち、使用者によってタッチされた階層に対応した階層変更指令を前記部分辞書決定部に出力することも可能である。
また、タッチパネルに対するタッチ入力があったときに、変更可能な階層を表示手段上で表示するのが望ましい。
【0015】
前記部分辞書決定手段は、目的語に続き入力が行なわれたときに、上位階層への変更指示を受けたとし、設定されている最下層部分辞書より上位の全ての部分辞書を決定し、単語選択手段が選択した単語が示す階層に階層変更を行なうことができる。
【0016】
前記部分辞書決定手段は、目的語に続き入力が行なわれたときに、設定されている最下層部分辞書及びそれより上位の全ての部分辞書を決定し、単語選択手段が選択した単語が上位部分辞書内の単語であれば、上位階層への変更指示を受けたとし、前記単語が示す階層に階層変更を行なうこともできる。
【0017】
また、最初に入力された音声を記憶する記憶手段を合わせ持ち、階層が変更されたとき、前記単語選択手段は前記記憶手段に記憶された音声を用いて、決定された最下層の部分辞書内の単語との一致度を演算し、出力することができる。
【0018】
【作用】
階層化した単語辞書を使用し、部分辞書を設定する際に、初めに所定の最下層の部分辞書を設定するので、大語彙認識ができるとともに、1回目の単語を目的語とすることもできる。そして一回の入力で認識できなかった場合、階層変更指令で階層変更を行なうので、例えば現在の部分辞書と目的語のある部分辞書と共通する上位階層に変更して最下層の部分辞書を決定する段取りをとることができ、最上位の部分辞書からの入力が必要でなくなり、効率のよい入力が図られる。また、最初から目的語で入力し、辞書の階層変更が認識できなかったときに行なうので、感覚に合致した音声入力が行なえる。
【0019】
部分辞書決定手段は、上位階層への変更指示を受けた場合、上位階層の部分辞書を決定し、入力により単語選択手段が選択した単語が示す階層に変更し、該階層下の所定の最下層部分辞書を決定するようにした場合、階層変更があっても、目的語の部分辞書と上位階層との間の部分辞書に対する認識が不要で、階層が上位に変更されても、すぐ目的語の入力となるので、装置使用者を焦らせることなく、入力できる効果が得られる。
また部分辞書決定手段が初めに決定する部分辞書は前回使用された最下層の部分辞書となれば、辞書構成を理解し、階層変更が円滑に行なえる。
さらに前回使用された最下層の部分辞書の代わりに使用頻度の高い最下層の部分辞書を用いても同じ効果が得られる。
【0020】
音声入力装置に表示手段を接続し、単語選択手段が選択した単語及び上位の階層構造を表示手段で表示するようにすると、階層変更が必要のときに、表示された階層構造を頼りに階層変更ができるので、入力負担が軽減される。
表示手段はタッチパネルを合わせ持ち、使用者によってタッチされた階層に対応した階層変更指令を前記部分辞書決定部に出力するようにすると、対話式な入力となり一層の入力負担軽減が図られる。
また、タッチ入力があったときに、音声入力によって変更可能な階層を前記表示手段上で表示した場合、辞書の構造を表示画面から知ることができ、辞書の構成などの予備知識が無くても階層変更ができる効果が得られる。
【0021】
前記部分辞書決定手段は、目的語に続き入力が行なわれたときに、上位階層への変更指示を受けたとし、設定されている最下層部分辞書より上位の全ての部分辞書を決定し、単語選択手段が選択した単語が示す階層に階層変更を行なうようにすると、上位階層の単語のみで、階層変更ができ入力負担がさらに軽減される。
【0022】
前記部分辞書決定手段は、目的語に続き入力が行なわれたときに、設定されている最下層部分辞書及びそれより上位の全ての部分辞書を決定し、単語選択手段が選択した単語が上位部分辞書内の単語であれば、上位階層への変更指示を受けたとし、前記単語が示す階層に階層変更を行なった場合、部分辞書が正確でありながら、単語の誤認識による階層変更が防止される。
【0023】
最初に入力された音声を記憶する記憶手段を合わせ持ち、階層が変更されたとき、前記単語選択手段は前記記憶手段に記憶された音声を用いて、決定された最下層の部分辞書内の単語との一致度を演算し、出力することで、階層を変更し、最下層の部分辞書が変わっても、目的語の音声を二度と入力する必要がなく、音声の入力回数がさらに減らされる。
【0024】
【発明の実施の形態】
次に、本発明の実施の形態を実施例により説明する。
図1は、本発明の第1の実施例を構成を示すブロック図である。
マイク500により取り込まれた音声信号はA/Dコンバータ501でディジタル情報に変えられて信号処理装置5に入力される。スイッチ505は音声入力用に装置使用者が発話する直前に操作され、信号処理装置5に発話音声の検出タイミングを与えている。外部記憶装置503には単語辞書を記憶させてある。モニタ60はタッチパネル付きモニタで、信号処理装置5の処理結果を表示するとともに、タッチパネルで部分辞書の変更が行なえるようになっている。
【0025】
単語辞書は図2に示すような階層化した単語辞書が用いられる。図においては部分辞書間の連線が上下層間の繋がり関係を表示し、枠内に突出したのは下の階層を代表する単語についての表示である。
「住所」と「施設」の二つの単語で構成する部分辞書aは単語辞書の最上層にあり、各単語に下位階層辞書として「住所」からは政令指定都市に従った分類で都道府県名を記した部分辞書bを設け、各都道府県について、市区名を記した部分辞書cと区村名を記した部分辞書dが順次に設けられている。
【0026】
部分辞書aの単語「施設」の下位には「駅」、「デパート」、「ホテル」のような「施設」の種類名を記した単語の部分辞書eが続いている。「駅」の下位に都道府県名を記した部分辞書fが設けられている。部分辞書fからは交通会社名を記した部分辞書gと、部分辞書gに繋がっている駅名の部分辞書hが都道府県毎に設けられている。
【0027】
また、単語「デパート」も都道府県名を記した下層の部分辞書iと、市名を記した部分辞書jと、「デパート」名を記した部分辞書kを持ち、都道府県別に市区の部分辞書と区村の部分辞書に繋がっている。
部分辞書d、部分辞書h、部分辞書kは最下層部分辞書であり、目的語が登録され、認識したい単語はここで照合され認識される。
【0028】
信号処理装置5は、音声入力部53においてスイッチ505が操作されるまでマイク500からディジタル化された音声信号の平均パワーを演算している。その平均パワー値より瞬間パワーが大きくなったときに、発話が開始したと判断し、音声信号の取り込みを開始する。その音声信号は単語選択部52において単語認識される。この際最初に使われる単語辞書は部分辞書決定部51が外部記憶装置503から読み込んだ最下位階層にある部分辞書である。
【0029】
単語出力部54はその認識の結果と単語の上位階層の名称をモニタ60に一時出力するが、装置としての出力は保留する。この間モニタ60上に表示された上位階層の名称をタッチ入力すれば部分辞書の変更ができる。所定時間内にタッチパネルへのタッチが無ければ、単語出力部54は認識の結果を装置の出力として出力する。
【0030】
部分辞書の変更があった場合は、部分辞書決定部51はタッチされた名称の部分辞書を外部記憶装置503から読み込み、装置使用者はスイッチ505を操作して下位辞書を決定するための発話をする。部分辞書決定部51はそれに係わる所定の最下位部分辞書を決定し、外部記憶装置503から読み込む。その後再び音声入力をし単語選択部52において単語認識される。
最初に入力するあるいは階層変更後に入力される最下層の部分辞書は前回使用した部分辞書あるいは使用頻度の最も高い部分辞書である。
【0031】
次に、図3のフローチャートに従って装置の作動の流れを説明する。
まず、ステップ101において、音声入力の初期状態で、階層の最下位の部分辞書を最初の認識対象として部分辞書決定部51において設定する。初期設定として最も使用頻度の高い部分辞書あるいは前回使用された最下層の部分辞書が用いられるが、ここでは例えば図2中の部分辞書hが設定されたとする。
【0032】
装置使用者はスイッチ505を操作して、マイク500に発話をする。
ステップ102では、音声入力部53がスイッチ505が操作されたか否かを検出し、操作された場合、マイク500が動作してからの音声の平均パワー値を算出してステップ103へ進む。
ステップ103では、決定された部分辞書を前記外部記憶装置503から部分辞書決定部51に読み込む。ここでは部分辞書hが読み込まれる。
【0033】
ステップ104では、使用者の発話音声取り込みを開始する。すなわち入力した音声信号を絶えず算出した音声の平均パワーと比べ、瞬間パワーが所定値以上大きくなったとき、使用者の発話開始と判断し、発話音声の取り込みを開始する。
ここでは、例えば使用者は目的語として「桜木町」を発話したとする。
ステップ105では、部分辞書決定部51に読み込まれた部分辞書h内の単語と発話音声との一致度を単語選択部52において演算する。なお、ここでの処理は音声信号をとりながら所定時間で区切った音声区間部分と各単語との比較が行なわれており、音声信号の取り込みはそれに同時に進行されている。
【0034】
ステップ106で、音声信号の瞬間パワーが平均パワー以下になったとき、使用者が発話完了と判断し、音声取り込み終了してステップ107へ進む。
ステップ107では、単語選択部52で演算された一致度の最も高い単語を認識の結果として単語出力部54に出力する。
【0035】
ステップ108では、単語出力部54はその認識の結果と単語の上位階層の名称をモニタ60に一時出力し表示させるが、装置としての出力は保留する。図4はモニタ60の表示画面である。hが選択された単語の辞書で、a、e、f、gはその単語の上位辞書である。hの枠から表示されているのは目的語であり、その上の枠に並べられているのが目的語に関連する上位辞書内の単語で、右から左へ階層順位の増加を表示している。階層を変更する場合に、単語が映っているところをタッチすれば、階層の変更ができる。
そしてステップ109で、所定時間内にタッチパネルへのタッチ入力が無ければ、ステップ110において「桜木町」という単語の認識結果を装置の出力として出力する。
この場合、階層を変更する必要がなく、発話回数が一回で終了する。
【0036】
もし、使用者がステップ104で「そごう」と発話していたとすれば、初期の部分辞書がhであったため、他の単語が表示されてしまう。その場合、上位の階層を変更する必要が生じるため、使用者は図4中のeをタッチ入力する。
【0037】
そのタッチ入力がステップ109で検出されると処理がステップ111へ進む。
ステップ111では、タッチされた階層をどの階層に変更可能かモニタ60に表示する。ここでは「駅」、「デパート」、「ホテル」を表示する。図5はその表示様子を示している。
ステップ112では、部分辞書決定部51が新たに部分辞書eを外部記憶装置503から読み込む。
【0038】
ステップ113では、タッチして表示された上位階層の中から選択して音声入力する。「そごう」の場合は使用者はそれに関連のある「デパート」を音声で入力し、単語選択部52で認識される。本ステップはステップ102からステップ107までと同様の処理を行なってもよい。
ステップ114では、部分辞書決定部51が、認識された単語「デパート」に繋がる最下層の部分辞書kを決定する。
【0039】
ステップ115では、再度音声入力やり直しを使用者に報知するため、モニタ60に再度入力の指示マークを表示して、ステップ102に戻る。
その後使用者が「そごう」を発話してステップ102からステップ108までの処理が再び行なわれて、ステップ110において、「そごう」という単語が出力される。
【0040】
マイク500、A/Dコンバータ501、音声入力部53は音声入力手段を構成している。部分辞書決定部51は辞書決定手段を構成している。単語選択部52は単語選択手段を構成している。モニタ60は表示手段を構成している。
【0041】
本実施例は以上のように構成され、第1の音声の入力が行なわれた場合、音声信号と所定の最下層の部分辞書の単語との一致度が演算されるので、第1の単語を目的語とすることができ、使用者の入力負担が軽減されることになる。また、部分辞書の変更が必要なとき、上位の階層の下に複数の階層が存在しても、その最下層の部分辞書を設定して使用するので、階層変更による入力負担増加が少ない。
そして、最初に使用する部分辞書を使用頻度の高いものあるいは前回使用したものとしているので、使用者は出力結果を容易に理解し、階層変更が円滑に行なえる。
【0042】
また、モニタが単語を表示するときに単語の上位階層構造を表示するので、どの階層を変更したいかを容易に判断できる。
タッチ入力があったとき、音声入力によってどのような階層に変更可能かを表示することで、辞書の構成を知らなくても、どの階層に変更するかの操作ができる。
【0043】
図6は、第2の実施例の構成を示すブロック図である。
この実施例は、図1に示す第1の実施例における信号処理装置5の代わりに音声記憶部66を設けた信号処理装置6を用いる。音声信号記憶部66は音声入力部63の音声信号を単語選択部62に出力するとともに、一回目の音声信号は音声記憶部66が記憶する。部分辞書変更があった場合、音声記憶部66に記憶された音声信号を用いて部分辞書との一致度を判定し、目的語を認識する。その他は第1の実施例と同様である。
【0044】
次に、図7のフローチャートに従って装置の作動の流れを説明する。
ステップ201〜ステップ215まではスッテプ207を除いて第1の実施例における図3のフローチャートのステップ101〜ステップ114と同様の処理を行なう。
すなわちまず、階層の最下位の部分辞書を最初の認識対象として設定し、外部記憶装置503から読み込む。使用者の発話音声信号を取り込みながら設定された部分辞書内の単語と一致度を演算する。そして音声信号の取り込みが終了すると、ステップ207において、音声記憶部66が音声信号を記憶する。
一致度の最も高い単語が認識の結果として選択され、上位階層を含めてモニタ60において表示される。
【0045】
そして、所定時間内にモニタ60のタッチパネルに対するタッチ入力が無ければ、選択された単語を装置の出力として出力するが、タッチ入力があった場合、タッチされた階層に部分辞書の変更を行なう。階層変更された部分辞書が新たに外部記憶装置503から読み込まれる。その後階層変更のための発話をし、音声入力によって階層を示す単語が特定されると、その階層下の最下位部分辞書を外部記憶装置503から読み込む。
【0046】
その後、第1の実施例では再度音声入力やり直しを使用者に報知するが、本実施例では、ステップ216において、音声記憶部66から記憶した音声信号を用い、最下層の部分辞書内の単語との一致度を演算する。各単語から一致度の最も高い単語がステップ208において選択される。そしてステップ210にモニタ60へのタッチ入力がないと判定されると、ステップ211で認識した単語を装置の出力として出力する。
【0047】
本実施例によっても、第1の実施例と同様の効果が得られるとともに、部分辞書の変更後、再度最初に目的語を発話し音声入力する必要がないので、入力回数が減少されることになる。
【0048】
次に、第3の実施例について説明する。
図8は、第3の実施例の構成を示すブロック図である。
この実施例は、図6に示す第2の実施例における信号処理装置6の代わりに信号処理装置7を用いる。音声信号記憶部66は音声入力部73の音声信号を単語選択部62に出力するとともに、一回目の音声信号は音声記憶部66が記憶する。部分辞書変更がある場合、音声記憶部66に記憶された音声信号を用いて認識する。
【0049】
第1あるいは第2の実施例では階層の変更はモニタ60のタッチパネルで行なったが、本実施例は音声による階層変更を行なう。すなわち第一回目の音声入力を目的語に対応させ、以後の音声入力は階層変更に対応させている点が第1あるいは第2の実施例と異なる。モニタ60の代わりに表示のみのモニタ70を使用する。その他は第1の実施例と同様である。
【0050】
次に、図9のフローチャートに従って装置の作動の流れを説明する。
ステップ201〜ステップ216まではステップ310、ステップ313を除いて第2の実施例における図7のフローチャートと同様の処理を行なう。
すなわちまず、階層の最下位の部分辞書を最初の認識対象として設定され、外部記憶装置503から読み込まれる。使用者の発話音声信号を取り込みながら設定された部分辞書内の単語と一致度を演算する。そして音声信号の取り込みが終了すると、音声記憶部66が音声信号を記憶する。
そしてステップ208において一致度の最も高い単語が認識の結果として選択され、ステップ209において上位階層を含めてモニタ70において表示されるとステップ310へ進む。
【0051】
ステップ310では、音声入力部73がスイッチ505が操作されたか否かを検出し、操作された場合、音声入力があるため、ステップ313へ進む。
ステップ313では現在使用中の部分辞書の上位全ての部分辞書を外部記憶装置503から読み込む。
その後第1、第2の実施例と同様に上位階層の音声入力がなされ、階層を示す単語が特定されると、その階層下の最下位部分辞書を外部記憶装置503から読み込む。
【0052】
ステップ216において、音声記憶部66から記憶した音声信号を用い、部分辞書内の単語との一致度を演算する。各単語から一致度の最も高い単語がステップ208において選択される。
ステップ310においてスイッチ505に対する操作がないことが検出されると、ステップ211で認識した単語を装置の出力として出力する。
このように、例えば最初に部分辞書hが設定されていて、入力する単語は辞書にない「そごう」の場合、使用者が「デパート」を発話すれば、図10に示すように「そごう」の上位辞書を含むハッチングした部分辞書が自動的に設定されるので、階層変更があっても煩わしい操作はない。
【0053】
すなわち、最初の発話に対し、装置が使用者の指定したい階層と異なる階層の単語を出力する場合、使用者が指定したい階層名称を発話するという手順をとることで、発話、返答、詳しい説明という自然な対話を実現でき、最も自然な感覚で音声入力ができる効果が得られる。
各階層の部分辞書が設定されるので、音声による認識率の低下が懸念されるが、一般に上位の部分辞書内の単語は、分類のための単語であり、単語数は最下層の部分辞書内の単語数に比較して極めて少ないため、認識率は十分に使用に堪える。
【0054】
次に、第3の実施例の変形例について説明する。
前記各実施例では、最下層の部分辞書が正確に設定されても、騒音などの影響で単語を誤認識することがある。この場合すべての上位階層の部分辞書を設定し直しても辿り着いたのはもとの部分辞書であり、余計な入力回数を作る結果となる。この変形例はそれに対処するためのもので、誤認識があっても、同じ部分辞書内の単語なら、階層変更せずに処理できるようにしている。
【0055】
図11は装置作動の流れを示すフローチャートである。
このフローチャートはステップ412、ステップ413、ステップ414を図9の第3の実施例におけるステップ313、ステップ214に置き換えて構成される。
すなわちまず、階層の最下位の部分辞書を最初の認識対象として設定され、外部記憶装置503から読み込まれる。使用者の発話音声信号を取りながら設定された部分辞書内の単語と一致度を演算する。そして音声信号の取り込みが終了すると、音声記憶部66が音声信号を記憶する。
一致度の最も高い単語が認識の結果として選択され、ステップ209において上位階層を含めてモニタ70において表示される。
【0056】
そして、ステップ310において、音声入力部73がスイッチ505が操作されたか否かを検出し、操作された場合、音声入力があるため、ステップ412へ進む。
ステップ412では、現在使用中の部分辞書およびその上位全ての部分辞書を読み込む。
ステップ413では、使用者が発話した音声を入力し、読み込まれた部分辞書内の単語との一致度を演算する。
【0057】
ステップ414では一致度の最も高い単語が上位階層の部分辞書内にあるか否かを判定する。単語が上位階層の部分辞書内にある場合、階層変更するためのものであり、ステップ215へ進み、第3の実施例と同様の処理を行なう。単語が最下層の部分辞書内にある場合、既に認識された目的語であるためステップ209へ進み、ステップ310でスイッチに対する新たな操作が行なわれていないかの判定を経てステップ211において単語が出力される。
【0058】
このように、もし最初に部分辞書hが設定されていて、入力したい単語は「桜木町」の場合、騒音などによる「桜木町」の音声信号に歪みが生じ、「関内」と誤って表示される可能性がある。また「桜木町」を発話するつもりで「関内」と誤って発話することが考えられる。このような部分辞書が正しい場合でも、図12にハッチングで示すように部分辞書hを含む全ての上位階層の部分辞書が自動的に設定されるので、「桜木町」と発話し直しすれば、階層変更をせずに音声入力ができる。これによって階層の変更は必要なときのみ行なわれることになり、音声入力負担がさらに軽減される。このほか第3の実施例のように発話、返答、詳しい説明という自然な対話形式で音声入力ができる効果も得られる。
【0059】
【発明の効果】
以上説明したように、本発明によれば、1回目の単語を目的語とすることができるので、まず目的語で入力し、正確でなかったら階層を変更して目的語を再度入力して認識し、自然な感覚で音声入力ができる。また辞書を変更する際、例えば現在の部分辞書から遡り、目的語と共通する内容の上位部分辞書に変更して最下層の部分辞書を決定する段取りをとるので、目的語が認識されるまでの入力回数が少なく、入力負担が軽減される
【0060】
部分辞書決定手段は、上位階層への変更指示を受けた場合、上位階層の部分辞書を決定し、音声入力により単語選択手段が選択した単語が示す階層に変更し、該階層下の所定の最下層部分辞書を決定するようにした場合、階層変更があったも、目的語の入っている部分辞書に至るまでの部分辞書に対する認識が不要で、大きな入力負担とならない効果が得られる。
また部分辞書決定手段が初めに決定する部分辞書は前回使用された最下層の部分辞書となれば、辞書構成を理解し、階層変更が円滑に行なえる。
さらに前回使用された最下層の部分辞書の代わりに使用頻度の高い最下層の部分辞書を用いても同じ効果が得られる。
【0061】
音声入力装置に表示手段を接続し、単語選択手段が選択した単語及び上位の階層構造を表示手段で表示するようにすると、階層変更が必要のときに、表示された階層構造を頼りに階層変更ができるので、入力負担がさらに軽減される。
前記表示手段はタッチパネルを合わせ持ち、使用者によってタッチされた階層に対応した階層変更指令を前記部分辞書決定部に出力するようにすると、対話式な入力となり一層の入力負担軽減が図られる。
また、タッチ入力があったときに、音声入力によって変更可能な階層を前記表示手段上で表示した場合、辞書の構造を表示画面から知ることができ辞書の構成に対する予備知識が無くても階層変更ができる効果が得られる。
【0062】
前記部分辞書決定手段は、目的語に続き音声入力が行なわれたときに、上位階層への変更指示を受けたとし、設定されている最下層部分辞書より上位の全ての部分辞書を決定し、単語選択手段が選択した単語が示す階層に階層変更を行なうようにすると、階層変更に対する操作が不要で入力負担が一層軽減される。
【0063】
前記部分辞書決定手段は、目的語に続き音声入力が行なわれたときに、設定されている最下層部分辞書及びそれより上位の全ての部分辞書を決定し、単語選択手段が選択した単語が上位部分辞書内の単語であれば、上位階層への変更指示を受けたとし、前記単語が示す階層に階層変更を行なった場合、部分辞書が正確でありながら、単語の誤認識による階層変更が防止され、無駄な入力を生じさせない効果が得られる。
【0064】
最初に入力された音声を記憶する記憶手段を合わせ持ち、階層が変更されたとき、前記単語選択手段は前記記憶手段に記憶された音声を用いて、決定された最下層の部分辞書内の単語との一致度を演算し、出力することで、階層を変更し、最下層の部分辞書が変わっても、目的語の音声入力を二度と行なう必要がなく、音声の入力回数がさらに減らされる。また、最初の発話に対し、装置が使用者の指定したい階層と異なる階層の単語を出力する場合、第2の実施例と同様に使用者が指定したい階層名称を発話するという手順をとることで、発話、返答、詳しい説明という自然な対話を実現でき、最も自然な感覚で音声入力ができる効果が得られる。
【図面の簡単な説明】
【図1】第1の実施例の構成を示すブロック図である。
【図2】階層化した単語辞書の構成を示す図である。
【図3】第1の実施例のフローチャートである。
【図4】モニタ表示画面を示すブロック図である。
【図5】部分辞書を変更時のモニタ表示画面を示す図である。
【図6】第2の実施例の構成を示すブロック図である。
【図7】第2の実施例のフローチャートである。
【図8】第3の実施例の構成を示すブロック図である。
【図9】第3の実施例のフローチャートである。
【図10】最下位部分辞書を変更時に仮設定された上位部分辞書を示す図である。
【図11】第3の実施例の変形例を示すフローチャートである。
【図12】最下位部分辞書を変更時に仮設定された部分辞書を示す図である。
【図13】従来例の構成を示すブロック図である。
【図14】従来例のフローチャートである。
【符号の説明】
5、6、7 信号処理装置
51、71 部分辞書決定部
52、62 単語選択部
53、63、73 音声入力部
54、64 単語出力部
60、70、504 モニタ
66 音声記憶部
500 マイク
501 A/Dコンバータ
502 信号処理装置
503 外部記憶装置
505 スイッチ
a、b、c、d、e、f 部分辞書
g、h、i、j、k 部分辞書[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a speech input device capable of performing large vocabulary recognition with a small number of inputs.
[0002]
[Prior art]
2. Description of the Related Art Voice input devices that recognize voice and read information can input commands, data, and the like without using hands, and thus are being used in places where manual operations are difficult, such as word processors for disabled persons and in-vehicle navigation.
As shown in FIG. 13, a typical voice input device includes a
The
[0003]
In general, in the case of speech input, the recognition rate decreases as the number of words to be recognized increases, and a hierarchical dictionary is used for large vocabulary recognition. At the time of input, voice input is repeated a plurality of times in accordance with the dictionary classification, the hierarchy is advanced, recognition is performed in a state where the number of words to be recognized is narrowed down, and the erroneous recognition rate is reduced.
[0004]
Details of the speech recognition in the above-described conventional device will be described with reference to the flowchart of FIG.
Here, a case where "Sakuragicho" which is the station name of JR is input by voice is shown. Such a station name input is used for setting a destination of a navigation device of an automobile. The
[0005]
First, in step 521, in the initial state of voice input, the
Next, the device user operates the
The operation of the
[0006]
In
The
[0007]
In step 525, the CPU calculates the degree of coincidence between the input voice and the word in the partial dictionary read into the memory. Initially, the degree of coincidence with each of “address” and “facility” is calculated.
[0008]
When the instantaneous power of the audio signal becomes equal to or less than the predetermined value, it is determined that the utterance of the user has ended, and in
When the calculation of the degree of matching between the input voice and the word in the partial dictionary is completed, in
[0009]
In
In
[0010]
In
[0011]
[Problems to be solved by the invention]
As described above, in the conventional voice input device, to transmit one word, the partial dictionary names up to the lowest layer to which the word belongs must be input for each layer. Since the hierarchy becomes more complicated as the number of words increases, there is a problem in that the recognition load from the large vocabulary increases the user's input burden. Further, there is a problem that although the user wants to convey the object most, the input of the object lasts a sense of incongruity at the end and is not easy to use.
The present invention has been made in view of the above-described conventional problems, and has as its object to realize accurate voice input with a small number of input times.
[0012]
[Means for Solving the Problems]
Voice input means for converting the uttered voice into information and inputting the information;
A word dictionary consisting of a partial dictionary including a plurality of words and having a hierarchical structure,
Means for determining a partial dictionary to be used;,
Calculating means for calculating the degree of coincidence between the input voice from the voice input means and the word in the determined partial dictionary;
Word selecting means for selecting and outputting the word having the highest matching degree among the calculated words,
The partial dictionary determining means first determines a predetermined lowermost partial dictionary,When an instruction to change to a higher hierarchy is received, a partial dictionary of the specified upper hierarchy is determined, the input dictionary is changed to the hierarchy indicated by the word selected by the word selecting means, and a predetermined lower hierarchy below the hierarchy is determined.A partial dictionary was determined.
[0013]
It is preferable that the partial dictionary first determined by the partial dictionary determining means is the lowest partial dictionary used last time.
It is also possible to use a lower-level partial dictionary frequently used in place of the lowest-level partial dictionary used last time.
[0014]
It is desirable that display means is connected to the voice input device to display the word selected by the word selection means and the upper hierarchical structure.
The display unit may have a touch panel and output a hierarchy change command corresponding to the hierarchy touched by the user to the partial dictionary determination unit.
Further, it is desirable to display a changeable hierarchy on the display means when a touch input is made on the touch panel.
[0015]
The partial dictionary determination means determines that, when an input is made following the object, an instruction to change to a higher hierarchy is received, and all partial dictionaries higher than the set lowermost partial dictionary are determined. The hierarchy can be changed to the hierarchy indicated by the word selected by the selection means.
[0016]
The sub-dictionary deciding means, when an input is made following the object, decides the set lowest sub-dictionary and all sub-dictionaries higher than the set sub-dictionary, and the word selected by the word selecting means is set If the word is in the dictionary, it is assumed that a change instruction to a higher hierarchy has been received, and the hierarchy can be changed to the hierarchy indicated by the word.
[0017]
In addition, when the hierarchy is changed, the word selecting means uses the voice stored in the storage means to store the first input speech in the determined partial dictionary. Can be calculated and output.
[0018]
[Action]
When a hierarchical dictionary is used and a partial dictionary is set, a predetermined lowermost partial dictionary is first set, so that large vocabulary recognition can be performed and the first word can be used as an object. . If it cannot be recognized by one input, the hierarchy is changed by the hierarchy change command, so for example, change to the upper hierarchy common to the current partial dictionary and the partial dictionary with the object, and determine the lowest partial dictionary This eliminates the need for input from the uppermost partial dictionary, thereby achieving efficient input. Further, since the input is performed from the beginning with the object and the change in the hierarchy of the dictionary cannot be recognized, the voice input matching the sense can be performed.
[0019]
The partial dictionary determining means, when receiving an instruction to change to a higher hierarchical level, determines a partial dictionary of the upper hierarchical level, changes to a hierarchical level indicated by the word selected by the word selecting means by input, and determines a predetermined lowermost hierarchical level below the hierarchical level. If a partial dictionary is determined, there is a hierarchy change.handAlso, it is not necessary to recognize the partial dictionary between the partial dictionary of the object and the upper hierarchy, and even if the hierarchy is changed to a higher hierarchy, the object is input immediately, so that the input is performed without frustrating the device user. The effect that can be obtained is obtained.
Further, if the partial dictionary determined first by the partial dictionary determining means is the lowest partial dictionary used last time, the dictionary configuration can be understood and the hierarchy can be changed smoothly.
Further, the same effect can be obtained by using a lower-level partial dictionary frequently used in place of the lowest-level partial dictionary used last time.
[0020]
When the display means is connected to the voice input device and the word selected by the word selection means and the upper hierarchical structure are displayed on the display means, when the hierarchy needs to be changed, the hierarchy is changed based on the displayed hierarchical structure. , The input burden is reduced.
If the display unit has a touch panel and outputs a hierarchy change command corresponding to the hierarchy touched by the user to the partial dictionary determination unit, the input becomes interactive and the input load is further reduced.
Further, when a hierarchy that can be changed by voice input is displayed on the display unit when there is a touch input, the structure of the dictionary can be known from the display screen, and even if there is no prior knowledge such as the configuration of the dictionary. The effect that the hierarchy can be changed is obtained.
[0021]
When the input is performed following the object, the partial dictionary determining means determines that an instruction to change to a higher hierarchical level is received, determines all partial dictionaries higher than the set lowest partial dictionary, and If the hierarchy is changed to the hierarchy indicated by the word selected by the selecting means, the hierarchy can be changed only by the words in the upper hierarchy, and the input load can be further reduced.
[0022]
The sub-dictionary deciding means, when an input is made following the object, decides the set lowest sub-dictionary and all sub-dictionaries higher than the set sub-dictionary, and the word selected by the word selecting means is set If it is a word in the dictionary, it is assumed that a change instruction to a higher hierarchy has been received, and if the hierarchy is changed to the hierarchy indicated by the word, the hierarchy change due to incorrect recognition of the word is prevented while the partial dictionary is accurate. You.
[0023]
When the hierarchy is changed, the word selection means uses the speech stored in the storage means to store a word in the lowermost partial dictionary determined when the hierarchy is changed. By calculating and outputting the degree of coincidence with, even if the hierarchy is changed and the partial dictionary at the lowest level is changed, it is not necessary to input the speech of the object word again, and the number of times of inputting the speech is further reduced.
[0024]
BEST MODE FOR CARRYING OUT THE INVENTION
Next, embodiments of the present invention will be described with reference to examples.
FIG. 1 is a block diagram showing the configuration of the first embodiment of the present invention.
The audio signal captured by the
[0025]
As the word dictionary, a hierarchical word dictionary as shown in FIG. 2 is used. In the figure, the connecting lines between the partial dictionaries indicate the connection relationship between the upper and lower layers, and what protrudes in the frame is the display of words representing the lower hierarchy.
The partial dictionary a composed of two words “address” and “facility” is located at the top level of the word dictionary. Each word is a lower-level dictionary. A partial dictionary b is provided, and a partial dictionary c in which city and ward names are written and a partial dictionary d in which ward and village names are written are sequentially provided for each prefecture.
[0026]
Below the word “facility” in the partial dictionary a, a partial dictionary e of words describing the type names of “facility” such as “station”, “department store”, and “hotel” follows. A partial dictionary f in which the names of prefectures are described below “station” is provided. From the partial dictionary f, a partial dictionary g describing a transportation company name and a partial dictionary h of a station name connected to the partial dictionary g are provided for each prefecture.
[0027]
The word "department store" also has a lower-level partial dictionary i describing the name of the prefecture, a partial dictionary j describing the name of the city, and a partial dictionary k describing the name of the "department store". It is linked to a dictionary and a sub-dictionary of the ward.
The partial dictionary d, the partial dictionary h, and the partial dictionary k are the lowest-level partial dictionaries, in which object words are registered, and words to be recognized are collated and recognized here.
[0028]
The
[0029]
The
[0030]
When there is a change in the partial dictionary, the partial
The lowest partial dictionary input first or input after changing the hierarchy is the partial dictionary used last time or the most frequently used partial dictionary.
[0031]
Next, the operation flow of the apparatus will be described with reference to the flowchart of FIG.
First, in step 101, in the initial state of voice input, the partial
[0032]
The user of the device operates the
In
In step 103, the determined partial dictionary is read from the
[0033]
In
Here, for example, it is assumed that the user has spoken “Sakuragicho” as the object.
In step 105, the
[0034]
When the instantaneous power of the audio signal becomes equal to or less than the average power in
In step 107, the word having the highest matching degree calculated by the
[0035]
In step 108, the
Then, in
In this case, there is no need to change the hierarchy, and the number of utterances ends once.
[0036]
If the user uttered “Sougo” in
[0037]
When the touch input is detected in
In step 111, the
In step 112, the partial
[0038]
In step 113, the user touches and selects from the displayed upper hierarchy to input a voice. In the case of “Sougo”, the user inputs “Department store” related thereto by voice and is recognized by the
In step 114, the partial
[0039]
In
Thereafter, the user utters “SOGO”, and the processing from
[0040]
The
[0041]
The present embodiment is configured as described above. When the first speech is input, the degree of coincidence between the speech signal and a word in the predetermined lowermost partial dictionary is calculated. It can be used as an object, and the user's input burden is reduced. Further, when a partial dictionary needs to be changed, even if there are a plurality of hierarchies below the higher hierarchy, the lowest partial dictionary is set and used.
Then, since the partial dictionary used first is the one used frequently or the one used last time, the user can easily understand the output result and smoothly change the hierarchy.
[0042]
In addition, since the monitor displays the hierarchical structure of the word when the word is displayed, it is possible to easily determine which layer the user wants to change.
When there is a touch input, by displaying what level can be changed by voice input, it is possible to perform an operation to change to which level without knowing the dictionary configuration.
[0043]
FIG. 6 is a block diagram showing the configuration of the second embodiment.
In this embodiment, a signal processing device 6 provided with an
[0044]
Next, the operation flow of the apparatus will be described with reference to the flowchart of FIG.
In
That is, first, the partial dictionary at the lowest level of the hierarchy is set as the first recognition target, and is read from the
The word having the highest matching degree is selected as a result of the recognition, and is displayed on the
[0045]
Then, if there is no touch input on the touch panel of the
[0046]
Thereafter, in the first embodiment, the user is notified again of the re-input of the voice, but in the present embodiment, in step 216, the voice signal stored from the
[0047]
According to this embodiment, the same effect as that of the first embodiment can be obtained, and it is not necessary to first speak and input the object again after the partial dictionary is changed. Become.
[0048]
Next, a third embodiment will be described.
FIG. 8 is a block diagram showing the configuration of the third embodiment.
In this embodiment, a signal processing device 7 is used instead of the signal processing device 6 in the second embodiment shown in FIG. The voice
[0049]
In the first or second embodiment, the hierarchy is changed by the touch panel of the
[0050]
Next, the operation flow of the apparatus will be described with reference to the flowchart of FIG.
In
That is, first, the lowest partial dictionary in the hierarchy is set as the first recognition target, and is read from the
Then, in
[0051]
In
In step 313, all the partial dictionaries higher than the currently used partial dictionary are read from the
After that, as in the first and second embodiments, voice input of the upper hierarchy is performed, and when a word indicating the hierarchy is specified, the lowest partial dictionary under the hierarchy is read from the
[0052]
In step 216, the degree of coincidence with a word in the partial dictionary is calculated using the voice signal stored from the
If it is detected in
In this way, for example, when the partial dictionary h is initially set and the word to be input is “Sougo” that is not in the dictionary, if the user speaks “Department store”, the “Sougo” as shown in FIG. Since the hatched partial dictionaries including the upper dictionary are automatically set, there is no troublesome operation even if there is a hierarchy change.
[0053]
That is, when the device outputs words of a different hierarchy from the hierarchy specified by the user in response to the first utterance, the user utters the hierarchy name desired by the user, and the utterance, reply, and detailed explanation are taken. A natural dialogue can be realized, and an effect that voice input can be performed with the most natural feeling can be obtained.
Since the partial dictionaries of each layer are set, there is a concern that the recognition rate may decrease due to speech.However, words in the upper partial dictionary are generally words for classification, and the number of words is in the lowest partial dictionary. Since the number of words is extremely small compared to the number of words, the recognition rate is sufficient for use.
[0054]
Next, a modification of the third embodiment will be described.
In each of the above embodiments, even if the partial dictionary at the lowest level is set correctly, words may be erroneously recognized due to the influence of noise or the like. In this case, even if the partial dictionaries of all the upper hierarchies are reset, the original partial dictionary is reached, which results in an unnecessary number of times of input. This modification is intended to deal with such a case, and even if there is an erroneous recognition, words in the same partial dictionary can be processed without changing the hierarchy.
[0055]
FIG. 11 is a flowchart showing the flow of the operation of the apparatus.
This flowchart is configured by replacing
That is, first, the lowest partial dictionary in the hierarchy is set as the first recognition target, and is read from the
The word having the highest degree of matching is selected as a result of recognition, and is displayed on the
[0056]
Then, in
In
In
[0057]
In
[0058]
In this way, if the partial dictionary h is initially set and the word to be input is "Sakuragicho", the sound signal of "Sakuragicho" is distorted due to noise or the like, and is incorrectly displayed as "Kannai". May be It is also conceivable that the user intends to utter "Sakuragicho" and erroneously utters "Kannai". Even if such a partial dictionary is correct, all upper-layer partial dictionaries including the partial dictionary h are automatically set, as indicated by hatching in FIG. 12, so if "Sakuragicho" is re-uttered, Voice input without changing the hierarchy. As a result, the hierarchy is changed only when necessary, and the voice input burden is further reduced. In addition, as in the third embodiment, there is also obtained an effect that a voice can be input in a natural dialogue style such as utterance, reply, and detailed explanation.
[0059]
【The invention's effect】
As described above, according to the present invention, the first word can be used as the object. Therefore, the object is first input, and if it is not correct, the hierarchy is changed and the object is input again to recognize the object. And you can input speech with a natural feeling. Also, when changing a dictionary, for example, it is necessary to go back from the current partial dictionary and change to a higher partial dictionary with the same content as the object and determine the lowest partial dictionary. Fewer inputs and less typing
[0060]
The partial dictionary determining means, when receiving an instruction to change to a higher hierarchy, determines a partial dictionary in the upper hierarchy, changes to a hierarchy indicated by the word selected by the word selecting means by voice input, and determines a predetermined lower hierarchy in the hierarchy. When the lower-level partial dictionary is determined, there is no need to recognize the partial dictionary up to the partial dictionary containing the object even if the hierarchy is changed, and an effect of not causing a large input load can be obtained.
Further, if the partial dictionary determined first by the partial dictionary determining means is the lowest partial dictionary used last time, the dictionary configuration can be understood and the hierarchy can be changed smoothly.
Further, the same effect can be obtained by using a lower-level partial dictionary frequently used in place of the lowest-level partial dictionary used last time.
[0061]
When the display means is connected to the voice input device and the word selected by the word selection means and the upper hierarchical structure are displayed on the display means, when the hierarchy needs to be changed, the hierarchy is changed based on the displayed hierarchical structure. Therefore, the input load can be further reduced.
If the display means has a touch panel and outputs a hierarchy change command corresponding to the hierarchy touched by the user to the partial dictionary determination unit, the input becomes interactive and the input load is further reduced.
In addition, when a touch input is performed and a hierarchy that can be changed by voice input is displayed on the display unit, the structure of the dictionary can be known from the display screen, and the hierarchy can be changed without prior knowledge of the dictionary configuration. The effect that can be obtained is obtained.
[0062]
The partial dictionary determination means, when a speech input is performed following the object, determines that a change instruction to a higher hierarchy has been received, and determines all partial dictionaries higher than the set lowermost partial dictionary, When the hierarchy is changed to the hierarchy indicated by the word selected by the word selecting means, the operation for changing the hierarchy is unnecessary, and the input load is further reduced.
[0063]
The sub-dictionary deciding means decides the lowermost sub-dictionary set and all the sub-dictionaries higher than the set sub-dictionary when the speech input is performed following the object, and the word selected by the word selecting means is higher If it is a word in the partial dictionary, it is assumed that a change instruction to a higher hierarchical level has been received, and if the hierarchical level is changed to the hierarchical level indicated by the word, the hierarchical change due to incorrect recognition of the word is prevented while the partial dictionary is accurate. Thus, an effect of not causing useless input can be obtained.
[0064]
When the hierarchy is changed, the word selection means uses the speech stored in the storage means to store a word in the lowermost partial dictionary determined when the hierarchy is changed. By calculating and outputting the degree of coincidence with the subject, even if the hierarchy is changed and the partial dictionary at the lowest level is changed, there is no need to input the speech of the object again, and the number of times of speech input is further reduced. In addition, when the device outputs words of a different hierarchy from the hierarchy that the user wants to specify for the first utterance, a procedure is adopted in which the user utters the hierarchy name that the user wants to specify, as in the second embodiment. , Utterance, reply, and detailed explanation can be realized, and the effect of inputting voice with the most natural feeling can be obtained.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration of a first embodiment.
FIG. 2 is a diagram showing a configuration of a hierarchical word dictionary.
FIG. 3 is a flowchart of the first embodiment.
FIG. 4 is a block diagram showing a monitor display screen.
FIG. 5 is a diagram showing a monitor display screen when a partial dictionary is changed.
FIG. 6 is a block diagram showing a configuration of a second embodiment.
FIG. 7 is a flowchart of the second embodiment.
FIG. 8 is a block diagram illustrating a configuration of a third embodiment.
FIG. 9 is a flowchart of the third embodiment.
FIG. 10 is a diagram illustrating an upper partial dictionary temporarily set when the lowermost partial dictionary is changed.
FIG. 11 is a flowchart showing a modification of the third embodiment.
FIG. 12 is a diagram illustrating a partial dictionary temporarily set when the lowest partial dictionary is changed.
FIG. 13 is a block diagram showing a configuration of a conventional example.
FIG. 14 is a flowchart of a conventional example.
[Explanation of symbols]
5, 6, 7 signal processing device
51, 71 partial dictionary determination unit
52, 62 Word selector
53, 63, 73 Voice input unit
54, 64 word output unit
60, 70, 504 monitor
66 Voice storage unit
500 microphone
501 A / D converter
502 signal processing device
503 External storage device
505 switch
a, b, c, d, e, f partial dictionary
g, h, i, j, k partial dictionary
Claims (9)
複数の単語を含む部分辞書からなるとともに階層構造を持った単語辞書と、
使用する部分辞書を決定する部分辞書決定手段と、
前記音声入力手段からの音声情報と決定された部分辞書内の単語との一致度を演算する演算手段と、
演算された単語のうち最も一致度の高い単語を選択して出力する単語選択手段とを有し、
前記部分辞書決定手段は、初めに所定の最下層の部分辞書を決定し、上位階層への変更指示を受けた場合、指示された上位階層の部分辞書を決定し、入力により前記単語選択手段が選択した単語が示す階層に変更し、該階層下の所定の最下層部分辞書を決定することを特徴とする音声入力装置。Voice input means for converting the uttered voice into information and inputting the information;
A word dictionary consisting of a partial dictionary including a plurality of words and having a hierarchical structure,
A partial dictionary determining means for determining a partial dictionary to be used ;
Calculating means for calculating the degree of coincidence between the voice information from the voice input means and the word in the determined partial dictionary;
Word selecting means for selecting and outputting the word having the highest matching degree among the calculated words,
The partial dictionary determining means first determines a predetermined lower-level partial dictionary, and when an instruction to change to a higher hierarchical level is received, determines a designated partial dictionary at an upper hierarchical level. A voice input device for changing to a hierarchy indicated by a selected word and determining a predetermined lowermost partial dictionary under the hierarchy .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP13579397A JP3588975B2 (en) | 1997-05-12 | 1997-05-12 | Voice input device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP13579397A JP3588975B2 (en) | 1997-05-12 | 1997-05-12 | Voice input device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10312193A JPH10312193A (en) | 1998-11-24 |
JP3588975B2 true JP3588975B2 (en) | 2004-11-17 |
Family
ID=15159968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP13579397A Expired - Fee Related JP3588975B2 (en) | 1997-05-12 | 1997-05-12 | Voice input device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3588975B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001109492A (en) * | 1999-10-07 | 2001-04-20 | Alpine Electronics Inc | Voice recognition method |
JP2004037998A (en) | 2002-07-05 | 2004-02-05 | Denso Corp | Vocal controller |
JP4878471B2 (en) * | 2005-11-02 | 2012-02-15 | キヤノン株式会社 | Information processing apparatus and control method thereof |
JP2008003266A (en) * | 2006-06-22 | 2008-01-10 | Alpine Electronics Inc | Destination setting device and destination setting method |
JP6367786B2 (en) * | 2015-12-24 | 2018-08-01 | 日本電信電話株式会社 | Voice input device, method and program thereof |
CN110309504B (en) * | 2019-05-23 | 2023-10-31 | 平安科技(深圳)有限公司 | Text processing method, device, equipment and storage medium based on word segmentation |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08320697A (en) * | 1995-05-23 | 1996-12-03 | Hitachi Ltd | Speech recognition device |
JPH08328584A (en) * | 1995-05-29 | 1996-12-13 | Sony Corp | Speach recognition device, method therefor and navigation device |
-
1997
- 1997-05-12 JP JP13579397A patent/JP3588975B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH10312193A (en) | 1998-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8279171B2 (en) | Voice input device | |
US8818816B2 (en) | Voice recognition device | |
US7949524B2 (en) | Speech recognition correction with standby-word dictionary | |
JP5526396B2 (en) | Information search apparatus, information search system, and information search method | |
JP3102866B2 (en) | Spoken language translator | |
EP0840288B1 (en) | Method and system for editing phrases during continuous speech recognition | |
JP3476007B2 (en) | Recognition word registration method, speech recognition method, speech recognition device, storage medium storing software product for registration of recognition word, storage medium storing software product for speech recognition | |
EP0840286A2 (en) | Method and system for displaying a variable number of alternative words during speech recognition | |
US20020123894A1 (en) | Processing speech recognition errors in an embedded speech recognition system | |
US20020032568A1 (en) | Voice recognition unit and method thereof | |
US6879953B1 (en) | Speech recognition with request level determination | |
JP3795692B2 (en) | Character processing apparatus and method | |
JP2002116793A (en) | Data input system and method | |
JP4967519B2 (en) | Voice recognition device | |
JP2003114696A (en) | Speech recognition device, program, and navigation system | |
JP3588975B2 (en) | Voice input device | |
US7295923B2 (en) | Navigation device and address input method thereof | |
JP5015806B2 (en) | Merchandise sales data processing apparatus and program thereof, and merchandise data input apparatus and program thereof | |
JP2000322088A (en) | Speech recognition microphone and speech recognition system and speech recognition method | |
JP4262837B2 (en) | Navigation method using voice recognition function | |
JP3726783B2 (en) | Voice recognition device | |
JP3645104B2 (en) | Dictionary search apparatus and recording medium storing dictionary search program | |
JP4004885B2 (en) | Voice control device | |
JP2002215184A (en) | Speech recognition device and program for the same | |
JP5446540B2 (en) | Information retrieval apparatus, control method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040301 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040413 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040727 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040809 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080827 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080827 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090827 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |