JP4941494B2

JP4941494B2 - 音声認識システム

Info

Publication number: JP4941494B2
Application number: JP2009082675A
Authority: JP
Inventors: 竜一鈴木
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2009-03-30
Filing date: 2009-03-30
Publication date: 2012-05-30
Anticipated expiration: 2029-03-30
Also published as: JP2010237286A

Description

本発明は、例えば車両用ナビゲーション装置などに適用される音声認識システムに関する。

近年、ユーザが発話した音声を認識し、その認識結果に基づいて、操作対象機器を操作したり、ユーザに対してサービスを提供したりするシステムが開発され、実用に供されつつある。

例えば、特許文献１には、ユーザの音声を認識し、その認識結果に基づいて、注文の受付やデータベースの検索などのサービスを提供する音声応答装置が記載されている。この音声応答装置では、音声認識部によって、音声認識辞書部に予め登録したどの語句がどのような順序で発声されたかを認識する。そして、不要語検出部により、音声認識部の認識結果に、音声応答装置の操作に必要でない語句である不要語が含まれているか否かを調べる。不要語が含まれているときには、不要語検出部は、さらに、不要語と認識結果内の目的語との位置関係を調べる。

そして、習熟度推定部により、不要語検出部が調べた結果に基づいて、ユーザの音声応答装置の操作の習熟度を推測する。会話フロー制御部は、予め格納した会話フローから、推測した習熟度に対応した会話フローに含まれるガイダンスを取り出し、ユーザに出力する。

特開２００１−３３１１９６号公報

特許文献１に記載された音声応答装置では、上述したようにして、ユーザの操作の習熟度に応じたガイダンスを行なうようにしている。

しかしながら、特許文献１に記載されたように、不要語が含まれているか否か、および不要語と目的語との位置関係から、ユーザの操作の習熟度を推測しようとすると、膨大な認識語彙からなる音声認識辞書を用いる必要が生じる。すなわち、もともと膨大である目的語を認識するための認識語彙の他、非常に多数の不要語を認識するための認識語彙も対象として、ユーザの発話音声と照合する必要がある。このように膨大な認識語彙との照合を行なった場合、却って誤認識の確率が高まり、音声認識性能を低下させてしまう虞が生じる。

本発明は、このような点に鑑みてなされたものであり、極力、認識語彙に含まれる不要語の数が少ない辞書を用いて音声認識を行なうことにより、音声認識性能の低下を抑制することが可能な音声認識システムを提供することを目的とする。

上記目的を達成するために、請求項１に記載の音声認識システムは、
音声を入力する音声入力部と、
音声入力部に入力された音声に基づき、話者を識別する話者識別手段と、
音声入力部に入力された音声を、多数の認識語彙を有する辞書を用いて認識する音声認識部と、
話者識別手段によって識別された話者毎に、音声認識部により認識された音声における、入力音声として本来不要である不要語をカウントするとともに、そのカウント結果に基づいて算出した不要語使用頻度を記憶する不要語使用頻度記憶部と、
音声認識部にて使用する辞書として、含まれる不要語の数が異なる複数の辞書が用意されており、話者識別手段により識別された話者に対して、不要語使用頻度記憶部に不要語使用頻度が記憶されている場合、音声認識部における使用辞書を、記憶されている不要語使用頻度に応じた不要語の数の辞書に切り替える辞書切替部と、を備えることを特徴とする。

上述したように、請求項１に記載の発明では、音声入力部に入力された音声から話者を識別し、その話者の発話音声における不要語の使用頻度を算出して、話者毎に不要語使用頻度として記憶する。この不要語使用頻度は、話者毎に、どの程度頻繁に不要語を使用するかの傾向を表すものとなる。

従って、入力された音声に基づいて話者が識別されたとき、その話者に対して不要語使用頻度が記憶されている場合、音声認識部において使用される辞書を、記憶されている不要語使用頻度に応じた不要語の数の辞書に切り替える。この結果、不要語を使用する頻度が高いユーザの音声認識には、不要語の数が相対的に多い辞書が使用されるが、不要語を使用する頻度が低いユーザの音声認識には、不要語の数が相対的に少ない辞書が使用される。このように、請求項１の発明では、音声認識用の辞書として、ユーザの不要語の使用頻度に応じた不要語の数の辞書を用いるので、ユーザの音声認識に際して、極力、不要語の数の少ない辞書を用いることができる。

請求項２に記載したように、前記辞書は、入力音声として必要な語彙である目的語を集めた目的語辞書と、入力音声として本来不要である不要語を集めた不要語辞書とからなり、当該不要語辞書として、不要語の数が異なる複数の辞書が用意されており、辞書切替部は、記憶されている不要語使用頻度に応じて、不要語辞書を切り替えるものであって、音声認識部は、目的語辞書と、辞書切替部によって切り替えられた不要語辞書を用いて音声認識を行なうことが好ましい。このように、目的語辞書と不要語辞書とを切り離し、不要語辞書のみ切り替え対象とすることにより、辞書の容量が過大となることを防止することができる。

請求項３に記載したように、辞書切替部は、不要語辞書を不使用とするように、不要語辞書の切り替えを行なうことが可能であることが好ましい。例えば、ユーザが音声認識システムの操作に習熟している場合には、その入力音声の認識のために不要語辞書が必要とされないこともありえるためである。

請求項４に記載したように、ユーザの操作に基づいて、音声によって入力される情報の種類を決定する決定手段を備え、辞書切替部は、決定手段により音声入力情報の種類が決定された場合、その決定された音声入力情報の種類も考慮して、音声認識部における使用辞書の切り替えを行なうことが好ましい。

例えば、車両用ナビゲーション装置を操作対象装置とし、目的地を設定するための情報として、地理的情報とジャンルとを組み合わせて音声入力する場合と電話番号を音声入力する場合とでは、地理的情報とジャンルとを音声入力する場合の方が、不要語は増加する傾向にある。このように、音声入力される情報の種類と、入力音声に含まれる不要語の数とは、ある程度相関関係を有する。従って、請求項４に記載したように、音声入力情報の種類も考慮して使用辞書の切り替えを行なうことが好ましい。

音声入力情報の種類も考慮して使用辞書の切り替えを行なう具体的な手法が、請求項５及び請求項６に記載されている。

すなわち、請求項５に記載したように、辞書切替部は、決定手段により音声入力情報の種類が決定された場合、話者識別手段により識別された話者の不要語使用頻度に係らず、決定された音声入力情報の種類に応じた不要語の数の辞書に切り替えても良い。ユーザ毎の個人差よりも、音声入力情報の種類の方が、ユーザの発話音声に含まれる不要語の数に与える影響が大きいと考えられるためである。

また、請求項６に記載したように、辞書切替部は、話者識別手段により識別された話者の不要語使用頻度に応じた不要語の数の辞書と、音声入力情報の種類に応じた不要語の数の辞書とで、より不要語の数が多い辞書に切り替えるようにしても良い。これにより、音声認識部において使用される辞書を、ユーザ毎の個人差による不要語の使用数と、音声入力情報の種類に起因する不要語の使用数とに適切に対応する辞書に切り替えることが可能になる。

本発明の実施形態による音声認識システムを備えた車両用ナビゲーション装置の構成を表す構成図である。音声認識システムにおける、音声認識部と対話制御部との詳細な構成を示す制御ブロック図である。 (ａ)は、ユーザ毎に不要語の頻度を記憶した様子を表す説明図であり、（ｂ）は不要語頻度に応じて不要語辞書を選択する際の基準の一例を示す説明図である。音声認識システムにおける主要な制御処理を示すフローチャートである。

以下、本発明の実施形態について図面を用いて説明する。なお、以下に説明する実施形態では、本発明の音声認識システムが車両用ナビゲーション装置に適用されているが、本発明の音声認識システムの適用対象は、車両用ナビゲーション装置に限られるものではない。

図１に示すように、車両用ナビゲーション装置２は、位置検出器４、データ入力器６、操作スイッチ群８、これらに接続された制御回路１０、制御回路１０に接続された通信装置１２、外部メモリ１４、表示装置１６、リモコンセンサ１８及び音声認識システム３０を備えている。なお制御回路１０は通常のコンピュータとして構成されており、内部には、周知のＣＰＵ、ＲＯＭ、ＲＡＭ、Ｉ／Ｏ及びこれらの構成を接続するバスラインを備えている。

位置検出器４は、周知のジャイロスコープ２０、距離センサ２２及び衛星からの電波に基づいて車両の位置を検出するためのＧＰＳ受信機２４を有している。これらのセンサ等２０，２２，２４は各々が性質の異なる誤差を持っているため、複数のセンサにより、各々補間しながら使用するように構成されている。なお、精度によっては上述した内の一部で構成してもよく、更に、ステアリングの回転センサ、各転動輪の車輪センサ等を用いてもよい。

データ入力器６は、位置検出の精度向上のためのいわゆるマップマッチング用データ、地図データ及び目印データを含むナビゲーション用の各種データに加えて、音声認識システム３０において認識処理を行なう際に用いる辞書データを入力するための装置である。記憶媒体としては、そのデータ量からハードディスクやＤＶＤを用いるのが一般的であるが、ＣＤ−ＲＯＭ等の他の媒体を用いても良い。

操作スイッチ群８は、例えば表示装置１６と一体になったタッチスイッチもしくはメカニカルなスイッチ等が用いられ、スイッチ操作により制御回路１０へ各種の操作指示を出力する。例えば、地図縮尺変更、メニュー表示選択、目的地設定、経路探索、経路案内開始、表示画面変更、音声案内設定、音量調整等の操作指示を行なう。また、操作スイッチ群８は、例えば、出発地および目的地を設定するための情報の種類を選択するためのスイッチを含んでいる。その選択スイッチを操作することによって、ユーザ（車両の乗員）は、予め登録しておいた地点、施設名、電話番号、住所など、所望の情報を用いて、出発地および目的地を設定することができる。

通信装置１２は、設定された連絡先通信情報によって特定される連絡先との通信を行なうためのものであり、例えば携帯電話機等の移動体通信機によって構成される。外部メモリ１４は、書き込み可能な大容量記憶装置である。外部メモリ１４には大量のデータや電源をＯＦＦしても消去してはいけないデータを記憶したり、頻繁に使用するデータを地図データ入力器６からコピーして利用したりする等の用途がある。なお、外部メモリ１４は、比較的記憶容量の小さいリムーバブルなメモリであってもよい。

表示装置１６は例えば液晶表示装置からなり、表示装置１６の画面には、位置検出器４によって検出された車両の現在位置を示す車両現在位置マークと、地図データ入力器６より入力された車両の現在位置周辺の地図データと、更に地図上に表示する誘導経路や設定地点の目印等の付加データとを重ねて表示することができる。また、複数の選択肢を表示するメニュー画面やその中の選択肢を選んだ場合に、さらに複数の選択肢を表示するコマンド入力画面なども表示することができる。

リモコンセンサ１８は、図示しないリモコンからの操作信号を受信して、制御回路１０に出力するものである。リモコンには多数のスイッチが設けられ、そのスイッチ操作により、操作スイッチ群８とほぼ同等の機能を制御回路１０に対して実行させることを指示することが可能である。

次に、図1及び図２に基づいて、音声認識システム３０の構成について説明する。なお、図２は、音声認識システム３０における、音声認識部３１と対話制御部３２との詳細な構成を示すブロック図である。

音声認識システム３０は、上記操作スイッチ群８あるいはリモコンが各種コマンド入力のために手動操作されるのに対して、ユーザの発話音声によっても制御回路１０に各種コマンドを入力できるようにするためのものである。

音声認識システム３０は、音声認識部３１、対話制御部３２、音声合成部３３、音声抽出部３４、マイク３５、トークスイッチ３６、スピーカ３７、及び制御部３８を備えている。

トークスイッチ３６は、ユーザ（運転者）が音声入力を開始する旨を指示するためのもので、例えばステアリングコラムカバーの側面部やシフトレバーの近傍などユーザが操作しやすい位置に設けられている。なお、トークスイッチ３６はいわゆるクリック方式のスイッチであり、ユーザがトークスイッチ３６をオン操作した後音声を入力（発話）するようになっている。制御部３８は、トークスイッチ３６からのオン信号の入力に基づいて、音声抽出部３４に対して音声信号の抽出の処理の実行を指示する。また、制御部３８は、音声認識部３１及び対話制御部３２に対して、音声抽出部３４における音声抽出処理が開始されたことを通知する。すると、対話制御部３２は、音声合成部３３を介してスピーカ３７から、“音声を入力してください”などの案内音声を出力する。なお、音声合成部３３は、波形データベース内に格納されている音声波形を用い、対話制御部３２からの応答音声の出力指示に基づく音声を合成する。この合成音声がスピーカ３７から出力される。

ユーザの発話音声が入力されるマイク３５は、例えばステアリングコラムカバーの上面部や運転席側のサンバイザー等のユーザの音声を拾いやすい位置に設けられる。音声抽出部３４は、制御部３８の指示によりマイク３５から音声信号を取込み、その音声信号からノイズ成分を除去して音声データを抽出するようになっている。そして、抽出された音声データは音声認識部３１に出力される。

音声抽出部３４における処理について、もう少し詳細に説明する。音声抽出部３４は、マイク３５にて取り込んだ周囲の音声信号をデジタル音声データに変換する。そして、例えば数１０ｍｓ程度の区間のフレーム信号を一定間隔で切り出し、その入力信号が、音声の含まれている音声区間であるのか音声の含まれていないノイズ区間であるのか判定する。マイク３５から入力される信号は、認識対象の音声だけでなくノイズも混在したものであるため、音声区間とノイズ区間の判定を行なうのである。この判定方法としては従来から多くの手法が提案されており、例えば入力信号の短時間パワーを一定時間毎に抽出していき、所定の閾値以上の短時間パワーが一定以上継続したか否かによって音声区間であるかノイズ区間であるかを判定する手法がよく採用されている。そして、音声区間であると判定された場合には、それを音声データとして音声認識部３１に出力する。

音声認識部３１は、図２に示すように抽出結果記憶部３１１、照合部３１２、及び辞書部３１３を備える。

抽出結果記憶部３１１は、音声抽出部３４から入力されたノイズ成分が除去された音声データを記憶する。そして、照合部３１２が、抽出結果記憶部３１１に記憶された音声データに対して、辞書部３１３における目的語辞書３１３ａや不要語辞書３１３ｂを用いて照合を行ない（認識処理）、複数の比較対象パターン候補と比較して一致度の高い上位比較対象パターンを、音声認識結果として対話制御部３２へ出力する。

ここで、本実施形態では、図２に示すように、辞書部３１３が、目的語辞書３１３ａの他に、不要語辞書３１３ｂを有する。目的語辞書３１３ａとは、コマンドや目的地など音声操作に必要な語彙である目的語を集めた辞書であり、不要語辞書３１３ｂとは、音声操作に必要でない語句である不要語を集めた辞書である。本実施形態では、不要語辞書３１３ｂは、不要語の数が多い不要語（大）辞書３１３ｂａと、不要語の数が少ない不要語（小）辞書３１３ｂｂからなっている。辞書部３１３は、後述する対話制御部３２の辞書切替部３２６からの指示に応じて、照合部３１２が使用する不要語辞書３１３ｂを切り替えることが可能である。さらに、辞書切替部３２６から不要語辞書３１３ｂの不使用が指示されたとき、照合部３１２に対して不要語辞書３１３ｂを提供せず、目的語辞書３１３ａのみ提供することが可能である。すなわち、この場合、照合部３１２は、不要語の辞書がない状態で、目的語辞書３１３ａのみを用いて上述した認識処理を行なうことになる。

対話制御部３２は、図２に示すように、処理部３２１、話者特定部３２２、不要語使用頻度カウント部３２３、不要語使用頻度記憶部３２４、不要語使用頻度判定部３２５、及び辞書切替部３２６を備える。

処理部３２１は、音声認識部３１における認識結果や制御部３８からの指示に基づき、音声合成部３３への応答音声の出力指示、あるいは、ナビゲーション装置２自体の処理を実行する制御回路１０に対して、音声認識部３１における認識結果、例えば目的地やコマンドを通知して目的地の設定やコマンドを実行させるよう指示する処理を行なう。このような処理の結果として、この音声認識システム３０を利用すれば、操作スイッチ群８あるいはリモコンを手動操作しなくても、音声入力によりナビゲーション装置２に対する目的地の指示などが可能となる。

また、処理部３２１には、操作スイッチ群８あるいはリモコンなどの手動操作、又は音声操作により、例えば目的地を設定するための情報の種類が制御回路１０にて決定された場合、その決定された情報の種類が制御回路１０から通知される。すると、処理部３２１は、辞書切替部３２６に対して、決定された情報の種類に応じた不要語の数の不要語辞書３１３ｂを選択するように指示する。これにより、決定された種類の情報が音声にて入力されたときに、その情報の種類に適した数の不要語の辞書を用いて、入力音声を認識できるようになる。

例えば、目的地を設定するための情報として、地理的な情報とジャンルとを組み合わせて音声入力する場合（例えば“名古屋駅近くのラーメン屋”）と電話番号を音声入力する場合とでは、地理的情報とジャンルとを音声入力する場合の方が、不要語の数は増加する傾向にある。このように、音声入力される情報の種類と、入力音声に含まれる不要語の数とは、ある程度相関関係を有する。従って、音声入力情報の種類に基づいて不要語辞書の切り替えを行なうことにより、適切な数の不要語を含む不要語辞書を用いて音声認識処理を行なうことが可能になる。

なお、制御回路１０に対して、音声操作により目的地を設定するための情報の種類を指示するには、“目的地設定”と発話した後に、音声入力したい情報の種類（“住所”、“施設名”、“ジャンル”（地理的情報含む）、“電話番号”など）を発話すれば良い。

話者特定部３２２は、音声抽出部３４の抽出結果記憶部３１１に記憶された音声データを入力し、その音声データに基づいて、話者としてのユーザを特定する。すなわち、話者特定部３２２は、各ユーザが発話した音声の音響的特徴を示すいわゆる話者モデルをユーザ毎に生成して記憶しておき、その話者モデルを用いて実際の発話からその発話主を特定する。このとき、話者モデルと発話の音響的特徴との比較処理は、例えば、話者モデルと発話の音響的特徴との間の類似度を算出し、その算出した類似度をその話者モデルに対応する類似度の閾値と比較し、類似度と閾値との差が予め定められている所定の範囲内にあるとき、その発話がその話者モデルに相当する発話者による発話であると特定することができる。

不要語使用頻度カウント部３２３は、ある話者によって実際に発話された音声が照合部３１２にて認識されたとき、その認識語句全体における不要語の使用頻度をカウントするものである。そして、そのカウント結果は、図３（ａ）に示すように、話者特定部３２２によって特定された話者毎に、不要語使用頻度記憶部３２４にそのまま記憶されるか、もしくは、そのカウント結果を用いて更新した不要語使用頻度が記憶される。すなわち、話者特定部３２２において特定された話者に対応して、不要語使用頻度記憶部３２４に不要語使用頻度が記憶されていない場合には、不要語使用頻度カウント部３２３によるカウント結果が、そのまま不要語使用頻度記憶部３２４に記憶される。一方、話者特定部３２２によって特定された話者に対応する不要語使用頻度が、既に不要語使用頻度記憶部３２４に記憶されていた場合には、今回、不要語使用頻度カウント部にてカウントされた結果を反映するように更新した不要語使用頻度が記憶される。

不要語使用頻度判定部３２５は、話者特定部３２２によって話者が特定されたときに、その話者に対応する不要語使用頻度が不要語使用頻度記憶部３２４に記憶されていれば、その記憶されている不要語使用頻度を入力して、その話者の発話音声を認識するには、どの程度の数の不要語を含む不要語辞書が必要であるかを判定する。

例えば、図３（ｂ）に示すように、不要語の使用頻度が５０％以上である場合には、その話者は、不要語の使用頻度が高く、使用する不要語の種類も多いと考えられるので、不要語の数が最も多い不要語（大）辞書３１３ｂａが必要と判定する。また、不要語の使用頻度が、０％より大きく５０％未満である場合には、不要語の使用頻度はそれほど高いわけではなく、使用する不要語の種類も限られると考えられるので、不要語の数が相対的に少ない不要語（小）辞書３１３ｂｂが適切と判定する。なお、不要語の使用頻度が０％である場合には、音声操作に習熟しており、不要語を用いずに、目的語のみ発話する話者であると考えられるので、不要語辞書は不要と判定する。

辞書切替部３２６は、処理部３２１からの不要語辞書の選択指示、及び不要語使用頻度判定部３２５の判定結果に基づいて、照合部３１２が入力音声の認識処理を行なう際に使用する不要語辞書３１３ｂを切り替える。

例えば、辞書切替部３２６は、処理部３２１から、入力される情報の種類が決定されたことに基づき、決定された情報の種類に応じた不要語の数の不要語辞書３１３ｂを選択するように指示されている場合には、不要語使用頻度判定部３２５の判定結果によらず、処理部３２１によって指示された不要語辞書３１３ｂに切り替える。一方、処理部３２１から不要語辞書３１３ｂの選択に関する指示がない場合には、不要語使用頻度判定部３２５の判定結果に基づいて、不要語辞書３１３ｂを切り替える。このようにする理由は、ユーザ毎の個人差よりも、音声入力情報の種類の方が、ユーザの発話音声に含まれる不要語の数に与える影響が大きいと考えられるためである。

次に、上述した音声認識システム３０における、不要語辞書３１３ｂの切替処理を含む主要な制御処理について、図４のフローチャートに基づいて説明する。

まず、ステップＳ１１０では、トークスイッチ３６がオンされたか否かを判定する。このとき、トークスイッチ３６がオンされていると判定されると、ステップＳ１２０の処理に進む。ステップＳ１２０では、音声入力処理を行なう。すなわち、音声抽出部３４にて、マイク３５に入力された音声信号からノイズ成分を除去した音声データを生成する。

ステップＳ１３０では、制御回路１０から、入力情報の種類が決定された旨が通知されているか否かを判定する。入力情報の種類が決定されている場合、ステップＳ１４０に進み、決定された情報の種類に応じた不要語の数の不要語辞書３１３ｂを選択する。これにより、決定された種類の情報が音声にて入力されたときに、その情報の種類に適した数の不要語の不要語辞書３１３ｂを用いて（不要語辞書３１３ｂの不使用を含む）、入力音声を認識できるようになる。一方、ステップＳ１３０において、入力情報の種類が決定されていないと判定された場合、ステップＳ１５０の処理に進む。

ステップＳ１５０では、抽出された音声データに基づいて、話者特定部３２２により、話者の特定を行なう。すなわち、各ユーザが発話した音声の音響的特徴を示すいわゆる話者モデルをユーザ毎に生成して記憶しておき、その話者モデルを用いて実際の発話からその発話主を特定する。

そして、ステップＳ１６０にて、特定された話者に対応する不要語使用頻度が記憶されているか否かを判定する。特定された話者に対応する不要語使用頻度が記憶されている場合には、ステップＳ１７０に進む。ステップＳ１７０では、記憶されている不要語使用頻度に基づいて、特定された話者の発話音声を認識するのに、最も適した不要語の数の不要語辞書３１３ｂを決定する（不要語辞書の不使用を含む）。一方、ステップＳ１６０において、不要語使用頻度が記憶されていないと判定された場合には、ステップＳ１８０に進む。ステップＳ１８０では、使用する不要語辞書３１３ｂを、含まれる不要語の数が最も多い不要語（大）辞書３１３ｂａに決定する。これは、話者であるユーザが、どの程度の頻度で不要語を使用するか不明であるため、高頻度で不要語が使用された場合にも、入力音声の認識を可能とするためである。

続くステップＳ１９０では、ステップＳ１４０にて選択、あるいはステップＳ１７０又はＳ１８０にて決定された不要語辞書３１３ｂと、目的語辞書３１３ａとを用いて、ユーザにより入力された音声の認識処理を実行する。この認識処理による認識結果は、ステップＳ２００において、制御回路１０に出力される。

ステップＳ２１０では、認識結果に基づいて、認識語句全体における不要語の使用頻度をカウントする。そして、ステップＳ２２０において、不要語使用頻度のカウント結果が、ステップＳ１５０にて特定された話者毎に、そのまま記憶されるか、もしくは、そのカウント結果を用いて更新した不要語使用頻度が記憶される。

以上、本発明の好ましい実施形態について説明したが、本発明は上記実施形態になんら制限されることなく、本発明の主旨を逸脱しない範囲において、種々変形して実施することが可能である。

例えば、上述した実施形態では、制御回路１０から入力される情報の種類が決定された旨が通知された場合、音声入力を行なう話者に係らず、不要語辞書３１３ｂとして、入力情報の種類に応じた不要語の数の不要語辞書３１３ｂを選択するものであった。

しかしながら、例えば、入力情報の種類に応じた不要語の数の不要語辞書３１３ｂと、特定された話者の不要語使用頻度に応じた不要語の数の不要語辞書３１３ｂとをそれぞれ求め、それらの不要語辞書３１３ｂの内、より不要語の数が多い不要語辞書３１３ｂに切り替えるようにしても良い。これにより、音声認識部３１において使用される不要語辞書３１３ｂを、ユーザ毎の個人差による不要語の使用数と、入力情報の種類に起因する不要語の使用数との両方に適切に対応する不要語辞書３１３ｂに切り替えることが可能になる。

また、上述した実施形態では、不要語辞書３１３ｂを、不要語辞書３１３ｂの不使用、不要語（小）辞書３１３ｂｂ、及び不要語（大）辞書３１３ｂａの３種類のいずれかに切り替えるようにしたが、切り替え対象となる不要語辞書３１３ｂの数は、２種類であっても、４種類以上であっても良い。

３０音声認識システム
３１音声認識部
３２対話制御部
３３音声合成部
３４音声抽出部
３５マイク
３６トークスイッチ
３７スピーカ
３８制御部

Claims

音声を入力する音声入力部と、
前記音声入力部に入力された音声に基づき、話者を識別する話者識別手段と、
前記音声入力部に入力された音声を、多数の認識語彙を有する辞書を用いて認識する音声認識部と、
前記話者識別手段によって識別された話者毎に、音声認識部により認識された音声における、入力音声として本来不要である不要語をカウントするとともに、そのカウント結果に基づいて算出した不要語使用頻度を記憶する不要語使用頻度記憶部と、
前記音声認識部にて使用する辞書として、認識語彙に含まれる不要語の数が異なる複数の辞書が用意されており、前記話者識別手段により識別された話者に対して、前記不要語使用頻度記憶部に不要語使用頻度が記憶されている場合、前記音声認識部における使用辞書を、記憶されている不要語使用頻度に応じた不要語の数の辞書に切り替える辞書切替部と、を備えることを特徴とする音声認識システム。
前記辞書は、入力音声として必要な語彙である目的語を集めた目的語辞書と、入力音声として本来不要である不要語を集めた不要語辞書とからなり、当該不要語辞書として、不要語の数が異なる複数の辞書が用意されており、
前記辞書切替部は、前記記憶されている不要語使用頻度に応じて、前記不要語辞書を切り替えるものであって、
前記音声認識部は、前記目的語辞書と、前記辞書切替部によって切り替えられた不要語辞書を用いて音声認識を行なうことを特徴とする請求項１に記載の音声認識システム。
前記辞書切替部は、前記不要語辞書を不使用とするように、前記不要語辞書の切り替えを行なうことが可能であることを特徴とする請求項２に記載の音声認識システム。
ユーザの操作に基づいて、音声によって入力される情報の種類を決定する決定手段を備え、
前記辞書切替部は、前記決定手段により音声入力情報の種類が決定された場合、その決定された音声入力情報の種類も考慮して、前記音声認識部における使用辞書の切り替えを行なうことを特徴とする請求項１乃至請求項３のいずれかに記載の音声認識システム。
前記辞書切替部は、前記決定手段により音声入力情報の種類が決定された場合、前記話者識別手段により識別された話者の不要語使用頻度に係らず、決定された音声入力情報の種類に応じた不要語の数の辞書に切り替えることを特徴とする請求項４に記載の音声認識システム。
前記辞書切替部は、前記話者識別手段により識別された話者の不要語使用頻度に応じた不要語の数の辞書と、前記音声入力情報の種類に応じた不要語の数の辞書とで、より不要語の数が多い辞書に切り替えることを特徴とする請求項４に記載の音声認識システム。