[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4941494B2 - 音声認識システム - Google Patents

音声認識システム Download PDF

Info

Publication number
JP4941494B2
JP4941494B2 JP2009082675A JP2009082675A JP4941494B2 JP 4941494 B2 JP4941494 B2 JP 4941494B2 JP 2009082675 A JP2009082675 A JP 2009082675A JP 2009082675 A JP2009082675 A JP 2009082675A JP 4941494 B2 JP4941494 B2 JP 4941494B2
Authority
JP
Japan
Prior art keywords
dictionary
unnecessary
unit
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009082675A
Other languages
English (en)
Other versions
JP2010237286A (ja
Inventor
竜一 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2009082675A priority Critical patent/JP4941494B2/ja
Publication of JP2010237286A publication Critical patent/JP2010237286A/ja
Application granted granted Critical
Publication of JP4941494B2 publication Critical patent/JP4941494B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、例えば車両用ナビゲーション装置などに適用される音声認識システムに関する。
近年、ユーザが発話した音声を認識し、その認識結果に基づいて、操作対象機器を操作したり、ユーザに対してサービスを提供したりするシステムが開発され、実用に供されつつある。
例えば、特許文献1には、ユーザの音声を認識し、その認識結果に基づいて、注文の受付やデータベースの検索などのサービスを提供する音声応答装置が記載されている。この音声応答装置では、音声認識部によって、音声認識辞書部に予め登録したどの語句がどのような順序で発声されたかを認識する。そして、不要語検出部により、音声認識部の認識結果に、音声応答装置の操作に必要でない語句である不要語が含まれているか否かを調べる。不要語が含まれているときには、不要語検出部は、さらに、不要語と認識結果内の目的語との位置関係を調べる。
そして、習熟度推定部により、不要語検出部が調べた結果に基づいて、ユーザの音声応答装置の操作の習熟度を推測する。会話フロー制御部は、予め格納した会話フローから、推測した習熟度に対応した会話フローに含まれるガイダンスを取り出し、ユーザに出力する。
特開2001−331196号公報
特許文献1に記載された音声応答装置では、上述したようにして、ユーザの操作の習熟度に応じたガイダンスを行なうようにしている。
しかしながら、特許文献1に記載されたように、不要語が含まれているか否か、および不要語と目的語との位置関係から、ユーザの操作の習熟度を推測しようとすると、膨大な認識語彙からなる音声認識辞書を用いる必要が生じる。すなわち、もともと膨大である目的語を認識するための認識語彙の他、非常に多数の不要語を認識するための認識語彙も対象として、ユーザの発話音声と照合する必要がある。このように膨大な認識語彙との照合を行なった場合、却って誤認識の確率が高まり、音声認識性能を低下させてしまう虞が生じる。
本発明は、このような点に鑑みてなされたものであり、極力、認識語彙に含まれる不要語の数が少ない辞書を用いて音声認識を行なうことにより、音声認識性能の低下を抑制することが可能な音声認識システムを提供することを目的とする。
上記目的を達成するために、請求項1に記載の音声認識システムは、
音声を入力する音声入力部と、
音声入力部に入力された音声に基づき、話者を識別する話者識別手段と、
音声入力部に入力された音声を、多数の認識語彙を有する辞書を用いて認識する音声認識部と、
話者識別手段によって識別された話者毎に、音声認識部により認識された音声における、入力音声として本来不要である不要語をカウントするとともに、そのカウント結果に基づいて算出した不要語使用頻度を記憶する不要語使用頻度記憶部と、
音声認識部にて使用する辞書として、含まれる不要語の数が異なる複数の辞書が用意されており、話者識別手段により識別された話者に対して、不要語使用頻度記憶部に不要語使用頻度が記憶されている場合、音声認識部における使用辞書を、記憶されている不要語使用頻度に応じた不要語の数の辞書に切り替える辞書切替部と、を備えることを特徴とする。
上述したように、請求項1に記載の発明では、音声入力部に入力された音声から話者を識別し、その話者の発話音声における不要語の使用頻度を算出して、話者毎に不要語使用頻度として記憶する。この不要語使用頻度は、話者毎に、どの程度頻繁に不要語を使用するかの傾向を表すものとなる。
従って、入力された音声に基づいて話者が識別されたとき、その話者に対して不要語使用頻度が記憶されている場合、音声認識部において使用される辞書を、記憶されている不要語使用頻度に応じた不要語の数の辞書に切り替える。この結果、不要語を使用する頻度が高いユーザの音声認識には、不要語の数が相対的に多い辞書が使用されるが、不要語を使用する頻度が低いユーザの音声認識には、不要語の数が相対的に少ない辞書が使用される。このように、請求項1の発明では、音声認識用の辞書として、ユーザの不要語の使用頻度に応じた不要語の数の辞書を用いるので、ユーザの音声認識に際して、極力、不要語の数の少ない辞書を用いることができる。
請求項2に記載したように、前記辞書は、入力音声として必要な語彙である目的語を集めた目的語辞書と、入力音声として本来不要である不要語を集めた不要語辞書とからなり、当該不要語辞書として、不要語の数が異なる複数の辞書が用意されており、辞書切替部は、記憶されている不要語使用頻度に応じて、不要語辞書を切り替えるものであって、音声認識部は、目的語辞書と、辞書切替部によって切り替えられた不要語辞書を用いて音声認識を行なうことが好ましい。このように、目的語辞書と不要語辞書とを切り離し、不要語辞書のみ切り替え対象とすることにより、辞書の容量が過大となることを防止することができる。
請求項3に記載したように、辞書切替部は、不要語辞書を不使用とするように、不要語辞書の切り替えを行なうことが可能であることが好ましい。例えば、ユーザが音声認識システムの操作に習熟している場合には、その入力音声の認識のために不要語辞書が必要とされないこともありえるためである。
請求項4に記載したように、ユーザの操作に基づいて、音声によって入力される情報の種類を決定する決定手段を備え、辞書切替部は、決定手段により音声入力情報の種類が決定された場合、その決定された音声入力情報の種類も考慮して、音声認識部における使用辞書の切り替えを行なうことが好ましい。
例えば、車両用ナビゲーション装置を操作対象装置とし、目的地を設定するための情報として、地理的情報とジャンルとを組み合わせて音声入力する場合と電話番号を音声入力する場合とでは、地理的情報とジャンルとを音声入力する場合の方が、不要語は増加する傾向にある。このように、音声入力される情報の種類と、入力音声に含まれる不要語の数とは、ある程度相関関係を有する。従って、請求項4に記載したように、音声入力情報の種類も考慮して使用辞書の切り替えを行なうことが好ましい。
音声入力情報の種類も考慮して使用辞書の切り替えを行なう具体的な手法が、請求項5及び請求項6に記載されている。
すなわち、請求項5に記載したように、辞書切替部は、決定手段により音声入力情報の種類が決定された場合、話者識別手段により識別された話者の不要語使用頻度に係らず、決定された音声入力情報の種類に応じた不要語の数の辞書に切り替えても良い。ユーザ毎の個人差よりも、音声入力情報の種類の方が、ユーザの発話音声に含まれる不要語の数に与える影響が大きいと考えられるためである。
また、請求項6に記載したように、辞書切替部は、話者識別手段により識別された話者の不要語使用頻度に応じた不要語の数の辞書と、音声入力情報の種類に応じた不要語の数の辞書とで、より不要語の数が多い辞書に切り替えるようにしても良い。これにより、音声認識部において使用される辞書を、ユーザ毎の個人差による不要語の使用数と、音声入力情報の種類に起因する不要語の使用数とに適切に対応する辞書に切り替えることが可能になる。
本発明の実施形態による音声認識システムを備えた車両用ナビゲーション装置の構成を表す構成図である。 音声認識システムにおける、音声認識部と対話制御部との詳細な構成を示す制御ブロック図である。 (a)は、ユーザ毎に不要語の頻度を記憶した様子を表す説明図であり、(b)は不要語頻度に応じて不要語辞書を選択する際の基準の一例を示す説明図である。 音声認識システムにおける主要な制御処理を示すフローチャートである。
以下、本発明の実施形態について図面を用いて説明する。なお、以下に説明する実施形態では、本発明の音声認識システムが車両用ナビゲーション装置に適用されているが、本発明の音声認識システムの適用対象は、車両用ナビゲーション装置に限られるものではない。
図1に示すように、車両用ナビゲーション装置2は、位置検出器4、データ入力器6、操作スイッチ群8、これらに接続された制御回路10、制御回路10に接続された通信装置12、外部メモリ14、表示装置16、リモコンセンサ18及び音声認識システム30を備えている。なお制御回路10は通常のコンピュータとして構成されており、内部には、周知のCPU、ROM、RAM、I/O及びこれらの構成を接続するバスラインを備えている。
位置検出器4は、周知のジャイロスコープ20、距離センサ22及び衛星からの電波に基づいて車両の位置を検出するためのGPS受信機24を有している。これらのセンサ等20,22,24は各々が性質の異なる誤差を持っているため、複数のセンサにより、各々補間しながら使用するように構成されている。なお、精度によっては上述した内の一部で構成してもよく、更に、ステアリングの回転センサ、各転動輪の車輪センサ等を用いてもよい。
データ入力器6は、位置検出の精度向上のためのいわゆるマップマッチング用データ、地図データ及び目印データを含むナビゲーション用の各種データに加えて、音声認識システム30において認識処理を行なう際に用いる辞書データを入力するための装置である。記憶媒体としては、そのデータ量からハードディスクやDVDを用いるのが一般的であるが、CD−ROM等の他の媒体を用いても良い。
操作スイッチ群8は、例えば表示装置16と一体になったタッチスイッチもしくはメカニカルなスイッチ等が用いられ、スイッチ操作により制御回路10へ各種の操作指示を出力する。例えば、地図縮尺変更、メニュー表示選択、目的地設定、経路探索、経路案内開始、表示画面変更、音声案内設定、音量調整等の操作指示を行なう。また、操作スイッチ群8は、例えば、出発地および目的地を設定するための情報の種類を選択するためのスイッチを含んでいる。その選択スイッチを操作することによって、ユーザ(車両の乗員)は、予め登録しておいた地点、施設名、電話番号、住所など、所望の情報を用いて、出発地および目的地を設定することができる。
通信装置12は、設定された連絡先通信情報によって特定される連絡先との通信を行なうためのものであり、例えば携帯電話機等の移動体通信機によって構成される。外部メモリ14は、書き込み可能な大容量記憶装置である。外部メモリ14には大量のデータや電源をOFFしても消去してはいけないデータを記憶したり、頻繁に使用するデータを地図データ入力器6からコピーして利用したりする等の用途がある。なお、外部メモリ14は、比較的記憶容量の小さいリムーバブルなメモリであってもよい。
表示装置16は例えば液晶表示装置からなり、表示装置16の画面には、位置検出器4によって検出された車両の現在位置を示す車両現在位置マークと、地図データ入力器6より入力された車両の現在位置周辺の地図データと、更に地図上に表示する誘導経路や設定地点の目印等の付加データとを重ねて表示することができる。また、複数の選択肢を表示するメニュー画面やその中の選択肢を選んだ場合に、さらに複数の選択肢を表示するコマンド入力画面なども表示することができる。
リモコンセンサ18は、図示しないリモコンからの操作信号を受信して、制御回路10に出力するものである。リモコンには多数のスイッチが設けられ、そのスイッチ操作により、操作スイッチ群8とほぼ同等の機能を制御回路10に対して実行させることを指示することが可能である。
次に、図1及び図2に基づいて、音声認識システム30の構成について説明する。なお、図2は、音声認識システム30における、音声認識部31と対話制御部32との詳細な構成を示すブロック図である。
音声認識システム30は、上記操作スイッチ群8あるいはリモコンが各種コマンド入力のために手動操作されるのに対して、ユーザの発話音声によっても制御回路10に各種コマンドを入力できるようにするためのものである。
音声認識システム30は、音声認識部31、対話制御部32、音声合成部33、音声抽出部34、マイク35、トークスイッチ36、スピーカ37、及び制御部38を備えている。
トークスイッチ36は、ユーザ(運転者)が音声入力を開始する旨を指示するためのもので、例えばステアリングコラムカバーの側面部やシフトレバーの近傍などユーザが操作しやすい位置に設けられている。なお、トークスイッチ36はいわゆるクリック方式のスイッチであり、ユーザがトークスイッチ36をオン操作した後音声を入力(発話)するようになっている。制御部38は、トークスイッチ36からのオン信号の入力に基づいて、音声抽出部34に対して音声信号の抽出の処理の実行を指示する。また、制御部38は、音声認識部31及び対話制御部32に対して、音声抽出部34における音声抽出処理が開始されたことを通知する。すると、対話制御部32は、音声合成部33を介してスピーカ37から、“音声を入力してください”などの案内音声を出力する。なお、音声合成部33は、波形データベース内に格納されている音声波形を用い、対話制御部32からの応答音声の出力指示に基づく音声を合成する。この合成音声がスピーカ37から出力される。
ユーザの発話音声が入力されるマイク35は、例えばステアリングコラムカバーの上面部や運転席側のサンバイザー等のユーザの音声を拾いやすい位置に設けられる。音声抽出部34は、制御部38の指示によりマイク35から音声信号を取込み、その音声信号からノイズ成分を除去して音声データを抽出するようになっている。そして、抽出された音声データは音声認識部31に出力される。
音声抽出部34における処理について、もう少し詳細に説明する。音声抽出部34は、マイク35にて取り込んだ周囲の音声信号をデジタル音声データに変換する。そして、例えば数10ms程度の区間のフレーム信号を一定間隔で切り出し、その入力信号が、音声の含まれている音声区間であるのか音声の含まれていないノイズ区間であるのか判定する。マイク35から入力される信号は、認識対象の音声だけでなくノイズも混在したものであるため、音声区間とノイズ区間の判定を行なうのである。この判定方法としては従来から多くの手法が提案されており、例えば入力信号の短時間パワーを一定時間毎に抽出していき、所定の閾値以上の短時間パワーが一定以上継続したか否かによって音声区間であるかノイズ区間であるかを判定する手法がよく採用されている。そして、音声区間であると判定された場合には、それを音声データとして音声認識部31に出力する。
音声認識部31は、図2に示すように抽出結果記憶部311、照合部312、及び辞書部313を備える。
抽出結果記憶部311は、音声抽出部34から入力されたノイズ成分が除去された音声データを記憶する。そして、照合部312が、抽出結果記憶部311に記憶された音声データに対して、辞書部313における目的語辞書313aや不要語辞書313bを用いて照合を行ない(認識処理)、複数の比較対象パターン候補と比較して一致度の高い上位比較対象パターンを、音声認識結果として対話制御部32へ出力する。
ここで、本実施形態では、図2に示すように、辞書部313が、目的語辞書313aの他に、不要語辞書313bを有する。目的語辞書313aとは、コマンドや目的地など音声操作に必要な語彙である目的語を集めた辞書であり、不要語辞書313bとは、音声操作に必要でない語句である不要語を集めた辞書である。本実施形態では、不要語辞書313bは、不要語の数が多い不要語(大)辞書313baと、不要語の数が少ない不要語(小)辞書313bbからなっている。辞書部313は、後述する対話制御部32の辞書切替部326からの指示に応じて、照合部312が使用する不要語辞書313bを切り替えることが可能である。さらに、辞書切替部326から不要語辞書313bの不使用が指示されたとき、照合部312に対して不要語辞書313bを提供せず、目的語辞書313aのみ提供することが可能である。すなわち、この場合、照合部312は、不要語の辞書がない状態で、目的語辞書313aのみを用いて上述した認識処理を行なうことになる。
対話制御部32は、図2に示すように、処理部321、話者特定部322、不要語使用頻度カウント部323、不要語使用頻度記憶部324、不要語使用頻度判定部325、及び辞書切替部326を備える。
処理部321は、音声認識部31における認識結果や制御部38からの指示に基づき、音声合成部33への応答音声の出力指示、あるいは、ナビゲーション装置2自体の処理を実行する制御回路10に対して、音声認識部31における認識結果、例えば目的地やコマンドを通知して目的地の設定やコマンドを実行させるよう指示する処理を行なう。このような処理の結果として、この音声認識システム30を利用すれば、操作スイッチ群8あるいはリモコンを手動操作しなくても、音声入力によりナビゲーション装置2に対する目的地の指示などが可能となる。
また、処理部321には、操作スイッチ群8あるいはリモコンなどの手動操作、又は音声操作により、例えば目的地を設定するための情報の種類が制御回路10にて決定された場合、その決定された情報の種類が制御回路10から通知される。すると、処理部321は、辞書切替部326に対して、決定された情報の種類に応じた不要語の数の不要語辞書313bを選択するように指示する。これにより、決定された種類の情報が音声にて入力されたときに、その情報の種類に適した数の不要語の辞書を用いて、入力音声を認識できるようになる。
例えば、目的地を設定するための情報として、地理的な情報とジャンルとを組み合わせて音声入力する場合(例えば“名古屋駅近くのラーメン屋”)と電話番号を音声入力する場合とでは、地理的情報とジャンルとを音声入力する場合の方が、不要語の数は増加する傾向にある。このように、音声入力される情報の種類と、入力音声に含まれる不要語の数とは、ある程度相関関係を有する。従って、音声入力情報の種類に基づいて不要語辞書の切り替えを行なうことにより、適切な数の不要語を含む不要語辞書を用いて音声認識処理を行なうことが可能になる。
なお、制御回路10に対して、音声操作により目的地を設定するための情報の種類を指示するには、“目的地設定”と発話した後に、音声入力したい情報の種類(“住所”、“施設名”、“ジャンル”(地理的情報含む)、“電話番号”など)を発話すれば良い。
話者特定部322は、音声抽出部34の抽出結果記憶部311に記憶された音声データを入力し、その音声データに基づいて、話者としてのユーザを特定する。すなわち、話者特定部322は、各ユーザが発話した音声の音響的特徴を示すいわゆる話者モデルをユーザ毎に生成して記憶しておき、その話者モデルを用いて実際の発話からその発話主を特定する。このとき、話者モデルと発話の音響的特徴との比較処理は、例えば、話者モデルと発話の音響的特徴との間の類似度を算出し、その算出した類似度をその話者モデルに対応する類似度の閾値と比較し、類似度と閾値との差が予め定められている所定の範囲内にあるとき、その発話がその話者モデルに相当する発話者による発話であると特定することができる。
不要語使用頻度カウント部323は、ある話者によって実際に発話された音声が照合部312にて認識されたとき、その認識語句全体における不要語の使用頻度をカウントするものである。そして、そのカウント結果は、図3(a)に示すように、話者特定部322によって特定された話者毎に、不要語使用頻度記憶部324にそのまま記憶されるか、もしくは、そのカウント結果を用いて更新した不要語使用頻度が記憶される。すなわち、話者特定部322において特定された話者に対応して、不要語使用頻度記憶部324に不要語使用頻度が記憶されていない場合には、不要語使用頻度カウント部323によるカウント結果が、そのまま不要語使用頻度記憶部324に記憶される。一方、話者特定部322によって特定された話者に対応する不要語使用頻度が、既に不要語使用頻度記憶部324に記憶されていた場合には、今回、不要語使用頻度カウント部にてカウントされた結果を反映するように更新した不要語使用頻度が記憶される。
不要語使用頻度判定部325は、話者特定部322によって話者が特定されたときに、その話者に対応する不要語使用頻度が不要語使用頻度記憶部324に記憶されていれば、その記憶されている不要語使用頻度を入力して、その話者の発話音声を認識するには、どの程度の数の不要語を含む不要語辞書が必要であるかを判定する。
例えば、図3(b)に示すように、不要語の使用頻度が50%以上である場合には、その話者は、不要語の使用頻度が高く、使用する不要語の種類も多いと考えられるので、不要語の数が最も多い不要語(大)辞書313baが必要と判定する。また、不要語の使用頻度が、0%より大きく50%未満である場合には、不要語の使用頻度はそれほど高いわけではなく、使用する不要語の種類も限られると考えられるので、不要語の数が相対的に少ない不要語(小)辞書313bbが適切と判定する。なお、不要語の使用頻度が0%である場合には、音声操作に習熟しており、不要語を用いずに、目的語のみ発話する話者であると考えられるので、不要語辞書は不要と判定する。
辞書切替部326は、処理部321からの不要語辞書の選択指示、及び不要語使用頻度判定部325の判定結果に基づいて、照合部312が入力音声の認識処理を行なう際に使用する不要語辞書313bを切り替える。
例えば、辞書切替部326は、処理部321から、入力される情報の種類が決定されたことに基づき、決定された情報の種類に応じた不要語の数の不要語辞書313bを選択するように指示されている場合には、不要語使用頻度判定部325の判定結果によらず、処理部321によって指示された不要語辞書313bに切り替える。一方、処理部321から不要語辞書313bの選択に関する指示がない場合には、不要語使用頻度判定部325の判定結果に基づいて、不要語辞書313bを切り替える。このようにする理由は、ユーザ毎の個人差よりも、音声入力情報の種類の方が、ユーザの発話音声に含まれる不要語の数に与える影響が大きいと考えられるためである。
次に、上述した音声認識システム30における、不要語辞書313bの切替処理を含む主要な制御処理について、図4のフローチャートに基づいて説明する。
まず、ステップS110では、トークスイッチ36がオンされたか否かを判定する。このとき、トークスイッチ36がオンされていると判定されると、ステップS120の処理に進む。ステップS120では、音声入力処理を行なう。すなわち、音声抽出部34にて、マイク35に入力された音声信号からノイズ成分を除去した音声データを生成する。
ステップS130では、制御回路10から、入力情報の種類が決定された旨が通知されているか否かを判定する。入力情報の種類が決定されている場合、ステップS140に進み、決定された情報の種類に応じた不要語の数の不要語辞書313bを選択する。これにより、決定された種類の情報が音声にて入力されたときに、その情報の種類に適した数の不要語の不要語辞書313bを用いて(不要語辞書313bの不使用を含む)、入力音声を認識できるようになる。一方、ステップS130において、入力情報の種類が決定されていないと判定された場合、ステップS150の処理に進む。
ステップS150では、抽出された音声データに基づいて、話者特定部322により、話者の特定を行なう。すなわち、各ユーザが発話した音声の音響的特徴を示すいわゆる話者モデルをユーザ毎に生成して記憶しておき、その話者モデルを用いて実際の発話からその発話主を特定する。
そして、ステップS160にて、特定された話者に対応する不要語使用頻度が記憶されているか否かを判定する。特定された話者に対応する不要語使用頻度が記憶されている場合には、ステップS170に進む。ステップS170では、記憶されている不要語使用頻度に基づいて、特定された話者の発話音声を認識するのに、最も適した不要語の数の不要語辞書313bを決定する(不要語辞書の不使用を含む)。一方、ステップS160において、不要語使用頻度が記憶されていないと判定された場合には、ステップS180に進む。ステップS180では、使用する不要語辞書313bを、含まれる不要語の数が最も多い不要語(大)辞書313baに決定する。これは、話者であるユーザが、どの程度の頻度で不要語を使用するか不明であるため、高頻度で不要語が使用された場合にも、入力音声の認識を可能とするためである。
続くステップS190では、ステップS140にて選択、あるいはステップS170又はS180にて決定された不要語辞書313bと、目的語辞書313aとを用いて、ユーザにより入力された音声の認識処理を実行する。この認識処理による認識結果は、ステップS200において、制御回路10に出力される。
ステップS210では、認識結果に基づいて、認識語句全体における不要語の使用頻度をカウントする。そして、ステップS220において、不要語使用頻度のカウント結果が、ステップS150にて特定された話者毎に、そのまま記憶されるか、もしくは、そのカウント結果を用いて更新した不要語使用頻度が記憶される。
以上、本発明の好ましい実施形態について説明したが、本発明は上記実施形態になんら制限されることなく、本発明の主旨を逸脱しない範囲において、種々変形して実施することが可能である。
例えば、上述した実施形態では、制御回路10から入力される情報の種類が決定された旨が通知された場合、音声入力を行なう話者に係らず、不要語辞書313bとして、入力情報の種類に応じた不要語の数の不要語辞書313bを選択するものであった。
しかしながら、例えば、入力情報の種類に応じた不要語の数の不要語辞書313bと、特定された話者の不要語使用頻度に応じた不要語の数の不要語辞書313bとをそれぞれ求め、それらの不要語辞書313bの内、より不要語の数が多い不要語辞書313bに切り替えるようにしても良い。これにより、音声認識部31において使用される不要語辞書313bを、ユーザ毎の個人差による不要語の使用数と、入力情報の種類に起因する不要語の使用数との両方に適切に対応する不要語辞書313bに切り替えることが可能になる。
また、上述した実施形態では、不要語辞書313bを、不要語辞書313bの不使用、不要語(小)辞書313bb、及び不要語(大)辞書313baの3種類のいずれかに切り替えるようにしたが、切り替え対象となる不要語辞書313bの数は、2種類であっても、4種類以上であっても良い。
30 音声認識システム
31 音声認識部
32 対話制御部
33 音声合成部
34 音声抽出部
35 マイク
36 トークスイッチ
37 スピーカ
38 制御部

Claims (6)

  1. 音声を入力する音声入力部と、
    前記音声入力部に入力された音声に基づき、話者を識別する話者識別手段と、
    前記音声入力部に入力された音声を、多数の認識語彙を有する辞書を用いて認識する音声認識部と、
    前記話者識別手段によって識別された話者毎に、音声認識部により認識された音声における、入力音声として本来不要である不要語をカウントするとともに、そのカウント結果に基づいて算出した不要語使用頻度を記憶する不要語使用頻度記憶部と、
    前記音声認識部にて使用する辞書として、認識語彙に含まれる不要語の数が異なる複数の辞書が用意されており、前記話者識別手段により識別された話者に対して、前記不要語使用頻度記憶部に不要語使用頻度が記憶されている場合、前記音声認識部における使用辞書を、記憶されている不要語使用頻度に応じた不要語の数の辞書に切り替える辞書切替部と、を備えることを特徴とする音声認識システム。
  2. 前記辞書は、入力音声として必要な語彙である目的語を集めた目的語辞書と、入力音声として本来不要である不要語を集めた不要語辞書とからなり、当該不要語辞書として、不要語の数が異なる複数の辞書が用意されており、
    前記辞書切替部は、前記記憶されている不要語使用頻度に応じて、前記不要語辞書を切り替えるものであって、
    前記音声認識部は、前記目的語辞書と、前記辞書切替部によって切り替えられた不要語辞書を用いて音声認識を行なうことを特徴とする請求項1に記載の音声認識システム。
  3. 前記辞書切替部は、前記不要語辞書を不使用とするように、前記不要語辞書の切り替えを行なうことが可能であることを特徴とする請求項2に記載の音声認識システム。
  4. ユーザの操作に基づいて、音声によって入力される情報の種類を決定する決定手段を備え、
    前記辞書切替部は、前記決定手段により音声入力情報の種類が決定された場合、その決定された音声入力情報の種類も考慮して、前記音声認識部における使用辞書の切り替えを行なうことを特徴とする請求項1乃至請求項3のいずれかに記載の音声認識システム。
  5. 前記辞書切替部は、前記決定手段により音声入力情報の種類が決定された場合、前記話者識別手段により識別された話者の不要語使用頻度に係らず、決定された音声入力情報の種類に応じた不要語の数の辞書に切り替えることを特徴とする請求項4に記載の音声認識システム。
  6. 前記辞書切替部は、前記話者識別手段により識別された話者の不要語使用頻度に応じた不要語の数の辞書と、前記音声入力情報の種類に応じた不要語の数の辞書とで、より不要語の数が多い辞書に切り替えることを特徴とする請求項4に記載の音声認識システム。
JP2009082675A 2009-03-30 2009-03-30 音声認識システム Expired - Fee Related JP4941494B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009082675A JP4941494B2 (ja) 2009-03-30 2009-03-30 音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009082675A JP4941494B2 (ja) 2009-03-30 2009-03-30 音声認識システム

Publications (2)

Publication Number Publication Date
JP2010237286A JP2010237286A (ja) 2010-10-21
JP4941494B2 true JP4941494B2 (ja) 2012-05-30

Family

ID=43091684

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009082675A Expired - Fee Related JP4941494B2 (ja) 2009-03-30 2009-03-30 音声認識システム

Country Status (1)

Country Link
JP (1) JP4941494B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12067971B2 (en) 2018-06-29 2024-08-20 Sony Corporation Information processing apparatus and information processing method
JP2021105684A (ja) * 2019-12-26 2021-07-26 トヨタ自動車九州株式会社 騒音内音声認識装置及び騒音内音声認識システム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3477751B2 (ja) * 1993-09-07 2003-12-10 株式会社デンソー 連続単語音声認識装置
JP3478171B2 (ja) * 1999-05-14 2003-12-15 日本電気株式会社 音声認識装置及び音声認識方法
JP2001075589A (ja) * 1999-09-02 2001-03-23 Denso Corp 音声認識方法及び音声認識装置
JP3601411B2 (ja) * 2000-05-22 2004-12-15 日本電気株式会社 音声応答装置
JP4162074B2 (ja) * 2001-09-27 2008-10-08 三菱電機株式会社 対話型情報検索装置
JP4845118B2 (ja) * 2006-11-20 2011-12-28 富士通株式会社 音声認識装置、音声認識方法、および、音声認識プログラム

Also Published As

Publication number Publication date
JP2010237286A (ja) 2010-10-21

Similar Documents

Publication Publication Date Title
US7822613B2 (en) Vehicle-mounted control apparatus and program that causes computer to execute method of providing guidance on the operation of the vehicle-mounted control apparatus
WO2013005248A1 (ja) 音声認識装置およびナビゲーション装置
CN106796786B (zh) 语音识别系统
US6937982B2 (en) Speech recognition apparatus and method using two opposite words
EP1187099B1 (en) Voice recognition apparatus
US9123327B2 (en) Voice recognition apparatus for recognizing a command portion and a data portion of a voice input
JP4672686B2 (ja) 音声認識装置及びナビゲーション装置
JP2009251388A (ja) 母国語発話装置
JP2009230068A (ja) 音声認識装置及びナビゲーションシステム
JP3654045B2 (ja) 音声認識装置
JP4941494B2 (ja) 音声認識システム
JP4466379B2 (ja) 車載音声認識装置
JP4056711B2 (ja) 音声認識装置
CN111857636A (zh) 声音操作系统及装置、声音操作控制方法和记录介质
JP5772214B2 (ja) 音声認識装置
JP2011232668A (ja) 音声認識機能を備えたナビゲーション装置およびその検出結果提示方法
JP3296783B2 (ja) 車載用ナビゲーション装置および音声認識方法
KR100677711B1 (ko) 음성 인식 장치, 기억 매체 및 네비게이션 장치
JP2007256643A (ja) 音声認識装置及びナビゲーションシステム
JP2011180416A (ja) 音声合成装置、音声合成方法およびカーナビゲーションシステム
JPH11231889A (ja) 音声認識装置
JP2005031260A (ja) 情報処理方法及び装置
JP4645708B2 (ja) コード認識装置および経路探索装置
KR20060098673A (ko) 음성 인식 방법 및 장치
JP2011080824A (ja) ナビゲーション装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120131

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120213

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150309

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees