JP2009230068A

JP2009230068A - 音声認識装置及びナビゲーションシステム

Info

Publication number: JP2009230068A
Application number: JP2008078686A
Authority: JP
Inventors: Ryuichi Suzuki; 竜一鈴木
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2008-03-25
Filing date: 2008-03-25
Publication date: 2009-10-08

Abstract

【課題】膨大な比較対象パターンによる音声認識において、実際に使用する比較対象パターンを減らし、認識性能の低下を抑えることのできる音声認識技術を提供する。
【解決手段】辞書部３１２には、複数の発話パターンに基づいて分類された複数種類の辞書があり、辞書優先順位判定部３２５は、認識結果に基づくユーザの発話パターンと複数の発話パターンとの類似度合いを用いて、その類似度合いが高いほど順位が高くなるように複数種類の辞書の優先順位を判定する。音声認識部３１において、優先順位の高い辞書を優先して用いて音声認識を実行すれば、例えば優先順位１の辞書を用いただけで最終的な認識結果を得られる可能性が高くなり、全ての辞書と照合する場合に比べて、少ない比較対象パターンとの照合を行うだけで、適切な音声認識を実現できる可能性が高くなる。
【選択図】図２

Description

本発明は、例えば電話番号の音声入力やナビゲーションシステムにおける目的地の音声入力などに用いて有効な音声認識技術に関する。

従来より、入力された音声を予め記憶されている複数の比較対象パターン（認識辞書）と比較し、一致度合いの高いものを認識結果とする音声認識装置が既に実用化されており、例えばナビゲーションシステムにおいて設定すべき目的地を、利用者が地名や施設名を音声で入力するためなどに用いられたり、ハンズフリーシステムにおいて電話番号を音声入力するためなどに用いられている（特許文献１参照）。特に車載システムを運転手自身が利用する場合、音声入力であればボタン操作や画面注視が伴わないため、車両の走行中に行っても安全性が高いため有効である。

また近年、人間と機械の自然な対話を可能にする音声認識技術が増えてきているが、音声認識装置が自然な発話を受理するためには、膨大な比較対象パターンを音声認識装置に蓄積しておく必要がある。そこで、自然な発話を認識可能にするため、特許文献１に開示された手法は、決められた間隔で単語認識を行い、その各単語候補をキーワードとして構文解析手段を用いて解析し、無意味な語や発話のゆれを含む自然な発話の音声認識を可能にしている。また、特許文献２に開示された手法は、中間結果の確信度などを用いて、自然発話音声認識の精度の低さを処理の迅速さでカバーしようとしている。

しかし、以上のような方法では、自然発話の膨大な比較対象パターンを音声認識した後に実施するもので、結局、音声認識結果の精度が低ければ、後処理でカバーすることは難しく、正確な自然発話の認識を十分に達成することはできないと考えられる。
特開平５−１９７３８９号公報特開２００５−２８３９７２号公報

このように、従来の音声認識装置にあっては、自然な発話を認識するため、膨大な比較対象パターンで音声認識した後に処理を行って、自然発話音声認識の精度の低さをカバーしようとする手法が多かった。

しかし、音声認識では、比較対象パターン数が増えれば増えるほど認識性能の低下を招く恐れがある。そのため、膨大な比較対象パターンによる音声認識の結果をもとに何らかの処理を行ったとしても、音声認識結果の精度が低ければ低いほど、後処理でカバーすることは難しくなり、結果として正確な自然発話の認識ができなくなるおそれがある。

そこで本発明は、このような問題を解決し、膨大な比較対象パターンによる音声認識において、実際に使用する比較対象パターンを減らし、認識性能の低下を抑えることのできる音声認識技術を提供することを目的とする。

請求項１に記載の音声認識装置によれば、認識手段が、音声入力手段を介して入力された音声を、予め辞書手段に記憶されている複数の比較対象パターンと比較して一致度合いの高いものを認識結果とする。ここで、辞書手段は、所定の複数の発話パターンに基づいて分類された複数種類の辞書を有しており、次のようにして優先順位を設定する。

まず、辞書優先順位判定手段が、認識手段による認識結果に基づくユーザの発話パターンと所定の複数の発話パターンとの類似度合いを用いて、その類似度合いが高いほど順位が高くなるように複数種類の辞書の優先順位を判定する。そして、辞書制御手段が、その辞書優先順位判定手段による判定結果に基づいて、複数種類の辞書の優先順位を設定する。

実質的に同様の内容を発話する場合であっても、ユーザの癖によって発話パターンが異なることがある。例えば、ナビゲーション装置においてレストランを目的地に設定する場合を想定すると、「レストランに行きたい」「レストランを目的地にする」のように「目的語、動作語」の順番で話すユーザもいれば、「あのー、レストラン」「えーと、レストラン」
のように、動作語を省略すると共に、頭に不要語を付けて「不要語、目的語」の順番で話すユーザもいる。

したがって、予め所定の複数の発話パターンに基づいて分類された複数種類の辞書のうち、どれを用いると、ユーザの癖を反映した発話パターンに適切に対応できるのかを決めるために、ユーザの発話パターンと所定の複数の発話パターンとの類似度合いが高いほど順位が高くなるように複数種類の辞書の優先順位を判定するのである。

そして、認識手段が、優先順位の高い辞書を優先して用いて認識結果を得るようにすれば、辞書手段全体としてみた場合は膨大な比較対象パターンを持つ音声認識装置であっても、実際に使用する比較対象パターンを減らし、認識性能の低下を抑えることができる。

優先順位に従って優先されるのであるが、その優先度合いについては、予め固定的に設定しておいてもよいし、請求項２に示すように、優先度合いをユーザが指示可能に構成しても良い。つまり、ユーザからの指示を受付可能な受付手段を備え、この受付手段を介して受け付けた指示に基づき、辞書制御手段が、優先順位の設定された辞書の優先度合いを設定するのである。そして、認識手段は、辞書制御手段によって設定された優先度合いに基づいて前記一致度合いの判定を行うのである。

辞書の優先順位自体は決まっていても、優先度合いについては、相対的に大きくした方がよい場合もあれば小さくした方がよい場合もあるかもしれない。請求項２に示すようにすれば、そのようなユーザの意図を反映させることができる。

なお、優先順位の判定に際しては、ユーザの癖を反映した発話パターンに適切に対応できるようにするためには、直前の発話に対応する認識結果だけでなく、請求項３に示すように、過去所定回数の発話に対応する認識結果に基づくことも好ましい。その場合は、発話履歴記憶手段に、認識手段による認識結果を、過去所定回数の発話分記憶しておき、辞書優先順位判定手段が、その発話履歴記憶手段に記憶された過去所定回数の発話分に対応する認識結果に基づくユーザの発話パターンと所定の複数の発話パターンとの類似度合いを用いて、辞書の優先順位を判定するのである。

上述した音声認識装置は、辞書の優先順位を装置側が自動的に判断して設定するようにしたが、請求項４に示すように、辞書の優先順位をユーザの指示に基づいて設定するようにしてもよい。

請求項４に記載の音声認識装置によれば、認識手段が、音声入力手段を介して入力された音声を、予め辞書手段に記憶されている複数の比較対象パターンと比較して一致度合いの高いものを認識結果とする。ここで、辞書手段は、所定の複数の発話パターンに基づいて分類された複数種類の辞書を有しており、次のようにして優先順位を設定する。

まず、ユーザからの指示を受付可能な受付手段を介して受け付けた指示に基づき、複数種類の辞書の優先順位を設定する。このように、ユーザからの指示に基づいて優先順位を設定すれば、予め所定の複数の発話パターンに基づいて分類された複数種類の辞書のうちから、ユーザの癖を反映した発話パターンに適切に対応した優先順位で辞書を用いて音声認識を実行することができる。

この場合も、優先度合いについては予め固定的に設定しておいてもよいし、請求項５に示すように、優先度合いをユーザが指示可能に構成しても良い。つまり、受付手段を介して受け付けたユーザからの指示に基づき、辞書制御手段が、優先順位の設定された辞書の優先度合いを設定する。

また、このような音声認識装置の適用先としては、種々考えられるが、その一例として請求項６に示すように、音声入力手段を、ナビゲーション装置がナビゲート処理をする上で指定される必要のある所定の地名関連データの指示を使用者が音声にて入力するために用いるようにしたナビゲーションシステムが挙げられる。このナビゲート処理としては、例えば地図表示や経路案内等が考えられる。

以下、本発明が適用された実施形態について図面を用いて説明する。なお、本発明の実施の形態は、下記の実施形態に何ら限定されることはなく、本発明の技術的範囲に属する限り種々の形態を採りうる。

［構成の説明］
（ナビゲーションシステム全体の説明）
図１は音声認識機能を持たせたナビゲーションシステム２の概略構成を示すブロック図である。本ナビゲーションシステム２は、車両に搭載されて用いられるいわゆるカーナビゲーションシステムであり、位置検出器４、データ入力器６、操作スイッチ群８、これらに接続された制御回路１０、制御回路１０に接続された外部メモリ１２、表示装置１４及びリモコンセンサ１５、通信装置１６及び音声認識装置３０を備えている。なお制御回路１０は通常のコンピュータとして構成されており、内部には、周知のＣＰＵ、ＲＯＭ、ＲＡＭ、Ｉ／Ｏ及びこれらの構成を接続するバスラインが備えられている。

位置検出器４は、周知のジャイロスコープ１８、距離センサ２０及び衛星からの電波に基づいて車両の位置を検出するためのＧＰＳ受信機２２を有している。これらのセンサ等１８，２０，２２は各々が性質の異なる誤差を持っているため、複数のセンサにより、各々補間しながら使用するように構成されている。なお、精度によっては上述した内の一部で構成してもよく、更に、ステアリングの回転センサ、各転動輪の車輪センサ等を用いてもよい。

データ入力器６は、位置検出の精度向上のためのいわゆるマップマッチング用データ、地図データ及び目印データを含むナビゲーション用の各種データに加えて、音声認識装置３０において認識処理を行う際に用いる辞書データを入力するための装置である。記憶媒体としては、ハードディスクやＤＶＤ、あるいはＣＤ−ＲＯＭ等の他の媒体を用いても良い。データ記憶媒体としてＤＶＤを用いた場合には、このデータ入力器６はＤＶＤプレーヤとなる。

表示装置１４はカラー表示装置であり、表示装置１４の画面には、位置検出器４から入力された車両現在位置マークと、地図データ入力器６より入力された地図データと、更に地図上に表示する誘導経路や設定地点の目印等の付加データとを重ねて表示することができる。また、複数の選択肢を表示するメニュー画面やその中の選択肢を選んだ場合に、さらに複数の選択肢を表示するコマンド入力画面なども表示することができる。

通信装置１６は、設定された連絡先通信情報によって特定される連絡先との通信を行うためのものであり、例えば携帯電話機等の移動体通信機によって構成される。
また、本ナビゲーションシステム２は、リモートコントロール端末（以下、リモコンと称する。）１５ａを介してリモコンセンサ１５から、あるいは操作スイッチ群８により目的地の位置を入力すると、現在位置からその目的地までの最適な経路を自動的に選択して誘導経路を形成し表示する、いわゆる経路案内機能も備えている。このような自動的に最適な経路を設定する手法は、ダイクストラ法等の手法が知られている。操作スイッチ群８は、例えば、表示装置１４と一体になったタッチスイッチもしくはメカニカルなスイッチ等が用いられ、各種コマンドの入力に利用される。

そして、音声認識装置３０は、上記操作スイッチ群８あるいはリモコン１５ａが手動操作により各種コマンド入力のために用いられるのに対して、利用者が音声で入力することによっても同様に各種コマンドを入力できるようにするための装置である。

（音声認識装置３０の説明）
この音声認識装置３０は、音声認識部３１と、対話制御部３２と、音声合成部３３と、音声抽出部３４と、マイク３５と、スイッチ３６と、スピーカ３７と、制御部３８とを備えている。

音声認識部３１は、音声抽出部３４から入力された音声データを、対話制御部３２からの指示により入力音声の認識処理を行い、その認識結果を対話制御部３２に返す。すなわち、音声抽出部３４から取得した音声データに対し、記憶している辞書データを用いて照合を行い、複数の比較対象パターン候補と比較して一致度の高い上位比較対象パターンを対話制御部３２へ出力する。

入力音声中の単語系列の認識は、音声抽出部３４から入力された音声データを音響モデルと順次音響分析して音響的特徴量（例えばケプストラム）を抽出する。この音響分析によって得られた音響的特徴量時系列データを得る。そして、周知のＨＭＭ（隠れマルコフモデル）、ＤＰマッチング法あるいはニューラルネットなどによって、この時系列データをいくつかの区間に分け、各区間が辞書データとして格納されたどの単語に対応しているかを求める。

対話制御部３２は、音声認識部３１における認識結果や制御部３８からの指示に基づき、音声合成部３３への応答音声の出力指示、あるいは、ナビゲーションシステム自体の処理を実行する制御回路１０に対して例えばナビゲート処理のために必要な目的地やコマンドを通知して目的地の設定やコマンドを実行させるよう指示する処理を行う。このような処理の結果として、この音声認識装置３０を利用すれば、上記操作スイッチ群８あるいはリモコン１５ａを手動しなくても、音声入力によりナビゲーションシステムに対する目的地の指示などが可能となるのである。

なお、音声合成部３３は、波形データベース内に格納されている音声波形を用い、対話制御部３２からの応答音声の出力指示に基づく音声を合成する。この合成音声がスピーカ３７から出力されることとなる。

音声抽出部３４は、マイク３５にて取り込んだ周囲の音声をデジタルデータに変換して音声認識部３１に出力するものである。詳しくは、入力した音声の特徴量を分析するため、例えば数１０ｍｓ程度の区間のフレーム信号を一定間隔で切り出し、その入力信号が、音声の含まれている音声区間であるのか音声の含まれていない雑音区間であるのか判定する。マイク３５から入力される信号は、認識対象の音声だけでなく雑音も混在したものであるため、音声区間と雑音区間の判定を行う。この判定方法としては従来より多くの手法が提案されており、例えば入力信号の短時間パワーを一定時間毎に抽出していき、所定の閾値以上の短時間パワーが一定以上継続したか否かによって音声区間であるか雑音区間であるかを判定する手法がよく採用されている。そして、音声区間であると判定された場合には、その入力信号が音声認識部３１に出力されることとなる。

また、本実施形態においては、利用者がスイッチ３６を押しながらマイク３５を介して音声を入力するという利用方法である。具体的には、制御部３８がスイッチ３６が押されたタイミングや戻されたタイミング及び押された状態が継続した時間を監視しており、スイッチ３６が押された場合には音声抽出部３４及び音声認識部３１に対して処理の実行を指示する。一方、スイッチ３６が押されていない場合にはその処理を実行させないようにしている。したがって、スイッチ３６が押されている間にマイク３５を介して入力された音声データが音声認識部３１へ出力されることとなる。

このような構成を有することによって、本実施形態のナビゲーションシステム２では、ユーザがコマンドを入力することによって、経路設定や経路案内あるいは施設検索や施設表示など各種の処理を実行することができる。

（音声認識部３１と対話制御部３２の説明）
ここで、音声認識部３１と対話制御部３２についてさらに説明する。
図２に示すように、音声認識部３１は、照合部３１１と辞書部３１２と抽出結果記憶部３１３とを有しており、対話制御部３２は、処理部３２１と入力部３２２と辞書制御部３２３と発話履歴記憶部３２４と辞書優先順位判定部３２５を有している。

音声認識部３１においては、抽出結果記憶部３１３が音声抽出部３４から出力された抽出結果を記憶しておき、照合部３１１がその記憶された抽出結果に対し、辞書部３１２内に記憶されている辞書データ（以下、単に辞書と称す。）を用いて照合を行う。そして、照合部３１１にて辞書と比較されて一致度（尤度）が高いとされた上位の認識結果は、対話制御部３２の処理部３２１へ出力され、対話制御部３２の処理部３２１が、制御回路１０へその認識結果を出力する。

一方、制御回路１０から対話制御部３２へは、辞書の重み付け（優先度合）の指示がなされる。制御回路１０は、ユーザからの操作を操作スイッチ群８（図１参照）を介して受け付け、その操作に基づく指示を対話制御部３２へ出力する。対話制御部３２の入力部３２２はその指示を入力し、辞書制御部３２３へ出力する。

また、発話履歴記憶部３２４は辞書優先順位判定部３２５へ発話履歴を出力し、辞書優先順位判定部３２５ではその発話履歴に基づき、辞書の優先順位の指示を辞書制御部３２３へ出力する。

辞書制御部３２３では、辞書優先順位判定部３２５から入力された指示、入力部３２２から入力された指示に基づき、音声認識部３１の辞書部３１２に対して、辞書の優先順位や重み付けの設定を行う。

（辞書部３１２の説明）
ここで辞書部３１２について説明する。辞書部３１２は、第１辞書３１２ａ、第２辞書３１２ｂ、第３辞書３１２ｃ、第４辞書３１２ｄを有している。これら４つの辞書３１２ａ，３１２ｂ，３１２ｃ，３１２ｄは、予め４つの発話パターンに基づいて分類されたものである。

その一例について、図３を参照して説明する。例えばレストランを目的地に設定する場合を想定する。その場合、ユーザの発話例として、
えーと、レストランに行きたい
あのー、レストランを目的地にする
えーと、レストラン
あのー、レストラン
レストランに行きたい
レストランを目的地にする
レストラン
のような７つの発話があるとする。

この発話は例えば、不要語、目的語、動作語の組み合わせで分類することができる。
目的地を設定するため、目的語は必ず必要なので、上記の例では、
（１）不要語、目的語、動作語
（２）不要語、目的語
（３）目的語、動作語
（４）目的語
の４つの発話パターンの組に分類できる。上記の発話例で言えば、
（１）えーと、レストランに行きたい
あのー、レストランを目的地にする
（２）えーと、レストラン
あのー、レストラン
（３）レストランに行きたい
レストランを目的地にする
（４）レストラン
という４つの発話パターンの組に分類できる。図３（ａ）は辞書が文法構造の場合のパターン分類例であり、図３（ｂ）は辞書が線形構造の場合のパターン分類例を示している。

そして、これら４つの辞書３１２ａ，３１２ｂ，３１２ｃ，３１２ｄについては、それぞれ優先順位と重み付けを設定することができる。この優先順位と重み付けの値の設定は、対話制御部３２の辞書制御部３２３が実行する。辞書３１２ａ，３１２ｂ，３１２ｃ，３１２ｄに対する優先順位と重み付けの設定例については、後で説明する。

以上、ナビゲーションシステム２の概略構成について説明したが、本実施形態におけるナビゲーションシステム２の構成と特許請求の範囲に記載した構成との対応は次のとおりである。

本実施形態においては、マイク３５が音声入力手段に相当し、音声認識部３１内の辞書部３１２が辞書手段に相当する。また、照合部３１１が認識手段に相当し、操作スイッチ群８及びマイク３５が受付手段に相当する。また、対話制御部３２内の辞書優先順位判定部３２５が辞書優先順位判定手段に相当し、辞書制御部３２３が辞書制御手段に相当する。また、発話履歴記憶部３２４が発話履歴記憶手段に相当する。

［音声認識処理の説明］
本実施形態のナビゲーションシステム２において実行される音声認識処理について、図４、図５のフローチャートを参照して説明する。これらのフローチャートは、音声認識部３１及び対話制御部３２にて実行される処理を示している。

最初のステップＳ１０で変数ｉ＝１に設定し、続くＳ２０にて音声が入力されると、Ｓ３０にて、照合部３１１により入力音声と優先順位（ｉ）の辞書との照合を行って認識処理を行う。Ｓ４０では、この認識結果を処理部３２１へ送る。

Ｓ５０では、その認識結果の尤度が閾値以上であるかを判定し、閾値以上であれば（Ｓ５０：ＹＥＳ）、その認識結果で確定する（Ｓ８０）。そして、その認識結果を発話履歴記憶部３２４へ記憶させる（Ｓ１４０）。

一方、尤度が閾値以上でなければ（Ｓ５０：ＮＯ）、変数ｉがｎ−１未満か否か判定する。このｎは優先順位の最大値である。ｉ＜ｎ−１の場合は（Ｓ６０：ＹＥＳ）、変数ｉをインクリメント（ｉ＝ｉ＋１）する（Ｓ７０）。そして、Ｓ３０へ戻り、そのインクリメントした優先順位（ｉ）の辞書と入力音声との照合を行って認識処理を行う。

ｉ≧ｎ−１の場合は（Ｓ６０：ＮＯ）、照合部３１１により入力音声と優先順位（ｎ）の辞書との照合を行って認識処理を行う（Ｓ９０）。Ｓ１００では、この認識結果を処理部３２１へ送る。

Ｓ１１０では、優先順位（ｎ）の辞書での尤度が優先順位（１）〜（ｎ−１）の辞書での尤度以上か否か判定する。ここで、優先順位（ｎ）の辞書での尤度が優先順位（１）〜（ｎ−１）の辞書での尤度以上であれば（Ｓ１１０：ＹＥＳ）、優先順位（ｎ）の辞書での認識結果で確定する（Ｓ１２０）。一方、優先順位（ｎ）の辞書での尤度が優先順位（１）〜（ｎ−１）の辞書での尤度未満であれば（Ｓ１１０：ＮＯ）、優先順位（１）〜（ｎ−１）の辞書での尤度が最も高い認識結果で確定する（Ｓ１３０）。

Ｓ１２０又はＳ１３０において認識結果が確定された後は、その認識結果を発話履歴記憶部３２４へ記憶させる（Ｓ１４０）。
続くＳ１５０（図５参照）では、辞書優先順位判定部３２５によって、辞書の優先順位の変更があるか否か判定する。この判定は、発話履歴記憶部３２４に記憶された発話履歴をもとにして判定する。

辞書の優先順位の変更がある場合（Ｓ１５０：ＹＥＳ）、辞書優先順位判定部３２５は辞書制御部３２３に対して優先辞書の変更を指示し、その指示に基づいて辞書制御部３２３が、辞書部３１２に対して辞書の優先順位の設定を行う（Ｓ１６０）。

辞書の優先順位については、例えば図２に示すように、第２辞書を優先順位１とし、第１辞書を優先順位２、第３辞書を優先順位３、第４辞書を優先順位４としているが、優先順位１の辞書は一つで、それ以外の三つの辞書は優先順位２とする、といったように、同じ優先順位の辞書が複数存在してもよい。例えば、第２辞書を優先順位１とし、第１辞書、第３辞書及び第４辞書を共に優先順位２とする、といったことである。もちろん、場合によっては優先順位１の辞書が複数存在してもよい。

また、優先順位の判定に際しては、ユーザの癖を反映した発話パターンに適切に対応できるようにするためには、直前の発話に対応する認識結果だけでなく、過去所定回数の発話に対応する認識結果に基づくようにしてもよい。その場合は、発話履歴記憶部３２４に、過去所定回数（例えば１０回）の発話分記憶しておき、その過去所定回数の発話分に対応する認識結果に基づいて優先順位を判定することが考えられる。

なお、辞書優先順位については、例えば次のようにして決定する。
発話履歴より発話パターンの出現回数を求め、その回数順に優先順位を付ける。例えば過去の発話パターン１０回分が第１辞書３回、第２辞書６回、第３辞書１回、第４辞書０回であったとき、第２辞書を優先順位１、第１辞書を優先順位２、第３辞書を優先順位３、第４辞書を優先辞書４と決定する。

なお、第１辞書３回、第２辞書３回、第３辞書３回、第４辞書１回であったときは、第１辞書と第２辞書と第３辞書を優先順位１とし、第４辞書を優先順位２と決定する。このように、同じ優先順位に複数の辞書を設定することも可能である。

この辞書優先順位の決定方法としては、その他にもいくつか方法があり、例えば、発話履歴の割合の閾値を設定することが考えられる。例えば０．５以上，０．３以上，０．１以上、０．１未満のように設定し、過去の発話パターン１０回分が第１辞書３回、第２辞書４回、第３辞書２回、第４辞書１回であったとき、第１辞書と第２辞書を優先順位１、第３辞書と第４辞書を優先辞書２と決定するようにしてもよい。

これらの過去所定回数および発話履歴の割合の閾値については、１０回および０．５、０．３，０．１というように固定的に設定するようにしてもよいし、ユーザが指示可能に構成しても良い。その場合は、例えば操作スイッチ群８を介してユーザからの指示を受け付け、その受け付けた指示に基づき、辞書制御部３２３が過去所定回数および履歴の割合の閾値を設定する。

続くＳ１７０では、辞書の重み付けの変更があるか否か判定する。この判定は、制御回路１０から辞書の重み付け（優先度合い）の指示があるか否かで判定する。
辞書の重み付けの変更がある場合（Ｓ１７０：ＹＥＳ）、その指示に基づいて辞書制御部３２３が、辞書部３１２に対して辞書の重み付けの設定を行う（Ｓ１８０）。

なお、辞書の重み付けに関しては、例えば優先順位１，２，３，４の辞書に対して、それぞれ重み付けを１．０，０．８，０．７，０．６というように固定的に設定するようにしてもよいし、ユーザが指示可能に構成しても良い。その場合は、例えば操作スイッチ群８を介してユーザからの指示を受け付け、その受け付けた指示に基づき、辞書制御部３２３が重み付けを設定する。

重み付けの設定をユーザが指示する場合としては、例えば現在の重み付けでは認識性能が悪いと感じた場合に、辞書の優先度合いを変更するために指示することが考えられる。
また、重み付けの指示の仕方としては、最終的な重み付けの値そのもの（例えば１．０，０．８，０．７，０．６といった値）を指示してもよいし、割合などで指示してもよい。例えば優先順位１の辞書と優先順位２の辞書という２種類の優先順位しかない場合に、割合６：４と指示すれば、優先順位１の辞書の重みを１．０と設定し、優先順位２の辞書の重みを０．６７と設定する。３種類以上の優先順位があっても同様である。

Ｓ１９０にて発話の続きがあるか否か判定し、発話の続きがある場合は（Ｓ１９０：ＹＥＳ）、図４のＳ１０へ移行し、音声入力の待ち状態となる。
発話の続きがない場合は（Ｓ１９０：ＮＯ）、これで一旦音声認識処理が終了となるため、現在の辞書の優先順位及び重み付けを保存する（Ｓ２００）。そして、続くＳ２１０では認識結果の報知を行う。この報知は、処理部３２１が音声合成部３３及びスピーカ３７を介して音声にて報知してもよいし、処理部３２１からの指示に基づいて制御回路１０が表示装置１４に認識結果を表示することによって報知しても良い。

そして、確定指示があるか否か判断する（Ｓ２２０）。この確定指示の有無は、例えばユーザによるマイク３５からの音声入力に基づいて判断する。例えば「はい」とか「確定」といった確定指示であると解釈してもよい内容を示す音声入力があれば確定指示ありと判断でき、また「いいえ」とか「違う」といった確定指示でないと解釈してもよい内容を示す音声入力があれば確定指示なしと判断できる。もちろん、ユーザによる確定指示は音声入力によって行う場合に限定されず、例えばスイッチ操作によって行っても良い。その場合には、操作スイッチ群８を介して認識結果の確定を指示するための操作がなされたか否かによって確定指示の有無を判断する。

確定指示なしの場合には（Ｓ２２０：ＮＯ）、Ｓ１０へ戻って再度の音声入力に基づく音声認識処理を実行する。
一方、確定指示ありの場合には（Ｓ２２０：ＹＥＳ）、所定の確定後処理を実行する（Ｓ２３０）。この場合の確定後処理とは、処理部３２１が制御回路１０へ認識結果を出力すると共に、その認識結果が確定したものである旨も通知することである。この確定後処理に応じて、制御回路１０では、例えばナビゲーション機能を利用する場合の目的地設定や施設検索において目的地や施設を特定して入力する場合であれば、確定した目的地や施設に基づいて検索を行うこととなる。

［効果］
例えばレストランを目的地に設定する場合に、図３にも示す下記の４種類の辞書を用いて音声認識処理を行う。
（１）不要語、目的語、動作語の発話パターン
えーと、レストランに行きたい
あのー、レストランを目的地にする
（２）不要語、目的語の発話パターン
えーと、レストラン
あのー、レストラン
（３）目的語、動作語の発話パターン
レストランに行きたい
レストランを目的地にする
（４）目的語の発話パターン
レストラン
ここで、ある発話者が「あのー、レストラン」「えーと、レストラン」というように、不要語、目的語という形で発話することが多いとすると、（２）の辞書、つまり「不要語、目的語」という発話パターンに対応する辞書の優先順位が１と設定される。レストラン以外の施設を目的地に設定する場合でも、同じ発話パターンにて発話する可能性が高いため、このように発話者の発話の癖を学習することで、発話者の頻繁に使用する発話パターンを判定し、それに対応する辞書の優先順位を高くする。

そして、その優先順位の高い辞書を優先して用いて音声認識を実行すれば、例えば優先順位１の辞書を用いただけで最終的な認識結果を得られる可能性が高くなり、全ての辞書と照合する場合に比べて、少ない比較対象パターンとの照合を行うだけで、適切な音声認識を実現できる可能性が高くなる。

また、たとえ優先順位１の辞書を用いるだけでは認識結果が確定できなくても、優先順位の高い辞書から順番に使用して認識していくことで、全ての辞書と照合しないでも最終的な認識結果を確定できる可能性がある。

その結果、辞書手段全体としてみた場合は膨大な比較対象パターンを持つ音声認識装置であっても、実際に使用する比較対象パターンを減らし、認識性能の低下を抑えることができる。

図３に示すレストランを目的地に設定する場合の辞書を例にとって説明する。（１）〜（４）の辞書全体の比較対象パターン数は７であるが、優先順位１の（２）の辞書だけであれば比較対象パターン数は２である。

なお、優先順位が低いだけで、他の辞書を用いた音声認識も可能であるため、発話者の発話パターンが変化した場合であっても、対応できる。
［その他］
（１）上記実施形態では辞書部３１２内に４つの辞書３１２ａ，３１２ｂ，３１２ｃ，３１２ｄがある場合について説明したが、２つの辞書しかなく、一方が優先順位１の辞書、他方が優先順位２の辞書である場合には、図４のフローチャートに示す処理に替えて図６のフローチャートに示す処理を実行することとなる。

図６に示す処理について説明する。
最初のステップＳ５１０にて音声が入力されると、Ｓ５２０にて、照合部３１１により入力音声と優先順位１の辞書との照合を行って認識処理を行う。Ｓ５３０では、この認識結果を処理部３２１へ送る。

Ｓ５４０では、その認識結果の尤度が閾値以上であるかを判定し、閾値以上であれば（Ｓ５４０：ＹＥＳ）、その認識結果で確定する（Ｓ５５０）。そして、その認識結果を発話履歴記憶部３２４へ記憶させる（Ｓ６１０）。

一方、尤度が閾値以上でなければ（Ｓ５４０：ＮＯ）、入力音声と優先順位２の辞書との照合を行って認識処理を行う（Ｓ５６０）。Ｓ５７０では、この認識結果を処理部３２１へ送る。

Ｓ５８０では、優先順位２の辞書での尤度が優先順位１の辞書での尤度以上か否か判定する。ここで、優先順位２の辞書での尤度が優先順位１の辞書での尤度以上であれば（Ｓ５８０：ＹＥＳ）、優先順位２の辞書での認識結果で確定する（Ｓ５９０）。一方、優先順位２の辞書での尤度が優先順位１の辞書での尤度未満であれば（Ｓ５８０：ＮＯ）、優先順位１の辞書での尤度が最も高い認識結果で確定する（Ｓ６００）。

Ｓ５９０又はＳ６００において認識結果が確定された後は、その認識結果を発話履歴記憶部３２４へ記憶させる（Ｓ６１０）。この後は、図５のＳ１５０へ移行する。
この場合も、上記実施形態の場合と同様、辞書手段全体としてみた場合は膨大な比較対象パターンを持つ音声認識装置であっても、実際に使用する比較対象パターンを減らし、認識性能の低下を抑えることができる。

（２）上記実施形態では、目的地設定の場合を例示したが、例えばナビゲーション装置における実行コマンド（例：地図を拡大する）で考えれば、例えば「えーと、地図を大きくして」、「あのー、５０ｍスケールにする」、「詳細を実行」という発話パターンが考えられる。そして、それらは、下記のように分類できる。

不要語：えーと、あのー
目的語：地図を大きく、５０ｍスケール、詳細
動作語：して、にする、を実行
したがって、これらに基づいて発話パターン毎の辞書を設定し、それぞれについて優先順位や重み付けを設定すればよい。

これら発話パターンについては種々の例が考えられるが、他の一例を挙げておく。
施設名検索に際して、「不要語、都道府県名、ジャンル名、名称、動作語」というパターンが考えられる。また、曲名検索に際して、「不要語、ジャンル名、トラックＮｏ、歌手名、曲名、動作語」というパターンが考えられる。

また、発話パターンは、その他に「動作語、目的語」という「倒置」や、「目的語、不要語、動作語」「目的語、動作語、不要語」といった「不要語の位置の変更」といったバリエーションも考えられる。

（３）上記実施形態では、辞書部３１２内の４つの辞書３１２ａ，３１２ｂ，３１２ｃ，３１２ｄの優先順位を、音声認識装置３０側が自動的に判断して設定するようにしたが、優先順位自体をユーザの指示に基づいて設定するようにしてもよい。

その場合は、例えば操作スイッチ群８を介してユーザからの指示を受け付け、その受け付けた指示に基づき、辞書制御部３２３が優先順位を設定する。辞書毎の優先順位を設定する場合には、例えば表示装置１４へ発話パターンを例示し、その発話パターン毎にユーザが希望の順位を設定していくような手法が考えられる。

（４）複数のユーザが利用する場合には、ユーザ毎の識別情報（ユーザＩＤ）に対応させて辞書の優先順位及び重み付けを記憶させておき、ナビゲーションシステム２の使用開始時（あるいは音声認識装置３０の使用開始時）にユーザＩＤを入力することで、ユーザ毎の設定情報を用いた音声認識を実行することができるようにしておれば、対応可能である。

音声認識機能を持たせたナビゲーションシステム２の概略構成を示すブロック図である。音声認識装置３０における音声認識部３１と対話制御部３２の構成を示すブロック図である。辞書部３１２の辞書データの一例を示す説明図である。音声認識処理の前半を示すフローチャートである。音声認識処理の後半を示すフローチャートである。音声認識処理の別例を示すフローチャートである。

符号の説明

２…ナビゲーションシステム、４…位置検出器、６…データ入力器、６…地図データ入力器、８…操作スイッチ群、１０…制御回路、１２…外部メモリ、１４…表示装置、１５…リモコンセンサ、１５ａ…リモコン、１６…通信装置、１８…ジャイロスコープ、２２…ＧＰＳ受信機、３０…音声認識装置、３１…音声認識部、３２…対話制御部、３３…音声合成部、３４…音声抽出部、３５…マイク、３６…スイッチ、３７…スピーカ、３８…制御部、３１１…照合部、３１２…辞書部、３１３…抽出結果記憶部、３２１…処理部、３２２…入力部、３２３…辞書制御部、３２４…発話履歴記憶部、３２５…辞書優先順位判定部。

Claims

音声をひと続きで入力可能な音声入力手段と、
該音声入力手段を介して入力された音声を、予め辞書手段に記憶されている複数の比較対象パターンと比較して一致度合いの高いものを認識結果とする認識手段と、を備える音声認識装置であって、
前記辞書手段は、所定の複数の発話パターンに基づいて分類された複数種類の辞書を有しており、
前記認識手段による認識結果に基づくユーザの発話パターンと前記所定の複数の発話パターンとの類似度合いを用いて、その類似度合いが高いほど順位が高くなるように前記複数種類の辞書の優先順位を判定する辞書優先順位判定手段と、
その辞書優先順位判定手段による判定結果に基づいて、前記複数種類の辞書の優先順位を設定する辞書制御手段と、
を備え、
前記認識手段は、前記辞書制御手段によって設定された優先順位の高い辞書を優先的に用いて認識結果を得ることを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
ユーザからの指示を受付可能な受付手段を備え、
前記辞書制御手段は、前記受付手段を介して受け付けた指示に基づき、前記優先順位の設定された辞書の優先度合いを設定し、
前記認識手段は、前記辞書制御手段によって設定された優先度合いに基づいて前記一致度合いの判定を行うこと
を特徴とする音声認識装置。
請求項１または２に記載の音声認識装置において、
前記認識手段による認識結果を、過去所定回数の発話分記憶しておく発話履歴記憶手段を備え、
前記辞書優先順位判定手段は、前記発話履歴記憶手段に記憶された過去所定回数の発話分に対応する認識結果に基づくユーザの発話パターンと前記所定の複数の発話パターンとの類似度合いを用いて、辞書の優先順位を判定すること
を特徴とする音声認識装置。
音声をひと続きで入力可能な音声入力手段と、
該音声入力手段を介して入力された音声を、予め辞書手段に記憶されている複数の比較対象パターンと比較して一致度合いの高いものを認識結果とする認識手段と、を備える音声認識装置であって、
前記辞書手段は、所定の複数の発話パターンに基づいて分類された複数種類の辞書を有しており、
ユーザからの指示を受付可能な受付手段と、
前記受付手段を介して受け付けた指示に基づき、前記複数種類の辞書の優先順位を設定する辞書制御手段と、
を備え、
前記認識手段は、前記辞書制御手段によって設定された優先順位の高い辞書を優先的に用いて認識結果を得ることを特徴とする音声認識装置。
請求項４に記載の音声認識装置において、
前記辞書制御手段は、前記受付手段を介して受け付けた指示に基づき、前記優先順位の設定された辞書の優先度合いを設定し、
前記認識手段は、前記辞書制御手段によって設定された重みに基づいて前記一致度合いの判定を行うこと
を特徴とする音声認識装置。
請求項１〜５の何れかに記載の音声認識装置と、その音声認識装置にて認識された結果に基づいて所定の処理を実行するナビゲーション装置とを備え、
前記音声入力手段は、少なくとも前記ナビゲーション装置がナビゲート処理をする上で指定される必要のある所定の地名関連データの指示を使用者が音声にて入力するために用いられることを特徴とするナビゲーションシステム。