[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2009230068A - 音声認識装置及びナビゲーションシステム - Google Patents

音声認識装置及びナビゲーションシステム Download PDF

Info

Publication number
JP2009230068A
JP2009230068A JP2008078686A JP2008078686A JP2009230068A JP 2009230068 A JP2009230068 A JP 2009230068A JP 2008078686 A JP2008078686 A JP 2008078686A JP 2008078686 A JP2008078686 A JP 2008078686A JP 2009230068 A JP2009230068 A JP 2009230068A
Authority
JP
Japan
Prior art keywords
dictionary
recognition
priority
utterance
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008078686A
Other languages
English (en)
Inventor
Ryuichi Suzuki
竜一 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2008078686A priority Critical patent/JP2009230068A/ja
Publication of JP2009230068A publication Critical patent/JP2009230068A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】膨大な比較対象パターンによる音声認識において、実際に使用する比較対象パターンを減らし、認識性能の低下を抑えることのできる音声認識技術を提供する。
【解決手段】辞書部312には、複数の発話パターンに基づいて分類された複数種類の辞書があり、辞書優先順位判定部325は、認識結果に基づくユーザの発話パターンと複数の発話パターンとの類似度合いを用いて、その類似度合いが高いほど順位が高くなるように複数種類の辞書の優先順位を判定する。音声認識部31において、優先順位の高い辞書を優先して用いて音声認識を実行すれば、例えば優先順位1の辞書を用いただけで最終的な認識結果を得られる可能性が高くなり、全ての辞書と照合する場合に比べて、少ない比較対象パターンとの照合を行うだけで、適切な音声認識を実現できる可能性が高くなる。
【選択図】 図2

Description

本発明は、例えば電話番号の音声入力やナビゲーションシステムにおける目的地の音声入力などに用いて有効な音声認識技術に関する。
従来より、入力された音声を予め記憶されている複数の比較対象パターン(認識辞書)と比較し、一致度合いの高いものを認識結果とする音声認識装置が既に実用化されており、例えばナビゲーションシステムにおいて設定すべき目的地を、利用者が地名や施設名を音声で入力するためなどに用いられたり、ハンズフリーシステムにおいて電話番号を音声入力するためなどに用いられている(特許文献1参照)。特に車載システムを運転手自身が利用する場合、音声入力であればボタン操作や画面注視が伴わないため、車両の走行中に行っても安全性が高いため有効である。
また近年、人間と機械の自然な対話を可能にする音声認識技術が増えてきているが、音声認識装置が自然な発話を受理するためには、膨大な比較対象パターンを音声認識装置に蓄積しておく必要がある。そこで、自然な発話を認識可能にするため、特許文献1に開示された手法は、決められた間隔で単語認識を行い、その各単語候補をキーワードとして構文解析手段を用いて解析し、無意味な語や発話のゆれを含む自然な発話の音声認識を可能にしている。また、特許文献2に開示された手法は、中間結果の確信度などを用いて、自然発話音声認識の精度の低さを処理の迅速さでカバーしようとしている。
しかし、以上のような方法では、自然発話の膨大な比較対象パターンを音声認識した後に実施するもので、結局、音声認識結果の精度が低ければ、後処理でカバーすることは難しく、正確な自然発話の認識を十分に達成することはできないと考えられる。
特開平5−197389号公報 特開2005−283972号公報
このように、従来の音声認識装置にあっては、自然な発話を認識するため、膨大な比較対象パターンで音声認識した後に処理を行って、自然発話音声認識の精度の低さをカバーしようとする手法が多かった。
しかし、音声認識では、比較対象パターン数が増えれば増えるほど認識性能の低下を招く恐れがある。そのため、膨大な比較対象パターンによる音声認識の結果をもとに何らかの処理を行ったとしても、音声認識結果の精度が低ければ低いほど、後処理でカバーすることは難しくなり、結果として正確な自然発話の認識ができなくなるおそれがある。
そこで本発明は、このような問題を解決し、膨大な比較対象パターンによる音声認識において、実際に使用する比較対象パターンを減らし、認識性能の低下を抑えることのできる音声認識技術を提供することを目的とする。
請求項1に記載の音声認識装置によれば、認識手段が、音声入力手段を介して入力された音声を、予め辞書手段に記憶されている複数の比較対象パターンと比較して一致度合いの高いものを認識結果とする。ここで、辞書手段は、所定の複数の発話パターンに基づいて分類された複数種類の辞書を有しており、次のようにして優先順位を設定する。
まず、辞書優先順位判定手段が、認識手段による認識結果に基づくユーザの発話パターンと所定の複数の発話パターンとの類似度合いを用いて、その類似度合いが高いほど順位が高くなるように複数種類の辞書の優先順位を判定する。そして、辞書制御手段が、その辞書優先順位判定手段による判定結果に基づいて、複数種類の辞書の優先順位を設定する。
実質的に同様の内容を発話する場合であっても、ユーザの癖によって発話パターンが異なることがある。例えば、ナビゲーション装置においてレストランを目的地に設定する場合を想定すると、「レストランに行きたい」「レストランを目的地にする」のように「目的語、動作語」の順番で話すユーザもいれば、「あのー、レストラン」「えーと、レストラン」
のように、動作語を省略すると共に、頭に不要語を付けて「不要語、目的語」の順番で話すユーザもいる。
したがって、予め所定の複数の発話パターンに基づいて分類された複数種類の辞書のうち、どれを用いると、ユーザの癖を反映した発話パターンに適切に対応できるのかを決めるために、ユーザの発話パターンと所定の複数の発話パターンとの類似度合いが高いほど順位が高くなるように複数種類の辞書の優先順位を判定するのである。
そして、認識手段が、優先順位の高い辞書を優先して用いて認識結果を得るようにすれば、辞書手段全体としてみた場合は膨大な比較対象パターンを持つ音声認識装置であっても、実際に使用する比較対象パターンを減らし、認識性能の低下を抑えることができる。
優先順位に従って優先されるのであるが、その優先度合いについては、予め固定的に設定しておいてもよいし、請求項2に示すように、優先度合いをユーザが指示可能に構成しても良い。つまり、ユーザからの指示を受付可能な受付手段を備え、この受付手段を介して受け付けた指示に基づき、辞書制御手段が、優先順位の設定された辞書の優先度合いを設定するのである。そして、認識手段は、辞書制御手段によって設定された優先度合いに基づいて前記一致度合いの判定を行うのである。
辞書の優先順位自体は決まっていても、優先度合いについては、相対的に大きくした方がよい場合もあれば小さくした方がよい場合もあるかもしれない。請求項2に示すようにすれば、そのようなユーザの意図を反映させることができる。
なお、優先順位の判定に際しては、ユーザの癖を反映した発話パターンに適切に対応できるようにするためには、直前の発話に対応する認識結果だけでなく、請求項3に示すように、過去所定回数の発話に対応する認識結果に基づくことも好ましい。その場合は、発話履歴記憶手段に、認識手段による認識結果を、過去所定回数の発話分記憶しておき、辞書優先順位判定手段が、その発話履歴記憶手段に記憶された過去所定回数の発話分に対応する認識結果に基づくユーザの発話パターンと所定の複数の発話パターンとの類似度合いを用いて、辞書の優先順位を判定するのである。
上述した音声認識装置は、辞書の優先順位を装置側が自動的に判断して設定するようにしたが、請求項4に示すように、辞書の優先順位をユーザの指示に基づいて設定するようにしてもよい。
請求項4に記載の音声認識装置によれば、認識手段が、音声入力手段を介して入力された音声を、予め辞書手段に記憶されている複数の比較対象パターンと比較して一致度合いの高いものを認識結果とする。ここで、辞書手段は、所定の複数の発話パターンに基づいて分類された複数種類の辞書を有しており、次のようにして優先順位を設定する。
まず、ユーザからの指示を受付可能な受付手段を介して受け付けた指示に基づき、複数種類の辞書の優先順位を設定する。このように、ユーザからの指示に基づいて優先順位を設定すれば、予め所定の複数の発話パターンに基づいて分類された複数種類の辞書のうちから、ユーザの癖を反映した発話パターンに適切に対応した優先順位で辞書を用いて音声認識を実行することができる。
そして、認識手段が、優先順位の高い辞書を優先して用いて認識結果を得るようにすれば、辞書手段全体としてみた場合は膨大な比較対象パターンを持つ音声認識装置であっても、実際に使用する比較対象パターンを減らし、認識性能の低下を抑えることができる。
この場合も、優先度合いについては予め固定的に設定しておいてもよいし、請求項5に示すように、優先度合いをユーザが指示可能に構成しても良い。つまり、受付手段を介して受け付けたユーザからの指示に基づき、辞書制御手段が、優先順位の設定された辞書の優先度合いを設定する。
また、このような音声認識装置の適用先としては、種々考えられるが、その一例として請求項6に示すように、音声入力手段を、ナビゲーション装置がナビゲート処理をする上で指定される必要のある所定の地名関連データの指示を使用者が音声にて入力するために用いるようにしたナビゲーションシステムが挙げられる。このナビゲート処理としては、例えば地図表示や経路案内等が考えられる。
以下、本発明が適用された実施形態について図面を用いて説明する。なお、本発明の実施の形態は、下記の実施形態に何ら限定されることはなく、本発明の技術的範囲に属する限り種々の形態を採りうる。
[構成の説明]
(ナビゲーションシステム全体の説明)
図1は音声認識機能を持たせたナビゲーションシステム2の概略構成を示すブロック図である。本ナビゲーションシステム2は、車両に搭載されて用いられるいわゆるカーナビゲーションシステムであり、位置検出器4、データ入力器6、操作スイッチ群8、これらに接続された制御回路10、制御回路10に接続された外部メモリ12、表示装置14及びリモコンセンサ15、通信装置16及び音声認識装置30を備えている。なお制御回路10は通常のコンピュータとして構成されており、内部には、周知のCPU、ROM、RAM、I/O及びこれらの構成を接続するバスラインが備えられている。
位置検出器4は、周知のジャイロスコープ18、距離センサ20及び衛星からの電波に基づいて車両の位置を検出するためのGPS受信機22を有している。これらのセンサ等18,20,22は各々が性質の異なる誤差を持っているため、複数のセンサにより、各々補間しながら使用するように構成されている。なお、精度によっては上述した内の一部で構成してもよく、更に、ステアリングの回転センサ、各転動輪の車輪センサ等を用いてもよい。
データ入力器6は、位置検出の精度向上のためのいわゆるマップマッチング用データ、地図データ及び目印データを含むナビゲーション用の各種データに加えて、音声認識装置30において認識処理を行う際に用いる辞書データを入力するための装置である。記憶媒体としては、ハードディスクやDVD、あるいはCD−ROM等の他の媒体を用いても良い。データ記憶媒体としてDVDを用いた場合には、このデータ入力器6はDVDプレーヤとなる。
表示装置14はカラー表示装置であり、表示装置14の画面には、位置検出器4から入力された車両現在位置マークと、地図データ入力器6より入力された地図データと、更に地図上に表示する誘導経路や設定地点の目印等の付加データとを重ねて表示することができる。また、複数の選択肢を表示するメニュー画面やその中の選択肢を選んだ場合に、さらに複数の選択肢を表示するコマンド入力画面なども表示することができる。
通信装置16は、設定された連絡先通信情報によって特定される連絡先との通信を行うためのものであり、例えば携帯電話機等の移動体通信機によって構成される。
また、本ナビゲーションシステム2は、リモートコントロール端末(以下、リモコンと称する。)15aを介してリモコンセンサ15から、あるいは操作スイッチ群8により目的地の位置を入力すると、現在位置からその目的地までの最適な経路を自動的に選択して誘導経路を形成し表示する、いわゆる経路案内機能も備えている。このような自動的に最適な経路を設定する手法は、ダイクストラ法等の手法が知られている。操作スイッチ群8は、例えば、表示装置14と一体になったタッチスイッチもしくはメカニカルなスイッチ等が用いられ、各種コマンドの入力に利用される。
そして、音声認識装置30は、上記操作スイッチ群8あるいはリモコン15aが手動操作により各種コマンド入力のために用いられるのに対して、利用者が音声で入力することによっても同様に各種コマンドを入力できるようにするための装置である。
(音声認識装置30の説明)
この音声認識装置30は、音声認識部31と、対話制御部32と、音声合成部33と、音声抽出部34と、マイク35と、スイッチ36と、スピーカ37と、制御部38とを備えている。
音声認識部31は、音声抽出部34から入力された音声データを、対話制御部32からの指示により入力音声の認識処理を行い、その認識結果を対話制御部32に返す。すなわち、音声抽出部34から取得した音声データに対し、記憶している辞書データを用いて照合を行い、複数の比較対象パターン候補と比較して一致度の高い上位比較対象パターンを対話制御部32へ出力する。
入力音声中の単語系列の認識は、音声抽出部34から入力された音声データを音響モデルと順次音響分析して音響的特徴量(例えばケプストラム)を抽出する。この音響分析によって得られた音響的特徴量時系列データを得る。そして、周知のHMM(隠れマルコフモデル)、DPマッチング法あるいはニューラルネットなどによって、この時系列データをいくつかの区間に分け、各区間が辞書データとして格納されたどの単語に対応しているかを求める。
対話制御部32は、音声認識部31における認識結果や制御部38からの指示に基づき、音声合成部33への応答音声の出力指示、あるいは、ナビゲーションシステム自体の処理を実行する制御回路10に対して例えばナビゲート処理のために必要な目的地やコマンドを通知して目的地の設定やコマンドを実行させるよう指示する処理を行う。このような処理の結果として、この音声認識装置30を利用すれば、上記操作スイッチ群8あるいはリモコン15aを手動しなくても、音声入力によりナビゲーションシステムに対する目的地の指示などが可能となるのである。
なお、音声合成部33は、波形データベース内に格納されている音声波形を用い、対話制御部32からの応答音声の出力指示に基づく音声を合成する。この合成音声がスピーカ37から出力されることとなる。
音声抽出部34は、マイク35にて取り込んだ周囲の音声をデジタルデータに変換して音声認識部31に出力するものである。詳しくは、入力した音声の特徴量を分析するため、例えば数10ms程度の区間のフレーム信号を一定間隔で切り出し、その入力信号が、音声の含まれている音声区間であるのか音声の含まれていない雑音区間であるのか判定する。マイク35から入力される信号は、認識対象の音声だけでなく雑音も混在したものであるため、音声区間と雑音区間の判定を行う。この判定方法としては従来より多くの手法が提案されており、例えば入力信号の短時間パワーを一定時間毎に抽出していき、所定の閾値以上の短時間パワーが一定以上継続したか否かによって音声区間であるか雑音区間であるかを判定する手法がよく採用されている。そして、音声区間であると判定された場合には、その入力信号が音声認識部31に出力されることとなる。
また、本実施形態においては、利用者がスイッチ36を押しながらマイク35を介して音声を入力するという利用方法である。具体的には、制御部38がスイッチ36が押されたタイミングや戻されたタイミング及び押された状態が継続した時間を監視しており、スイッチ36が押された場合には音声抽出部34及び音声認識部31に対して処理の実行を指示する。一方、スイッチ36が押されていない場合にはその処理を実行させないようにしている。したがって、スイッチ36が押されている間にマイク35を介して入力された音声データが音声認識部31へ出力されることとなる。
このような構成を有することによって、本実施形態のナビゲーションシステム2では、ユーザがコマンドを入力することによって、経路設定や経路案内あるいは施設検索や施設表示など各種の処理を実行することができる。
(音声認識部31と対話制御部32の説明)
ここで、音声認識部31と対話制御部32についてさらに説明する。
図2に示すように、音声認識部31は、照合部311と辞書部312と抽出結果記憶部313とを有しており、対話制御部32は、処理部321と入力部322と辞書制御部323と発話履歴記憶部324と辞書優先順位判定部325を有している。
音声認識部31においては、抽出結果記憶部313が音声抽出部34から出力された抽出結果を記憶しておき、照合部311がその記憶された抽出結果に対し、辞書部312内に記憶されている辞書データ(以下、単に辞書と称す。)を用いて照合を行う。そして、照合部311にて辞書と比較されて一致度(尤度)が高いとされた上位の認識結果は、対話制御部32の処理部321へ出力され、対話制御部32の処理部321が、制御回路10へその認識結果を出力する。
一方、制御回路10から対話制御部32へは、辞書の重み付け(優先度合)の指示がなされる。制御回路10は、ユーザからの操作を操作スイッチ群8(図1参照)を介して受け付け、その操作に基づく指示を対話制御部32へ出力する。対話制御部32の入力部322はその指示を入力し、辞書制御部323へ出力する。
また、発話履歴記憶部324は辞書優先順位判定部325へ発話履歴を出力し、辞書優先順位判定部325ではその発話履歴に基づき、辞書の優先順位の指示を辞書制御部323へ出力する。
辞書制御部323では、辞書優先順位判定部325から入力された指示、入力部322から入力された指示に基づき、音声認識部31の辞書部312に対して、辞書の優先順位や重み付けの設定を行う。
(辞書部312の説明)
ここで辞書部312について説明する。辞書部312は、第1辞書312a、第2辞書312b、第3辞書312c、第4辞書312dを有している。これら4つの辞書312a,312b,312c,312dは、予め4つの発話パターンに基づいて分類されたものである。
その一例について、図3を参照して説明する。例えばレストランを目的地に設定する場合を想定する。その場合、ユーザの発話例として、
えーと、レストランに行きたい
あのー、レストランを目的地にする
えーと、レストラン
あのー、レストラン
レストランに行きたい
レストランを目的地にする
レストラン
のような7つの発話があるとする。
この発話は例えば、不要語、目的語、動作語の組み合わせで分類することができる。
目的地を設定するため、目的語は必ず必要なので、上記の例では、
(1)不要語、目的語、動作語
(2)不要語、目的語
(3)目的語、動作語
(4)目的語
の4つの発話パターンの組に分類できる。上記の発話例で言えば、
(1)えーと、レストランに行きたい
あのー、レストランを目的地にする
(2)えーと、レストラン
あのー、レストラン
(3)レストランに行きたい
レストランを目的地にする
(4)レストラン
という4つの発話パターンの組に分類できる。図3(a)は辞書が文法構造の場合のパターン分類例であり、図3(b)は辞書が線形構造の場合のパターン分類例を示している。
そして、これら4つの辞書312a,312b,312c,312dについては、それぞれ優先順位と重み付けを設定することができる。この優先順位と重み付けの値の設定は、対話制御部32の辞書制御部323が実行する。辞書312a,312b,312c,312dに対する優先順位と重み付けの設定例については、後で説明する。
以上、ナビゲーションシステム2の概略構成について説明したが、本実施形態におけるナビゲーションシステム2の構成と特許請求の範囲に記載した構成との対応は次のとおりである。
本実施形態においては、マイク35が音声入力手段に相当し、音声認識部31内の辞書部312が辞書手段に相当する。また、照合部311が認識手段に相当し、操作スイッチ群8及びマイク35が受付手段に相当する。また、対話制御部32内の辞書優先順位判定部325が辞書優先順位判定手段に相当し、辞書制御部323が辞書制御手段に相当する。また、発話履歴記憶部324が発話履歴記憶手段に相当する。
[音声認識処理の説明]
本実施形態のナビゲーションシステム2において実行される音声認識処理について、図4、図5のフローチャートを参照して説明する。これらのフローチャートは、音声認識部31及び対話制御部32にて実行される処理を示している。
最初のステップS10で変数i=1に設定し、続くS20にて音声が入力されると、S30にて、照合部311により入力音声と優先順位(i)の辞書との照合を行って認識処理を行う。S40では、この認識結果を処理部321へ送る。
S50では、その認識結果の尤度が閾値以上であるかを判定し、閾値以上であれば(S50:YES)、その認識結果で確定する(S80)。そして、その認識結果を発話履歴記憶部324へ記憶させる(S140)。
一方、尤度が閾値以上でなければ(S50:NO)、変数iがn−1未満か否か判定する。このnは優先順位の最大値である。i<n−1の場合は(S60:YES)、変数iをインクリメント(i=i+1)する(S70)。そして、S30へ戻り、そのインクリメントした優先順位(i)の辞書と入力音声との照合を行って認識処理を行う。
i≧n−1の場合は(S60:NO)、照合部311により入力音声と優先順位(n)の辞書との照合を行って認識処理を行う(S90)。S100では、この認識結果を処理部321へ送る。
S110では、優先順位(n)の辞書での尤度が優先順位(1)〜(n−1)の辞書での尤度以上か否か判定する。ここで、優先順位(n)の辞書での尤度が優先順位(1)〜(n−1)の辞書での尤度以上であれば(S110:YES)、優先順位(n)の辞書での認識結果で確定する(S120)。一方、優先順位(n)の辞書での尤度が優先順位(1)〜(n−1)の辞書での尤度未満であれば(S110:NO)、優先順位(1)〜(n−1)の辞書での尤度が最も高い認識結果で確定する(S130)。
S120又はS130において認識結果が確定された後は、その認識結果を発話履歴記憶部324へ記憶させる(S140)。
続くS150(図5参照)では、辞書優先順位判定部325によって、辞書の優先順位の変更があるか否か判定する。この判定は、発話履歴記憶部324に記憶された発話履歴をもとにして判定する。
辞書の優先順位の変更がある場合(S150:YES)、辞書優先順位判定部325は辞書制御部323に対して優先辞書の変更を指示し、その指示に基づいて辞書制御部323が、辞書部312に対して辞書の優先順位の設定を行う(S160)。
辞書の優先順位については、例えば図2に示すように、第2辞書を優先順位1とし、第1辞書を優先順位2、第3辞書を優先順位3、第4辞書を優先順位4としているが、優先順位1の辞書は一つで、それ以外の三つの辞書は優先順位2とする、といったように、同じ優先順位の辞書が複数存在してもよい。例えば、第2辞書を優先順位1とし、第1辞書、第3辞書及び第4辞書を共に優先順位2とする、といったことである。もちろん、場合によっては優先順位1の辞書が複数存在してもよい。
また、優先順位の判定に際しては、ユーザの癖を反映した発話パターンに適切に対応できるようにするためには、直前の発話に対応する認識結果だけでなく、過去所定回数の発話に対応する認識結果に基づくようにしてもよい。その場合は、発話履歴記憶部324に、過去所定回数(例えば10回)の発話分記憶しておき、その過去所定回数の発話分に対応する認識結果に基づいて優先順位を判定することが考えられる。
なお、辞書優先順位については、例えば次のようにして決定する。
発話履歴より発話パターンの出現回数を求め、その回数順に優先順位を付ける。例えば過去の発話パターン10回分が第1辞書3回、第2辞書6回、第3辞書1回、第4辞書0回であったとき、第2辞書を優先順位1、第1辞書を優先順位2、第3辞書を優先順位3、第4辞書を優先辞書4と決定する。
なお、第1辞書3回、第2辞書3回、第3辞書3回、第4辞書1回であったときは、第1辞書と第2辞書と第3辞書を優先順位1とし、第4辞書を優先順位2と決定する。このように、同じ優先順位に複数の辞書を設定することも可能である。
この辞書優先順位の決定方法としては、その他にもいくつか方法があり、例えば、発話履歴の割合の閾値を設定することが考えられる。例えば0.5以上,0.3以上,0.1以上、0.1未満のように設定し、過去の発話パターン10回分が第1辞書3回、第2辞書4回、第3辞書2回、第4辞書1回であったとき、第1辞書と第2辞書を優先順位1、第3辞書と第4辞書を優先辞書2と決定するようにしてもよい。
これらの過去所定回数および発話履歴の割合の閾値については、10回および0.5、0.3,0.1というように固定的に設定するようにしてもよいし、ユーザが指示可能に構成しても良い。その場合は、例えば操作スイッチ群8を介してユーザからの指示を受け付け、その受け付けた指示に基づき、辞書制御部323が過去所定回数および履歴の割合の閾値を設定する。
続くS170では、辞書の重み付けの変更があるか否か判定する。この判定は、制御回路10から辞書の重み付け(優先度合い)の指示があるか否かで判定する。
辞書の重み付けの変更がある場合(S170:YES)、その指示に基づいて辞書制御部323が、辞書部312に対して辞書の重み付けの設定を行う(S180)。
なお、辞書の重み付けに関しては、例えば優先順位1,2,3,4の辞書に対して、それぞれ重み付けを1.0,0.8,0.7,0.6というように固定的に設定するようにしてもよいし、ユーザが指示可能に構成しても良い。その場合は、例えば操作スイッチ群8を介してユーザからの指示を受け付け、その受け付けた指示に基づき、辞書制御部323が重み付けを設定する。
重み付けの設定をユーザが指示する場合としては、例えば現在の重み付けでは認識性能が悪いと感じた場合に、辞書の優先度合いを変更するために指示することが考えられる。
また、重み付けの指示の仕方としては、最終的な重み付けの値そのもの(例えば1.0,0.8,0.7,0.6といった値)を指示してもよいし、割合などで指示してもよい。例えば優先順位1の辞書と優先順位2の辞書という2種類の優先順位しかない場合に、割合6:4と指示すれば、優先順位1の辞書の重みを1.0と設定し、優先順位2の辞書の重みを0.67と設定する。3種類以上の優先順位があっても同様である。
S190にて発話の続きがあるか否か判定し、発話の続きがある場合は(S190:YES)、図4のS10へ移行し、音声入力の待ち状態となる。
発話の続きがない場合は(S190:NO)、これで一旦音声認識処理が終了となるため、現在の辞書の優先順位及び重み付けを保存する(S200)。そして、続くS210では認識結果の報知を行う。この報知は、処理部321が音声合成部33及びスピーカ37を介して音声にて報知してもよいし、処理部321からの指示に基づいて制御回路10が表示装置14に認識結果を表示することによって報知しても良い。
そして、確定指示があるか否か判断する(S220)。この確定指示の有無は、例えばユーザによるマイク35からの音声入力に基づいて判断する。例えば「はい」とか「確定」といった確定指示であると解釈してもよい内容を示す音声入力があれば確定指示ありと判断でき、また「いいえ」とか「違う」といった確定指示でないと解釈してもよい内容を示す音声入力があれば確定指示なしと判断できる。もちろん、ユーザによる確定指示は音声入力によって行う場合に限定されず、例えばスイッチ操作によって行っても良い。その場合には、操作スイッチ群8を介して認識結果の確定を指示するための操作がなされたか否かによって確定指示の有無を判断する。
確定指示なしの場合には(S220:NO)、S10へ戻って再度の音声入力に基づく音声認識処理を実行する。
一方、確定指示ありの場合には(S220:YES)、所定の確定後処理を実行する(S230)。この場合の確定後処理とは、処理部321が制御回路10へ認識結果を出力すると共に、その認識結果が確定したものである旨も通知することである。この確定後処理に応じて、制御回路10では、例えばナビゲーション機能を利用する場合の目的地設定や施設検索において目的地や施設を特定して入力する場合であれば、確定した目的地や施設に基づいて検索を行うこととなる。
[効果]
例えばレストランを目的地に設定する場合に、図3にも示す下記の4種類の辞書を用いて音声認識処理を行う。
(1)不要語、目的語、動作語の発話パターン
えーと、レストランに行きたい
あのー、レストランを目的地にする
(2)不要語、目的語の発話パターン
えーと、レストラン
あのー、レストラン
(3)目的語、動作語の発話パターン
レストランに行きたい
レストランを目的地にする
(4)目的語の発話パターン
レストラン
ここで、ある発話者が「あのー、レストラン」「えーと、レストラン」というように、不要語、目的語という形で発話することが多いとすると、(2)の辞書、つまり「不要語、目的語」という発話パターンに対応する辞書の優先順位が1と設定される。レストラン以外の施設を目的地に設定する場合でも、同じ発話パターンにて発話する可能性が高いため、このように発話者の発話の癖を学習することで、発話者の頻繁に使用する発話パターンを判定し、それに対応する辞書の優先順位を高くする。
そして、その優先順位の高い辞書を優先して用いて音声認識を実行すれば、例えば優先順位1の辞書を用いただけで最終的な認識結果を得られる可能性が高くなり、全ての辞書と照合する場合に比べて、少ない比較対象パターンとの照合を行うだけで、適切な音声認識を実現できる可能性が高くなる。
また、たとえ優先順位1の辞書を用いるだけでは認識結果が確定できなくても、優先順位の高い辞書から順番に使用して認識していくことで、全ての辞書と照合しないでも最終的な認識結果を確定できる可能性がある。
その結果、辞書手段全体としてみた場合は膨大な比較対象パターンを持つ音声認識装置であっても、実際に使用する比較対象パターンを減らし、認識性能の低下を抑えることができる。
図3に示すレストランを目的地に設定する場合の辞書を例にとって説明する。(1)〜(4)の辞書全体の比較対象パターン数は7であるが、優先順位1の(2)の辞書だけであれば比較対象パターン数は2である。
なお、優先順位が低いだけで、他の辞書を用いた音声認識も可能であるため、発話者の発話パターンが変化した場合であっても、対応できる。
[その他]
(1)上記実施形態では辞書部312内に4つの辞書312a,312b,312c,312dがある場合について説明したが、2つの辞書しかなく、一方が優先順位1の辞書、他方が優先順位2の辞書である場合には、図4のフローチャートに示す処理に替えて図6のフローチャートに示す処理を実行することとなる。
図6に示す処理について説明する。
最初のステップS510にて音声が入力されると、S520にて、照合部311により入力音声と優先順位1の辞書との照合を行って認識処理を行う。S530では、この認識結果を処理部321へ送る。
S540では、その認識結果の尤度が閾値以上であるかを判定し、閾値以上であれば(S540:YES)、その認識結果で確定する(S550)。そして、その認識結果を発話履歴記憶部324へ記憶させる(S610)。
一方、尤度が閾値以上でなければ(S540:NO)、入力音声と優先順位2の辞書との照合を行って認識処理を行う(S560)。S570では、この認識結果を処理部321へ送る。
S580では、優先順位2の辞書での尤度が優先順位1の辞書での尤度以上か否か判定する。ここで、優先順位2の辞書での尤度が優先順位1の辞書での尤度以上であれば(S580:YES)、優先順位2の辞書での認識結果で確定する(S590)。一方、優先順位2の辞書での尤度が優先順位1の辞書での尤度未満であれば(S580:NO)、優先順位1の辞書での尤度が最も高い認識結果で確定する(S600)。
S590又はS600において認識結果が確定された後は、その認識結果を発話履歴記憶部324へ記憶させる(S610)。この後は、図5のS150へ移行する。
この場合も、上記実施形態の場合と同様、辞書手段全体としてみた場合は膨大な比較対象パターンを持つ音声認識装置であっても、実際に使用する比較対象パターンを減らし、認識性能の低下を抑えることができる。
(2)上記実施形態では、目的地設定の場合を例示したが、例えばナビゲーション装置における実行コマンド(例:地図を拡大する)で考えれば、例えば「えーと、地図を大きくして」、「あのー、50mスケールにする」、「詳細を実行」という発話パターンが考えられる。そして、それらは、下記のように分類できる。
不要語:えーと、あのー
目的語:地図を大きく、50mスケール、詳細
動作語:して、にする、を実行
したがって、これらに基づいて発話パターン毎の辞書を設定し、それぞれについて優先順位や重み付けを設定すればよい。
これら発話パターンについては種々の例が考えられるが、他の一例を挙げておく。
施設名検索に際して、「不要語、都道府県名、ジャンル名、名称、動作語」というパターンが考えられる。また、曲名検索に際して、「不要語、ジャンル名、トラックNo、歌手名、曲名、動作語」というパターンが考えられる。
また、発話パターンは、その他に「動作語、目的語」という「倒置」や、「目的語、不要語、動作語」「目的語、動作語、不要語」といった「不要語の位置の変更」といったバリエーションも考えられる。
(3)上記実施形態では、辞書部312内の4つの辞書312a,312b,312c,312dの優先順位を、音声認識装置30側が自動的に判断して設定するようにしたが、優先順位自体をユーザの指示に基づいて設定するようにしてもよい。
その場合は、例えば操作スイッチ群8を介してユーザからの指示を受け付け、その受け付けた指示に基づき、辞書制御部323が優先順位を設定する。辞書毎の優先順位を設定する場合には、例えば表示装置14へ発話パターンを例示し、その発話パターン毎にユーザが希望の順位を設定していくような手法が考えられる。
(4)複数のユーザが利用する場合には、ユーザ毎の識別情報(ユーザID)に対応させて辞書の優先順位及び重み付けを記憶させておき、ナビゲーションシステム2の使用開始時(あるいは音声認識装置30の使用開始時)にユーザIDを入力することで、ユーザ毎の設定情報を用いた音声認識を実行することができるようにしておれば、対応可能である。
音声認識機能を持たせたナビゲーションシステム2の概略構成を示すブロック図である。 音声認識装置30における音声認識部31と対話制御部32の構成を示すブロック図である。 辞書部312の辞書データの一例を示す説明図である。 音声認識処理の前半を示すフローチャートである。 音声認識処理の後半を示すフローチャートである。 音声認識処理の別例を示すフローチャートである。
符号の説明
2…ナビゲーションシステム、4…位置検出器、6…データ入力器、6…地図データ入力器、8…操作スイッチ群、10…制御回路、12…外部メモリ、14…表示装置、15…リモコンセンサ、15a…リモコン、16…通信装置、18…ジャイロスコープ、22…GPS受信機、30…音声認識装置、31…音声認識部、32…対話制御部、33…音声合成部、34…音声抽出部、35…マイク、36…スイッチ、37…スピーカ、38…制御部、311…照合部、312…辞書部、313…抽出結果記憶部、321…処理部、322…入力部、323…辞書制御部、324…発話履歴記憶部、325…辞書優先順位判定部。

Claims (6)

  1. 音声をひと続きで入力可能な音声入力手段と、
    該音声入力手段を介して入力された音声を、予め辞書手段に記憶されている複数の比較対象パターンと比較して一致度合いの高いものを認識結果とする認識手段と、を備える音声認識装置であって、
    前記辞書手段は、所定の複数の発話パターンに基づいて分類された複数種類の辞書を有しており、
    前記認識手段による認識結果に基づくユーザの発話パターンと前記所定の複数の発話パターンとの類似度合いを用いて、その類似度合いが高いほど順位が高くなるように前記複数種類の辞書の優先順位を判定する辞書優先順位判定手段と、
    その辞書優先順位判定手段による判定結果に基づいて、前記複数種類の辞書の優先順位を設定する辞書制御手段と、
    を備え、
    前記認識手段は、前記辞書制御手段によって設定された優先順位の高い辞書を優先的に用いて認識結果を得ることを特徴とする音声認識装置。
  2. 請求項1に記載の音声認識装置において、
    ユーザからの指示を受付可能な受付手段を備え、
    前記辞書制御手段は、前記受付手段を介して受け付けた指示に基づき、前記優先順位の設定された辞書の優先度合いを設定し、
    前記認識手段は、前記辞書制御手段によって設定された優先度合いに基づいて前記一致度合いの判定を行うこと
    を特徴とする音声認識装置。
  3. 請求項1または2に記載の音声認識装置において、
    前記認識手段による認識結果を、過去所定回数の発話分記憶しておく発話履歴記憶手段を備え、
    前記辞書優先順位判定手段は、前記発話履歴記憶手段に記憶された過去所定回数の発話分に対応する認識結果に基づくユーザの発話パターンと前記所定の複数の発話パターンとの類似度合いを用いて、辞書の優先順位を判定すること
    を特徴とする音声認識装置。
  4. 音声をひと続きで入力可能な音声入力手段と、
    該音声入力手段を介して入力された音声を、予め辞書手段に記憶されている複数の比較対象パターンと比較して一致度合いの高いものを認識結果とする認識手段と、を備える音声認識装置であって、
    前記辞書手段は、所定の複数の発話パターンに基づいて分類された複数種類の辞書を有しており、
    ユーザからの指示を受付可能な受付手段と、
    前記受付手段を介して受け付けた指示に基づき、前記複数種類の辞書の優先順位を設定する辞書制御手段と、
    を備え、
    前記認識手段は、前記辞書制御手段によって設定された優先順位の高い辞書を優先的に用いて認識結果を得ることを特徴とする音声認識装置。
  5. 請求項4に記載の音声認識装置において、
    前記辞書制御手段は、前記受付手段を介して受け付けた指示に基づき、前記優先順位の設定された辞書の優先度合いを設定し、
    前記認識手段は、前記辞書制御手段によって設定された重みに基づいて前記一致度合いの判定を行うこと
    を特徴とする音声認識装置。
  6. 請求項1〜5の何れかに記載の音声認識装置と、その音声認識装置にて認識された結果に基づいて所定の処理を実行するナビゲーション装置とを備え、
    前記音声入力手段は、少なくとも前記ナビゲーション装置がナビゲート処理をする上で指定される必要のある所定の地名関連データの指示を使用者が音声にて入力するために用いられることを特徴とするナビゲーションシステム。
JP2008078686A 2008-03-25 2008-03-25 音声認識装置及びナビゲーションシステム Pending JP2009230068A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008078686A JP2009230068A (ja) 2008-03-25 2008-03-25 音声認識装置及びナビゲーションシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008078686A JP2009230068A (ja) 2008-03-25 2008-03-25 音声認識装置及びナビゲーションシステム

Publications (1)

Publication Number Publication Date
JP2009230068A true JP2009230068A (ja) 2009-10-08

Family

ID=41245497

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008078686A Pending JP2009230068A (ja) 2008-03-25 2008-03-25 音声認識装置及びナビゲーションシステム

Country Status (1)

Country Link
JP (1) JP2009230068A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013005248A1 (ja) * 2011-07-05 2013-01-10 三菱電機株式会社 音声認識装置およびナビゲーション装置
KR101394422B1 (ko) * 2012-05-04 2014-05-13 현대엠엔소프트 주식회사 음성 인식 방법 및 그 장치
JPWO2013005248A1 (ja) * 2011-07-05 2015-02-23 三菱電機株式会社 音声認識装置およびナビゲーション装置
CN106133826A (zh) * 2014-03-27 2016-11-16 微软技术许可有限责任公司 用于语言模型自定义的灵活模式
US10304448B2 (en) 2013-06-21 2019-05-28 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
JP2019144759A (ja) * 2018-02-19 2019-08-29 コニカミノルタ株式会社 画像処理装置、画像処理装置の制御方法、およびプログラム
US10572602B2 (en) 2013-06-21 2020-02-25 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11102196A (ja) * 1997-09-29 1999-04-13 Ricoh Co Ltd 音声対話システム及び音声対話方法及び記録媒体
WO2000049599A1 (fr) * 1999-02-19 2000-08-24 Sony Corporation Traducteur de sons vocaux, procede de traduction de sons vocaux et support d'enregistrement sur lequel est enregistre un programme de commande de traduction de sons vocaux
JP2001134285A (ja) * 1999-11-01 2001-05-18 Matsushita Electric Ind Co Ltd 音声認識装置
JP2001188558A (ja) * 1999-12-27 2001-07-10 Internatl Business Mach Corp <Ibm> 音声認識装置、方法、コンピュータ・システム及び記憶媒体
JP2003330485A (ja) * 2002-05-10 2003-11-19 Tokai Rika Co Ltd 音声認識装置、音声認識システム及び音声認識方法
JP2006018028A (ja) * 2004-07-01 2006-01-19 Nippon Telegr & Teleph Corp <Ntt> 対話方法、対話装置、音声対話装置、対話プログラム、音声対話プログラム及び記録媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11102196A (ja) * 1997-09-29 1999-04-13 Ricoh Co Ltd 音声対話システム及び音声対話方法及び記録媒体
WO2000049599A1 (fr) * 1999-02-19 2000-08-24 Sony Corporation Traducteur de sons vocaux, procede de traduction de sons vocaux et support d'enregistrement sur lequel est enregistre un programme de commande de traduction de sons vocaux
JP2001134285A (ja) * 1999-11-01 2001-05-18 Matsushita Electric Ind Co Ltd 音声認識装置
JP2001188558A (ja) * 1999-12-27 2001-07-10 Internatl Business Mach Corp <Ibm> 音声認識装置、方法、コンピュータ・システム及び記憶媒体
JP2003330485A (ja) * 2002-05-10 2003-11-19 Tokai Rika Co Ltd 音声認識装置、音声認識システム及び音声認識方法
JP2006018028A (ja) * 2004-07-01 2006-01-19 Nippon Telegr & Teleph Corp <Ntt> 対話方法、対話装置、音声対話装置、対話プログラム、音声対話プログラム及び記録媒体

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013005248A1 (ja) * 2011-07-05 2013-01-10 三菱電機株式会社 音声認識装置およびナビゲーション装置
JPWO2013005248A1 (ja) * 2011-07-05 2015-02-23 三菱電機株式会社 音声認識装置およびナビゲーション装置
KR101394422B1 (ko) * 2012-05-04 2014-05-13 현대엠엔소프트 주식회사 음성 인식 방법 및 그 장치
US10304448B2 (en) 2013-06-21 2019-05-28 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US10572602B2 (en) 2013-06-21 2020-02-25 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
CN106133826A (zh) * 2014-03-27 2016-11-16 微软技术许可有限责任公司 用于语言模型自定义的灵活模式
JP2017515141A (ja) * 2014-03-27 2017-06-08 マイクロソフト テクノロジー ライセンシング,エルエルシー 言語モデルカスタマイズのためのフレキシブルスキーマ
US10497367B2 (en) 2014-03-27 2019-12-03 Microsoft Technology Licensing, Llc Flexible schema for language model customization
CN106133826B (zh) * 2014-03-27 2019-12-17 微软技术许可有限责任公司 用于语言模型自定义的灵活模式
JP2019144759A (ja) * 2018-02-19 2019-08-29 コニカミノルタ株式会社 画像処理装置、画像処理装置の制御方法、およびプログラム
JP7003720B2 (ja) 2018-02-19 2022-01-21 コニカミノルタ株式会社 画像処理装置、画像処理装置の制御方法、およびプログラム

Similar Documents

Publication Publication Date Title
US10818286B2 (en) Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system
CN106796786B (zh) 语音识别系统
US7822613B2 (en) Vehicle-mounted control apparatus and program that causes computer to execute method of providing guidance on the operation of the vehicle-mounted control apparatus
US20140100847A1 (en) Voice recognition device and navigation device
US6937982B2 (en) Speech recognition apparatus and method using two opposite words
JP2008058409A (ja) 音声認識方法及び音声認識装置
JP2009230068A (ja) 音声認識装置及びナビゲーションシステム
JP2023179631A (ja) 情報処理装置
JP4466379B2 (ja) 車載音声認識装置
JP5500100B2 (ja) 音声案内システム
JP2003032388A (ja) 通信端末装置及び処理システム
WO2014199428A1 (ja) 候補告知装置、候補告知方法及び候補告知用プログラム
JP4938719B2 (ja) 車載情報システム
JP5772214B2 (ja) 音声認識装置
JP4941494B2 (ja) 音声認識システム
JP3296783B2 (ja) 車載用ナビゲーション装置および音声認識方法
KR100677711B1 (ko) 음성 인식 장치, 기억 매체 및 네비게이션 장치
JP3700533B2 (ja) 音声認識装置及び処理システム
JP2005227369A (ja) 音声認識装置および方法と車載ナビゲーション装置
JP2007256643A (ja) 音声認識装置及びナビゲーションシステム
JP4093394B2 (ja) 音声認識装置
JP2011180416A (ja) 音声合成装置、音声合成方法およびカーナビゲーションシステム
JPH11231889A (ja) 音声認識装置
KR20060098673A (ko) 음성 인식 방법 및 장치
JP4645708B2 (ja) コード認識装置および経路探索装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111129

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120925