JP2013019958A

JP2013019958A - 音声認識装置

Info

Publication number: JP2013019958A
Application number: JP2011150993A
Authority: JP
Inventors: Yuki Fujisawa; 友紀藤澤; Katsushi Asami; 克志浅見
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2011-07-07
Filing date: 2011-07-07
Publication date: 2013-01-31
Also published as: CN102867510A; US20130013310A1

Abstract

【課題】リストの手動操作と音声操作とを融合し、ユーザにとって利便性の高い音声認識装置を提供する。
【解決手段】入力される音声の信号レベルに基づき音声区間であることを判断し（Ｓ１２０〜Ｓ１４０）、当該音声区間に対応する音声データが記憶して（Ｓ１５０）音声を認識する（Ｓ１７０）。そして、認識結果と共に当該認識結果に対応するリスト表示を行う（Ｓ１８０）。このとき、確定操作が行われないうちは（Ｓ１９０：ＮＯ）、音声の抽出を繰り返すようにすると共に、リスト表示される対応項目の手動操作を可能にする（Ｓ１１０）。
【選択図】図２

Description

本発明は、車載機器の操作などの少なくとも一部を音声で行うための音声認識装置に関する。

従来、入力された音声を予め記憶されている複数の比較対象候補と比較し、一致度合いの高いものを認識結果とする音声認識装置が知られている。近年、音声認識装置の中には、例えばハンズフリーシステムにおいて電話番号を音声入力するための装置も提案されている（例えば、特許文献１参照）。また、音声認識結果を上手く利用して、ユーザからの操作受付を簡易なものにする手法も開示されている（例えば、特許文献２参照）。

このような音声認識技術を採用すれば、ボタン操作などが軽減されるため、特に運転者自身が利用する場合、車両の走行中に行っても安全でありメリットが大きい。

特開２００７−２５６６４３号公報特開２００８−１４８１８号公報

しかしながら、従来の音声認識装置では、音声操作を行う場合には、音声操作特有の操作が必要になってくる。例えば、階層化されたリスト表示を基にした手動操作が可能な構成があるが、このような手動操作と音声操作とは一般的に別個のものとなっており、手動操作とは別の音声操作が分かり難いものとなっているケースが見受けられる。

本発明は、上述した課題を解決するためになされたものであり、その目的は、リストの手動操作と音声操作とを融合し、ユーザにとって利便性の高い音声認識装置を提供することにある。

上述した目的を達成するためになされた請求項１に記載の音声認識装置は、音声認識に用いる認識辞書を備え、当該認識辞書を用いて入力された音声を認識するものである。
本発明の音声認識装置は、音声区間抽出処理、認識処理、及び、リスト処理を実行可能となっている。

音声区間抽出処理は、入力される音声の信号レベルに基づき、音声区間を抽出するものである。認識処理では、音声区間抽出処理にて音声区間が抽出されると、当該音声区間に対応する音声データを、認識辞書を用いて認識する。また、リスト処理では、認識処理による認識結果を表示すると共に、当該認識結果に対応する対応項目をリスト表示する。

ここで特に本発明では、リスト処理にてリスト表示される対応項目を手動操作可能としている。
リスト表示の具体例は、図６に示すごとくである。例えば図６（ａ）に示す初期画面表示において「ミュージック」という音声を発すると、図６（ｂ）に示すように、認識結果「ミュージック」と認識結果に対応する対応項目「歌手Ａ」、「歌手Ｂ」、「歌手Ｃ」、「歌手Ｄ」がリスト表示される。そして、このような対応項目を選択するなどの手動操作
が可能となっている。

つまり、本発明では、認識結果に対応する対応項目がリスト表示され、当該リストの手動操作が可能となっているため、手動操作と並列の音声操作が可能となり、音声操作が分かり易いものとなる。このようにすれば、リストの手動操作と音声操作とが融合され、ユーザにとって利便性の高い音声認識装置となる。

なお、従来の音声認識装置には、発話に先立って、発話のトリガとなるボタン操作が必要なものがある。この場合、不認識や誤認識があったときは、都度、ボタン操作を行うことが必要となってくる。また、ボタン操作の後、すぐに発話する必要があり、発話のタイミングが限定されてしまう。

そこで請求項２に示すように、所定操作を検出しないうちは前記音声区間抽出処理を繰り返すこととしてもよい。つまり、例えば確定ボタンなどの押下があるまで、音声区間抽出処理が繰り返すのである。その結果、認識処理及びリスト処理が繰り返される。したがって、不認識や誤認識があったときも、繰り返し発話を行うことが可能となり、発話に先立つボタン操作が不要となる。また、音声区間が自動的に抽出されるため、発話のタイミングが限定されることがない。このようにすれば、一層、ユーザにとって利便性の高い音声認識装置となる。

ところで、手動操作をした場合にも音声操作と同様のリスト表示を行うようにすると、便利である。そこで、請求項３に示すように、対応項目が手動操作にて選択された場合、当該選択された対応項目である選択項目を表示すると共に、当該選択項目に対応する対応項目をリスト表示するようにしてもよい。例えば図６の例では、図６（ｂ）に示した対応項目「歌手Ａ」、「歌手Ｂ」、「歌手Ｃ」、「歌手Ｄ」のうち「歌手Ａ」が音声として発せされた場合も手動で選択された場合も、同様に、図６（ｃ）に示すような「歌手Ａ」と「歌手Ａ」に対応する対応項目「楽曲Ａ」、「楽曲Ｂ」、「楽曲Ｃ」、「楽曲Ｄ」がリスト表示されるという具合である。このようにすれば、手動操作を行った場合にも音声操作と同様のリスト表示がなされ、音声操作がより分かり易くなる。

なお、認識辞書には、いわゆる汎用辞書を採用することが考えられる。ただし、比較対象候補を記憶した専用辞書を用いることで認識率を上げることができる。このような前提の下、請求項４に示すように、上述した対応項目を、比較対象候補の一部であることとしてもよい。例えば、図６（ｂ）の例では、対応項目「歌手Ａ」、「歌手Ｂ」、「歌手Ｃ」、「歌手Ｄ」が比較対象候補の一部になっているという具合である。この場合、リスト表示される対応項目が比較対象候補であるため、リスト表示を見て、そのリスト表示された対応項目から発する音声を選択することができる。このようにすれば、音声操作がより分かり易いものになる。

また、専用辞書を用いることを前提とし、請求項５に示すように、認識処理では、音声データが、リスト表示される対応項目と関係なく、全ての比較対象候補と比較されることとしてもよい。この場合、リスト表示されている比較対象候補はもちろん、リスト表示されていない比較対象候補と音声データとが比較される。例えば図６（ａ）に示す初期画面表示において、「ミュージック」という音声を発した場合、図６（ｂ）に示すように、認識結果「ミュージック」と、認識結果に対応する対応項目「歌手Ａ」、「歌手Ｂ」、「歌手Ｃ」、「歌手Ｄ」がリスト表示される。この状態において、リスト表示にない「エアコン」という音声を発した場合でも、「エアコン」という音声を認識することができ、これにより、認識結果「エアコン」と、認識結果に対応する対応項目「温度」、「風量」、「内気循環」、「外気導入」がリスト表示される。このようにすれば、自由度の高い音声操作が実現できる。

ところで、所定操作の一例が確定ボタンの押下であることは既に述べた。すなわち、請求項６に示すように、所定操作は、所定の確定操作であることとしてもよい。なお、所定の確定操作には、確定ボタンの押下のみならず、例えば「確定」という音声を発する操作としてもよい。

一方、請求項７に示すように、所定操作は、リスト処理にてリスト表示される対応項目の手動操作であることとしてもよい。この場合は、手動操作が介在した時点で音声認識の処理が終了することになる。

いずれの構成を採用しても、不認識や誤認識があったときも繰り返し発話を行うことが可能となり、発話に先立つボタン操作が不要となる。また、音声区間が自動的に抽出されるため、発話のタイミングが限定されることがない。

なお、リスト表示は、図６の例に示すような比較対象候補のリストとしてもよいが、請求項８に示すように、リスト表示される対応項目が操作用アイコンとして表示されるようにしてもよい。例えば、図７に示すごとくである。このようにすれば、手動操作が分かり易くなり、音声操作から手動操作への移行がスムーズになる。

ところで、上述した各構成では音声区間抽出処理に特徴を有している。例えば請求項９に示すように、音声区間抽出処理では、音声の信号レベルが閾値を下回る無声区間を判断して音声区間を抽出することが考えられる。このようにすれば、比較的簡単に音声を抽出することができる。

このとき、請求項１０に示すように、第１無声区間を判断して音声区間を抽出すると共に、第１無声区間よりも長い第２無声区間が判断されるまで音声区間を繰り返し抽出することにより複数の音声区間を抽出するようにしてもよい。このとき、認識処理では、複数の音声区間に対応する複数の音声データを認識する。このようにすれば、複数の音声データを一度に認識することができ、音声操作の幅が広がる。

音声認識装置の全体構成を示すブロック図である。音声認識処理を示すフローチャートである。音声の信号を模式的に示す説明図である。リスト表示処理を示すフローチャートである。手動操作処理を示すフローチャートである。リスト表示を例示する説明図である。操作用アイコンによるリスト表示を示す説明図である。

以下、本発明の実施形態を説明する。
図１は、一実施形態の音声認識装置１の概略構成を示すブロック図である。
音声認識装置１は、車両に搭載されて用いられ、装置全体の制御を司る制御部１０を中心に構成されている。制御部１０は、いわゆるコンピュータであり、ＣＰＵ、ＲＯＭ、ＲＡＭ、Ｉ／Ｏ、及びこれらを接続するバスラインを含む。

制御部１０には、音声認識ユニット２０、操作スイッチ群３０、及び、表示部４０が接続されている。
音声認識ユニット２０は、音声入力部２１、音声記憶部２２、音声認識部２３、及び、表示決定部２４を有している。

音声入力部２１は、音声を入力するための構成であり、音声入力部２１には、マイクロフォン５０が接続されている。音声入力部２１に入力されて切り出される音声は、音声記憶部２２に音声データとして記憶される。

音声認識部２３は、音声記憶部２２に記憶された音声データの認識を行う。具体的には、音声認識部２３は、認識辞書２５を参照し、音声データを予め記憶された比較対象候補と比較して当該比較対象候補から認識結果を得る。つまり、認識辞書２５は、比較対象候補を記憶する専用辞書となっている。また、本実施形態では、比較対象候補のグループ分けなどはなされておらず、音声データは、認識辞書２５に記憶された比較対象候補の全部と比較されるようになっている。

表示決定部２４は、音声認識部２３にて得られる認識結果に基づき、当該認識結果に対応する対応項目を決定する。認識結果に対応する対応項目は、対応項目表２６として用意されている。

操作スイッチ群３０は、ユーザによる手動操作を可能とする構成である。表示部４０は、例えば液晶ディスプレイを有する構成として具現化され、ユーザに対する情報表示を行う。

次に、本実施形態における音声認識処理を説明する。この音声認識処理は、制御部１０にて実行されるものであり、操作スイッチ群３０を介した所定操作があると実行される。
最初のＳ１００では、初期画面表示を行う。この処理は、図１中の表示部４０に初期のリスト表示を行うものである。具体的には、図６（ａ）に示すように、「Ｌｉｓｔｅｎｉｎｇ」という表示を画面の上部に行い、音声の認識候補の一部をその下に表示する。図６（ａ）では、「エアコン」、「ミュージック」、「電話」、「周辺検索」の４項目が表示されている。

続くＳ１１０では、手動操作処理を実行する。本実施形態では、音声操作と並行して手動操作が可能となっており、音声認識処理の中で繰り返し手動操作処理が実行される。手動操作処理については後述する。

続くＳ１２０では、音声区間か否かを判断する。この処理は、閾値以上のレベルの信号がマイクロフォン５０を介して音声入力部２１に入力されたことを判断するものである。ここで音声区間であると判断された場合（Ｓ１２０：ＹＥＳ）、Ｓ１３０へ移行する。一方、音声区間でないと判断された場合（Ｓ１２０：ＮＯ）、Ｓ１１０からの処理を繰り返す。

音声区間であると判断された場合に移行するＳ１３０では、音声を取得する。この処理は、音声入力部２１に入力される音声をバッファなどに取得するものである。
続くＳ１４０では、第１無声区間であるか否かを判断する。マイクロフォン５０を介して音声入力部２１に入力される信号レベルが閾値を下回る区間を、無声区間とする。具体的に、無声区間は、車両の走行に伴う雑音などによって構成される。そして、ここでは、そのような無声区間が所定時間Ｔ１だけ連続する区間を、第１無声区間として判断する。ここで第１無声区間であると判断された場合（Ｓ１４０：ＹＥＳ）、Ｓ１５０にて、Ｓ１３０で取得した音声を音声記憶部２２に音声データとして記憶する。一方、第１無声区間でないと判断された場合（Ｓ１４０：ＮＯ）、すなわち音声区間である場合又は無声区間であるが所定時間Ｔ１が経過していない場合は、Ｓ１３０からの処理を繰り返す。

Ｓ１５０の処理に続くＳ１６０では、第２無声区間であるか否かを判断する。ここでは
、無声区間が所定時間Ｔ２だけ連続する区間を、第２無声区間として判断する。ここで第２無声区間であると判断された場合（Ｓ１６０：ＹＥＳ）、Ｓ１７０へ移行する。一方、第２無声区間でない場合（Ｓ１６０：ＮＯ）、Ｓ１１０からの処理を繰り返す。

ここで音声データの記憶について説明しておく。
図３は、マイクロフォン５０を介して入力される音声の信号を模式的に示す説明図である。ここで時刻ｔ１にて音声操作の開始が操作スイッチ群３０によって指示されたものとする。

このとき、時刻ｔ２から時刻ｔ３までが「音声区間Ａ」として判断され（図２中のＳ１２０：ＹＥＳ）、第１無声区間Ｔ１との判断が行われないうちは（Ｓ１４０：ＮＯ）、音声が取得される（Ｓ１３０）。第１無声区間Ｔ１が判断されると（Ｓ１４０：ＹＥＳ）、音声区間Ａに対応する音声データが記憶される（Ｓ１５０）。

そして、第２無声区間Ｔ２であるとの判断が行われないうちは（図２中のＳ１６０：ＮＯ）、Ｓ１１０からの処理が繰り返される。図３の例では、時刻ｔ４から時刻ｔ５までが「音声区間Ｂ」として判断され（Ｓ１２０：ＹＥＳ）、音声区間Ｂに対応する音声データが記憶される（Ｓ１５０）。

その後、第２無声区間Ｔ２との判断が行われると（Ｓ１６０：ＹＥＳ）、認識処理が実行される（Ｓ１７０）。したがって、図３の例では、音声区間Ａ及び音声区間Ｂの２つの音声区間に対応する音声データが認識処理の対象となる。つまり、本実施形態では、複数の音声データが認識処理の対象になり得る。

図２の説明に戻りＳ１７０では、認識処理を実行する。この処理は、Ｓ１５０にて音声記憶部２２に記憶した音声データを認識辞書２５の比較対象候補と比較し、音声データに対応する認識結果を得るものである。

続くＳ１８０では、リスト処理を実行する。ここでリスト処理について説明を加える。図４は、リスト処理を示すフローチャートである。
最初のＳ１８１では、認識結果があるか否かを判断する。この処理は、図２中のＳ１７０の認識処理にて何らかの認識結果が得られたか否かを判断するものである。ここで認識結果があると判断された場合（Ｓ１８１：ＹＥＳ）、Ｓ１８２へ移行する。一方、認識結果がないと判断された場合（Ｓ１８１：ＮＯ）、すなわちＳ１７０にて認識不能であった場合は、以降の処理を実行せず、リスト処理を終了する。

Ｓ１８２では、認識結果を表示する。この処理は、表示部４０に、Ｓ１７０における認識結果を表示するものである。
続くＳ１８３では、対応項目を表示する。表示決定部２４は、対応項目表２６を参照し、音声認識部２３による認識結果に対応する対応項目を決定する。この処理は、表示決定部２４にて決定される対応項目を、表示部４０に表示するものである。

図２の説明に戻り、Ｓ１９０では、確定操作があったか否かを判断する。ここで確定操作があったと判断された場合（Ｓ１９０：ＹＥＳ）、音声認識処理を終了する。一方、確定操作がないうちは（Ｓ１９０：ＮＯ）、Ｓ１１０からの処理を繰り返す。

次に、図２中Ｓ１１０の手動操作処理について説明する。図５は、手動操作処理を示すフローチャートである。上述したように本実施形態では、音声操作に並行して手動操作が可能となるよう手動操作処理が繰り返し実行される。

最初のＳ１１１では、手動操作があるか否かを判断する。この処理は、操作スイッチ群３０を介したボタン操作などがあったことを判断するものである。ここで手動操作があったと判断された場合（Ｓ１１１：ＹＥＳ）、Ｓ１１２へ移行する。一方、手動操作がないと判断された場合（Ｓ１１１：ＮＯ）、手動操作処理を終了する。

Ｓ１１２では、選択操作か否かを判断する。この処理は、表示された対応項目の選択処理が行われたか否かを判断するものである。ここで選択操作が行われたと判断された場合（Ｓ１１２：ＹＥＳ）、Ｓ１１３へ移行する。一方、選択操作が行われていないと判断された場合（Ｓ１１２：ＮＯ）、以降の処理を実行せず、手動操作処理を終了する。

Ｓ１１３では、選択された対応項目である選択項目を表示する。この表示は、上述した認識結果の表示と同様に、表示部４０に表示される。
続くＳ１１４では、選択項目に対応する対応項目を、表示部４０に表示する。

ここで上述した音声認識処理に対する理解を容易にするため、リスト表示について具体的な説明を加える。図６は、リスト表示を例示する説明図である。
上述したように当初のリスト表示は、図６（ａ）に示すごとくである（図２中のＳ１００）。ここでＳ１７０の認識処理による認識結果が「ミュージック」である場合、Ｓ１８０のリスト処理にて、認識結果が「ミュージック」として表示されると共に、ミュージックに対応する対応項目が「歌手Ａ」、「歌手Ｂ」、「歌手Ｃ」、「歌手Ｄ」として表示される。図６（ｂ）に示す如くである。

ここで確定操作がないうちは（図２中のＳ１９０：ＮＯ）、続けて音声操作が可能となっており、Ｓ１７０の認識処理による認識結果が「歌手Ａ」である場合、Ｓ１８０のリスト処理にて、認識結果が「歌手Ａ」として表示されると共に、歌手Ａに対応する対応項目が「楽曲Ａ」、「楽曲Ｂ」、「楽曲Ｃ」、「楽曲Ｄ」として表示される。図６（ｃ）に示す如くである。

また、Ｓ１７０の認識処理による認識結果が「エアコン」である場合、Ｓ１８０のリスト処理にて、認識結果が「エアコン」として表示されると共に、エアコンに対応する対応項目が「温度」、「風量」、「内気循環」、「外気導入」として表示される。図６（ｄ）に示す如くである。

ここで確定操作がないうちは（図２中のＳ１９０：ＮＯ）、続けて音声操作が可能となっており、Ｓ１７０の認識処理による認識結果が「温度」である場合、Ｓ１８０のリスト処理にて、認識結果が「温度」として表示されると共に、温度に対応する対応項目が「２５℃」、「２７℃」、「２７．５℃」、「２８℃」として表示される。図６（ｅ）に示す如くである。

さらに発話があり、Ｓ１７０の認識処理による認識結果が「２５℃」である場合、Ｓ１８０のリスト処理にて、認識結果が「２５℃」として表示されると共に、２５℃に対応する対応項目が「２５．５℃」、「２７℃」、「２７．５℃」、「２８℃」として表示される。図６（ｆ）に示す如くである。なお、「２５℃」に対して、他の温度の候補を表示するのは誤認識があった場合、即座に別の温度を選択可能とするためである。

ところで、本実施形態では、確定操作がないうちは（図２中のＳ１９０：ＮＯ）、手動操作処理が繰り返し実行される（Ｓ１１０）。これにより、上述したリスト表示は、手動操作によっても、同様に実現される。

例えば、音声の認識結果が「ミュージック」である場合、図６（ｂ）に示したようにミ
ュージックに対応する対応項目が「歌手Ａ」、「歌手Ｂ」、「歌手Ｃ」、「歌手Ｄ」として表示されるのであるが、このとき、操作スイッチ群３０を介した「歌手Ａ」の選択操作があると（図５中のＳ１１２：ＹＥＳ）、図６（ｃ）に示したように、選択項目「歌手Ａ」が表示されると共に（Ｓ１１３）、歌手Ａに対応する対応項目が「楽曲Ａ」、「楽曲Ｂ」、「楽曲Ｃ」、「楽曲Ｄ」として表示される（Ｓ１１４）。

つまり、音声操作によっても手動操作によっても、同様のリスト表示が行われるのである。
一方、本実施形態では、音声認識部２３は、リスト表示とは関係なく、音声データに対し、認識辞書２５に記憶されている全ての比較対象候補との比較を行う。かかる構成により、図６（ａ）に示したリスト表示がなされている状態であっても、「エアコン」、「ミュージック」、「電話」、「周辺検索」の４項目以外の「歌手Ａ」、「歌手Ｂ」などの音声を認識することができるようになっており、認識結果が「歌手Ａ」である場合には、図６（ｃ）に示したリスト表示が行われる。

同様に図６（ｃ）に示したリスト表示がなされている状態であっても、「歌手Ａ」、「歌手Ｂ」、「歌手Ｃ」、「歌手Ｄ」の４項目以外の「エアコン」や「温度」などの音声を認識することができるようになっており、認識結果が「エアコン」である場合には図６（ｄ）に示したリスト表示が行われ、認識結果が「温度」である場合には図６（ｅ）に示したリスト表示が行われる。

さらにまた、上述したように、本実施形態では、複数の音声データが一回の認識処理の対象となり得る。したがって、例えば「ミュージック」と発話され音声認識が行われる前に、すなわち無声区間Ｔ２であるとの判断が行われないうちに（図２中のＳ１６０：ＮＯ）、「歌手Ａ」と発話された場合、図６（ｂ）ではなく図６（ｃ）に示したリスト表示を行うという具合である。これは、「ミュージック」に続けて「歌手Ａ」と発話した場合、「ミュージック」の中でも「歌手Ａ」の楽曲を聴きたいというユーザの目的に沿ったものとなるためである。また例えば「ミュージック」と発話され音声認識が行われる前に、すなわち無声区間Ｔ２であるとの判断が行われないうちに（図２中のＳ１６０：ＮＯ）、「エアコン」と発話された場合、後者の「エアコン」という発話を優先し、図６（ｄ）に示したリスト表示を行うという具合である。これは、「ミュージック」に続けて「エアコン」と発話した場合、「ミュージック」と言ったもののやっぱりエアコンの操作がしたい、というユーザの「言い直し」と見られるためである。なお、複数の音声データが認識対象となった場合における表示態様は、リスト表示との兼ね合いなどから設計することができる。

次に、本実施形態の音声認識装置１が発揮する効果を説明する。
本実施形態では、入力される音声の信号レベルに基づき音声区間であることが判断され（図２中のＳ１２０〜Ｓ１４０）、当該音声区間に対応する音声データが記憶されて（Ｓ１５０）認識される（Ｓ１７０）。そして、認識結果と共に当該認識結果に対応するリスト表示が行われる（Ｓ１８０，図４中のＳ１８２，Ｓ１８３）。このとき、本実施形態では、確定操作が行われないうちは（図２中のＳ１９０：ＮＯ）、音声の抽出が繰り返されると共に、リスト表示される対応項目の手動操作が可能となっている（Ｓ１１０）。

つまり、本実施形態では、確定ボタンなどの押下があるまで、音声区間の抽出が繰り返されるようにした。結果として、音声の認識及び認識結果に対応するリスト表示が繰り返される。したがって、不認識や誤認識があったときも、繰り返し発話を行うことが可能となり、発話に先立つボタン操作が不要となる。また、音声区間が自動的に抽出されるため、発話のタイミングが限定されることがない。しかも、認識結果に対応する対応項目がリスト表示され、当該リストの手動操作が可能となっているため、手動操作と並列の音声操
作が可能となり、音声操作が分かり易いものとなる。これにより、リストの手動操作と音声操作とが融合され、ユーザにとって利便性の高い音声認識装置となる。

また、本実施形態では、手動操作があった場合（図５中のＳ１１１：ＹＥＳ）、対応項目が選択された場合には（Ｓ１１２：ＹＥＳ）、選択項目が表示されると共に（Ｓ１１３）当該選択項目に対応する対応項目がリスト表示される（Ｓ１１４）。図６の例では、図６（ｂ）に示した対応項目「歌手Ａ」、「歌手Ｂ」、「歌手Ｃ」、「歌手Ｄ」のうち「歌手Ａ」が音声として発せされた場合も手動で選択された場合も、同様に、図６（ｃ）に示すような「歌手Ａ」と「歌手Ａ」に対応する対応項目「楽曲Ａ」、「楽曲Ｂ」、「楽曲Ｃ」、「楽曲Ｄ」がリスト表示される。これにより、手動操作を行った場合にも音声操作と同様のリスト表示がなされ、音声操作がより分かり易くなる。

さらにまた、本実施形態では、リスト表示される対応項目が認識辞書２５に記憶された比較対象候補の一部となっている。図６（ｂ）の例では、対応項目「歌手Ａ」、「歌手Ｂ」、「歌手Ｃ」、「歌手Ｄ」が比較対象候補の一部になっている。したがって、リスト表示を見て、そのリスト表示された対応項目から、次に発する音声を選択することができる。これにより、音声操作がより分かり易くなる。

また、本実施形態では、リスト表示される対応項目と関係なく、全ての比較対象候補と比較される。例えば図６（ｂ）に示した状態でリスト表示にない「エアコン」という音声を発した場合でも、「エアコン」という音声を認識することができ、これにより、図６（ｄ）に示したように、認識結果「エアコン」と、認識結果に対応する対応項目「温度」、「風量」、「内気循環」、「外気導入」がリスト表示される。その結果、自由度の高い音声操作が実現できる。

さらにまた、本実施形態では、音声の信号レベルが閾値を下回る無声区間を判断して音声区間を抽出する。具体的には、第１無声区間を判断して音声区間を抽出すると共に（図２中のＳ１４０：ＹＥＳ，Ｓ１５０）、第１無声区間よりも長い第２無声区間が判断されるまで音声区間を繰り返し抽出することにより複数の音声区間を音声データとして抽出する（Ｓ１６０：ＮＯ，Ｓ１２０〜Ｓ１５０）。そして、複数の音声区間に対応する複数の音声データを認識する（Ｓ１７０）。これにより、複数の音声データを一度に認識することができ、音声操作の幅が広がる。

なお、本実施形態の音声認識装置１が特許請求の範囲の「音声認識装置」を構成し、認識辞書２５が「認識辞書」を構成する。また、図２中のＳ１２０〜Ｓ１６０の処理が「音声区間抽出処理」に相当し、Ｓ１７０の処理が「認識処理」に相当し、Ｓ１８０の処理（図４に示したＳ１８１〜Ｓ１８３の処理）が「リスト処理」に相当する。

以上、本発明は上述した実施形態に何ら限定されるものではなく、その要旨を逸脱しない範囲において種々なる形態で実施することができる。
（イ）上記実施形態では確定操作がないうちは音声の認識を繰り返す構成となっているが（図２中のＳ１９０：ＮＯ，Ｓ１７０）、この確定操作を、操作スイッチ群３０を介した操作としていた。これに対し、確定操作自体を音声による操作としてもよい。

また、Ｓ１９０における確定操作に代え、手動操作があった時点で音声認識を終了する構成としてもよい。この場合、図２中のＳ１８０の処理終了後にＳ１１０へ移行するようにし図５中のＳ１１１にて肯定判断された場合に、音声認識処理を終了するように構成することが考えられる。

（ロ）上記実施形態では図６に例示したようなリスト表示について述べたが、例えば手
動操作があった時点で音声認識を終了する上記（イ）に示した構成などにおいて、図７に示すような操作用アイコンによるリスト表示を行ってもよい。この場合、ステアリングなどに設けられる操作ボタンによって、アイコン選択による手動操作が可能になる。図７の例では、ステアリングなどに上下左右の操作ボタンが設けられていることを前提に、上下ボタンによって送風モードの選択が可能となり、左ボタンによって風量調節のモードへ移行し、右ボタンによって温度調節のモードへ移行するという具合である。すなわち、操作用アイコンによるリスト表示を行う場合、その後のリストからの対応項目の選択が手動操作を前提とするものとなるため、手動操作があった時点で音声認識を終了する構成を採用することが望ましい。

（ハ）上記実施形態では予め比較対象候補が記憶された専用辞書を認識辞書２５として用いているが、特に発する音声を限定しない汎用辞書を認識辞書２５として用いるようにしてもよい。

１：音声認識装置、１０：制御部、２０：音声認識ユニット、２１：音声入力部、２２：音声記憶部、２３：音声認識部、２４：表示決定部、２５：認識辞書、２６：対応項目表、３０：操作スイッチ群、４０：表示部、５０：マイクロフォン

Claims

音声認識に用いる認識辞書を備え、当該認識辞書を用いて入力された音声を認識する音声認識装置であって、
入力される音声の信号レベルに基づき、音声区間を抽出する音声区間抽出処理、
前記音声区間抽出処理にて前記音声区間が抽出されると、当該音声区間に対応する音声データを、前記認識辞書を用いて認識する認識処理、
及び、前記認識処理による認識結果を表示すると共に、当該認識結果に対応する対応項目をリスト表示するリスト処理、を実行可能であり、
前記リスト処理にてリスト表示される対応項目を手動操作可能としたこと
を特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
所定操作を検出しないうちは前記音声区間抽出処理を繰り返すこと
を特徴とする音声認識装置。
請求項１又は２に記載の音声認識装置において、
前記対応項目が手動操作にて選択された場合、当該選択された対応項目である選択項目を表示すると共に、当該選択項目に対応する対応項目をリスト表示すること
を特徴とする音声認識装置。
請求項１〜３の何れか一項に記載の音声認識装置において、
前記認識辞書は、予め定められた比較対象候補を記憶しており、
前記対応項目は、前記比較対象候補の一部であること
を特徴とする音声認識装置。
請求項１〜４の何れか一項に記載の音声認識装置において、
前記認識辞書は、予め定められた比較対象候補を記憶しており、
前記認識処理では、前記音声データが、前記リスト表示される対応項目と関係なく、全ての比較対象候補と比較されること
を特徴とする音声認識装置。
請求項１〜５の何れか一項に記載の音声認識装置において、
前記所定操作は、所定の確定操作であること
を特徴とする音声認識装置。
請求項１〜５の何れか一項に記載の音声認識装置において、
前記所定操作は、前記リスト処理にてリスト表示される対応項目の手動操作であること
を特徴とする音声認識装置。
請求項１〜７の何れか一項に記載の音声認識装置において、
前記リスト表示される対応項目は、操作用アイコンとして表示可能であること
を特徴とする音声認識装置。
請求項１〜８の何れか一項に記載の音声認識装置において、
前記音声区間抽出処理では、音声の信号レベルが閾値を下回る無声区間を判断して前記音声区間を抽出すること
を特徴とする音声認識装置。
請求項９に記載の音声認識装置において、
前記音声区間抽出処理では、第１無声区間を判断して前記音声区間を抽出すると共に、前記第１無声区間よりも長い第２無声区間が判断されるまで前記音声区間を繰り返し抽出することにより複数の音声区間を抽出可能であり、
前記認識処理では、前記複数の音声区間に対応する複数の音声データを認識可能であること
を特徴とする音声認識装置。