WO2015029304A1

WO2015029304A1 - 音声認識方法及び音声認識装置

Info

Publication number: WO2015029304A1
Application number: PCT/JP2014/003608
Authority: WO
Inventors: 野村　和也
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2013-08-29
Filing date: 2014-07-08
Publication date: 2015-03-05
Also published as: US20180082687A1; JPWO2015029304A1; MY179900A; JP6502249B2; US20150262577A1; US10446151B2; US9865255B2

Abstract

　一または複数の機器を音声認識によって制御する音声認識装置であって、ユーザによって発話された音声を表す音声情報を取得する音声取得部と、音声取得部によって取得された音声情報を文字情報として認識する音声認識処理部と、音声認識処理部で認識された文字情報に基づいて、機器に対する発話であるか否かを判断する認識結果判断部とを備えることを特徴とする。

Description

音声認識方法及び音声認識装置

　本開示は、入力された音声を認識し、認識結果に基づいて機器を制御する音声認識方法及び音声認識装置に関するものである。

　従来の音声認識装置では、発話者が音声認識装置に向かって発話する際に、音声認識を開始するためのトリガーを音声認識装置へ与える必要があった。従来の音声認識装置における音声認識のトリガーとしては、押ボタンスイッチの押下、及び予め登録された特定キーワードの検出が挙げられる（例えば、特許文献１及び特許文献２参照）。

特開２００１－１５４６９４号公報特開２００６－２１５４９９号公報

　上記、従来の音声認識装置では更なる改善が必要とされていた。

　本開示の一局面に係る音声認識方法は、一または複数の機器を音声認識によって制御するシステムにおける音声認識方法であって、ユーザによって発話された音声を表す音声情報を取得する音声情報取得ステップと、前記音声情報取得ステップにおいて取得された前記音声情報を文字情報として認識する音声認識ステップと、前記音声認識ステップにおいて認識された前記文字情報に基づいて、前記音声が前記機器に対する発話であるか否かを判断する発話判断ステップと、を含む。

　なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

　本開示によれば、音声認識の更なる改善を実現できる。

本開示の実施の形態１における音声認識システムの構成を示すブロック図である。本開示の実施の形態１における機器の構成を示すブロック図である。本開示の実施の形態１における音声認識装置の構成を示すブロック図である。本開示の実施の形態１における音声認識システムの動作を説明するためのフローチャートである。（Ａ）は、文型が平叙文である文字情報の一例を示す図であり、（Ｂ）は、文型が疑問文である文字情報の一例を示す図であり、（Ｃ）は、文型が命令文である文字情報の一例を示す図であり、（Ｄ）は、文型が命令文である文字情報の一例を示す図である。（Ｅ）は、文型が体言止めである文字情報の一例を示す図である。本実施の形態１における動作テーブルの一例を示す図である。本実施の形態１における天気に関するデータベースの一例を示す図である。本開示の実施の形態２における音声認識装置の構成を示すブロック図である。本開示の実施の形態３における音声認識装置の構成を示すブロック図である。本開示の実施の形態４における音声認識装置の構成を示すブロック図である。本開示の実施の形態５における音声認識装置の構成を示すブロック図である。本開示の実施の形態６における音声認識装置の構成を示すブロック図である。本開示の実施の形態７における音声認識装置の構成を示すブロック図である。特許文献１に記載された従来の音声認識装置の構成を示すブロック図である。特許文献２に記載された従来の音声認識装置の構成を示すブロック図である。

　（本開示の基礎となった知見）
　図１４は、特許文献１に記載された従来の音声認識装置の構成を示すブロック図であり、図１５は、特許文献２に記載された従来の音声認識装置の構成を示すブロック図である。

　図１４において、従来の音声認識装置２０１は、音声を入力するための音声入力部２１０と、音声入力部２１０によって入力された音声からコマンドを検出し、検出したコマンドに基づいて機器を制御する制御部２２０と、音声入力部２１０によって入力された音声から所定のキーワードを検出し、キーワードを検出した後所定のコマンド入力期間だけ、制御部２２０による機器の制御を有効にする許可部２３０とを備える。

　上記のように、特許文献１によれば、キーワードが音声で入力されるため、機器を制御する度にボタンなどを操作する必要がない。そのため、ユーザは、ボタンを押下することができない状態であっても、機器を制御することができる。

　図１５において、従来の音声認識装置３０１は、音声入力部３０３から入力された音が音声及び非音声のいずれであるかを判別する音声／非音声判別部３０５と、キーワード辞書３１０と、音声認識用辞書３１３と、音声認識用辞書３１３を基に音声認識を行う音声認識部３０８と、音声／非音声判別部３０５で音声であると判断された音が、予めキーワード辞書３１０に登録された単語であるか否かを検知する音声キーワード検知部３１１と、音声入力部３０３から入力された音がキーワード辞書３１０に登録された単語を含むと検知された時点で入力された音を音声認識する指示を音声認識部３０８に出力する認識指示部３０９とを備える。これにより、利用者によって目的のコマンド語が発声された後に特定のキーワードが発声されることをトリガーとして音声認識が行われる。特許文献２の音声認識装置３０１は、特許文献１とは異なり、コマンド語が発話される前に予め登録してある特定のキーワードが発話されることなく、音声認識を開始するためのトリガーを与えることができる。

　しかしながら、従来の特許文献１の音声認識装置の構成では、目的のコマンド語の前に、音声認識を開始するための特定のキーワードを発話する必要があるという課題を有している。また、従来の特許文献２の音声認識装置の構成では、目的のコマンド語の後に、音声認識を開始するための特定のキーワードを発話する必要があるという課題を有している。つまり、特許文献１及び特許文献２の音声認識装置のいずれも、ユーザが特定のキーワードを発話しなければ、音声認識が開始されない。

　音声認識を開始するためのキーワードとコマンド語とを兼ねて、キーワードらしさを隠すことも考えられる。しかしながら、この場合、発話内容に必ずキーワードを含める必要があることに変わりはなく、発話者はキーワードを意識して発話する必要があることに変わりはない。

　以上の考察により、本発明者らは本開示の各態様を想到するに至った。

　以下本開示の実施の形態について、図面を参照しながら説明する。なお、以下の実施の形態は、本開示を具体化した一例であって、本開示の技術的範囲を限定するものではない。

　（実施の形態１）
　図１は、本開示の実施の形態１における音声認識システムの構成を示すブロック図である。図１に示す音声認識システムは、機器１及びサーバ２を備える。

　機器１は、例えば家庭内に配置される家電機器を含む。機器１は、ネットワーク３を介してサーバ２と通信可能に接続される。ネットワーク３は、例えばインターネットである。

　なお、機器１には、ネットワーク３と接続可能な機器（例えば、スマートフォン、パーソナルコンピュータ又はテレビ等）もあれば、それ自身ではネットワーク３と接続不可能な機器（例えば、照明機器、洗濯機又は冷蔵庫等）も存在する。それ自身ではネットワーク３と接続不可能な機器であっても、ホームゲートウェイを介してネットワーク３と接続可能となる機器が存在してもよい。ネットワーク３と接続可能な機器は、ホームゲートウェイを介さず、直接サーバ２と接続してもよい。

　サーバ２は、公知のサーバコンピュータ等から構成され、ネットワーク３を介して機器１と通信可能に接続されている。

　図２は、本開示の実施の形態１における機器１の構成を示すブロック図である。本実施の形態１における機器１は、通信部１１、制御部１２、メモリ１３、マイクロフォン１４、スピーカ１５、表示部１６及び音声認識装置１００を備える。なお、機器１は、これらの構成のうち一部の構成を備えていなくてもよいし、他の構成を備えていてもよい。

　通信部１１は、ネットワーク３を介してサーバ２へ情報を送信するとともに、ネットワーク３を介してサーバ２から情報を受信する。制御部１２は、例えばＣＰＵ（中央演算処理装置）で構成され、機器１の全体を制御する。

　メモリ１３は、例えばＲＯＭ（リードオンリメモリ）又はＲＡＭ（ランダムアクセスメモリ）で構成され、情報を記憶する。マイクロフォン１４は、音声を電気信号に変換し、音声情報として出力する。マイクロフォン１４は、少なくとも３つのマイクロフォンを含むマイクロフォンアレイで構成され、機器１が配置されている空間内の音声を集音する。スピーカ１５は、音声を出力する。表示部１６は、例えば液晶表示装置で構成され、種々の情報を表示する。

　音声認識装置１００は、ユーザの音声を認識し、機器１を動作させる動作指示を生成する。制御部１２は、音声認識装置１００によって認識された音声に応じた動作指示に基づいて機器１を動作させる。

　図３は、本開示の実施の形態１における音声認識装置の構成を示すブロック図である。

　図３に示すように、本実施の形態１における音声認識装置１００は、音声取得部１０１、音声認識処理部１０２、認識結果判断部１０３及び動作指示生成部１０４を備える。

　音声取得部１０１は、ユーザによって発話された音声を表す音声情報を取得する。音声取得部１０１は、マイクロフォン１４から音声情報を取得する。具体的には、マイクロフォン１４は、アナログ信号である音声をデジタル信号である音声情報に変換し、音声取得部１０１は、デジタル信号に変換された音声情報をマイクロフォン１４から取得する。音声取得部１０１は、取得した音声情報を音声認識処理部１０２へ出力する。

　音声認識処理部１０２は、音声取得部１０１によって取得された音声情報を文字情報として認識する。音声認識処理部１０２は、音声取得部１０１から音声情報を受け取り、音声認識用の辞書を用いて音声認識を行い、文字情報を音声認識結果として出力する。

　認識結果判断部１０３は、音声認識処理部１０２によって認識された文字情報に基づいて、音声が機器１に対する発話であるか否かを判断する。認識結果判断部１０３は、音声認識処理部１０２から受け取った音声認識結果を解析し、音声認識結果に対応した認識結果解析木を生成する。認識結果判断部１０３は、生成した認識結果解析木を解析し、音声認識処理部１０２によって認識された文字情報の文型を推定する。

　認識結果判断部１０３は、文字情報の文型を解析し、文型が疑問文又は命令文であるか否かを判断し、文型が疑問文又は命令文である場合、音声が機器１に対する発話であると判断する。一方、認識結果判断部１０３は、文型が疑問文又は命令文ではない場合、すなわち、文型が平叙文又は感嘆文である場合、音声が機器１に対する発話ではないと判断する。

　動作指示生成部１０４は、認識結果判断部１０３によって機器１に対する発話であると判断された場合、機器１に対する動作指示を生成する。動作指示生成部１０４は、認識結果判断部１０３から受け取った判断結果に基づき、動作指示を送るべき機器と動作内容とを決定し、決定した機器に対し、決定した動作内容を含む動作指示を生成する。

　ここで、本開示の実施の形態１における音声認識システムの動作について説明する。図４は、本開示の実施の形態１における音声認識システムの動作を説明するためのフローチャートである。

　まず、ステップＳ１において、音声取得部１０１は、機器１に設けられたマイクロフォン１４から音声情報を取得する。

　次に、ステップＳ２において、音声認識処理部１０２は、音声取得部１０１によって取得された音声情報を文字情報として認識する。

　次に、ステップＳ３において、認識結果判断部１０３は、音声認識処理部１０２によって認識された文字情報に基づいて、音声が機器１に対する発話であるか否かを判断する。

　より具体的に、認識結果判断部１０３は、音声認識処理部１０２によって認識された文字情報の構文を、既知の構文解析技術を用いて解析する。構文解析技術としては、例えば、ＵＲＬ：ｈｔｔｐ：／／ｎｌｐ．ｉｓｔ．ｉ．ｋｙｏｔｏ－ｕ．ａｃ．ｊｐ／ｉｎｄｅｘ．ｐｈｐ？ＫＮＰに示される解析システムを利用することが可能である。認識結果判断部１０３は、文字情報の文章を複数の文節に区切り、各文節の品詞を解析し、各品詞（用言）の活用形を解析する。文型には、所定のパターンがあるので、認識結果判断部１０３は、文字情報の文型を解析し、文型が平叙文、疑問文、感嘆文及び命令文のいずれであるかを判断する。そして、認識結果判断部１０３は、文型が疑問文及び命令文のいずれかである場合、音声が機器１に対する発話であると判断する。認識結果判断部１０３は、例えば、文章中に疑問詞が含まれている場合、文字情報の文型が疑問文であると判断することが可能である。また、認識結果判断部１０３は、例えば、文末の単語の活用形が命令形である場合、文字情報の文型が命令文であると判断することが可能である。

　ステップＳ３で音声が機器１に対する発話ではないと判断された場合（ステップＳ３でＮＯ）、ステップＳ１の処理に戻る。

　一方、ステップＳ３で音声が機器１に対する発話であると判断された場合（ステップＳ３でＹＥＳ）、ステップＳ４において、動作指示生成部１０４は、機器１に対する動作指示を生成する。動作指示生成部１０４は、複数の単語の組み合わせと機器の動作とを対応付けた動作テーブルを予め記憶している。なお、動作テーブルについては、後述する。動作指示生成部１０４は、ステップＳ３で音声が機器１に対する発話であると判断された場合、動作テーブルを参照し、認識結果判断部１０３によって解析された文字情報に含まれる単語の組み合わせに対応する機器の動作を特定し、特定した動作で機器を動作させるための動作指示を生成する。

　上記の構成の音声認識装置を用いて天気予報を問い合わせる例について説明する。

　図５（Ａ）は、文型が平叙文である文字情報の一例を示す図であり、図５（Ｂ）は、文型が疑問文である文字情報の一例を示す図であり、図５（Ｃ）は、文型が命令文である文字情報の一例を示す図であり、図５（Ｄ）は、文型が命令文である文字情報の一例を示す図である。図５（Ｅ）は、文型が体言止めである文字情報の一例を示す図である。

　図５（Ａ）において、音声認識処理部１０２は、音声取得部１０１によって「明日の天気は晴れだ」という音声情報が取得されると、当該音声情報を「明日の天気は晴れだ」という文字情報に変換する。音声認識処理部１０２は、認識された文字情報を音声認識結果として認識結果判断部１０３へ出力する。

　認識結果判断部１０３は、音声認識処理部１０２によって認識された文字情報を「明日の」、「天気は」及び「晴れだ」という文節に区切り、各文節が体言であるか用言であるかを解析し、用言であれば当該文節に含まれる単語の品詞を解析する。図５（Ａ）では、文末の文節が判定詞であることから、認識結果判断部１０３は、当該文字情報の文型は平叙文であると判断する。認識結果判断部１０３は、文型が平叙文であると判断した場合、音声が機器１に対する発話ではないと判断する。

　また、図５（Ｂ）において、音声認識処理部１０２は、音声取得部１０１によって「明日の天気はどうですか」という音声情報が取得されると、当該音声情報を「明日の天気はどうですか」という文字情報に変換する。音声認識処理部１０２は、認識された文字情報を音声認識結果として認識結果判断部１０３へ出力する。

　認識結果判断部１０３は、音声認識処理部１０２によって認識された文字情報を「明日の」、「天気は」及び「どうですか」という文節に区切り、各文節が体言であるか用言であるかを解析し、用言であれば当該文節に含まれる単語の品詞を解析する。図５（Ｂ）では、文末の文節に疑問詞が含まれていることから、認識結果判断部１０３は、当該文字情報の文型は疑問文であると判断する。認識結果判断部１０３は、文型が疑問文であると判断した場合、音声が機器１に対する発話であると判断する。

　音声が機器１に対する発話であると判断された場合、動作指示生成部１０４は、動作テーブルを参照して機器１に対する動作指示を生成する。図６は、本実施の形態１における動作テーブルの一例を示す図である。動作テーブル１４０１には、例えば図６に示すように、日時を判断するための単語列である単語１と、動作の目的又は検索の対象を判断するための単語列である単語２と、システムに対する発話であるか否かを判断するための単語列である単語３と、が紐付けられている。

　図５（Ｂ）の例では、動作指示生成部１０４は、動作テーブル１４０１を用いて、日時を表す「明日」という単語１と、検索の対象を表す「天気」という単語２と、システムに対する発話であることを表す「どう」という単語３とから、動作「出力：天気［１日後］」を決定する。

　そして、動作指示生成部１０４は、機器１の制御部１２に対し、天気予報を提供するサーバから翌日の天気予報を取得する動作指示を出力する。制御部１２は、動作指示生成部１０４からの動作指示に基づいて、天気予報を提供するサーバにアクセスし、当該サーバの天気に関するデータベースから翌日の天気予報を取得し、取得した天気予報を表示部１６又はスピーカ１５から出力する。図７は、本実施の形態１における天気に関するデータベースの一例を示す図である。天気に関するデータベース１４０２には、例えば図７に示すように、日付と、天気とが紐付けられている。なお、この際、制御部１２は、機器１の現在位置を特定する位置情報を天気予報を提供するサーバへ送信することにより、現在位置における天気予報を取得することが可能となる。

　続いて、図５（Ｃ）において、音声認識処理部１０２は、音声取得部１０１によって「明日の天気を教えて」という音声情報が取得されると、当該音声情報を「明日の天気を教えて」という文字情報に変換する。音声認識処理部１０２は、認識された文字情報を音声認識結果として認識結果判断部１０３へ出力する。

　認識結果判断部１０３は、音声認識処理部１０２によって認識された文字情報を「明日の」、「天気を」及び「教えて」という文節に区切り、各文節が体言であるか用言であるかを解析し、用言であれば当該文節に含まれる単語の品詞を解析する。図５（Ｃ）では、文末の単語の活用形が命令形であることから、認識結果判断部１０３は、当該文字情報の文型は命令文であると判断する。認識結果判断部１０３は、文型が命令文であると判断した場合、音声が機器１に対する発話であると判断する。

　音声が機器１に対する発話であると判断された場合、動作指示生成部１０４は、機器１に対する動作指示を生成する。図５（Ｃ）の例では、動作指示生成部１０４は、動作テーブル１４０１を用いて、日時を表す「明日」という単語１と、検索の対象を表す「天気」という単語２と、システムに対する発話であることを表す「教える」という単語３とから、動作「出力：天気［１日後］」を決定する。

　動作指示生成部１０４は、機器１の制御部１２に対し、天気予報を提供するサーバの天気に関するデータベース１４０２から翌日の天気予報を取得する動作指示を出力する。以降の制御部１２の動作は、上記と同じである。

　続いて、図５（Ｄ）において、音声認識処理部１０２は、音声取得部１０１によって「明後日の天気を調べて」という音声情報が取得されると、当該音声情報を「明後日の天気を調べて」という文字情報に変換する。音声認識処理部１０２は、認識された文字情報を音声認識結果として認識結果判断部１０３へ出力する。

　認識結果判断部１０３は、音声認識処理部１０２によって認識された文字情報を「明後日の」、「天気を」及び「調べて」という文節に区切り、各文節が体言であるか用言であるかを解析し、用言であれば当該文節に含まれる単語の品詞を解析する。図５（Ｄ）では、文末の単語の活用形が命令形であることから、認識結果判断部１０３は、当該文字情報の文型は命令文であると判断する。認識結果判断部１０３は、文型が命令文であると判断した場合、音声が機器１に対する発話であると判断する。

　音声が機器１に対する発話であると判断された場合、動作指示生成部１０４は、機器１に対する動作指示を生成する。図５（Ｄ）の例では、動作指示生成部１０４は、動作テーブル１４０１を用いて、日時を表す「明後日」という単語１と、検索の対象を表す「天気」という単語２と、システムに対する発話であることを表す「調べて」という単語３から、動作「出力：天気［２日後］」を決定する。

　続いて、図５（Ｅ）において、音声認識処理部１０２は、音声取得部１０１によって「明日の天気」という音声情報が取得されると、当該音声情報を「明日の天気」という文字情報に変換する。音声認識処理部１０２は、認識された文字情報を音声認識結果として認識結果判断部１０３へ出力する。

　認識結果判断部１０３は、音声認識処理部１０２によって認識された文字情報を「明日の」及び「天気」という文節に区切り、各文節が体言であるか用言であるかを解析し、用言であれば当該文節に含まれる単語の品詞を解析する。図５（Ｅ）では、文末の単語が体言であることから、認識結果判断部１０３は、当該文字情報の文型は体言止めの文であると判断する。認識結果判断部１０３は、文型が体言止めの文であると判断した場合、音声が機器１に対する発話であると判断する。

　音声が機器１に対する発話であると判断された場合、動作指示生成部１０４は、機器１に対する動作指示を生成する。例えば、動作テーブルには、「明日」及び「天気」という単語の組み合わせと、天気予報を取得するという動作とが対応付けられている。そのため、動作指示生成部１０４は、動作テーブルを参照し、認識結果判断部１０３によって解析された文字情報に含まれる「明日」及び「天気」という単語の組み合わせに対応する機器の天気予報を取得するという動作を特定し、特定した動作で機器を動作させるための動作指示を生成する。

　動作指示生成部１０４は、機器１の制御部１２に対し、天気予報を提供するサーバから翌日の天気予報を取得する動作指示を出力する。以降の制御部１２の動作は、上記と同じである。

　かかる構成によれば、認識結果判断部１０３によって音声が機器１に対する発話であると判断された場合、動作指示生成部１０４によって機器１に対する動作指示が生成され、認識結果判断部１０３によって音声が機器１に対する発話ではないと判断された場合、機器１に対する動作指示が生成されないので、音声認識を開始するためのトリガーである特定のキーワードの発話を不要にすることができる。そのため、ユーザは、音声認識を開始するためのトリガーである特定のキーワードを意識することなく発話することができ、日常会話から機器を動作させることができる。

　なお、本実施の形態において、機器１が音声認識装置１００を備えているが、本開示は特にこれに限定されず、サーバ２が音声認識装置１００を備えてもよい。この場合、機器１のマイクロフォン１４で取得された音声情報が、ネットワーク３を介してサーバ２へ送信され、サーバ２の音声認識装置１００が図４のステップＳ１～Ｓ４の処理を実行する。そして、サーバ２は、音声が機器に対する発話であると判断された場合、音声認識処理結果に基づく機器１の動作指示を機器１へ送信し、機器１は、サーバ２からの動作指示に応じて動作する。このことは、他の実施の形態でも適用可能である。

　また、本実施の形態における音声認識装置１００の各機能ブロックは、マイクロプロセッサがコンピュータプログラムに従って動作することにより、実現されてもよい。また、音声認識装置１００の各機能ブロックは、典型的には集積回路であるＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）として実現されてもよい。音声認識装置１００の各機能ブロックは、個別に１チップ化されてもよいし、１以上の機能ブロック又は一部の機能ブロックを含むように１チップ化されてもよい。さらに、音声認識装置１００の各機能ブロックは、ソフトウェアで実現されてもよいし、ＬＳＩとソフトウェアとの組み合わせで実現されてもよい。

　（実施の形態２）
　続いて、本実施の形態２における音声認識装置について説明する。本実施の形態２における音声認識装置は、無音であった時間を計測し、計測した無音であった時間の長さに応じて、音声が機器１に対する発話であるか否かを判断する。

　すなわち、無音状態が所定時間以上続いた後、ユーザの発話が検出された場合、ユーザは、機器に対して発話（動作命令）している可能性が高い。そこで、本実施の形態２では、音声認識装置は、音声情報の取得が終了してから次に音声情報の取得が開始されるまでの無音時間を計測し、計測した無音時間が所定時間以上である場合、音声が機器１に対する発話であると判断する。

　図８は、本開示の実施の形態２における音声認識装置の構成を示すブロック図である。なお、本実施の形態２における音声認識システムの構成は実施の形態１における音声認識システムの構成と同じであるので説明を省略する。また、本実施の形態２における機器の構成は実施の形態１における機器の構成と同じであるので説明を省略する。

　本実施の形態２における音声認識装置１００は、音声取得部１０１、音声認識処理部１０２、動作指示生成部１０４、無音時間計測部１０５、無音時間判断部１０６及び認識結果判断部１０７を備える。なお、実施の形態２の音声認識装置において、実施の形態１と同一の構成については同一の符号を付し、説明を省略する。

　無音時間計測部１０５は、音声取得部１０１による音声情報の取得が終了してからの時間を無音時間として計測する。

　無音時間判断部１０６は、音声取得部１０１によって音声情報が取得された場合、無音時間計測部１０５によって計測された無音時間が所定時間以上であるか否かを判断する。

　認識結果判断部１０７は、計測された無音時間が所定時間以上であると判断された場合、音声が機器１に対する発話であると判断する。

　例えば、無音時間判断部１０６は、音声取得部１０１によって音声情報が取得された場合、無音時間計測部１０５によって計測された無音時間が、ユーザが発話していた時間以上であるか否かを判断する。また、例えば、認識結果判断部１０７は、計測された無音時間が予め決められている所定時間以上であると判断された場合、音声が機器１に対する発話であると判断してもよい。ここで、予め決められている所定時間は、例えば３０秒であり、ユーザが他の人物と会話していないと判断可能な時間である。

　かかる構成によれば、音声情報の取得が終了してからの時間が無音時間として計測され、次に音声情報が取得された際に、計測された無音時間が所定時間以上であると判断された場合、音声が機器に対する発話であると判断されるので、ユーザは、音声認識を開始するためのトリガーである特定のキーワードを意識することなく発話することができ、日常会話から機器を動作させることができる。

　なお、無音時間が所定時間以上続いた後、ユーザが発話し、ユーザの発話が終了した後、無音時間が所定時間より短い場合、ユーザは他の人物と会話している可能性が高い。そのため、認識結果判断部１０７は、無音時間が所定時間以上続いた後、音声情報が取得され、当該音声情報の取得が終了した後、無音時間が所定時間以上続いた場合、音声が機器１に対する発話であると判断してもよい。

　（実施の形態３）
　続いて、本実施の形態３における音声認識装置について説明する。本実施の形態３における音声認識装置は、機器１の動作に関する所定のキーワードが文字情報に含まれているか否かを判断し、所定のキーワードが文字情報に含まれている場合、音声が機器１に対する発話であると判断する。

　図９は、本開示の実施の形態３における音声認識装置の構成を示すブロック図である。なお、本実施の形態３における音声認識システムの構成は実施の形態１における音声認識システムの構成と同じであるので説明を省略する。また、本実施の形態３における機器の構成は実施の形態１における機器の構成と同じであるので説明を省略する。

　本実施の形態３における音声認識装置１００は、音声取得部１０１、音声認識処理部１０２、動作指示生成部１０４、キーワード記憶部１０８及び認識結果判断部１０９を備える。なお、実施の形態３の音声認識装置において、実施の形態１と同一の構成については同一の符号を付し、説明を省略する。

　キーワード記憶部１０８は、機器の動作に関する所定のキーワードを予め記憶する。

　認識結果判断部１０９は、予め記憶されているキーワードが文字情報に含まれているか否かを判断し、キーワードが文字情報に含まれている場合、音声が機器１に対する発話であると判断する。

　例えば、機器１がテレビである場合、キーワード記憶部１０８は、「チャンネル」及び「変える」というキーワードを予め記憶する。認識結果判断部１０９は、キーワード記憶部１０８を参照し、文字情報に含まれる単語に、「チャンネル」及び「変える」というキーワードが含まれている場合、音声が機器１に対する発話であると判断する。

　この場合、例えば、動作テーブルには、「チャンネル」及び「変える」という単語の組み合わせと、テレビのチャンネルを変えるという動作とが対応付けられている。そのため、動作指示生成部１０４は、動作テーブルを参照し、認識結果判断部１０３によって解析された文字情報に含まれる「チャンネル」及び「変える」という単語の組み合わせに対応するテレビのチャンネルを変えるという動作を特定し、特定した動作で機器を動作させるための動作指示を生成する。

　かかる構成によれば、機器の動作に関する所定のキーワードが文字情報に含まれているか否かが判断され、所定のキーワードが文字情報に含まれている場合、音声が機器１に対する発話であると判断されるので、ユーザは、音声認識を開始するためのトリガーである特定のキーワードを意識することなく発話することができ、日常会話から機器を動作させることができる。

　（実施の形態４）
　続いて、本実施の形態４における音声認識装置について説明する。本実施の形態４における音声認識装置は、予め記憶されている人名が文字情報に含まれているか否かを判断し、人名が文字情報に含まれている場合、音声が機器１に対する発話ではないと判断する。

　すなわち、ユーザが発話した音声の中に、家族の名前などの人名が含まれている場合、ユーザは、当該人名の人物に対して発話している可能性が高く、機器に対して発話していない可能性が高い。そこで、本実施の形態４では、音声認識装置は、家族の名前などの人名を予め記憶しておき、予め記憶されている人名が文字情報に含まれている場合、音声が機器１に対する発話ではないと判断する。

　図１０は、本開示の実施の形態４における音声認識装置の構成を示すブロック図である。なお、本実施の形態４における音声認識システムの構成は実施の形態１における音声認識システムの構成と同じであるので説明を省略する。また、本実施の形態４における機器の構成は実施の形態１における機器の構成と同じであるので説明を省略する。

　本実施の形態４における音声認識装置１００は、音声取得部１０１、音声認識処理部１０２、動作指示生成部１０４、人名記憶部１１０及び認識結果判断部１１１を備える。なお、実施の形態４の音声認識装置において、実施の形態１と同一の構成については同一の符号を付し、説明を省略する。

　人名記憶部１１０は、人名を予め記憶する。ここで、人名記憶部１１０は、機器１が設置されている家に住んでいる家族の名前又は機器１を所有するユーザの家族の名前を予め記憶する。また、人名記憶部１１０は、お父さん、お母さん及びお兄ちゃんなどの家族の呼称を予め記憶してもよい。なお、人名は、機器１が備える入力受付部（不図示）を用いてユーザによって入力され、人名記憶部１１０に記憶される。

　認識結果判断部１１１は、人名記憶部１１０に予め記憶されている人名又は呼称が文字情報に含まれているか否かを判断し、人名又は呼称が文字情報に含まれている場合、音声が機器１に対する発話ではないと判断する。なお、家族の名前がユーザ情報としてサーバ２に記憶されている場合、認識結果判断部１１１は、サーバ２に記憶されているユーザ情報を用いて判断してもよい。

　また、実施の形態１と同様に、認識結果判断部１１１は、文字情報の文型を解析し、文型が疑問文又は命令文であるか否かを判断し、文型が疑問文又は命令文である場合、音声が機器１に対する発話であると判断する。この際、認識結果判断部１１１は、文型が疑問文又は命令文であると判断した場合であっても、人名記憶部１１０に予め記憶されている人名又は呼称が文字情報に含まれている場合は、音声が機器１に対する発話ではないと判断する。すなわち、認識結果判断部１１１は、文型が疑問文又は命令文であり、かつ人名記憶部１１０に予め記憶されている人名又は呼称が文字情報に含まれていない場合、音声が機器１に対する発話であると判断する。

　かかる構成によれば、予め記憶されている人名又は呼称が文字情報に含まれているか否かが判断され、人名又は呼称が文字情報に含まれている場合、音声が機器１に対する発話ではないと判断されるので、ユーザは、音声認識を開始するためのトリガーである特定のキーワードを意識することなく発話することができ、日常会話から機器を動作させることができる。

　（実施の形態５）
　続いて、本実施の形態５における音声認識装置について説明する。本実施の形態５における音声認識装置は、機器１が配置されている空間内の人物を検知し、複数の人物が検知された場合、音声が機器１に対する発話ではないと判断し、一人の人物が検知された場合、音声が機器１に対する発話であると判断する。

　すなわち、機器１が配置されている空間内に複数の人物がいる場合、ユーザは、他の人物に対して発話している可能性が高く、機器１に対して発話していない可能性が高い。一方、機器１が配置されている空間内に一人の人物のみがいる場合、ユーザは、機器１に対して発話している可能性が高い。そこで、本実施の形態５では、音声認識装置は、機器１が配置されている空間内に複数の人物が検知された場合、音声が機器１に対する発話ではないと判断する。また、音声認識装置は、機器１が配置されている空間内に一人の人物が検知された場合、音声が機器１に対する発話であると判断する。

　図１１は、本開示の実施の形態５における音声認識装置の構成を示すブロック図である。なお、本実施の形態５における音声認識システムの構成は実施の形態１における音声認識システムの構成と同じであるので説明を省略する。また、本実施の形態５における機器の構成は実施の形態１における機器の構成と同じであるので説明を省略する。

　本実施の形態５における音声認識装置１００は、音声取得部１０１、音声認識処理部１０２、動作指示生成部１０４、人物検知部１１２及び認識結果判断部１１３を備える。なお、実施の形態５の音声認識装置において、実施の形態１と同一の構成については同一の符号を付し、説明を省略する。

　人物検知部１１２は、機器が配置されている空間内の人物を検知する。なお、人物検知部１１２は、機器１が備えるカメラから取得した画像を解析することにより、人物を検知してもよい。また、人物検知部１１２は、人感センサ又は熱感知センサなどにより、人物を検知してもよい。

　認識結果判断部１１３は、人物検知部１１２によって複数の人物が検知された場合、音声が機器１に対する発話ではないと判断し、人物検知部１１２によって一人の人物が検知された場合、音声が機器１に対する発話であると判断する。

　また、実施の形態１と同様に、認識結果判断部１１３は、文字情報の文型を解析し、文型が疑問文又は命令文であるか否かを判断し、文型が疑問文又は命令文である場合、音声が機器１に対する発話であると判断する。この際、認識結果判断部１１３は、文型が疑問文又は命令文であると判断した場合であっても、人物検知部１１２によって複数の人物が検知された場合は、音声が機器１に対する発話ではないと判断する。すなわち、認識結果判断部１１１は、文型が疑問文又は命令文であり、かつ人物検知部１１２によって複数の人物が検知されない場合（一人の人物が検知された場合）、音声が機器１に対する発話であると判断する。

　かかる構成によれば、複数の人物が検知された場合、音声が機器に対する発話ではないと判断され、一人の人物が検知された場合、音声が機器に対する発話であると判断されるので、ユーザは、音声認識を開始するためのトリガーである特定のキーワードを意識することなく発話することができ、日常会話から機器を動作させることができる。

　（実施の形態６）
　続いて、本実施の形態６における音声認識装置について説明する。本実施の形態６における音声認識装置は、文字情報に含まれる用言の活用形が命令形であるか否かを判断し、活用形が命令形である場合、音声が機器１に対する発話であると判断する。

　すなわち、文字情報に含まれる用言の活用形が命令形である場合、ユーザは、機器１に対して発話している可能性が高い。そこで、本実施の形態６では、音声認識装置は、文字情報に含まれる用言の活用形を判断し、活用形が命令形である場合、音声が機器１に対する発話であると判断する。

　図１２は、本開示の実施の形態６における音声認識装置の構成を示すブロック図である。なお、本実施の形態６における音声認識システムの構成は実施の形態１における音声認識システムの構成と同じであるので説明を省略する。また、本実施の形態６における機器の構成は実施の形態１における機器の構成と同じであるので説明を省略する。

　本実施の形態６における音声認識装置１００は、音声取得部１０１、音声認識処理部１０２、動作指示生成部１０４及び認識結果判断部１１４を備える。なお、実施の形態６の音声認識装置において、実施の形態１と同一の構成については同一の符号を付し、説明を省略する。

　認識結果判断部１１４は、文字情報に含まれる用言の活用形が未然形、連用形、終止形、連体形、仮定形及び命令形のいずれであるかを解析する。認識結果判断部１１４は、文字情報に含まれる用言の活用形が命令形であるか否かを判断し、活用形が命令形である場合、音声が機器１に対する発話であると判断する。認識結果判断部１１４は、文字情報の文章を複数の文節に区切り、各文節の品詞を解析し、各品詞（用言）の活用形を解析する。そして、認識結果判断部１１４は、活用形が命令形である文節が文字情報に含まれている場合、音声が機器１に対する発話であると判断する。

　また、認識結果判断部１１４は、活用形が命令形ではない場合、すなわち、活用形が未然形、連用形、終止形、連体形又は仮定形である場合、音声が機器１に対する発話ではないと判断する。

　かかる構成によれば、文字情報に含まれる用言の活用形が命令形であるか否かが判断され、活用形が命令形である場合、音声が機器１に対する発話であると判断されるので、ユーザは、音声認識を開始するためのトリガーである特定のキーワードを意識することなく発話することができ、日常会話から機器を動作させることができる。

　なお、認識結果判断部１１４は、文字情報に含まれる用言の活用形が終止形又は命令形であるか否かを判断し、活用形が終止形又は命令形である場合、音声が機器１に対する発話であると判断してもよい。

　また、本開示に係る音声認識装置は、上記の実施の形態１～６における音声認識装置を複数組み合わせてもよい。

　（実施の形態７）
　続いて、本実施の形態７における音声認識装置について説明する。本実施の形態７における音声認識装置は、文字情報に対する所定の判断結果に応じて付与される重み値を合計し、合計した重み値が所定の値以上であるか否かを判断し、合計した重み値が所定の値以上である場合、音声が機器１に対する発話であると判断する。

　図１３は、本開示の実施の形態７における音声認識装置の構成を示すブロック図である。なお、本実施の形態７における音声認識システムの構成は実施の形態１における音声認識システムの構成と同じであるので説明を省略する。また、本実施の形態７における機器の構成は実施の形態１における機器の構成と同じであるので説明を省略する。

　本実施の形態７における音声認識装置１００は、音声取得部１０１、音声認識処理部１０２、動作指示生成部１０４、無音時間計測部１０５、無音時間判断部１０６、キーワード記憶部１０８、人名記憶部１１０、人物検知部１１２、重み値テーブル記憶部１１５、重み値算出部１１６、認識結果判断部１１７、ピッチ抽出部１１８、ピッチ記憶部１１９及び話者認識部１２０を備える。なお、実施の形態７の音声認識装置において、実施の形態１～６と同一の構成については同一の符号を付し、説明を省略する。

　重み値テーブル記憶部１１５は、文字情報に対する所定の判断結果と、重み値とを対応付けた重み値テーブルを記憶する。重み値テーブルは、文字情報の文型が疑問文又は命令文であるという判断結果と第１の重み値とを対応付けている。また、重み値テーブルは、音声情報の取得が終了してから次に音声情報の取得が開始されるまでの無音時間が所定時間以上であるという判断結果と第２の重み値とを対応付けている。また、重み値テーブルは、予め記憶されているキーワードが文字情報に含まれているという判断結果と第３の重み値とを対応付けている。また、重み値テーブルは、予め記憶されている人名又は呼称が文字情報に含まれているという判断結果と第４の重み値とを対応付けている。また、重み値テーブルは、複数の人物が検知されたという判断結果と第５の重み値とを対応付けている。また、重み値テーブルは、一人の人物が検知されたという判断結果と第６の重み値とを対応付けている。また、重み値テーブルは、文字情報に含まれる用言の活用形が命令形であるという判断結果と第７の重み値とを対応付けている。また、重み値テーブルは、音声情報のピッチ周波数と第８の重み値とを対応付けている。

　重み値算出部１１６は、文字情報に対する所定の判断結果に応じて付与される重み値を合計する。重み値算出部１１６は、文字情報の文型が疑問文又は命令文であるか否かに応じて付与される重み値と、音声情報の取得が終了してから次の音声情報が取得されるまでの無音時間が所定時間以上であるか否かに応じて付与される重み値と、予め記憶されている機器の動作に関する所定のキーワードが文字情報に含まれているか否かに応じて付与される重み値と、予め記憶されている人名が文字情報に含まれているか否かに応じて付与される重み値と、機器が配置されている空間内で複数の人物が検知されたか否かに応じて付与される重み値と、文字情報に含まれる用言の活用形が命令形であるか否かに応じて付与される重み値と、音声情報のピッチ周波数が所定の閾値以上か否かに応じて付与される重み値と、を合計する。

　重み値算出部１１６は、音声認識処理部１０２によって認識された文字情報の文型を解析し、文型が疑問文又は命令文であるか否かを判断し、文型が疑問文又は命令文である場合、対応する第１の重み値を重み値テーブル記憶部１１５から読み出す。

　また、重み値算出部１１６は、無音時間判断部１０６によって、音声取得部１０１による音声情報の取得が終了してから次に音声情報の取得が開始されるまでの無音時間が所定時間以上であると判断された場合、対応する第２の重み値を重み値テーブル記憶部１１５から読み出す。

　また、重み値算出部１１６は、キーワード記憶部１０８に予め記憶されているキーワードが、音声認識処理部１０２によって認識された文字情報に含まれているか否かを判断し、キーワードが文字情報に含まれている場合、対応する第３の重み値を重み値テーブル記憶部１１５から読み出す。

　また、重み値算出部１１６は、人名記憶部１１０に予め記憶されている人名又は呼称が、音声認識処理部１０２によって認識された文字情報に含まれているか否かを判断し、人名又は呼称が文字情報に含まれている場合、対応する第４の重み値を重み値テーブル記憶部１１５から読み出す。

　また、重み値算出部１１６は、人物検知部１１２によって複数の人物が検知された場合、対応する第５の重み値を重み値テーブル記憶部１１５から読み出す。

　また、重み値算出部１１６は、人物検知部１１２によって一人の人物が検知された場合、対応する第６の重み値を重み値テーブル記憶部１１５から読み出す。

　また、重み値算出部１１６は、音声認識処理部１０２によって認識された文字情報に含まれる用言の活用形が命令形であるか否かを判断し、活用形が命令形である場合、対応する第７の重み値を重み値テーブル記憶部１１５から読み出す。

　また重み値算出部１１６は、音声情報のピッチ周波数が所定の閾値以上である場合に、対応する第８の重み値を重み値テーブル記憶部１１５から読み出す。具体的には、重み値算出部１１６は、発話ごとに、入力音声情報からピッチ抽出部１１８によって抽出されたピッチ周波数と、話者認識部１２０によって認識された話者情報とを、一つの組としてピッチ記憶部１１９へ格納する。新たな発話が入力されると、入力音声情報からピッチ抽出部１１８によって抽出されたピッチ周波数と、話者認識部１２０によって認識された話者情報とを一つの組として、ピッチ記憶部１１９へ格納すると同時に、同じ話者の前回の発話のピッチ周波数と、今回の発話のピッチ周波数とを比較して、予め設定した閾値を超えて今回の発話のピッチ周波数が高い場合は、対応する第８の重み値を重み値テーブル記憶部１１５から読み出す。なお、話者認識部１２０による話者認識を用いずに、話者に限らず固定の閾値を利用することで第８の重み値を読み出してもよい。

　また、重み値算出部１１６は、読み出した各重み値を合計する。

　なお、重み値算出部１１６は、文字情報の文型が疑問文又は命令文ではないと判断された場合、音声情報の取得が終了してから次に音声情報の取得が開始されるまでの無音時間が所定時間以上ではないと判断された場合、予め記憶されているキーワードが文字情報に含まれていないと判断された場合、予め記憶されている人名又は呼称が文字情報に含まれていないと判断された場合、又は文字情報に含まれる用言の活用形が命令形ではないと判断された場合、重み値を加算しない。

　認識結果判断部１１７は、重み値算出部１１６によって合計された重み値が所定の値以上であるか否かを判断し、合計した重み値が所定の値以上である場合、音声が機器１に対する発話であると判断する。

　なお、第１の重み値、第２の重み値、第３の重み値、第６の重み値及び第７の重み値は、第４の重み値及び第５の重み値より高いことが好ましい。第１の重み値、第２の重み値、第３の重み値、第６の重み値及び第７の重み値は、例えば“５”であり、第４の重み値は、例えば“－５”であり、第５の重み値は、例えば“０”である。認識結果判断部１１７は、合計した重み値が例えば“１０”以上である場合、音声が機器１に対する発話であると判断する。

　なお、第１～第７の重み値は、上記の値に限定されず、他の値であってもよい。また、合計した重み値と比較される所定の値は、上記の値に限定されず、他の値であってもよい。また、重み値算出部１１６は第１～第７の重み値をすべて用いず、第１～第７の重み値のうち一部を用いて、認識結果判断部１１７が機器１に対する発話か否かを判断するための重み値を算出してもよい。

　また、重み値テーブルは、文字情報の文型が疑問文又は命令文ではないという判断結果と所定の重み値とを対応付けてもよい。また、重み値テーブルは、音声情報の取得が終了してから次に音声情報の取得が開始されるまでの無音時間が所定時間以上ではないという判断結果と所定の重み値とを対応付けてもよい。また、重み値テーブルは、予め記憶されているキーワードが文字情報に含まれていないという判断結果と所定の重み値とを対応付けてもよい。また、重み値テーブルは、予め記憶されている人名又は呼称が文字情報に含まれていないという判断結果と所定の重み値とを対応付けてもよい。また、重み値テーブルは、文字情報に含まれる用言の活用形が命令形ではないという判断結果と所定の重み値とを対応付けてもよい。

　また、重み値テーブルは、無音時間が所定時間以上続いた後、音声情報が取得され、当該音声情報の取得が終了した後、無音時間が所定時間以上続いたという判断結果と所定の重み値とを対応付けてもよい。

　かかる構成によれば、文字情報に対する所定の判断結果に応じて付与される重み値が合計され、合計された重み値が所定の値以上である場合、音声が機器に対する発話であると判断されるので、ユーザは、音声認識を開始するためのトリガーである特定のキーワードを意識することなく発話することができ、日常会話から機器を動作させることができる。

　なお、第５の重み値算出において、２名以上でなされる会話の中から機器に対する発話であることを判断するために、直前の発話の終端から今回の発話の始端までの時間が、予め設定した時間の閾値以内か否か、という条件を設定してもよい。

　なお、実施の形態１～７において、機器１は、スマートフォン、タブレット型コンピュータ及び携帯電話機などの情報端末を含むことが好ましい。この場合、動作指示は、ユーザによって指定された日の天気予報を取得し、取得した天気予報を出力する動作指示を含む。例えば、音声取得部１０１は、“明日の天気を教えて”という音声情報を取得すると、動作指示生成部１０４は、翌日の天気予報を取得する動作指示を生成する。動作指示生成部１０４は、生成した動作指示を携帯端末へ出力する。

　また、実施の形態１～７において、機器１は、照明機器を含むことが好ましい。この場合、動作指示は、照明機器を点灯させる動作指示と、照明機器を消灯させる動作指示とを含む。例えば、音声取得部１０１は、“電気を点けて”という音声情報を取得すると、動作指示生成部１０４は、照明機器を点灯させる動作指示を生成する。動作指示生成部１０４は、生成した動作指示を照明機器へ出力する。

　また、実施の形態１～７において、機器１は、自動的に蛇口から水を出す水栓機器を含むことが好ましい。この場合、動作指示は、水栓機器から水を出す動作指示と、水栓機器から出ている水を止める動作指示とを含む。例えば、音声取得部１０１は、“水を４００ｃｃ出して”という音声情報を取得すると、動作指示生成部１０４は、水栓機器から水を４００ｃｃ出す動作指示を生成する。動作指示生成部１０４は、生成した動作指示を水栓機器へ出力する。

　また、実施の形態１～７において、機器１は、テレビを含むことが好ましい。この場合、動作指示は、テレビのチャンネルを変更する動作指示を含む。例えば、音声取得部１０１は、“４チャンネルに変えて”という音声情報を取得すると、動作指示生成部１０４は、テレビのチャンネルを４チャンネルに変更する動作指示を生成する。動作指示生成部１０４は、生成した動作指示をテレビへ出力する。

　また、実施の形態１～７において、機器１は、空調機器を含むことが好ましい。この場合、動作指示は、空調機器の運転を開始させる動作指示、空調機器の運転を停止させる動作指示及び空調機器の設定温度を変更する動作指示を含む。例えば、音声取得部１０１は、“空調機器の温度を上げて”という音声情報を取得すると、動作指示生成部１０４は、空調機器の設定温度を上げる動作指示を生成する。動作指示生成部１０４は、生成した動作指示を空調機器へ出力する。

　なお、上述した具体的実施形態には以下の構成を有する開示が主に含まれている。

　本開示の一局面に係る音声認識方法は、ユーザによって発話された音声を表す音声情報を取得する音声情報取得ステップと、前記音声情報取得ステップにおいて取得された前記音声情報を文字情報として認識する音声認識ステップと、前記音声認識ステップにおいて認識された前記文字情報に基づいて、前記音声が機器に対する発話であるか否かを判断する発話判断ステップと、を含む。

　この構成によれば、ユーザによって発話された音声を表す音声情報が取得される。取得された音声情報が文字情報として認識される。認識された文字情報に基づいて、音声が機器に対する発話であるか否かが判断される。

　したがって、認識された文字情報に基づいて、音声が機器に対する発話であるか否かが判断されるので、音声認識を開始するためのトリガーである特定のキーワードの発話を不要にすることができる。そのため、ユーザは、音声認識を開始するためのトリガーである特定のキーワードを意識することなく発話することができ、日常会話から機器を動作させることができる。

　また、上記の音声認識方法において、前記発話判断ステップにおいて機器に対する発話であると判断された場合、前記機器に対する動作指示を生成する動作指示生成ステップをさらに含むことが好ましい。

　この構成によれば、機器に対する発話であると判断された場合、機器に対する動作指示が生成される。したがって、音声が機器に対する発話であると判断された場合、機器に対する動作指示が生成され、音声が機器に対する発話ではないと判断された場合、機器に対する動作指示が生成されないので、音声認識を開始するためのトリガーである特定のキーワードの発話を不要にすることができる。

　また、上記の音声認識方法において、前記発話判断ステップは、前記文字情報の文型を解析し、前記文型が疑問文又は命令文であるか否かを判断し、前記文型が前記疑問文又は前記命令文である場合、前記音声が前記機器に対する発話であると判断することが好ましい。

　この構成によれば、文字情報の文型が解析され、文型が疑問文又は命令文であるか否かが判断され、文型が疑問文又は命令文である場合、音声が機器に対する発話であると判断される。

　文型が疑問文又は命令文である場合、音声は、機器に対する発話である可能性が高い。したがって、文型が疑問文又は命令文であるか否かを判断することにより、音声が機器に対する発話であることを容易に判断することができる。

　また、上記の音声認識方法において、前記音声情報の取得が終了してからの時間を無音時間として計測する計時ステップと、前記音声情報が取得された場合、前記計時ステップにおいて計測された前記無音時間が所定時間以上であるか否かを判断する時間判断ステップとをさらに含み、前記発話判断ステップは、計測された前記無音時間が所定時間以上であると判断された場合、前記音声が前記機器に対する発話であると判断することが好ましい。

　この構成によれば、音声情報の取得が終了してからの時間が無音時間として計測され、音声情報が取得された場合、計測された無音時間が所定時間以上であるか否かが判断される。計測された無音時間が所定時間以上であると判断された場合、音声が機器に対する発話であると判断される。

　音声情報が取得されない無音状態が所定時間続いた後、音声情報が取得された場合、音声は、機器に対する発話である可能性が高い。したがって、音声情報の取得が終了してから次の音声情報が取得されるまでの無音時間が所定時間以上であるか否かを判断することにより、音声が機器に対する発話であることを容易に判断することができる。

　また、上記の音声認識方法において、前記機器の動作に関する所定のキーワードを予め記憶するキーワード記憶ステップをさらに含み、前記発話判断ステップは、予め記憶されている前記キーワードが前記文字情報に含まれているか否かを判断し、前記キーワードが前記文字情報に含まれている場合、前記音声が前記機器に対する発話であると判断することが好ましい。

　この構成によれば、機器の動作に関する所定のキーワードが予め記憶されている。予め記憶されているキーワードが文字情報に含まれているか否かが判断され、キーワードが文字情報に含まれている場合、音声が機器に対する発話であると判断される。

　したがって、機器の動作に関する所定のキーワードを予め記憶しておき、キーワードが文字情報に含まれているか否かを判断することにより、音声が機器に対する発話であるか否かを容易に判断することができる。

　また、上記の音声認識方法において、人名を予め記憶する人名記憶ステップをさらに含み、前記発話判断ステップは、予め記憶されている前記人名が前記文字情報に含まれているか否かを判断し、前記人名が前記文字情報に含まれている場合、前記音声が前記機器に対する発話ではないと判断することが好ましい。

　この構成によれば、人名が予め記憶される。予め記憶されている人名が文字情報に含まれているか否かが判断され、人名が文字情報に含まれている場合、音声が機器に対する発話ではないと判断される。

　人名が文字情報に含まれている場合、音声は、機器に対する発話ではなく、人名の人物に対する発話である可能性が高い。したがって、人名を予め記憶しておき、人名が前記文字情報に含まれているか否かを判断することにより、音声が機器に対する発話であるか否かを容易に判断することができる。

　また、上記の音声認識方法において、前記機器が配置されている空間内の人物を検知する検知ステップをさらに含み、前記発話判断ステップは、前記検知ステップにおいて複数の人物が検知された場合、前記音声が前記機器に対する発話ではないと判断し、前記検知ステップにおいて一人の人物が検知された場合、前記音声が機器に対する発話であると判断することが好ましい。

　この構成によれば、機器が配置されている空間内の人物が検知される。複数の人物が検知された場合、音声が機器に対する発話ではないと判断され、一人の人物が検知された場合、音声が機器に対する発話であると判断される。

　機器が配置されている空間内に複数の人物がいる場合、ユーザの発話は、他の人物に向けた発話である可能性が高い。また、機器が配置されている空間内に一人の人物のみがいる場合、ユーザの発話は、機器に向けた発話である可能性が高い。したがって、機器が配置されている空間内の人物の数を検知することにより、音声が機器に対する発話であるか否かを容易に判断することができる。

　また、上記の音声認識方法において、前記発話判断ステップは、前記文字情報に含まれる用言の活用形が命令形であるか否かを判断し、前記活用形が前記命令形である場合、前記音声が前記機器に対する発話であると判断することが好ましい。

　この構成によれば、文字情報に含まれる用言の活用形が命令形であるか否かが判断され、活用形が命令形である場合、音声が機器に対する発話であると判断される。

　文字情報に含まれる用言の活用形が命令形である場合、音声は、機器に対する発話である可能性が高い。したがって、文字情報に含まれる用言の活用形が命令形であることを判断することにより、音声が機器に対する発話であることを容易に判断することができる。

　また、上記の音声認識方法において、前記文字情報に対する所定の判断結果に応じて付与される重み値を合計する重み値算出ステップをさらに含み、前記発話判断ステップは、前記重み値算出ステップにおいて合計された前記重み値が所定の値以上であるか否かを判断し、合計した前記重み値が所定の値以上である場合、前記音声が前記機器に対する発話であると判断することが好ましい。

　この構成によれば、文字情報に対する所定の判断結果に応じて付与される重み値が合計される。合計された重み値が所定の値以上であるか否かが判断され、合計された重み値が所定の値以上である場合、音声が機器に対する発話であると判断される。

　したがって、文字情報に対する所定の判断結果に応じて付与される重み値が合計され、合計された重み値に応じて音声が機器に対する発話であるか否かが判断されるので、文字情報に対する所定の判断結果に応じて重み値の大きさを変更することにより、音声が機器に対する発話であることを正確に判断することができる。

　また、上記の音声認識方法において、前記重み値算出ステップは、前記文字情報の文型が疑問文又は命令文であるか否かに応じて付与される重み値と、前記音声情報の取得が終了してからの時間を無音時間として計測し、前記音声情報が取得された場合、計測された前記無音時間が所定時間以上であるか否かに応じて付与される重み値と、予め記憶されている前記機器の動作に関する所定のキーワードが前記文字情報に含まれているか否かに応じて付与される重み値と、予め記憶されている人名が前記文字情報に含まれているか否かに応じて付与される重み値と、前記機器が配置されている空間内で複数の人物が検知されたか否かに応じて付与される重み値と、前記文字情報に含まれる用言の活用形が命令形であるか否かに応じて付与される重み値とを合計することが好ましい。

　この構成によれば、文字情報の文型が疑問文又は命令文であるか否かに応じて付与される重み値と、音声情報の取得が終了してから次の音声情報が取得されるまでの無音時間が所定時間以上であるか否かに応じて付与される重み値と、予め記憶されている機器の動作に関する所定のキーワードが文字情報に含まれているか否かに応じて付与される重み値と、予め記憶されている人名が文字情報に含まれているか否かに応じて付与される重み値と、機器が配置されている空間内で複数の人物が検知されたか否かに応じて付与される重み値と、文字情報に含まれる用言の活用形が命令形であるか否かに応じて付与される重み値とが合計される。

　したがって、これらの重み値重み値が合計され、合計された重み値に応じて音声が機器に対する発話であるか否かが判断されるので、音声が機器に対する発話であることをより正確に判断することができる。

　また、上記の音声認識方法において、前記機器は、携帯端末を含み、前記動作指示は、前記ユーザによって指定された日の天気予報を取得し、取得した前記天気予報を出力する動作指示を含み、前記動作指示生成ステップは、生成した前記動作指示を前記携帯端末へ出力することが好ましい。

　この構成によれば、ユーザによって指定された日の天気予報を取得し、取得した天気予報を携帯端末から出力することができる。

　また、上記の音声認識方法において、前記機器は、照明機器を含み、前記動作指示は、前記照明機器を点灯させる動作指示と、前記照明機器を消灯させる動作指示とを含み、前記動作指示生成ステップは、生成した前記動作指示を前記照明機器へ出力することが好ましい。

　この構成によれば、音声により、照明機器を点灯させたり、照明機器を消灯させたりすることができる。

　また、上記の音声認識方法において、前記機器は、自動的に蛇口から水を出す水栓機器を含み、前記動作指示は、前記水栓機器から水を出す動作指示と、前記水栓機器から出ている水を止める動作指示とを含み、前記動作指示生成ステップは、生成した前記動作指示を前記水栓機器へ出力することが好ましい。

　この構成によれば、音声により、水栓機器から水を出したり、水栓機器から出ている水を止めたりすることができる。

　また、上記の音声認識方法において、前記機器は、テレビを含み、前記動作指示は、前記テレビのチャンネルを変更する動作指示を含み、前記動作指示生成ステップは、生成した前記動作指示を前記テレビへ出力することが好ましい。

　この構成によれば、音声により、テレビのチャンネルを変更することができる。

　本開示の他の局面に係る音声認識装置は、ユーザによって発話された音声を表す音声情報を取得する音声情報取得部と、前記音声情報取得部によって取得された前記音声情報を文字情報として認識する音声認識部と、前記音声認識部で認識された前記文字情報に基づいて、前記音声が機器に対する発話であるか否かを判断する判断部と、を備える。

　なお、開示を実施するための形態の項においてなされた具体的な実施態様または実施例は、あくまでも、本開示の技術内容を明らかにするものであって、そのような具体例にのみ限定して狭義に解釈されるべきものではなく、本開示の精神と特許請求事項との範囲内で、種々変更して実施することができるものである。

　本開示に係る音声認識方法及び音声認識装置は、音声認識を開始するための特定のキーワードの発話を不要にすることができ、入力された音声を認識し、認識結果に基づいて機器を制御する音声認識方法及び音声認識装置として有用である。

　１　機器
　１１　通信部
　１２　制御部
　１３　メモリ
　１４　マイクロフォン
　１５　スピーカ
　１６　表示部
　１００　音声認識装置
　１０１　音声取得部
　１０２　音声認識処理部
　１０３　認識結果判断部
　１０４　動作指示生成部

Claims

　一または複数の機器を音声認識によって制御するシステムにおける音声認識方法であって、
　ユーザによって発話された音声を表す音声情報を取得する音声情報取得ステップと、
　前記音声情報取得ステップにおいて取得された前記音声情報を文字情報として認識する音声認識ステップと、
　前記音声認識ステップにおいて認識された前記文字情報に基づいて、前記音声が前記機器に対する発話であるか否かを判断する発話判断ステップと、
を含む音声認識方法。
　前記発話判断ステップにおいて前記機器に対する発話であると判断された場合、前記機器に対する動作指示を生成する動作指示生成ステップをさらに含む請求項１記載の音声認識方法。
　前記発話判断ステップは、前記文字情報の文型を解析し、前記文型が疑問文又は命令文であるか否かを判断し、前記文型が前記疑問文又は前記命令文である場合、前記音声が前記機器に対する発話であると判断する請求項１又は２記載の音声認識方法。
　前記音声情報の取得が終了してからの時間を無音時間として計測する計時ステップと、
　前記音声情報が取得された場合、前記計時ステップにおいて計測された前記無音時間が所定時間以上であるか否かを判断する時間判断ステップとをさらに含み、
　前記発話判断ステップは、計測された前記無音時間が所定時間以上であると判断された場合、前記音声が前記機器に対する発話であると判断する請求項１～３のいずれかに記載の音声認識方法。
　前記機器の動作に関する所定のキーワードを予め記憶するキーワード記憶ステップをさらに含み、
　前記発話判断ステップは、予め記憶されている前記キーワードが前記文字情報に含まれているか否かを判断し、前記キーワードが前記文字情報に含まれている場合、前記音声が前記機器に対する発話であると判断する請求項１～４のいずれかに記載の音声認識方法。
　人名を予め記憶する人名記憶ステップをさらに含み、
　前記発話判断ステップは、予め記憶されている前記人名が前記文字情報に含まれているか否かを判断し、前記人名が前記文字情報に含まれている場合、前記音声が前記機器に対する発話ではないと判断する請求項１～５のいずれかに記載の音声認識方法。
　前記機器が配置されている空間内の人物を検知する検知ステップをさらに含み、
　前記発話判断ステップは、前記検知ステップにおいて複数の人物が検知された場合、前記音声が前記機器に対する発話ではないと判断し、前記検知ステップにおいて一人の人物が検知された場合、前記音声が前記機器に対する発話であると判断する請求項１～６のいずれかに記載の音声認識方法。
　前記発話判断ステップは、前記文字情報に含まれる用言の活用形が命令形であるか否かを判断し、前記活用形が前記命令形である場合、前記音声が前記機器に対する発話であると判断する請求項１～７のいずれかに記載の音声認識方法。
　前記文字情報に対する所定の判断結果に応じて付与される重み値を合計する重み値算出ステップをさらに含み、
　前記発話判断ステップは、前記重み値算出ステップにおいて合計された前記重み値が所定の値以上であるか否かを判断し、合計した前記重み値が所定の値以上である場合、前記音声が前記機器に対する発話であると判断する請求項１又は２記載の音声認識方法。
　前記重み値算出ステップは、前記文字情報の文型が疑問文又は命令文であるか否かに応じて付与される重み値と、前記音声情報の取得が終了してから次の前記音声情報が取得されるまでの無音時間が所定時間以上であるか否かに応じて付与される重み値と、予め記憶されている前記機器の動作に関する所定のキーワードが前記文字情報に含まれているか否かに応じて付与される重み値と、予め記憶されている人名が前記文字情報に含まれているか否かに応じて付与される重み値と、前記機器が配置されている空間内で複数の人物が検知されたか否かに応じて付与される重み値と、前記文字情報に含まれる用言の活用形が命令形であるか否かに応じて付与される重み値とを合計する請求項９記載の音声認識方法。
　前記機器は、携帯端末を含み、
　前記動作指示は、前記ユーザによって指定された日の天気予報を取得し、取得した前記天気予報を出力する動作指示を含み、
　前記動作指示生成ステップは、生成した前記動作指示を前記携帯端末へ出力する請求項２記載の音声認識方法。
　前記機器は、照明機器を含み、
　前記動作指示は、前記照明機器を点灯させる動作指示と、前記照明機器を消灯させる動作指示とを含み、
　前記動作指示生成ステップは、生成した前記動作指示を前記照明機器へ出力する請求項２記載の音声認識方法。
　前記機器は、自動的に蛇口から水を出す水栓機器を含み、
　前記動作指示は、前記水栓機器から水を出す動作指示と、前記水栓機器から出ている水を止める動作指示とを含み、
　前記動作指示生成ステップは、生成した前記動作指示を前記水栓機器へ出力する請求項２記載の音声認識方法。
　前記機器は、テレビを含み、
　前記動作指示は、前記テレビのチャンネルを変更する動作指示を含み、
　前記動作指示生成ステップは、生成した前記動作指示を前記テレビへ出力する請求項２記載の音声認識方法。
　一または複数の機器を音声認識によって制御する音声認識装置であって、
　ユーザによって発話された音声を表す音声情報を取得する音声情報取得部と、
　前記音声情報取得部によって取得された前記音声情報を文字情報として認識する音声認識部と、
　前記音声認識部で認識された前記文字情報に基づいて、前記音声が前記機器に対する発話であるか否かを判断する判断部と、
を備える音声認識装置。