WO2017168936A1

WO2017168936A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: WO2017168936A1
Application number: PCT/JP2017/000726
Authority: WO
Inventors: 真里斎藤
Original assignee: ソニー株式会社
Priority date: 2016-03-31
Filing date: 2017-01-12
Publication date: 2017-10-05
Also published as: CN109074805A; US20210142796A1; JP6819672B2; JPWO2017168936A1; EP3438974A1; US11462213B2; EP3438974A4

Abstract

【課題】ユーザとシステムとの間のより自然な対話を実現する。【解決手段】ユーザの発話認識に係る情報に応じて、前記ユーザの発話態様に対するフィードバックのモードを、複数のモードから選択する制御部、を備え、前記複数のモードは、暗示的なフィードバックが行われる第１のモードと、明示的なフィードバックが行われる第２のモードと、を含む、情報処理装置を提供する。また、プロセッサが、ユーザの発話認識に係る情報に応じて、前記ユーザの発話態様に対するフィードバックのモードを、複数のモードから選択すること、を含み、前記複数のモードは、暗示的なフィードバックが行われる第１のモードと、明示的なフィードバックが行われる第２のモードと、を含む、情報処理方法を提供する。

Description

情報処理装置、情報処理方法、及びプログラム

　本開示は、情報処理装置、情報処理方法、及びプログラムに関する。

　近年、ユーザの発話や動作を認識し、認識した入力に対応する処理を実行する種々の装置が提案されている。また、ユーザからの入力に対しフィードバックを行い、入力の認識精度を高めようとする技術が知られている。上記のような技術としては、例えば、特許文献１に記載の情報処理装置がある。

特開２０１１－２０９７８７号公報

　しかし、特許文献１に記載の情報処理装置では、入力に対するフィードバックの方式が固定されており、ユーザの状況に応じた対応が困難である。

　そこで、本開示では、ユーザとシステムとの間のより自然な対話を実現することが可能な情報処理装置、情報処理方法、及びプログラムを提案する。

　本開示によれば、ユーザの発話認識に係る情報に応じて、前記ユーザの発話態様に対するフィードバックのモードを、複数のモードから選択する制御部、を備え、前記複数のモードは、暗示的なフィードバックが行われる第１のモードと、明示的なフィードバックが行われる第２のモードと、を含む、情報処理装置が提供される。

　以上説明したように本開示によれば、ユーザとシステムとの間のより自然な対話を実現することが可能となる。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示に係るシステム構成例を示す図である。本開示に係る入出力端末の機能ブロック図である。本開示に係る情報処理装置の機能ブロック図である。本開示の実施形態に係る入出力端末とユーザとの対話例を示す図である。同実施形態に係る暗示的フィードバックの制御の流れを示す図である。同実施形態に係る入出力端末の音量レベルを説明するための図である。同実施形態に係る認識の試行回数に基づくフィードバック制御の流れを示す図である。同実施形態に係る発話態様の変化度合いに基づくフィードバック制御の流れを示す図である。同実施形態に係る発話位置及び発話方向に対するフィードバック制御の流れを示す図である。同実実施形態に係る改善理由を付加した明示的なフィードバックの制御の流れを説明するための図である。同実施形態に係る視覚情報によるフィードバックの追加制御の流れを示す図である。同実施形態に係るインジケータを用いたフィードバックの例である。同実施形態に係るインジケータを用いたフィードバックの例である。同実施形態に係るアバターを用いたフィードバックの例である同実施形態に係るアバターを用いたフィードバックの例である同実施形態に係るアバターを用いたフィードバックの例である同実施形態に係るグラフィックを用いたフィードバックの例である。同実施形態に係るグラフィックを用いたフィードバックの例である。同実施形態に係るグラフィックを用いたフィードバックの例である。同実施形態に係るアバターを用いたフィードバックの例である同実施形態に係るアバターを用いたフィードバックの例である同実施形態に係るアバターを用いたフィードバックの例である同実施形態に係るグラフィックを用いたフィードバックの例である。同実施形態に係るグラフィックを用いたフィードバックの例である。入出力端末及び情報処理装置のハードウェア構成例を示す図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．本開示に係るフィードバックの制御
　　１．１．音声認識技術におけるフィードバック
　　１．２．本開示に係るシステム構成例
　　１．３．本開示に係る入出力端末１０
　　１．４．本開示に係る情報処理装置３０
　２．実施形態
　　２．１．フィードバックのモードについて
　　２．２．暗示的なフィードバックの例
　　２．３．フィードバックに係るモードの切り替え
　　２．４．改善理由を付加した明示的なフィードバック
　　２．５．視覚情報によるフィードバックの追加制御
　　２．６．視覚情報によるフィードバックの例
　３．入出力端末１０及び情報処理装置３０のハードウェア構成例
　４．まとめ

　＜１．本開示に係るフィードバックの制御＞
　＜＜１．１．音声認識技術におけるフィードバック＞＞
　近年、音声認識技術を利用した様々な装置が提供されている。音声認識技術を利用した装置は、ＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）やスマートフォンなどの情報処理装置をはじめ、生活家電や車載用装置など、一般消費者に近い場面でも広く利用されている。また、音声認識技術を利用した装置は、商業施設や公共施設において、人の代わりとなり顧客にサービスを提供する主体としても、今後の活用が期待される。

　上記のような装置では、例えば、ユーザの発話を認識し、認識した発話内容に基づいてアプリケーションの処理を実行することが可能である。また、上記のような装置は、ユーザの発話に対する認識結果に応じて、ユーザに対しフィードバックを行う機能を有する場合がある。当該フィードバックは、例えば、装置がユーザの発話を認識できなかった場合に、装置の表示部に、「声が小さいです」、というテキストメッセージが表示されることで行われる。ユーザは、当該メッセージを確認することで、発話した内容が装置に認識されなかったことを知覚し、次の行動を起こすことができる。このように、音声認識技術を利用した装置は、発話に関するフィードバックを行うことで、ユーザに対し、発話の改善を求めることができる。この際、装置によるフィードバックの内容が明確であるほど、ユーザの発話を改善できる可能性は向上する。

　一方、装置によるフィードバックは、ユーザの当該装置に対する印象に大きく影響する。例えば、装置によるフィードバックが常に明確である場合、ユーザは、当該装置に対し、「冷たい」、「固い」、といった印象を抱きかねない。これは、ユーザが実際の人間との対話と、装置との対話と、を比較するためである。人間同士による対話は、状況に応じて変化するものであるため、常に一定したフィードバックを行う装置に対し、ユーザは不自然さを覚えてしまう。また、上記のような印象は、装置の技術レベルが低い、という評価にも繋がりかねない。さらには、装置によるフィードバックが明確である場合、ユーザによっては、装置に指示されていると感じ、当該装置に対し嫌悪感を抱くことも想定される。

　本開示に係る情報処理装置、情報処理方法、及びプログラムは、上記の点に着目して発想されたものであり、ユーザの発話認識に係る情報に応じて、ユーザの発話態様に対するフィードバックのモードを複数のモードから選択すること、を特徴の一つとする。また、上記の複数のモードには、暗示的なフィードバックが行われる第１のモードと、明示的なフィードバックが行われる第２のモードと、が含まれる。以降の説明においては、本開示に係る情報処理装置、情報処理方法、及びプログラムの特徴を挙げながら、当該特徴が奏する効果について述べる。

　＜＜１．２．本開示に係るシステム構成例＞＞
　まず、図１を参照して、本開示に係る情報処理システムの構成例について説明する。図１を参照すると、本開示に係る情報処理システムは、入出力端末１０及び情報処理装置３０を備える。また、入出力端末１０と情報処理装置３０は、ネットワーク２０を介して互いに通信が行えるように接続される。

　ここで、入出力端末１０は、ユーザの発話を収音し、当該発話に基づいたアプリケーションの処理結果をユーザに提示する端末であってよい。また、入出力端末１０は、ユーザの発話に対するフィードバックを行う機能を有してよい。図１には、入出力端末１０が、ユーザＰ１の発話、”Ｈｅｌｌｏ．”、に対し、”Ｍａｙ　Ｉ　ｈｅｌｐ　ｙｏｕ？”、という音声出力によるフィードバックを行う一例が示されている。

　また、本開示に係る情報処理装置３０は、入出力端末１０が収音したユーザＰ１の発話に基づいて、当該発話に対して入出力端末１０が実行するフィードバックを制御する機能を有する。情報処理装置３０は、入出力端末１０が収音したユーザＰ１の発話を、ネットワーク２０を介して取得し、当該発話に基づく情報に応じて、当該発話態様に対するフィードバックのモードを、複数のモードから選択してよい。また、上記の複数のモードには、暗示的なフィードバックが行われる第１のモードと、明示的なフィードバックが行われる第２のモードと、が含まれてよい。

　また、ネットワーク２０は、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを含んでもよい。ネットワーク２０は、ＩＰ－ＶＰＮ（Ｉｎｔｅｒｎｔ　Ｐｒｏｔｏｃｏｌ－Ｖｉｒｔｕａｌ　Ｐｒｉｖａｔｅ　Ｎｅｔｗｏｒｋ）などの専用回線網であってもよい。

　なお、以降の説明においては、入出力端末１０と情報処理装置３０とから成るシステム構成を例に述べるが、本開示に係る情報システムの構成は、係る例に限定されない。例えば、情報処理装置３０は、ユーザの発話を収音し、当該発話に対するフィードバックを実行する機能を有してもよい。情報処理装置３０が上記のような入出力機能を有する場合、情報処理装置３０は、フィードバックの制御を担うと同時に、入出力端末１０としての役割を果たすこともできる。

　また、音声認識の結果に基づいて処理されるアプリケーションの機能は、入出力端末１０で実行されてもよいし、情報処理装置３０で実行されてもよい。ユーザの発話に基づくアプリケーションの処理は、当該アプリケーション、入出力端末１０、及び情報処理装置３０の仕様により適宜変更され得る。

　＜＜１．３．本開示に係る入出力端末１０＞＞
　次に、本開示に係る入出力端末１０について、詳細に説明する。上記で説明したとおり、本開示に係る入出力端末１０は、ユーザの発話を収音する機能を有する。また、入出力端末１０は、ユーザの発話認識に係る情報に応じて情報処理装置３０が制御するフィードバックの情報をユーザに提示する機能を有する。

　本開示に係る入出力端末１０は、上記の機能を有する様々な装置として実現され得る。本開示に係る入出力端末１０は、例えば、ユーザの発話に基づいて種々の処理を実行する専用のエージェントであってもよい。当該エージェントには、対話型ロボットや、自動販売機、音声案内装置などが含まれてもよい。また、本開示に係る入出力端末１０は、ＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）、タブレット、スマートフォンなどの情報処理端末であってもよい。さらには、入出力端末１０は、建物や車両に組み込まれて用いられる装置であってもよい。本開示に係る入出力端末１０は、音声認識機能を応用した種々の装置に広く適用され得る。

　以下、図２を参照して、本開示に係る入出力端末１０の機能構成例について説明する。図２を参照すると、本開示に係る入出力端末１０は、音声入力部１１０、センサ部１２０、音声出力部１３０、表示部１４０、端末制御部１５０、及びサーバ通信部１６０を備える。

　（音声入力部１１０）
　音声入力部１１０は、ユーザの発話及び環境音を収音する機能を有する。音声入力部１１０は、ユーザの発話及び環境音を電気信号に変換するマイクロフォンを含んでよい。また、音声入力部１１０は、特定方向の音を収音する指向性を有したマイクアレイを含んでもよい。上記のようなマイクアレイにより、音声入力部１１０が、ユーザの発話を環境音と切り離して収音することも可能となる。また、音声入力部１１０は、マイクロフォンやマイクアレイを複数含んでもよい。当該構成により、音源の位置、向き、及び動きなどをより高い精度で検出することが可能となる。

　（センサ部１２０）
　センサ部１２０は、ユーザを含む物体に関する種々の情報を検出する機能を有する。センサ部１２０は、上記の情報を検出するための複数のセンサを含んでよい。センサ部１２０は、ユーザの動作を検出するための撮像素子や、赤外線センサ、温度センサなどを含んでもよい。また、センサ部１２０は、撮像した画像に基づく画像認識を行う機能を有してよい。例えば、センサ部１２０は、ユーザの口の動きを検出することで、発話を行っているユーザを特定することができる。

　（音声出力部１３０）
　音声出力部１３０は、電気信号を音に変換し出力する機能を有する。具体的には、音声出力部１３０は、情報処理装置３０が制御するフィードバックの情報に基づいて、音声出力によりユーザへのフィードバックを行う機能を有する。音声出力部１３０は、上記の機能を有するスピーカを含んでよい。また、音声出力部１３０に含まれるスピーカは、特定の方向や距離などに指向性を持つ音声出力を実現する機能を有してもよい。当該機能を有するスピーカを含むことで、音声出力部１３０は、例えば、センサ部１２０が検出したユーザの位置に応じた音声出力を実施することができる。また、音声出力部１３０は、複数のスピーカを含んでもよい。音声出力部１３０が複数のスピーカを含む場合、フィードバックを出力するスピーカを制御することで、ユーザの位置に応じたフィードバックを実行することが可能となる。当該機能の詳細については、後述する。

　さらには、音声出力部１３０は、情報処理装置３０が制御するフィードバックの情報に基づいて、音声合成を行う機能を有してよい。音声出力部１３０は、例えば、情報処理装置３０から取得したテキスト情報に基づいて、テキスト読み上げ（ＴＴＳ：　Ｔｅｘｔ　Ｔｏ　Ｓｐｅｅｃｈ）を行ってもよい。

　（表示部１４０）
　表示部１４０は、情報処理装置３０が制御するフィードバックの情報に基づいて、視覚情報によるユーザへのフィードバックを行う機能を有する。当該機能は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ：Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）装置、ＯＬＥＤ（Ｏｒｇａｎｉｃ　Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）装置により実現されてもよい。また、表示部１４０は、ユーザの操作を受け付ける操作部としての機能を有してもよい。操作部としての機能は、例えば、タッチパネルにより実現され得る。

　（端末制御部１５０）
　端末制御部１５０は、上記で述べた入出力端末１０の各構成を制御する機能を有する。端末制御部１５０は、例えば、音声入力部１１０及びセンサ部１２０が検出した各種の情報を取得し、後述するサーバ通信部１６０を介して、情報処理装置３０に送信する機能を有してよい。また、端末制御部１５０は、サーバ通信部１６０を介して情報処理装置３０からフィードバックに係る情報を取得し、当該情報に基づいて、音声出力部１３０及び表示部１４０を制御してもよい。また、ユーザの発話に基づいて処理を実行するアプリケーションが入出力端末１０に備えられる場合、端末制御部１５０は、当該アプリケーションの処理を制御することができる。

　以上、本開示に係る入出力端末１０について説明した。上記の説明においては、入出力端末１０が、ユーザの発話などの入力を受け付ける機能と、ユーザの発話認識に係る情報に応じたフィードバックをユーザに提示する機能と、を併せて有する場合を例に説明した。一方、本開示に係るシステム構成は係る例に限定されない。本開示に係るシステムは、入力機能を有する入力端末と、上記のフィードバックを提示する出力端末と、を別々の備えてもよい。この場合、入力端末は、例えば、上記で説明した音声入力部１１０、センサ部１２０、及び端末制御部１５０の有する機能を備えてもよい。また、出力端末は、例えば、上記で説明した音声出力部１３０、表示部１４０、及び端末制御部１５０の有する機能を備えてもよい。本開示に係るシステム構成は、柔軟に変形され得る。

　（サーバ通信部１６０）
　サーバ通信部１６０は、ネットワーク２０を介して、情報処理装置３０との情報通信を行う機能を有する。具体的には、サーバ通信部１６０は、音声入力部１１０やセンサ部１２０が取得した情報を、端末制御部１５０の制御に基づいて、情報処理装置３０に送信する。また、サーバ通信部１６０は、情報処理装置３０から取得したフィードバックの情報を端末制御部１５０に引き渡す。

　＜＜１．４．本開示に係る情報処理装置３０＞＞
　次に、本開示に係る情報処理装置３０について、詳細に説明する。本開示に係る情報処理装置３０は、入出力端末１０が収音したユーザの発話認識に係る情報に応じて、ユーザの発話態様に対して入出力端末１０が実行するフィードバックを制御する機能を有する。情報処理装置３０は、ユーザの発話認識に係る情報に応じて、ユーザの発話態様に対するフィードバックのモードを、複数のモードから選択することができる。上記の複数のモードには、暗示的なフィードバックが行われる第１のモードと、明示的なフィードバックが行われる第２のモードと、が含まれてよい。また、上記の発話態様には、発話音量、発話速度、発話する音の高さ、発音の明確さ、発話位置、発話方向、発話内容、及び環境音が含まれてよい。

　本開示に係る情報処理装置３０は、上記の機能を有するサーバであってもよい。また、情報処理装置３０は、ユーザの発話を検出し、フィードバックを実行する各種のエージェント、ＰＣ、タブレット、またはスマートフォンであってもよい。

　以下、図３を参照して、本開示に係る情報処理装置３０の機能構成例について説明する。図３を参照すると、本開示に係る情報処理装置３０は、端末通信部３１０、音声分析部３２０、音声認識部３３０、状態記憶部３４０、位置検出部３５０、及び出力制御部３６０を備える。

　（端末通信部３１０）
　端末通信部３１０は、ネットワーク２０を介して、入出力端末１０との情報通信を行う機能を有する。具体的には、端末通信部３１０は、入出力端末１０から取得した各種の情報を、音声分析部３２０、音声認識部３３０、及び位置検出部３５０に引き渡す。また、端末通信部３１０は、出力制御部３６０により制御されるフィードバックの情報を取得し、入出力端末１０に送信する機能を有する。なお、情報処理装置３０が複数の入出力端末１０を制御する場合、端末通信部３１０は、ネットワーク２０を介して、複数の入出力端末１０と情報通信を行ってよい。

　（音声分析部３２０）
　音声分析部３２０は、入出力端末１０が収音した情報を取得し、当該情報を分析する機能を有する。音声分析部３２０は、例えば、ユーザの発話音量、発話速度、発話する音の高さ、または発音の明確さなどを含む、ユーザの発話態様に関する情報を分析できる。また、上記ユーザの発話態様には、ユーザの発話に付随して集音される環境音が含まれてよい。また、音声分析部３２０は、入出力端末１０が収音した情報から、ユーザの発話と環境音とを分離する機能を有してもよい。ユーザの発話と環境音との分離は、人間の声に係る周波数帯域の情報などに基づいて行われてもよいし、ＶＡＤ（Ｖｏｉｃｅ　Ａｃｔｉｖｉｔｙ　Ｄｅｔｅｃｔｉｏｎ）技術などにより実現されてもよい。また、後述する状態記憶部３４０が、所定のユーザの音声に関する個人情報を記憶している場合、音声分析部３２０は、当該情報を用いて、ユーザの発話と環境音とを分離することもできる。

　また、音声分析部３２０は、入出力端末１０が収音したユーザの発話を分析し、当該ユーザを特定する機能を有してもよい。ユーザの特定は、ユーザの発話の分析結果と、後述する状態記憶部３４０に記憶されるユーザの声紋情報を比較することで行われてよい。

　また、音声分析部３２０は、入出力端末１０が収音したユーザの発話を分析し、当該ユーザの感情を推定する機能を有してもよい。ユーザの感情の推定は、例えば、韻律や振幅、強勢などの解析により行われてもよい。

　（音声認識部３３０）
　音声認識部３３０は、入出力端末１０が収音した音声、または音声分析部３２０が分離したユーザの音声、に基づいて、ユーザの発話を認識する機能を有する。具体的には、音声認識部３３０は、取得した音声情報を音素化し、テキスト化する機能を有してよい。なお、音声認識部３３０による音声認識については種々の手法が用いられてよいため、詳細な説明は省略する。

　（状態記憶部３４０）
　状態記憶部３４０は、音声分析部３２０及び音声認識部３３０による処理結果を記憶する機能を有する。状態記憶部３４０は、例えば、音声分析部３２０により分析されたユーザの発話態様に係る情報や、音声認識部３３０による音声認識の結果を記憶できる。また、状態記憶部３４０は、ユーザの音声に係る特徴を含むユーザの属性情報や、発話態様の傾向などを記憶してもよい。

　（位置検出部３５０）
　位置検出部３５０は、入出力端末１０が取得した情報に基づいて、ユーザの発話位置や発話方向を推定する機能を有する。位置検出部３５０は、入出力端末１０の音声入力部１１０が収音した音声情報や、センサ部１２０が取得した画像情報を含む各種のセンサから収集された情報を基にユーザの発話位置及び発話方向を推定することができる。また、位置検出部３５０は、上記の情報を基に、発話を行っているユーザ以外の人物及び物体の位置を推定してもよい。

　（出力制御部３６０）
　出力制御部３６０は、音声分析部３２０、音声認識部３３０、状態記憶部３４０、及び位置検出部３５０から各種の情報を取得し、ユーザの発話に対するフィードバックを制御する機能を有する。出力制御部３６０は、上記の情報に基づいて、ユーザの発話態様に対するフィードバックのモードを複数のモードから選択する。当該複数のモードには、暗示的なフィードバックが行われる第１のモードと、明示的なフィードバックが行われる第２のモードと、が含まれる。また、出力制御部３６０は、入出力端末１０が行う音声または視覚情報によるフィードバックの情報を生成し、端末通信部３１０を介して、入出力端末１０に送信してもよい。出力制御部３６０は、後述する出力ＤＢ３７０から条件に基づいたフィードバック情報を検索することで、上記のフィードバックの情報を生成してもよい。出力制御部３６０によるフィードバック制御の詳細については、後述する。

　（出力ＤＢ３７０）
　出力ＤＢ３７０は、入出力端末１０が実施する音声または視覚情報によるフィードバックの情報を蓄積するデータベースであってよい。出力ＤＢ３７０は、例えば、フィードバックに係る音声情報を記憶してもよいし、入出力端末１０の音声合成機能により音声出力させるためのテキスト情報を記憶してもよい。また、出力ＤＢ３７０は、入出力端末１０が実施する視覚情報によるフィードバックに係る画像情報やテキスト情報を記憶してもよい。

　＜２．実施形態＞
　＜＜２．１．フィードバックのモードについて＞＞
　以上、本開示に係るフィードバックの制御について、概要を述べた。続いて、本開示の実施形態に係るフィードバックの制御について、詳細に説明する。本実施形態に係る情報処理装置３０は、ユーザの発話認識に係る情報に応じて、ユーザの発話態様に対するフィードバックのモードを複数のモードから選択することができる。

　（暗示的なフィードバック）
　暗示的なフィードバックとは、ユーザの発話態様に対する間接的な改善方法を含むフィードバックである。すなわち、暗示的なフィードバックでは、ユーザに発話態様の改善方法を直接的には提示せず、入出力端末１０による出力の態様を変化させることでフィードバックが行われる。ここで、本実施形態に係る暗示的なフィードバックとは、ユーザの発話態様よりも認識精度の高い発話態様でのフィードバックと定義してもよい。上記の認識精度は、入出力端末１０によるユーザの発話の認識精度であってよい。言い換えると、暗示的なフィードバックが行われる第１のモードでは、ユーザに期待する発話態様によるフィードバックが行われる。

　例えば、ユーザの発話音量が小さい場合、第１のモードでは、ユーザの発話音量よりも大きい音量の音声出力によるフォードバックが行われてよい。また、例えば、ユーザの発話速度が速すぎる場合、第１のモードでは、ユーザの発話速度よりも遅い速度での音声出力によるフィードバックが行われてよい。また、本実施形態に係る第１のモードでは、上記とは逆方向のフィードバックを行うこともできる。すなわち、ユーザの発話音量が大きい場合、第１のモードでは、ユーザの発話音量よりも小さい音量の音声出力によるフォードバックが行われてよい。また、例えば、ユーザの発話速度が遅すぎる場合、第１のモードでは、ユーザの発話速度よりも速い速度での音声出力によるフィードバックが行われてよい。

　図４は、暗示的なフィードバックを用いた、ユーザと入出力端末１０との対話例を示す図である。図４では、横軸に時間経過が、縦軸に発話音量の大きさが、示されている。ここで、横軸に係る時間経過の単位は、例えばミリ秒（ｍｓｅｃ）であってもよい。また、縦軸に係る発話音量の単位は例えば例えばデジベル（ｄＢ）であってもよい。図４に示す一例では、まずユーザが発話Ｕｖ１を行っている。ここで、発話Ｕｖ１の発話内容は、例えば、「明日の予定は？」、という問い合わせであってもよい。また、本例における発話Ｕｖ１の発話音量は、例えば４５ｄＢであってよい。しかし、発話Ｕｖ１は、認識可能音量よりも小さい音量で発話されているため、情報処理装置３０は発話Ｕｖ１を認識することが困難である。このため、情報処理装置３０は、暗示的なフィードバックとして、認識可能な音量によるシステム出力Ｓｖ１を入出力端末１０に出力させる。ここで、システム出力Ｓｖ１の発話内容は、例えば、「ご用ですか？」、という聞き直しであってもよい。また、この際のシステム出力Ｓｖ１は、例えば、６０ｄＢであってよい。

　続いて、暗示的なフィードバックとしてのシステム出力Ｓｖ１を受けたユーザは、発話Ｕｖ２による再度の問い合わせを行っている。発話Ｕｖ２の発話内容は、例えば、「明日、予定ある？」という問い合わせであってもよい。また、本例における、発話Ｕｖ２の発話音量は、例えば４５ｄＢであってよい。すなわち、図４に示す一例では、暗示的なフィードバックであるシステム出力Ｓｖ１を受けたことで、ユーザの発話Ｕｖ２は発話Ｕｖ１よりも大きな音量で発話されており、認識可能音量を上回っている。このため、発話Ｕｖ２は、情報処理装置３０により認識され、認識された発話Ｕｖ２に基づいて、入出力端末１０がアプリケーションの実行結果として、システム出力Ｓｖ２を出力している。ここで、システム出力Ｓｖ２は、例えば、「明日は昼に通院の予定があります」、というユーザの予定に関する検索結果であってもよい。なお、この際のシステム出力Ｓｖ２は、例えばシステム出力Ｓｖ１と同等の音量で行われてもよい。

　なお、図４に示す一例では、ユーザの発話が先に行われているが、入出力端末１０が先に音声出力を行う場合においては、入出力端末１０が認識可能な音量によるシステム出力を初めに例示することで、ユーザの発話音量を誘導することも可能である。

　以上説明したように、暗示的なフィードバックが行われる第１のモードでは、ユーザに期待する認識精度の高い態様を例示することで、ユーザの発話態様が改善されるように促すフィードバックが行われる。

　（明示的なフィードバック）
　一方、明示的なフィードバックとは、ユーザの発話態様に対する直接的な改善方法を示すフィードバックであってよい。すなわち、明示的なフィードバックでは、入出力端末１０による出力の態様を変化させる暗示的なフィードバックとは異なり、入出力端末１０による認識精度を向上させるための改善方法を直接的にユーザに示してよい。このため、明示的なフィードバックが行われる第２のモードでは、ユーザの発話を認識するために、ユーザがとり得る発話の改善方法が具体的に提示される。例えば、ユーザの発話音量が小さい場合、第２のモードでは、「もっと大きな声で喋ってください」、という音声出力が行われてもよい。また、例えば、ユーザの発話速度が速すぎる場合、第２のモードでは、「もっとゆっくり喋ってください」、という音声出力が行われてもよい。上記のように、明示的なフィードバックが行われる第２のモードでは、ユーザがとり得る改善手段を明確に示すことで、ユーザの発話態様が改善されるように促すフィードバックが行われる。

　本実施形態に係る情報処理装置３０は、ユーザの発話態様を含む、ユーザの発話認識に係る情報に応じて、上記で説明した第１のモード又は第２のモードを選択すること、を特徴の一つとする。上述したとおり、明示的なフィードバックは、ユーザの装置に対する印象を損ねる可能性があり、また、多用されることで対話が不自然となる可能性がある。一方、暗示的なフィードバックは、明示的なフィードバックと比較して、人間同士に近いより自然な対話を実現できるものの、明示的なフィードバックに対し発話態様の改善効果は低いことが予想される。

　上記の点を踏まえ、本実施形態に係る情報処理装置３０は、暗示的なフィードバックが行われる第１のモードを基本としながら、状況に応じて、明示的なフィードバックが行われる第２のモードに切り替える制御を行う。情報処理装置３０が当該制御を行うことで、ユーザとのより自然な対話を実現しながらも、ユーザにより発話の認識精度を高めることが可能となる。

　＜＜２．２．暗示的なフィードバックの例＞＞
　次に、本実施形態に係る暗示的なフィードバックの具体的な例について説明する。本実施形態では、ユーザの発話態様に応じて、様々な暗示的フィードバックが行われてよい。図５は、本実施形態に係る出力制御部３６０による暗示的なフィードバックの制御の流れを示すフローチャートである。

　図５を参照すると、まず、出力制御部３６０は、ユーザの発話が認識可能であったか否かを判定する（Ｓ１１０１）。この際、出力制御部３６０は、音声認識部３３０から認識の結果を取得して判定を行ってよい。ステップＳ１１０１で、出力制御部３６０は、ユーザの発話が認識されたと判定すると（Ｓ１１０１：Ｙｅｓ）、暗示的なフィードバックに係る制御を終了し、認識された音声に基づくアプリケーションの処理に移行する。

　一方、ステップＳ１１０１で、出力制御部３６０がユーザの発話が認識されていないと判定すると（Ｓ１１０１：Ｎｏ）、続いて、出力制御部３６０は、ユーザの発話音量と、環境音の音量と、を比較する（Ｓ１１０２）。この際、出力制御部３６０は、音声分析部３２０による分析結果を基に判定を行ってよい。ステップ１１０２で、出力制御部３６０が、環境音の音量がユーザの発話音量を上回ると判定すると（Ｓ１１０２：Ｙｅｓ）、出力制御部３６０は、環境調整を提案するフィードバック情報を生成する（Ｓ１１０６）。

　上記の環境調整を提案するフィードバック情報は、例えば、「周りの音が大きいです」、という音声を出力させる命令であってもよい。このように、本実施形態に係る暗示的なフィードバックには、ユーザに期待する認識精度の高い態様によるフィードバックの他、ユーザに発話改善に対する気付きを与えるフィードバックが含まれてよい。

　一方、ステップＳ１１０２で、出力制御部３６０が、環境音の音量よりもユーザの発話音量が大きいと判定すると（Ｓ１１０２：Ｎｏ）、続いて、出力制御部３６０は、ユーザの発話音量が認識されるために充分な大きさであったか、を判定する（Ｓ１１０３）。すなわち、出力制御部３６０は、ユーザの発話を認識できなかった原因がユーザの発話音量にあるか否かを判定する。

　ここで、出力制御部３６０が、ユーザの発話音量が充分でなかったと判定した場合（Ｓ１１０３：Ｎｏ）、出力制御部３６０は、ユーザの発話音量よりも大きな音量の音声出力を行うフィードバック情報を生成する（Ｓ１１０７）。当該フィードバック情報は、例えば、ユーザの発話音量よりも大きな音量で聞き直しを行わせる命令であってもよい。

　一方、ステップＳ１１０３で、出力制御部３６０が、ユーザの発話音量が充分であったと判定した場合（Ｓ１１０３：Ｙｅｓ）、続いて、出力制御部３６０は、ユーザの発話が音素化可能であったか否かを判定する（Ｓ１１０４）。すなわち、出力制御部３６０は、ユーザの発話を認識できなかった原因がユーザの発話速度や発音の明確さにあるか否かを判定する。

　ここで、出力制御部３６０が、ユーザの発話が音素化できていないと判定した場合（Ｓ１１０４：Ｎｏ）、出力制御部３６０は、ユーザの発話速度よりも遅い速度で音声出力を行うフィードバック情報を生成する（Ｓ１１０８）。当該フィードバック情報は、例えば、ユーザの発話速度よりも遅い速度で聞き直しを行わせる命令であってもよい。また、当該フィードバック情報は、ピッチや声質などの変化を明確に発音した音声出力を行わせる命令であってもよい。

　一方、ステップＳ１１０４で、出力制御部３６０が、ユーザの発話が音素化できていたと判定した場合（Ｓ１１０４：Ｙｅｓ）、続いて、出力制御部３６０は、ユーザの発話がテキスト化可能であったか否かを判定する（Ｓ１１０５）。すなわち、出力制御部３６０は、ユーザの発話を基に音素化された情報が、単語として認識されたか否かを判定する。

　ここで、出力制御部３６０が、ユーザの発話が単語として認識さえていない、と判定した場合（Ｓ１１０５：Ｎｏ）、出力制御部３６０は、音素化された音を用いて音声出力を行うフィードバック情報を生成する（Ｓ１１０９）。当該フィードバック情報は、例えば、音素化された音の情報を用いて、「〇〇ですか？」、と聞き直しを行わせる命令であってもよい。

　以上、本実施形態に係る暗示的なフィードバックの例について説明した。上記で説明したとおり、本実施形態に係る情報処理装置３０は、ユーザの発話認識に係る情報に応じて、入出力端末１０に様々な暗示的フィードバックを実行させることができる。情報処理装置３０による当該制御により、人間同士に近いより自然な対話を実現することが可能となる。

　＜＜２．３．フィードバックに係るモードの選択＞＞
　次に、本実施形態の出力制御部３６０によるフィードバックに係るモードの選択について説明する。上述したとおり、本実施形態に係る情報処理装置３０は、ユーザの発話認識に係る情報に応じて、ユーザの発話態様に対するフィードバックのモードを選択することができる。ここで、ユーザの発話認識に係る情報には、例えば、ユーザ情報、コンテンツ情報、環境情報、デバイス情報が含まれてよい。

　上記のユーザ情報は、ユーザに関する情報であり、例えば、ユーザの発話態様、発話内容、属性情報、感情情報などであってよい。本実施形態に係る出力制御部３６０は、ユーザ情報に応じて、ユーザの発話態様に対するフィードバックのモードを選択することができる。

　また、上記のコンテンツ情報は、ユーザの発話を認識し処理を行うアプリケーションに係る情報であってよい。ここで、コンテンツ情報は、例えば、アプリケーションの種類や仕様に関する情報を含んでよい。本実施形態に係る出力制御部３６０は、コンテンツ情報に応じて、ユーザの発話態様に対するフィードバックのモードを選択することができる。出力制御部３６０は、例えば、ユーザとの会話を主目的としたアプリケーションでは、第１のモードを選択し、情報検索を主目的としたアプリケーションでは、第２のモードを選択することもできる。

　また、上記の環境情報は、ユーザや入出力端末１０の周辺環境に係る情報であってよい。環境情報には、例えば、ユーザ以外の人物検出情報や、環境音の情報などが含まれてよい。本実施形態に係る出力制御部３６０は、環境情報に応じて、ユーザの発話態様に対するフィードバックのモードを選択することができる。

　また、上記のデバイス情報は、入出力端末１０の種類や仕様に関する情報であってよい。本実施形態に係る出力制御部３６０は、デバイス情報に応じて、ユーザの発話態様に対するフィードバックのモードを選択することができる。出力制御部３６０は、例えば、入出力端末１０がユーザとの会話を主目的としたエージェントである場合に第１のモードを選択し、入出力端末１０が事務的または機械的に利用されるデバイスである場合に第２のモードを選択することもできる。

　以上、ユーザの発話認識に係る情報について説明した。上述したように、本実施形態に係る情報処理装置３０は、暗示的なフィードバックが行われる第１のモードを基本としながら、状況に応じて、明示的なフィードバックが行われる第２のモードに切り替える制御を行うことができる。以下、出力制御部３６０がフィードバックに係るモードを切り替える条件を具体的に挙げながら説明する。

　（認識の試行回数に基づくモードの選択）
　まず、認識の試行回数に基づくモードの選択について説明する。本実施形態に係る出力制御部３６０は、ユーザの発話が所定の回数以内に認識されないことに基づいて、明示的なフィードバックが行われる第２のモードを選択することができる。なお、上記の所定の回数については、システムやアプリケーションの仕様に応じた種々の定義が行われてよい。本実施形態に係る所定の回数は、例えば、ユーザの発話に係る入力を検出したものの認識には至らなかった回数であってもよい（認証失敗回数）。また、所定の回数は、認識に係る入力待ち状態がタイムアウトした回数であってもよい（タイムアウト回数）。また、所定の回数は、ユーザの発話回数であってもよい（発話回数）。さらには、所定の回数は、上記に示した例の合計回数であてもよい。以下、図６及び図７を参照して、上記の制御について詳細に説明する。なお、以下の説明においては、ユーザの発話音量を判定する場合を例に説明を行う。

　まず、図６を参照して、本実施形態に係る音声出力の音量レベルについて説明する。図６は、入出力端末１０の音声出力部１３０による音声出力の音量レベルについて説明するための図である。図６に示す一例では、音声出力の音量レベルは、レベル１～３の３段階に定義されており、レベルの数値が上がるほど、音量が大きくなってよい。ここで、レベル１は、音声出力部１３０による音声出力における初期設定値であってよい。レベル１における音量範囲は、例えば、０ｄＢ～５０ｄＢであってもよい。ユーザの発話が正常に認識された場合、入出力端末１０は、レベル１の音量でその後の応答を行ってよい。また、レベル２は、レベル１よりも一段階大きな音量と定義されてよい。レベル２における音量範囲は、例えば、５１ｄＢ～７０ｄＢであってもよい。また、レベル３は、レベル２よりも一段階大きな音量であり、暗示的なフィードバックにおける最大音量として定義されてもよい。レベル３における音量範囲は、例えば、７１ｄＢ～１００ｄＢ、または７１ｄＢ以上と定義されてもよい。

　次に、図７を参照して、認識の試行回数に基づく第２のモードの選択について説明する。図７は、認識の試行回数に基づく出力制御部３６０の制御の流れを示すフローチャートである。まず、出力制御部３６０は、入出力端末１０から取得したユーザの発話音量が、認識を行うための音量として不足しているか否かを判定する（Ｓ１２０１）。

　ここで、ユーザの発話音量が認識を行うのに充分である場合（Ｓ１２０１：Ｎｏ）、出力制御部３６０は、ユーザの発話音量に係る判定の処理を終了する。一方、ユーザの発話音量が不足している場合（Ｓ１２０１：Ｙｅｓ）、出力制御部３６０は、図６で示したレベル２の音量による暗示的フィードバックを実行させるためのフィードバック情報を生成する（Ｓ１２０２）。すなわち、出力制御部３６０は、入出力端末１０に、ユーザの発話音量よりも一段階レベルの高い音量による暗示的なフィードバックを実行させる。

　ステップＳ１２０２による暗示的なフィードバックが実行された後、再度ユーザの発話を取得すると、出力制御部３６０は、取得したユーザの発話音量が、認識を行うための音量として不足しているか否か、再度判定を行う（Ｓ１２０３）。ここで、ユーザの発話音量が認識を行うのに充分である場合（Ｓ１２０３：Ｎｏ）、出力制御部３６０は、ユーザの発話音量に係る判定の処理を終了する。

　一方、再度ユーザの発話音量が不足している場合（Ｓ１２０３：Ｙｅｓ）、出力制御部３６０は、図６で示したレベル３の音量による暗示的フィードバックを実行させるためのフィードバック情報を生成する（Ｓ１２０４）。すなわち、出力制御部３６０は、入出力端末１０に、設定された最大音量による暗示的フィードバックを実行させる。

　ステップＳ１２０４による暗示的なフィードバックが実行された後、再度ユーザの発話を取得すると、出力制御部３６０は、取得したユーザの発話音量が、認識を行うための音量として不足しているか否か、再度判定を行う（Ｓ１２０５）。ここで、ユーザの発話音量が認識を行うのに充分である場合（Ｓ１２０５：Ｎｏ）、出力制御部３６０は、ユーザの発話音量に係る判定の処理を終了する。

　一方、再度ユーザの発話音量が不足している場合（Ｓ１２０５：Ｙｅｓ）、出力制御部３６０は、明示的なフィードバックを実行させるためのフィードバック情報を生成する（Ｓ１２０６）。すなわち、出力制御部３６０は、暗示的なフィードバックがユーザの発話態様の改善につながらないと判断し、入出力端末１０に、明示的なフィードバックを実行させる。入出力端末１０は、出力制御部３６０による制御に従って、ユーザに対し、例えば、「もっと大きな声で話してください」、という音声出力を行ってもよい。

　以上説明したように、本実施形態に係る出力制御部３６０は、認識の試行回数に基づいて、明示的なフィードバックが行われる第２のモードを選択することができる。出力制御部３６０による上記の制御により、暗示的なフィードバックによる自然な対話を基本としながらも、ユーザの発話が所定の回数以内に認識されない場合において、認識の精度を向上させることが可能となる。

　なお、上記の説明では、音量レベルを３段階に定義し、認識の試行回数が３回である場合を例に説明した。しかし、本実施形態に係る認識の試行回数に基づく第２のモードの選択は、係る例に限定されない。音量レベル及び認識の試行回数は適宜変更されてよい。また、上記の説明では、ユーザの発話態様のうち、ユーザの発話音量を判定する場合を例に説明した。しかし、本実施形態に係る認識の試行回数に基づく第２のモードの選択は、係る例に限定されない。出力制御部３６０は、ユーザの発話速度や発話の明確さを判定して、第２のモードを選択することも可能である。

　（発話態様の変化度合いに基づくモードの選択）
　次に、ユーザの発話態様の変化度合いに基づくモードの選択について説明する。本実施形態に係る出力制御部３６０は、暗示的なフィードバックを受けたユーザの発話態様に改善が認められないことに基づいて、第２のモードを選択することができる。以下、図８を参照して、上記の制御について詳細に説明する。なお、以下の説明においては、ユーザの発話音量を判定する場合を例に説明を行う。

　まず、出力制御部３６０は、入出力端末１０から取得したユーザの発話音量が、認識を行うための音量として不足しているか否かを判定する（Ｓ１３０１）。こで、ユーザの発話音量が認識を行うのに充分である場合（Ｓ１３０１：Ｎｏ）、出力制御部３６０は、ユーザの発話音量に係る判定の処理を終了する。一方、ユーザの発話音量が不足している場合（Ｓ１３０１：Ｙｅｓ）、出力制御部３６０は、図６で示したレベル２の音量による暗示的フィードバックを実行させるためのフィードバック情報を生成する（Ｓ１３０２）。

　ステップＳ１３０２による暗示的なフィードバックが実行された後、再度ユーザの発話を取得すると、出力制御部３６０は、取得したユーザの発話音量と、前回の発話音量と、を比較して発話音量の変化度合いを判定する（Ｓ１３０３）。この際、出力制御部３６０は、状態記憶部３４０に記憶される、ユーザの前回の発話態様の分析結果を取得することで、上記の判定を行うことができる。

　ここで、ユーザの発話音量が認識可能な大きさまで充分に変化している場合（Ｓ１３０３：充分な変化）、出力制御部３６０は、ユーザの発話音量に係る判定の処理を終了する。一方、ステップＳ１３０３で、ユーザの発話音量に変化があるものの認識可能な大きさには至らない場合（Ｓ１３０３：不充分な変化）、出力制御部３６０は、図６で示したレベル３の音量による暗示的フィードバックを実行させるためのフィードバック情報を生成する（Ｓ１３０５）。また、ステップＳ１３０３で、ユーザの発話音量に変化がない場合、または発話音量が小さくなっている場合（Ｓ１３０３：変化なし）、出力制御部３６０は、暗示的なフィードバックがユーザの発話態様の改善につながらないと判断し、入出力端末１０に、明示的なフィードバックを実行させる。

　以上説明したように、本実施形態に係る出力制御部３６０は、ユーザの発話態様の変化度合いに基づいて、明示的なフィードバックが行われる第２のモードを選択することができる。出力制御部３６０による上記の制御により、暗示的なフィードバックにユーザが反応を示さない場合でも、認識の精度を向上させることが可能となる。

　なお、上記の説明では、ユーザの発話態様のうち、ユーザの発話音量を判定する場合を例に説明した。しかし、本実施形態に係るユーザの発話態様の変化度合いに基づく第２のモードの選択は、係る例に限定されない。出力制御部３６０は、ユーザの発話速度や発話の明確さを判定して、第２のモードを選択することも可能である。

　（発話位置又は発話方向に基づくモードの選択）
　次に、ユーザの発話位置または発話方向に基づくモードの選択について説明する。本実施形態に係る出力制御部３６０は、暗示的なフィードバックを受けたユーザの発話位置または発話方向に改善が認められないことに基づいて、第２のモードを選択することができる。このように、本実施形態に係るユーザの発話態様には、ユーザの発話位置や発話方向が含まれてよい。

　図９は、ユーザの発話位置または発話方向に基づく出力制御部３６０の制御の流れを示すフローチャートである。まず、出力制御部３６０は、入出力端末１０から取得したユーザの発話音量が、認識を行うための音量として不足しているか否かを判定する（Ｓ１４０１）。ここで、ユーザの発話音量が認識を行うのに充分である場合（Ｓ１４０１：Ｎｏ）、出力制御部３６０は、ユーザの発話位置及び発話方向に係る判定の処理を終了する。

　一方、ユーザの発話音量が不足している場合（Ｓ１４０１：Ｙｅｓ）、続いて、出力制御部３６０は、ユーザの発話位置が適切か否かを判定する（Ｓ１４０２）。すなわち、出力制御部３６０は、発話音量の不足が発話位置に起因するか否かを判定する。この際、出力制御部３６０は、位置検出部３５０が推定したユーザの発話位置の情報を基に、上記の判定を行うことができる。

　ステップＳ１４０２で、出力制御部３６０がユーザの発話位置が適切でないと判定した場合（Ｓ１４０２：Ｎｏ）、出力制御部３６０は、ユーザの発話位置に対する暗示的なフィードバックを実行させるためのフィードバック情報を生成する（Ｓ１４０４）。当該フィードバック情報は、例えば、「声が遠いようです」、という音声を入出力端末１０に出力させる命令であってもよい。

　一方、ステップＳ１４０２で、出力制御部３６０がユーザの発話位置が適切であると判定した場合（Ｓ１４０２：Ｙｅｓ）、続いて、出力制御部３６０は、ユーザの発話方向が適切か否かを判定する（Ｓ１４０３）。すなわち、出力制御部３６０は、発話音量の不足が発話方向に起因するか否かを判定する。この際、出力制御部３６０は、位置検出部３５０が推定したユーザの発話方向の情報を基に、上記の判定を行うことができる。

　ステップＳ１４０３で、出力制御部３６０がユーザの発話方向が適切であると判定した場合（Ｓ１４０３：Ｙｅｓ）、出力制御部３６０は、ユーザの発話位置及び発話方向に係る判定の処理を終了する。

　一方、ステップＳ１４０３で、出力制御部３６０がユーザの発話方向が適切でないと判定した場合（Ｓ１４０３：Ｎｏ）、出力制御部３６０は、ユーザの発話方向に対する暗示的なフィードバックを実行させるためのフィードバック情報を生成する（Ｓ１４０５）。当該フィードバック情報は、例えば、「私に話しかけていますか？」、という音声を入出力端末１０に出力させる命令であってもよい。また、ステップＳ１４０５で生成されるフィードバック情報は、音声出力を行うスピーカに関する指定であってもよい。例えば、入出力端末１０の音声出力部１３０が複数のスピーカを含む場合、暗示的なフィードバックを出力させるスピーカを限定することで、ユーザに対し、発話方向に対する気付きを与えることができる。また、音声出力部１３０がマイクアレイを含む場合、上記のフィードバック情報には、当該マイクアレイの指向性を設定する情報が含まれてもよい。

　ステップＳ１４０４またはステップＳ１４０５において暗示的なフィードバックが実行された後、再度ユーザの発話認識に係る情報を取得すると、出力制御部３６０は、ユーザの発話位置または発話方向が改善されたか否かを判定する（Ｓ１４０６）。ここで、出力制御部３６０が、ユーザの発話位置または発話方向が改善されたと判定した場合（Ｓ１４０６：Ｙｅｓ）、出力制御部３６０は、発話位置及び発話方向に係る判定の処理を終了する。

　一方、出力制御部３６０がユーザの発話位置または発話方向が改善されていないと判定した場合（Ｓ１４０６：Ｎｏ）、出力制御部３６０は、ユーザの発話位置または発話方向に対する明示的なフィードバックを実行させるフィードバック情報を生成する。当該フィードバック情報は、例えば、「マイクに近づいてください」、「マイクの方向に喋ってください」、という音声を入出力端末１０に出力させる命令であってもよい。

　以上説明したように、本実施形態に係る出力制御部３６０は、ユーザの発話位置または発話方向に基づいて、明示的なフィードバックが行われる第２のモードを選択することができる。なお、上記では、ユーザの発話音量が不足している場合について説明したが、ユーザの発話位置または発話方向に基づく第２のモードの選択は、環境音の音量を考慮して制御されてもよい。例えば、入出力端末１０が建物に組み込まれたエージェントであり、当該建物の複数の部屋に音声入力部１１０及び音声出力部１３０を備える場合を想定する。この際、ユーザが発話を行った部屋の環境音が大きく、ユーザの発話を認識するのが困難な場合、情報処理装置３０は、ユーザを別の部屋に誘導するフィードバック情報を生成してもよい。すなわち、情報処理装置３０は、ユーザの発話を検出したマイクロフォンとは異なる別のマイクロフォンに発話が行われるよう、ユーザを誘導することができる。このように、出力制御部３６０がユーザの発話位置または発話方向に基づいたフィードバックの制御を行うことで、入出力端末１０の仕様に応じた様々なフィードバックを実現することが可能となる。

　（発話態様の分析に基づくモードの選択）
　次に、ユーザの発話態様の分析に基づくモードの選択について説明する。本実施形態に係る出力制御部３６０は、ユーザの発話態様の分析結果に基づいて、フィードバックのモードを制御することができる。上記の発話態様には、発話音量、発話速度、発話する音の高さ、発音の明確さ、発話位置、発話方向、発話内容、及び環境音が含まれてよい。

　―ユーザの属性情報に基づくモードの選択―
　まず、ユーザの属性情報に基づくモードの選択について説明する。本実施形態に係る出力制御部３６０は、ユーザの属性情報に基づいて、フィードバックのモードを制御することができる。ユーザの属性情報は、音声分析部３２０がユーザの発話態様を分析することで得られる情報、または音声認識部３３０による音声認識の結果から得られる情報であってよい。また、ユーザの属性情報には、ユーザの性別、年齢などのプロフィール情報や、使用言語、発話態様の傾向などの情報が含まれてよい。

　出力制御部３６０は、ユーザの発話態様の傾向に基づいて、フィードバックのモードを選択してもよい。例えば、音声分析部３２０の分析により特定されたユーザが、発話音量が小さい傾向にある場合、出力制御部３６０は、第２のモードを優先的に選択してもよい。このように、出力制御部３６０がユーザの発話傾向に基づいてモードの選択を行うことで、ユーザの発話を認識するまでの時間を短縮することが期待できる。

　また、出力制御部３６０は、モードに関するユーザの行った設定に基づいて、フィードバックのモードを選択してもよい。ユーザが発話に対するフィードバックのモードを設定できる場合、出力制御部３６０は、音声分析部３２０の分析により特定されたユーザの設定に従ってフィードバックのモードを設定することができる。

　また、出力制御部３６０は、複数のユーザの属性情報から得られる統計情報に基づいて、フィードバックのモードを選択してもよい。出力制御部３６０は、特定の属性情報をキーに、当該属性を有するユーザグループの発話態様の傾向などを取得し、当該傾向に基づいて、モードの選択を行ってもよい。上記の制御は、入出力端末１０が不特定多数のユーザに利用される環境において、特に有効である。

　―ユーザの感情に基づくモードの選択―
　次に、ユーザの感情に基づくモードの選択について説明する。本実施形態に係る出力制御部３６０は、ユーザの感情に基づいて、フィードバックのモードを制御することができる。ユーザの感情は、音声分析部３２０がユーザの発話態様を分析することで得られる情報であってよい。

　出力制御部３６０は、例えば、ユーザが興奮状態であると推定されることに基づいて、第１のモードを選択してもよい。上述したとおり、ユーザによっては、明示的なフィードバックに嫌悪感を抱くことも想定される。このため、出力制御部３６０は、ユーザが興奮状態であると推定される場合には、入出力端末１０に暗示的なフィードバックを行わせることで、ユーザの感情を損ねる恐れを軽減することができる。

　―発話内容に基づくモードの選択―
　次に、ユーザの発話内容に基づくモードの選択について説明する。本実施形態に係る出力制御部３６０は、ユーザの発話内容に基づいて、フィードバックのモードを制御することができる。ユーザの発話内容は、音声認識部３３０による音声認識の結果から得られる情報であってよい。

　出力制御部３６０は、例えば、ユーザの発話内容がプライバシー情報を含むと推定されることに基づいて、第２のモードを選択してもよい。本実施形態に係る暗示的フィードバックでは、音素化またはテキスト化できた要素を用いた聞き直しが行われる可能性がある。このため、ユーザ以外の人物にプライバシー情報が漏えいすることを防ぐために、出力制御部３６０は、第２のモードを設定することができる。また、出力制御部３６０が上記の制御を行うことで、プライバシー情報に係る発話の認識精度を向上させ、対話をより短い時間で終了させることが可能となる。

　―環境情報に基づくモードの選択―
　次に、環境情報に基づくモードの選択について説明する。本実施形態に係る出力制御部３６０は、ユーザの周囲に第三者の存在が検出されたことに基づいて、フィードバックのモードを制御することができる。第三者の検出は、位置検出部３５０による検出結果から得られる情報、または音声認識部３３０による音声認識の結果から得られる情報であってよい。

　出力制御部３６０は、例えば、ユーザの周囲に第三者の存在が検出されたことに基づいて、第１のモードを選択してもよい。上述したとおり、ユーザによっては、明示的なフィードバックを、装置に指示されている、と感じる場合がある。このようなユーザは、周囲人物に明示的なフィードバックを聞かれることで、入出力端末１０に対する印象をより損ねると予想される。このため、出力制御部３６０は、ユーザの周囲に第三者の存在が検出された場合には、入出力端末１０に暗示的なフィードバックを行わせることで、ユーザの感情を損ねる恐れを軽減することができる。

　＜＜２．４．改善理由を付加した明示的なフィードバック＞＞
　以上、出力制御部３６０によるフィードバックに係るモードの選択について説明した。次に、本実施形態に係る改善理由を付加した明示的なフィードバックについて説明する。本開示に係る出力制御部３６０は、明示的なフィードバックが行われる第２のモードにおいて、入出力端末１０に、改善理由を付加したフィードバックを実行させることができる。出力制御部３６０が、ユーザに発話態様を改善する理由を併せて提示するようにフィードバックを制御することで、明示的なフィードバックの表現を和らげ、ユーザの感情を損ねる可能性を低減することが可能となる。

　図１０は、出力制御部３６０による改善理由の付加の流れを示すフローチャートである。図１０に示す一例において、出力制御部３６０は、まず、音声分析部３２０による発話の分析結果を取得し、検出された音声の数を判定する（Ｓ１５０１）。すなわち、出力制御部３６０は、収音情報に複数人の音声が含まれているか否かを判定する。

　ステップＳ１５０１において、出力制御部３６０が、一人の音声のみが検出されていると判定した場合（Ｓ１５０１：一人の音声）、出力制御部３６０は、フィードバック情報に改善理由１を設定する（Ｓ１５０２）。ここで、フィードバック情報に設定される改善理由１は、例えば、「まわりの音が大きすぎるので」、という付加情報であってもよい。

　また、ステップＳ１５０１において、出力制御部３６０が、複数人音声が検出されていると判定した場合（Ｓ１５０１：複数人の音声）、出力制御部３６０は、フィードバック情報に改善理由２を設定する（Ｓ１５０３）。ここで、フィードバック情報に設定される改善理由２は、例えば、「他の人が話しているようなので」、という付加情報であってもよい。

　また、ステップＳ１５０１において、出力制御部３６０が、音声の数を判定することが困難である場合（Ｓ１５０１：特定困難）、出力制御部３６０は、フィードバック情報に改善理由３を設定する（Ｓ１５０４）。ここで、フィードバック情報に設定される改善理由３は、例えば、「ちょっと聞こえにくいので」、という付加情報であってもよい。

　ステップＳ１５０２～Ｓ１５０４において、いずれかの改善理由が設定されると、続いて、出力制御部３６０は、改善理由を付加した明示的なフィードバックを実行させるフィードバック情報を生成し、入出力端末１０に送信する（Ｓ１５０５）。ステップＳ１５０５で生成されるフィードバック情報は、例えば、「もう少し大きな声で言ってください」、という出力情報と、改善理由と、を組み合わせた情報であってよい。例えば、ステップＳ１５０２で改善理由１が設定されている場合、ステップＳ１５０５で生成される情報は、「まわりの音が大きすぎるので、もう少し大きな声でいってください」という出力情報であってよい。

　以上説明したように、本実施形態に係る出力制御部３６０は、明示的なフィードバックが行われる第２のモードにおいて、入出力端末１０に、改善理由を付加したフィードバックを実行させることができる。出力制御部３６０による上記の制御により、明示的なフィードバックの表現を和らげ、より自然な対話を実現することが可能となる。

　＜＜２．５．視覚情報によるフィードバックの追加制御＞＞
　次に、本実施形態に係る視覚情報によるフィードバックの追加について説明する。本実施形態に係る出力制御部３６０は、音声出力によるフィードバックに加え、視覚情報によるフィードバックを制御することが可能である。また、出力制御部３６０は、ユーザの発話態様が充分に変化しないことに基づいて、視覚情報によるフィードバックを追加することができる。以下、図１１を参照して、出力制御部３６０による上記の制御について、詳細に説明する。

　まず、出力制御部３６０は、ユーザの発話音量が認識を行うための音量として不足しているか否かを判定する（Ｓ１６０１）。ここで、ユーザの発話音量が認識を行うのに充分である場合（Ｓ１６０１：Ｎｏ）、出力制御部３６０は、視覚情報によるフィードバックの追加に係る制御を終了する。一方、ユーザの発話音量が不足している場合（Ｓ１６０１：Ｙｅｓ）、出力制御部３６０は、図６で示したレベル２の音量による暗示的フィードバックを実行させるためのフィードバック情報を生成する（Ｓ１６０２）。

　ステップＳ１６０２による暗示的なフィードバックが実行された後、再度ユーザの発話を取得すると、出力制御部３６０は、取得したユーザの発話音量が、認識を行うための音量として不足しているか否か、再度判定を行う（Ｓ１６０３）。ここで、ユーザの発話音量が認識を行うのに充分である場合（Ｓ１６０３：Ｎｏ）、出力制御部３６０は、視覚情報によるフィードバックの追加に係る制御を終了する。

　一方、再度ユーザの発話音量が不足している場合（Ｓ１６０３：Ｙｅｓ）、出力制御部３６０は、図６で示したレベル３の音量による暗示的フィードバックを実行させるためのフィードバック情報を生成する（Ｓ１６０４）。また、出力制御部３６０は、視覚情報による暗示的フィードバックを実行させるためのフィードバック情報を生成する（Ｓ１６０５）。暗示的フィードバックを実行させるためのフィードバック情報は、例えば、入出力端末１０の表示部１４０に、音声出力によるフィードバックと同様のテキスト情報を表示させる命令であってもよい。また、暗示的フィードバックを実行させるためのフィードバック情報は、後述する画像やアニメーションを用いたフィードバックを実行させる命令であってもよい。

　ステップＳ１６０４～Ｓ１６０５において、暗示的なフィードバックが実行された後、再度ユーザの発話を取得すると、出力制御部３６０は、取得したユーザの発話音量が、認識を行うための音量として不足しているか否か、再度判定を行う（Ｓ１６０６）。ここで、ユーザの発話音量が認識を行うのに充分である場合（Ｓ１６０６：Ｎｏ）、出力制御部３６０は、視覚情報によるフィードバックの追加に係る制御を終了する。

　一方、再度ユーザの発話音量が不足している場合（Ｓ１６０６：Ｙｅｓ）、出力制御部３６０は、音声出力による明示的なフィードバックを実行させるためのフィードバック情報を生成する（Ｓ１６０７）。また、出力制御部３６０は、視覚情報による明示的なフィードバックを実行させるためのフィードバック情報を生成する（Ｓ１６０８）。

　以上説明したように、本実施形態に係る出力制御部３６０は、音声出力によるフィードバックに加え、視覚情報によるフィードバックを制御することが可能である。また、出力制御部３６０は、音声出力によるフィードバックの制御と同様に、段階的に視覚によるフィードバックを追加することができる。出力制御部３６０が上記の制御を行うことにより、音声による暗示的なフィードバックを基本としながらも、認識の精度を向上させることが可能となる。

　＜＜２．６．視覚情報によるフィードバックの例＞＞
　以上、本実施形態に係る視覚情報によるフィードバックの制御について説明した。以下、図１２～図１６を参照して、本実施形態に係る視覚情報によるフィードバックの例について説明する。上記の視覚情報には、文字、記号、アバター、インジケータ、または画像の変化が含まれてよい。

　（インジケータによる暗示的フィードバック）
　図１２は、本実施形態の視覚情報による暗示的なフィードバックに用いられるインジケータの一例である。図１２Ａを参照すると、入出力端末１０の表示部１４０には、２つのインジケータｉ１及びｉ２が表示されている。ここで、インジケータｉ１は、ユーザの発話音量を示すインジケータであってよい。また、インジケータｉ２は、入出力端末１０の出力音量を示すインジケータであってよい。それぞれのインジケータｉ１及びｉ２は、ユーザの発話音量または入出力端末１０の出力音量の変化に応じて、表示部１４０の上部に向けてグラデーションの占める割合が変化してよい。すなわち、ユーザの発話音量が大きいほど、インジケータｉ１は、表示部１４０の画面上部に向けてグラデーションが広がり、入出力端末１０の出力音量が大きいほど、インジケータｉ２は、表示部１４０の画面上部に向けてグラデーションが広がってよい。

　また、図１２Ｂは、別のインジケータの例を示す図である。図１２Ｂを参照すると、入出力端末１０の表示部１４０には、２つのインジケータｉ３及びｉ４が表示されている。ここで、インジケータｉ３は、ユーザの発話音量を示すインジケータであってよい。また、インジケータｉ４は、入出力端末１０の出力音量を示すインジケータであってよい。それぞれのインジケータｉ３及びｉ４は、ユーザの発話音量または入出力端末１０の出力音量の変化に応じて、表示部１４０の中央に向けて音量レベルを示すバーの数が変化してよい。すなわち、ユーザの発話音量が大きいほど、インジケータｉ３は、表示部１４０の画面中央に向けてバーの数が増え、入出力端末１０の出力音量が大きいほど、インジケータｉ４は、表示部１４０の画面中央に向けてバーの数が増えてよい。

　ユーザは、表示部１４０に表示されるインジケータを確認することで、入出力端末１０の出力音量と、ユーザの発話音量と、を比較することができる。これにより、ユーザが、発話音量が不足していることを認識し、発話態様を改善する効果が期待される。

　（アバターによる発話方向に対する暗示的フィードバック）
　次に、図１３を参照して、本実施形態の視覚情報による暗示的なフィードバックに用いられるアバターについて、一例を説明する。図１３に示されるアバターは、ユーザの発話方向に対する暗示的なフィードバックを行うための画像やアニメーションであってよい。図１３Ａを参照すると、入出力端末１０の表示部１４０には、アバターａ１が表示されている。また、入出力端末１０の下部には、音声入力部１１０が配置されている。ここで、アバターａ１は、ユーザの発話方向が適切である場合に表示されるアバターの一例であってよい。

　図１３Ｂは、ユーザの発話方向が適切でない場合に表示されるアバターの一例である。図１３Ｂを参照すると、図１３Ａとは異なり、音声入力部１１０は、入出力端末１０の向かって左側に配置されている。また、アバターａ２は、表示部１４０の向かって左側に表示されており、視線は音声入力部１１０に向いている。

　続いて、図１３Ｃを参照する。図１３Ｃも、図１３Ｂと同様、ユーザの発話方向が適切でない場合に表示されるアバターの一例を示している。図１３Ｃを参照すると、図１３Ａとは異なり、音声入力部１１０は、入出力端末１０の向かって右側に配置されている。また、アバターａ３は、表示部１４０の向かって右側に表示されており、視線は音声入力部１１０に向いている。

　以上、説明したように、図１３に示す一例では、ユーザの発話方向が適切でない場合、アバターが音声入力部１１０の位置を示唆することによる暗示的なフィードバックが行われる。ユーザがアバターの画像やアニメーションの動きを視認することで、ユーザの発話方向が改善される効果が期待される。

　（グラフィックを用いた発話方向に対する暗示的フィードバック）
　次に、図１４を参照して、本実施形態の視覚情報による暗示的なフィードバックに用いられるグラフィックについて、一例を説明する。図１４に示されるグラフィックｇ１は、ユーザの発話方向に対する暗示的なフィードバックを行うための画像やアニメーションであってよい。図１４Ａを参照すると、入出力端末１０の表示部１４０には、グラフィックｇ１が表示されている。また、入出力端末１０の下部には、音声入力部１１０が配置されている。ここで、グラフィックｇ１は、ユーザの発話方向が適切である場合に表示されるグラフィックの一例であってよい。

　図１４Ｂは、ユーザの発話方向が適切でない場合に表示されるグラフィックの一例である。図１４Ｂを参照すると、図１４Ａとは異なり、音声入力部１１０は、入出力端末１０の向かって左側に配置されている。また、グラフィックｇ２は、表示部１４０の向かって左側に表示されており、音声入力部１１０側に広がるように変形している。

　続いて、図１４Ｃを参照する。図１４Ｃも、図１４Ｂと同様、ユーザの発話方向が適切でない場合に表示されるグラフィックの例を示している。図１４Ｃを参照すると、図１４Ａとは異なり、音声入力部１１０は、入出力端末１０の向かって右側に配置されている。また、グラフィックｇ３は、表示部１４０の向かって右側に表示されており、音声入力部１１０側に広がるように変形している。

　以上、説明したように、図１４に示す一例では、ユーザの発話方向が適切でない場合、グラフィックが音声入力部１１０の位置を示唆することによる暗示的なフィードバックが行われる。ユーザがグラフィックの画像やアニメーションの動きを視認することで、ユーザの発話方向が改善される効果が期待される。なお、上記では、グラフィックの形状及び表示位置を変化させる例を説明したが、音声入力部１１０の位置は、表示部１４０の画面全体に表示される色のグラデーションを変化させることで示されてもよい。

　（アバターによる発話位置に対する暗示的フィードバック）
　次に、図１５を参照して、アバターによる発話位置に対する暗示的なフィードバックについて、一例を説明する。図１５に示されるアバターは、ユーザの発話位置に対する暗示的なフィードバックを行うための画像やアニメーションであってよい。図１５Ａを参照すると、入出力端末１０の表示部１４０には、アバターａ４が表示されている。ここで、アバターａ４は、ユーザの発話位置が適切である場合に表示されるアバターの一例であってよい。

　図１５Ｂは、ユーザの発話位置が適切でない場合（距離が遠い場合）に表示されるアバターの一例である。図１５Ｂを参照すると、アバターａ５は、アバターａ４と比較して小さく表示されており、表情が変化していることがわかる。このように、図１５Ｂに示す一例では、アバターａ５の大きさや表情を変化させることで、ユーザの発話位置に対する暗示的なフィードバックが行われる。なお、図１５Ｂでは、アバターａ５の表情を曇らせる一例を示しているが、アバターａ５の表情には他の表現が用いられてもよい。例えば、アバターａ５の視線が遠方を示すことで、ユーザの発話位置が遠いことを示唆してもよい。

　続いて、図１５Ｃを参照する。図１５Ｃも、図１５Ｂと同様、ユーザの発話位置が適切でない場合に表示されるアバターの一例を示している。図１５Ｃを参照するとアバターａ６は、アバターａ４と比較して輪郭が薄く表示されていることがわかる。このように、図１５Ｃに示す一例では、アバターａ６の輪郭の濃さを変化させることで、ユーザの発話位置に対する暗示的なフィードバックが行われる。

　以上、説明したように、図１５に示す一例では、ユーザの発話位置が適切でない旨をアバターが示唆することによる暗示的なフィードバックが行われる。ユーザがアバターの画像やアニメーションの動きを視認することで、ユーザの発話方向が改善される効果が期待される。

　（矢印による発話方向又は発話位置に対する暗示的フィードバック）
　次に、図１６を参照して、矢印による発話方向又は発話位置に対する暗示的フィードバックについて、一例を説明する。図１６に示される矢印を含むグラフィックは、ユーザの発話方向または発話位置に対する暗示的なフィードバックを行うための画像やアニメーションであってよい。

　図１６Ａを参照すると、入出力端末１０の表示部１４０には、グラフィックｇ４、及びｇ５が表示されている。ここで、グラフィックｇ４は、音声入力部１１０の位置を指し示す矢印として表示されており、グラフィックｇ５は、耳のアイコンとして示されている。このように、図１６Ａに示す一例では、矢印や耳の形をしたグラフィックにより音声入力部１１０の位置を示すことで、ユーザの発話方向に対する暗示的なフィードバックが行われる。

　続いて、図１６Ｂを用いて説明を続ける。図１６Ｂに示す一例では、図１６Ａとは異なり、入出力端末１０とユーザとの相対位置を示すフィードバックが行われる。図１６Ｂを参照すると、入出力端末１０の表示部１４０には、グラフィックｇ６～ｇ９が示されている。ここで、グラフィックｇ６は、音声入力部１１０の位置を指し示す矢印として表示される。また、グラフィックｇ７及びｇ８は、それぞれ入出力端末１０及びユーザを示すアイコンである。このように、図１６Ｂに示す一例では、入出力端末１０とユーザとの相対位置を示しながら、矢印により音声入力部１１０の位置を示すことで、ユーザの発話方向に対する暗示的なフィードバックが行われる。また、図１６Ｂに示す一例では、グラフィックｇ９に示されるように、ユーザ以外の音源を示すフィードバックが行われてよい。ユーザが当該音源を示すグラフィックを視認することで、ユーザの発話位置が改善される効果が期待される。

　＜３．入出力端末１０及び情報処理装置３０のハードウェア構成例＞
　次に、本開示に係る入出力端末１０及び情報処理装置３０に共通するハードウェア構成例について説明する。図１７は、本開示に係る入出力端末１０及び情報処理装置３０のハードウェア構成例を示すブロック図である。図１７を参照すると、入出力端末１０及び情報処理装置３０は、例えば、ＣＰＵ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力部８７８と、出力部８７９と、記憶部８８０と、ドライブ８８１と、接続ポート８８２と、通信部８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

　（ＣＰＵ８７１）
　ＣＰＵ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、記憶部８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

　（ＲＯＭ８７２、ＲＡＭ８７３）
　ＲＯＭ８７２は、ＣＰＵ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、ＣＰＵ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

　（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
　ＣＰＵ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

　（入力部８７８）
　入力部８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力部８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。

　（出力部８７９）
　出力部８７９には、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。

　（記憶部８８０）
　記憶部８８０は、各種のデータを格納するための装置である。記憶部８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

　（ドライブ８８１）
　ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

　（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

　（接続ポート８８２）
　接続ポート８８２は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

　（外部接続機器９０２）
　外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

　（通信部８８３）
　通信部８８３は、ネットワーク９０３に接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、又は各種通信用のモデム等である。

　＜４．まとめ＞
　以上、説明したように情報処理装置３０は、ユーザの発話認識に係る情報に応じて、ユーザの発話態様に対するフィードバックのモードを、複数のモードから選択することができる。上記の複数のモードには、暗示的なフィードバックが行われる第１のモードと、明示的なフィードバックが行われる第２のモードと、が含まれてよい。また、上記の発話態様には、発話音量、発話速度、発話する音の高さ、発音の明確さ、発話位置、発話方向、発話内容、及び環境音が含まれてよい。係る構成によれば、ユーザとシステムとの間のより自然な対話を実現することが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　ユーザの発話認識に係る情報に応じて、前記ユーザの発話態様に対するフィードバックのモードを、複数のモードから選択する制御部、
　を備え、
　前記複数のモードは、暗示的なフィードバックが行われる第１のモードと、明示的なフィードバックが行われる第２のモードと、を含む、
情報処理装置。
（２）
　前記第１のモードでは、前記ユーザの発話態様に対する間接的な改善方法を含むフィードバックが行われ、
　前記第２のモードでは、前記ユーザの発話態様に対する直接的な改善方法を示すフィードバックが行われる、
前記（１）に記載の情報処理装置。
（３）
　前記ユーザの発話認識に係る情報は、ユーザ情報、コンテンツ情報、環境情報、デバイス情報を含む、
前記（２）に記載の情報処理装置。
（４）
　前記ユーザ情報は、前記ユーザの発話態様を含み、
　前記制御部は、前記ユーザの発話態様に基づいて、前記第１のモード又は前記第２のモードを選択する、
前記（３）に記載の情報処理装置。
（５）
　前記発話態様には、発話音量、発話速度、発話する音の高さ、発音の明確さ、発話位置、または発話方向のうち、少なくとも１つが含まれる、
前記（４）に記載の情報処理装置。
（６）
　前記制御部は、前記第１のモードによるフィードバックを受けた前記ユーザの発話態様に改善が認められないことに基づいて、前記第２のモードを選択する、
前記（４）または（５）に記載の情報処理装置。
（７）
　前記制御部は、前記第１のモードによるフィードバックを行った後、前記ユーザの発話が所定の回数以内に認識されないことに基づいて、前記第２のモードを選択する、
前記（４）～（６）のいずれかに記載の情報処理装置。
（８）
　前記ユーザ情報は、前記ユーザの発話の内容を含み、
　前記制御部は、前記ユーザの発話の内容に基づいて、前記第１のモード又は前記第２のモードを選択する、
前記（３）～（７）のいずれかに記載の情報処理装置。
（９）
　前記制御部は、前記ユーザの発話の内容がプライバシー情報を含むと推定されることに基づいて、前記第２のモードを選択する、
前記（８）に記載の情報処理装置。
（１０）
　前記制御部は、前記環境情報から前記ユーザとは異なる別の人物の存在が推定されることに基づいて、前記第１のモードを選択する、
前記（３）～（９）のいずれかに記載の情報処理装置。
（１１）
　前記ユーザ情報は、前記ユーザの属性情報を含み、
　前記制御部は、前記ユーザの属性情報に基づいて、前記第１のモード又は前記第２のモードを選択する、
前記（３）～（１０）のいずれかに記載の情報処理装置。
（１２）
　前記ユーザ情報は、前記ユーザの感情情報を含み、
　前記制御部は、前記ユーザの発話から推定される前記ユーザの感情情報に基づいて、前記第１のモード又は前記第２のモードを選択する、
前記（３）～（１１）のいずれかに記載の情報処理装置。
（１３）
　前記第１のモードでは、前記ユーザの発話音量よりも認識精度の高い音量でフィードバックが行われる、
前記（４）～（１２）のいずれかに記載の情報処理装置。
（１４）
　前記第１のモードでは、前記ユーザの発話速度よりも認識精度の高い速度でフィードバックが行われる、
前記（４）～（１３）のいずれかに記載の情報処理装置。
（１５）
　前記第１のモードでは、前記ユーザの発話する音の高さよりも認識精度の高い音の高さでフィーバックが行われる、
前記（４）～（１４）のいずれかに記載の情報処理装置。
（１６）
　前記第２のモードでは、前記発話態様の改善理由を付加したフィードバックが行われる、
前記（２）～（１５）のいずれかに記載の情報処理装置。
（１７）
　前記フィードバックは、視覚情報によるフィードバックを含む、
前記（２）～（１６）のいずれかに記載の情報処理装置。
（１８）
　前記第２のモードでは、前記ユーザの発話を検出したセンサとは異なる別のセンサに発話をすべき旨のフィードバックが行われる、
　前記（２）～（１７）のいずれかに記載の情報処理装置。
（１９）
　前記ユーザの属性情報には、性別、年齢、使用言語、または発話態様の傾向のうち、少なくとも１つが含まれる、
前記（１１）に記載の情報処理装置。
（２０）
　前記制御部は、前記ユーザが興奮状態であると推定されることに基づいて、前記第１のモードを選択する、
前記（１２）に記載の情報処理装置。
（２１）
　前記第１のモードでは、前記ユーザの発話態様に応じた人工音声によるフィードバックが行われる、
前記（１）～（２０）のいずれかに記載の情報処理装置。
（２２）
　前記視覚情報は、文字、記号、アバター、インジケータ、または画像の変化を含む、
前記（１７）に記載の情報処理装置。
（２３）
　プロセッサが、ユーザの発話認識に係る情報に応じて、前記ユーザの発話態様に対するフィードバックのモードを、複数のモードから選択すること、
　を含み、
　前記複数のモードは、暗示的なフィードバックが行われる第１のモードと、明示的なフィードバックが行われる第２のモードと、を含む、
情報処理方法。
（２４）
　コンピュータを、
　ユーザの発話認識に係る情報に応じて、前記ユーザの発話態様に対するフィードバックのモードを、複数のモードから選択する制御部、
　を備え、
　前記複数のモードは、暗示的なフィードバックが行われる第１のモードと、明示的なフィードバックが行われる第２のモードと、を含む、
　情報処理装置、
として機能させるためのプログラム。

　１０　　入出力端末
　１１０　音声入力部
　１２０　センサ部
　１３０　音声出力部
　１４０　表示部
　１５０　端末制御部
　１６０　サーバ通信部
　２０　　ネットワーク
　３０　　情報処理装置
　３１０　端末通信部
　３２０　音声分析部
　３３０　音声認識部
　３４０　状態記憶部
　３５０　位置検出部
　３６０　出力制御部
　３７０　出力ＤＢ

Claims

　ユーザの発話認識に係る情報に応じて、前記ユーザの発話態様に対するフィードバックのモードを、複数のモードから選択する制御部、
　を備え、
　前記複数のモードは、暗示的なフィードバックが行われる第１のモードと、明示的なフィードバックが行われる第２のモードと、を含む、
情報処理装置。
　前記第１のモードでは、前記ユーザの発話態様に対する間接的な改善方法を含むフィードバックが行われ、
　前記第２のモードでは、前記ユーザの発話態様に対する直接的な改善方法を示すフィードバックが行われる、
請求項１に記載の情報処理装置。
　前記ユーザの発話認識に係る情報は、ユーザ情報、コンテンツ情報、環境情報、デバイス情報を含む、
請求項２に記載の情報処理装置。
　前記ユーザ情報は、前記ユーザの発話態様を含み、
　前記制御部は、前記ユーザの発話態様に基づいて、前記第１のモード又は前記第２のモードを選択する、
請求項３に記載の情報処理装置。
　前記発話態様には、発話音量、発話速度、発話する音の高さ、発音の明確さ、発話位置、または発話方向のうち、少なくとも１つが含まれる、
請求項４に記載の情報処理装置。
　前記制御部は、前記第１のモードによるフィードバックを受けた前記ユーザの発話態様に改善が認められないことに基づいて、前記第２のモードを選択する、
請求項４に記載の情報処理装置。
　前記制御部は、前記第１のモードによるフィードバックを行った後、前記ユーザの発話が所定の回数以内に認識されないことに基づいて、前記第２のモードを選択する、
請求項４に記載の情報処理装置。
　前記ユーザ情報は、前記ユーザの発話の内容を含み、
　前記制御部は、前記ユーザの発話の内容に基づいて、前記第１のモード又は前記第２のモードを選択する、
請求項３に記載の情報処理装置。
　前記制御部は、前記ユーザの発話の内容がプライバシー情報を含むと推定されることに基づいて、前記第２のモードを選択する、
請求項８に記載の情報処理装置。
　前記制御部は、前記環境情報から前記ユーザとは異なる別の人物の存在が推定されることに基づいて、前記第１のモードを選択する、
請求項３に記載の情報処理装置。
　前記ユーザ情報は、前記ユーザの属性情報を含み、
　前記制御部は、前記ユーザの属性情報に基づいて、前記第１のモード又は前記第２のモードを選択する、
請求項３に記載の情報処理装置。
　前記ユーザ情報は、前記ユーザの感情情報を含み、
　前記制御部は、前記ユーザの発話から推定される前記ユーザの感情情報に基づいて、前記第１のモード又は前記第２のモードを選択する、
請求項３に記載の情報処理装置。
　前記第１のモードでは、前記ユーザの発話音量よりも認識精度の高い音量でフィードバックが行われる、
請求項４に記載の情報処理装置。
　前記第１のモードでは、前記ユーザの発話速度よりも認識精度の高い速度でフィードバックが行われる、
請求項４に記載の情報処理装置。
　前記第１のモードでは、前記ユーザの発話する音の高さよりも認識精度の高い音の高さでフィーバックが行われる、
請求項４に記載の情報処理装置。
　前記第２のモードでは、前記発話態様の改善理由を付加したフィードバックが行われる、
請求項２に記載の情報処理装置。
　前記フィードバックは、視覚情報によるフィードバックを含む、
請求項２に記載の情報処理装置。
　前記第２のモードでは、前記ユーザの発話を検出したセンサとは異なる別のセンサに発話をすべき旨のフィードバックが行われる、
　請求項２に記載の情報処理装置。
　プロセッサが、ユーザの発話認識に係る情報に応じて、前記ユーザの発話態様に対するフィードバックのモードを、複数のモードから選択すること、
　を含み、
　前記複数のモードは、暗示的なフィードバックが行われる第１のモードと、明示的なフィードバックが行われる第２のモードと、を含む、
情報処理方法。
　コンピュータを、
　ユーザの発話認識に係る情報に応じて、前記ユーザの発話態様に対するフィードバックのモードを、複数のモードから選択する制御部、
　を備え、
　前記複数のモードは、暗示的なフィードバックが行われる第１のモードと、明示的なフィードバックが行われる第２のモードと、を含む、
　情報処理装置、
として機能させるためのプログラム。