JP5772069B2

JP5772069B2 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP5772069B2
Application number: JP2011047892A
Authority: JP
Inventors: 辰吾鶴見
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-03-04
Filing date: 2011-03-04
Publication date: 2015-09-02
Anticipated expiration: 2031-03-04
Also published as: US20120224043A1; CN102655576A; JP2012186622A

Description

本開示は、情報処理装置、情報処理方法およびプログラムに関する。

ＴＶなどの表示装置は、例えば住宅の居間、個室など至るところに設置され、生活のさまざまな局面でユーザにコンテンツの映像や音声を提供している。それゆえ、提供されるコンテンツに対するユーザの視聴状態も、さまざまである。ユーザは、必ずしも専らコンテンツを視聴するわけではなく、例えば、勉強や読書をしながらコンテンツを視聴したりする場合がある。そこで、コンテンツに対するユーザの視聴状態に合わせて、コンテンツの映像や音声の再生特性を制御する技術が開発されている。例えば、特許文献１には、ユーザの視線を検出することによってコンテンツに対するユーザの関心の程度を判定し、判定結果に応じてコンテンツの映像または音声の出力特性を変化させる技術が記載されている。

特開２００４−３１２４０１号公報

しかし、コンテンツに対するユーザの視聴状態はさらに多様化している。それゆえ、特許文献１に記載の技術では、それぞれの視聴状態におけるユーザの細かなニーズに対応したコンテンツの出力を提供するために十分ではない。

そこで、視聴状態ごとのユーザのニーズにより的確に対応してコンテンツの出力を制御する技術が求められている。

本開示によれば、コンテンツの映像が表示される表示部の近傍に位置するユーザの画像を取得する画像取得部と、上記画像に基づいて上記コンテンツに対する上記ユーザの視聴状態を判定する視聴状態判定部と、上記視聴状態に応じて、上記ユーザに対する上記音声の出力を制御する音声出力制御部と、上記コンテンツの各部分の重要度を判定する重要度判定部とを含み、上記音声出力制御部は、上記視聴状態として上記ユーザが上記音声を聴いていないことが判定された場合であって、上記重要度がより高い上記コンテンツの部分が出力されている場合に上記音声の音量を上げる情報処理装置が提供される。

また、本開示によれば、コンテンツの映像が表示される表示部の近傍に位置するユーザの画像を取得することと、上記画像に基づいて上記コンテンツに対する上記ユーザの視聴状態を判定することと、上記視聴状態に応じて、上記ユーザに対する上記音声の出力を制御することと、上記コンテンツの各部分の重要度を判定することとを含み、上記音声の出力を制御することは、上記視聴状態として上記ユーザが上記音声を聴いていないことが判定された場合であって、上記重要度がより高い上記コンテンツの部分が出力されている場合に上記音声の音量を上げることを含む情報処理方法が提供される。

また、本開示によれば、コンテンツの映像が表示される表示部の近傍に位置するユーザの画像を取得する画像取得部と、上記画像に基づいて上記コンテンツに対する上記ユーザの視聴状態を判定する視聴状態判定部と、上記視聴状態に応じて、上記ユーザに対する上記音声の出力を制御する音声出力制御部と、上記コンテンツの各部分の重要度を判定する重要度判定部ととしてコンピュータを動作させ、上記音声出力制御部は、上記視聴状態として上記ユーザが上記音声を聴いていないことが判定された場合であって、上記重要度がより高い上記コンテンツの部分が出力されている場合に上記音声の音量を上げるプログラムが提供される。

本開示によれば、例えば、コンテンツに対するユーザの視聴状態が、コンテンツの音声の出力制御に反映される。

以上説明したように本開示によれば、視聴状態ごとのユーザのニーズにより的確に対応してコンテンツの出力を制御することができる。

本開示の一実施形態に係る情報処理装置の機能構成を示すブロック図である。本開示の一実施形態に係る情報処理装置の画像処理部の機能構成を示すブロック図である。本開示の一実施形態に係る情報処理装置の音声処理部の機能構成を示すブロック図である。本開示の一実施形態に係る情報処理装置のコンテンツ解析部の機能構成を示すブロック図である。本開示の一実施形態における処理の例を示すフローチャートである本開示の一実施形態に係る情報処理装置のハードウェア構成を説明するためのブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．機能構成
２．処理フロー
３．ハードウェア構成
４．まとめ
５．補足

（１．機能構成）
まず、図１を参照して、本開示の一実施形態に係る情報処理装置１００の概略的な機能構成について説明する。図１は、情報処理装置１００の機能構成を示すブロック図である。

情報処理装置１００は、画像取得部１０１、画像処理部１０３、音声取得部１０５、音声処理部１０７、視聴状態判定部１０９、音声出力制御部１１１、音声出力部１１３、コンテンツ取得部１１５、コンテンツ解析部１１７、重要度判定部１１９、およびコンテンツ情報記憶部１５１を含む。情報処理装置１００は、例えば、ＴＶチューナやＰＣ（Personal Computer）などとして実現されうる。情報処理装置１００には、表示装置１０、カメラ２０、およびマイク３０に接続される。表示装置１０は、コンテンツの映像が表示される表示部１１と、コンテンツの音声が出力されるスピーカ１２とを含む。情報処理装置１００は、これらの装置はと一体になったＴＶ受像機やＰＣなどであってもよい。なお、表示装置１０の表示部１１にコンテンツの映像データを提供する構成など、コンテンツ再生のための公知の構成が適用されうる部分については、図示を省略した。

画像取得部１０１は、例えば、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、および通信装置などによって実現される。画像取得部１０１は、情報処理装置１００に接続されたカメラ２０から、表示装置１０の表示部１１の近傍に位置するユーザＵ１，Ｕ２の画像を取得する。なお、ユーザは、図示されているように複数であってもよく、また単一であってもよい。画像取得部１０１は、取得した画像の情報を画像処理部１０３に提供する。

画像処理部１０３は、例えば、ＣＰＵ、ＧＰＵ（Graphics Processing Unit）、ＲＯＭ、およびＲＡＭなどによって実現される。画像処理部１０３は、画像取得部１０１から取得した画像の情報をフィルタリングなどによって処理し、ユーザＵ１，Ｕ２に関する情報を取得する。例えば、画像処理部１０３は、画像からユーザＵ１，Ｕ２の顔角度、口の開閉、目の開閉、視線方向、位置、姿勢などの情報を取得する。また、画像処理部１０３は、画像に含まれる顔の画像に基づいてユーザＵ１，Ｕ２を識別し、ユーザＩＤを取得してもよい。画像処理部１０３は、取得したこれらの情報を、視聴状態判定部１０９およびコンテンツ解析部１１７に提供する。なお、画像処理部１０３の詳細な機能構成については後述する。

音声取得部１０５は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、および通信装置などによって実現される。音声取得部１０５は、情報処理装置１００に接続されたマイク３０から、ユーザＵ１，Ｕ２が発した音声を取得する。音声取得部１０５は、取得した音声の情報を音声処理部１０７に提供する。

音声処理部１０７は、例えば、ＣＰＵ、ＲＯＭ、およびＲＡＭなどによって実現される。音声処理部１０７は、音声取得部１０５から取得した音声の情報をフィルタリングなどによって処理し、ユーザＵ１，Ｕ２が発した音声に関する情報を取得する。例えば、音声がユーザＵ１，Ｕ２の発話によるものである場合に、音声処理部１０７は、話者であるユーザＵ１，Ｕ２を推定してユーザＩＤを取得する。また、音声処理部１０７は、音声から音源方向、発話の有無などの情報を取得してもよい。音声処理部１０７は、取得したこれらの情報を、視聴状態判定部１０９に提供する。なお、音声処理部１０７の詳細な機能構成については後述する。

視聴状態判定部１０９は、例えば、ＣＰＵ、ＲＯＭ、およびＲＡＭなどによって実現される。視聴状態判定部１０９は、ユーザＵ１，Ｕ２の動作に基づいて、コンテンツに対するユーザＵ１，Ｕ２の視聴状態を判定する。ユーザＵ１，Ｕ２の動作は、画像処理部１０３、または音声処理部１０７から取得される情報に基づいて判定される。ユーザの動作は、例えば、「映像を見ている」、「目を瞑っている」、「口が会話の動きをしている」、「発話している」などである。このようなユーザの動作に基づいて判定されるユーザの視聴状態は、例えば、「通常視聴中」、「居眠り中」、「会話中」、「電話中」、「作業中」などである。視聴状態判定部１０９は、判定された視聴状態の情報を、音声出力制御部１１１に提供する。

音声出力制御部１１１は、例えば、ＣＰＵ、ＤＳＰ（Digital Signal Processor）、ＲＯＭ、およびＲＡＭなどによって実現される。音声出力制御部１１１は、視聴状態判定部１０９から取得した視聴状態に応じて、ユーザに対するコンテンツの音声の出力を制御する。音声出力制御部１１１は、例えば、音声の音量を上げたり、音声の音量を下げたり、音声の音質を変更したりする。音声出力制御部１１１は、音声に含まれるボーカルの音量を上げるなど、音声の種類ごとに出力を制御してもよい。また、音声出力制御部１１１は、重要度判定部１１９から取得したコンテンツの各部分の重要度に応じて音声の出力を制御してもよい。さらに、音声出力制御部１１１は、画像処理部１０３が取得したユーザＩＤを用いて、ＲＯＭ、ＲＡＭ、およびストレージ装置などに予め登録されたユーザの属性情報を参照し、属性情報として登録されたユーザの好みに応じて音声の出力を制御してもよい。音声出力制御部１１１は、音声出力の制御情報を音声出力部１１３に提供する。

音声出力部１１３は、例えば、ＣＰＵ、ＤＳＰ、ＲＯＭ、およびＲＡＭなどによって実現される。音声出力部１１３は、音声出力制御部１１１から取得した制御情報に従って、コンテンツの音声を表示装置１０のスピーカ１２に出力する。なお、出力の対象になるコンテンツの音声データは、図示しないコンテンツ再生のための構成によって音声出力部１１３に提供される。

コンテンツ取得部１１５は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、および通信装置などによって実現される。コンテンツ取得部１１５は、表示装置１０によってユーザＵ１，Ｕ２に提供されるコンテンツを取得する。コンテンツ取得部１１５は、例えば、アンテナが受信した放送波を復調してデコードすることによって放送コンテンツを取得してもよい。また、コンテンツ取得部１１５は、通信装置を介して通信ネットワークからコンテンツをダウンロードしてもよい。さらに、コンテンツ取得部１１５は、ストレージ装置に格納されたコンテンツを読み出してもよい。コンテンツ取得部１１５は、取得したコンテンツの映像データおよび音声データを、コンテンツ解析部１１７に提供する。

コンテンツ解析部１１７は、例えば、ＣＰＵ、ＲＯＭ、およびＲＡＭなどによって実現される。コンテンツ解析部１１７は、コンテンツ取得部１１５から取得したコンテンツの映像データおよび音声のデータを解析して、コンテンツに含まれるキーワードや、コンテンツのシーンを検出する。コンテンツ取得部１１５は、画像処理部１０３から取得したユーザＩＤを用いて、予め登録されたユーザの属性情報を参照し、ユーザＵ１，Ｕ２の関心が高いキーワードやシーンを検出する。コンテンツ解析部１１７は、これらの情報を重要度判定部１１９に提供する。なお、コンテンツ解析部１１７の詳細な機能構成については後述する。

コンテンツ情報記憶部１５１は、例えば、ＲＯＭ、ＲＡＭ、およびストレージ装置などによって実現される。コンテンツ情報記憶部１５１には、例えばＥＰＧ、ＥＣＧなどのコンテンツ情報が格納される。コンテンツ情報は、例えば、コンテンツ取得部１１５によってコンテンツとともに取得されてコンテンツ情報記憶部１５１に格納されてもよい。

重要度判定部１１９は、例えば、ＣＰＵ、ＲＯＭ、およびＲＡＭなどによって実現される。重要度判定部１１９は、コンテンツの各部分の重要度を判定する。重要度判定部１１９は、例えば、コンテンツ解析部１１７から取得したユーザの関心が高いキーワードやシーンの情報に基づいて、コンテンツの各部分の重要度を判定する。この場合、重要度判定部１１９は、かかるキーワードやシーンが検出されたコンテンツの部分を重要であると判定する。また、重要度判定部１１９は、コンテンツ情報記憶部１５１から取得されたコンテンツ情報に基づいてコンテンツの各部分の重要度を判定してもよい。この場合、重要度判定部１１９は、画像処理部１０３が取得したユーザＩＤを用いて、予め登録されたユーザの属性情報を参照し、属性情報として登録されたユーザの好みに適合するコンテンツの部分を重要であると判定する。また、重要度判定部１１９は、コンテンツ情報によって示されるコマーシャルからコンテンツ本編への切り替わり部分など、ユーザに関わらず一般的に関心が高い部分を重要であると判定してもよい。

（画像処理部の詳細）
続いて、図２を参照して、情報処理装置１００の画像処理部１０３の機能構成についてさらに説明する。図２は、画像処理部１０３の機能構成を示すブロック図である。

画像処理部１０３は、顔検出部１０３１、顔追跡部１０３３、顔識別部１０３５、および姿勢推定部１０３７を含む。顔識別部１０３５は、顔識別用ＤＢ１５３を参照する。画像処理部１０３は、画像取得部１０１から画像データを取得する。また、画像処理部１０３は、ユーザを識別するユーザＩＤ、および顔角度、口の開閉、目の開閉、視線方向、位置、姿勢などの情報を視聴状態判定部１０９またはコンテンツ解析部１１７に提供する。

顔検出部１０３１は、例えば、ＣＰＵ、ＧＰＵ、ＲＯＭ、およびＲＡＭなどによって実現される。顔検出部１０３１は、画像取得部１０１から取得した画像データを参照して、画像に含まれる人間の顔を検出する。画像の中に顔が含まれている場合、顔検出部１０３１は、当該顔の位置や大きさなどを検出する。さらに、顔検出部１０３１は、画像によって示される顔の状態を検出する。例えば、顔検出部１０３１は、顔の角度、目を瞑っているか否か、視線の方向といったような状態を検出する。なお、顔検出部１０３１の処理には、例えば、特開２００７−６５７６６号公報や、特開２００５−４４３３０号公報に掲載されている技術など、公知のあらゆる技術を適用することが可能である。

顔追跡部１０３３は、例えば、ＣＰＵ、ＧＰＵ、ＲＯＭ、およびＲＡＭなどによって実現される。顔追跡部１０３３は、画像取得部１０１から取得した異なるフレームの画像データについて、顔検出部１０３１によって検出された顔を追跡する。顔追跡部１０３３は、顔検出部１０３１によって検出された顔の画像データのパターンの類似性などを利用して、後続のフレームで当該顔に対応する部分を探索する。顔追跡部１０３３のこのような処理によって、複数のフレームの画像に含まれる顔が、同一のユーザの顔の時系列変化として認識されうる。

顔識別部１０３５は、例えば、ＣＰＵ、ＧＰＵ、ＲＯＭ、およびＲＡＭなどによって実現される。顔識別部１０３５は、顔検出部１０３１によって検出された顔について、どのユーザの顔であるかの識別を行う処理部である。顔識別部１０３５は、顔検出部１０３１によって検出された顔の特徴的な部分などに着目して局所特徴量を算出し、算出した局所特徴量と、顔識別用ＤＢ１５３に予め格納されたユーザの顔画像の局所特徴量とを比較することによって、顔検出部１０３１により検出された顔を識別し、顔に対応するユーザのユーザＩＤを特定する。なお、顔識別部１０３５の処理には、例えば、特開２００７−６５７６６号公報や、特開２００５−４４３３０号公報に掲載されている技術など、公知のあらゆる技術を適用することが可能である。

姿勢推定部１０３７は、例えば、ＣＰＵ、ＧＰＵ、ＲＯＭ、およびＲＡＭなどによって実現される。姿勢推定部１０３７は、画像取得部１０１から取得した画像データを参照して、画像に含まれるユーザの姿勢を推定する。姿勢推定部１０３７は、予め登録されたユーザの姿勢の種類ごとの画像の特徴などに基づいて、画像に含まれるユーザの姿勢がどのような種類の姿勢であるかを推定する。例えば、姿勢推定部１０３７は、ユーザが機器を保持して耳に近づけている姿勢が画像から認識される場合に、ユーザが電話中の姿勢であると推定する。なお、姿勢推定部１０３７の処理には、公知のあらゆる技術を適用することが可能である。

顔識別用ＤＢ１５３は、例えば、ＲＯＭ、ＲＡＭ、およびストレージ装置などによって実現される。顔識別用ＤＢ１５３には、例えば、ユーザの顔画像の局所特徴量が、ユーザＩＤと関連付けて予め格納される。顔識別用ＤＢ１５３に格納されたユーザの顔画像の局所特徴量は、顔識別部１０３５によって参照される。

（音声処理部の詳細）
続いて、図３を参照して、情報処理装置１００の音声処理部１０７の機能構成についてさらに説明する。図３は、音声処理部１０７の機能構成を示すブロック図である。

音声処理部１０７は、発話検出部１０７１、話者推定部１０７３、および音源方向推定部１０７５を含む。話者推定部１０７３は、話者識別用ＤＢ１５５を参照する。音声処理部１０７は、音声取得部１０５から音声データを取得する。また、音声処理部１０７は、ユーザを識別するユーザＩＤ，および音源方向、発話の有無などの情報を視聴状態判定部１０９に提供する。

発話検出部１０７１は、例えば、ＣＰＵ、ＲＯＭ、およびＲＡＭなどによって実現される。発話検出部１０７１は、音声取得部１０５から取得した音声データを参照して、音声に含まれる発話を検出する。音声の中に発話が含まれている場合、発話検出部１０７１は、当該発話の開始点、終了点、および周波数特性などを検出する。なお、発話検出部１０７１の処理には、公知のあらゆる技術を適用することが可能である。

話者推定部１０７３は、例えば、ＣＰＵ、ＲＯＭ、およびＲＡＭなどによって実現される。話者推定部１０７３は、発話検出部１０７１によって検出された発話について、話者を推定する。話者推定部１０７３は、例えば、発話検出部１０７１によって検出された発話の周波数特性などの特徴を、話者識別用ＤＢ１５５に予め登録されたユーザの発話音声の特徴と比較することによって、発話検出部１０７１によって検出された発話の話者を推定し、話者のユーザＩＤを特定する。なお、話者推定部１０７３の処理には、公知のあらゆる技術を適用することが可能である。

音源方向推定部１０７５は、例えば、ＣＰＵ、ＲＯＭ、およびＲＡＭなどによって実現される。音源方向推定部１０７５は、例えば、音声取得部１０５が位置の異なる複数のマイク３０から取得した音声データの位相差を検出することによって、音声データに含まれる発話などの音声の音源の方向を推定する。音源方向推定部１０７５によって推定された音源の方向は、画像処理部１０３において検出されたユーザの位置と対応付けられ、これによって発話の話者が推定されてもよい。なお、音源方向推定部１０７５の処理には、公知のあらゆる技術を適用することが可能である。

話者識別用ＤＢ１５５は、例えば、ＲＯＭ、ＲＡＭ、およびストレージ装置などによって実現される。話者識別用ＤＢ１５５には、例えば、ユーザの発話音声の周波数特性などの特徴が、ユーザＩＤと関連付けて予め格納される。話者識別用ＤＢ１５５に格納されたユーザの発話音声の特徴は、話者推定部１０７３によって参照される。

（コンテンツ解析部の詳細）
続いて、図４を参照して、情報処理装置１００のコンテンツ解析部１１７の機能構成についてさらに説明する。図４は、コンテンツ解析部１１７の機能構成を示すブロック図である。

コンテンツ解析部１１７は、発話検出部１１７１、キーワード検出部１１７３、およびシーン検出部１１７５を含む。キーワード検出部１１７３は、キーワード検出用ＤＢ１５７を参照する。シーン検出部１１７５は、シーン検出用ＤＢ１５９を参照する。コンテンツ解析部１１７は、画像処理部１０３からユーザＩＤを取得する。また、コンテンツ解析部１１７は、コンテンツ取得部１１５からコンテンツの映像データおよび音声データを取得する。コンテンツ解析部１１７は、ユーザの関心が高いと推定されるキーワードやシーンの情報を重要度判定部１１９に提供する。

発話検出部１１７１は、例えば、ＣＰＵ、ＲＯＭ、およびＲＡＭなどによって実現される。発話検出部１１７１は、コンテンツ取得部１１５から取得したコンテンツの音声データを参照して、音声に含まれる発話を検出する。音声の中に発話が含まれている場合、発話検出部１１７１は、当該発話の開始点、終了点、および周波数特性などの音声的特徴を検出する。なお、発話検出部１１７１の処理には、公知のあらゆる技術を適用することが可能である。

キーワード検出部１１７３は、例えば、ＣＰＵ、ＲＯＭ、およびＲＡＭなどによって実現される。キーワード検出部１１７３は、発話検出部１１７１によって検出された発話について、発話に含まれるキーワードを検出する。キーワードは、各ユーザの関心が高いキーワードとして予めキーワード検出用ＤＢ１５７に格納されている。キーワード検出部１１７３は、発話検出部１１７１によって検出された発話の区間から、キーワード検出用ＤＢ１５７に格納されているキーワードの音声的特徴を有する部分を探索する。キーワード検出部１１７３は、どのユーザの関心が高いキーワードを検出するかを決定するために、画像処理部１０３から取得したユーザＩＤを用いる。発話区間からキーワードが検出された場合、キーワード検出部１１７３は、例えば、検出されたキーワードと、当該キーワードへの関心が高いユーザのユーザＩＤとを関連づけて出力する。

シーン検出部１１７５は、例えば、ＣＰＵ、ＲＯＭ、およびＲＡＭなどによって実現される。シーン検出部１１７５は、コンテンツ取得部１１５から取得したコンテンツの映像データおよび音声データを参照して、コンテンツにおけるシーンを検出する。シーンは、各ユーザの関心が高いシーンとして予めシーン検出用ＤＢ１５９に格納されている。シーン検出部１１７５は、コンテンツの映像または音声が、シーン検出用ＤＢ１５９に格納されているシーンの映像的または音声的特徴を有するか否かを判定する。シーン検出部１１７５は、どのユーザの関心が高いシーンを検出するかを決定するために、画像処理部１０３から取得したユーザＩＤを用いる。シーンが検出された場合、シーン検出部１１７５は、例えば、検出されたシーンと、当該シーンへの関心が高いユーザのユーザＩＤとを関連付けて出力する。

キーワード検出用ＤＢ１５７は、例えば、ＲＯＭ、ＲＡＭ、およびストレージ装置などによって実現される。キーワード検出用ＤＢ１５７には、例えば、ユーザの関心が高いキーワードの音声的特徴が、ユーザＩＤおよび当該キーワードを識別する情報と関連付けて予め格納される。キーワード検出用ＤＢ１５７に格納されたキーワードの音声的特徴は、キーワード検出部１１７３によって参照される。

シーン検出用ＤＢ１５９は、例えば、ＲＯＭ、ＲＡＭ、およびストレージ装置などによって実現される。シーン検出用ＤＢ１５９には、例えば、ユーザの関心が高いシーンの映像的または音声的特徴が、ユーザＩＤおよび当該シーンを識別する情報と関連付けて予め格納される。シーン検出用ＤＢ１５９に格納されたシーンの映像的または音声的特徴は、シーン検出部１１７５によって参照される。

（２．処理フロー）
続いて、図５を参照して、本開示の一実施形態における処理フローについて説明する。図５は、本開示の一実施形態における視聴状態判定部１０９、音声出力制御部１１１、および重要度判定部１１９による処理の例を示すフローチャートである。

図５を参照すると、まず、視聴状態判定部１０９が、ユーザＵ１，Ｕ２がコンテンツの映像を見ているか否かを判定する（ステップＳ１０１）。ここで、ユーザＵ１，Ｕ２が映像を見ているか否かは、画像処理部１０３において検出されるユーザＵ１，Ｕ２の顔角度、目の開閉、および視線方向によって判定されうる。例えば、視聴状態判定部１０９は、ユーザの顔角度および視線方向が表示装置１０の表示部１１の方向に近く、またユーザの目が瞑られていない場合に、「ユーザがコンテンツの映像を見ている」と判定する。ユーザＵ１，Ｕ２が複数である場合、視聴状態判定部１０９は、ユーザＵ１，Ｕ２のいずれかがコンテンツの映像を見ていると判定された場合に、「ユーザがコンテンツの映像を見ている」と判定しうる。

ステップＳ１０１において、「ユーザがコンテンツの映像を見ている」と判定された場合、次に、視聴状態判定部１０９が、コンテンツに対するユーザの視聴状態は「通常視聴中」であると判定する（ステップＳ１０３）。ここで、視聴状態判定部１０９は、視聴状態が「通常視聴中」であることを示す情報を音声出力制御部１１１に提供する。

続いて、音声出力制御部１１１が、ユーザの好みに合わせて、コンテンツの音声の音質を変更する（ステップＳ１０５）。ここで、音声出力制御部１１１は、画像処理部１０３が取得したユーザＩＤを用いて、ＲＯＭ、ＲＡＭ、およびストレージ装置などに予め登録されたユーザの属性情報を参照し、属性情報として登録されたユーザの好みを取得しうる。

一方、ステップＳ１０１において、「ユーザがコンテンツの映像を見ている」とは判定されなかった場合、次に、視聴状態判定部１０９が、ユーザＵ１，Ｕ２が目を瞑っているか否かを判定する（ステップＳ１０７）。ここで、ユーザＵ１，Ｕ２が目を瞑っているか否かは、画像処理部１０３において検出されるユーザＵ１，Ｕ２の目の開閉の時系列変化によって判定されうる。例えば、視聴状態判定部１０９は、ユーザの目が閉じた状態が所定の時間以上継続している場合に、「ユーザが目を瞑っている」と判定する。ユーザＵ１，Ｕ２が複数である場合、視聴状態判定部１０９は、ユーザＵ１，Ｕ２の両方が目を瞑っていると判定された場合に、「ユーザが目を瞑っている」と判定しうる。

ステップＳ１０７において「ユーザが目を瞑っている」と判定された場合、次に、視聴状態判定部１０９が、コンテンツに対するユーザの視聴状態は「居眠り中」であると判定する（ステップＳ１０９）。ここで、視聴状態判定部１０９は、視聴状態が「居眠り中」であることを示す情報を音声出力制御部１１１に提供する。

続いて、音声出力制御部１１１が、コンテンツの音声の音量を徐々に小さくし、最終的に消音する（ステップＳ１１１）。かかる音声出力の制御によって、例えば、ユーザが居眠り中である場合にその居眠りを妨げないようにすることが可能である。このとき、音声出力の制御とともに、表示部１１に表示される映像の輝度を下げ、最終的に消画する映像出力の制御が実行されてもよい。音量を徐々に小さくする途中でユーザの視聴状態が変わったり、ユーザから表示装置１０への操作が取得されたりした場合、音量を小さくする制御は中止されうる。

ここで、ステップＳ１１１における処理の変形例として、音声出力制御部１１１は、コンテンツの音声の音量を上げてもよい。かかる音声出力の制御によって、例えば、ユーザがコンテンツを視聴したいにもかかわらず居眠りをしている場合にユーザをコンテンツの視聴に復帰させることが可能である。

一方、ステップＳ１０７において、「ユーザが目を瞑っている」とは判定されなかった場合、次に、視聴状態判定部１０９が、ユーザＵ１，Ｕ２の口が会話中の動きになっているか否かを判定する（ステップＳ１１３）。ここで、ユーザＵ１，Ｕ２の口が会話中の動きになっているか否かは、画像処理部１０３において検出されるユーザＵ１，Ｕ２の口の開閉の時系列変化によって判定されうる。例えば、視聴状態判定部１０９は、ユーザの口の開閉が変化している状態が所定の時間以上継続している場合に、「ユーザの口が会話中の動きになっている」と判定する。ユーザＵ１，Ｕ２が複数である場合、視聴状態判定部１０９は、ユーザＵ１，Ｕ２のいずれかの口が会話中の動きになっている場合に、「ユーザの口が会話中の動きになっている」判定しうる。

ステップＳ１１３において、「ユーザの口が会話中の動きになっている」と判定された場合、次に、視聴状態判定部１０９が、ユーザＵ１，Ｕ２の発話が検出されたか否かを判定する（ステップＳ１１５）。ここで、ユーザＵ１，Ｕ２の発話が検出されたか否かは、音声処理部１０７において検出される発話の話者のユーザＩＤによって判定されうる。例えば、視聴状態判定部１０９は、画像処理部１０３から取得したユーザＩＤが、音声処理部１０７から取得した発話の話者のユーザＩＤに一致する場合に、「ユーザの発話が検出された」と判定する。ユーザＵ１，Ｕ２が複数である場合、視聴状態判定部１０９は、ユーザＵ１，Ｕ２のいずれかの発話が検出された場合に、「ユーザの発話が検出された」と判定しうる。

ステップＳ１１５において、「ユーザの発話が検出された」と判定された場合、次に、視聴状態判定部１０９が、ユーザＵ１，Ｕ２が別のユーザの方を向いているか否かを判定する（ステップＳ１１７）。ここで、ユーザＵ１，Ｕ２が別のユーザの方を向いているか否かは、画像処理部１０３において検出されるユーザＵ１，Ｕ２の顔角度、および位置によって判定されうる。例えば、視聴状態判定部１０９は、ユーザの顔角度によって示される当該ユーザが向いている方向が、他のユーザの位置と一致する場合に、「ユーザが別のユーザの方を向いている」と判定する。

ステップＳ１１７において、「ユーザが別のユーザの方を向いている」と判定された場合、次に、視聴状態判定部１０９が、コンテンツに対するユーザの視聴状態は「会話中」であると判定する（ステップＳ１１９）。ここで、視聴状態判定部１０９は、視聴状態が「会話中」であることを示す情報を音声出力制御部１１１に提供する。

続いて、音声出力制御部１１１が、コンテンツの音声の音量をやや下げる（ステップＳ１２１）。かかる音声出力の制御によって、例えばユーザが会話中である場合にその会話を妨げないようにすることが可能になる。

一方、ステップＳ１１７において「ユーザが別のユーザの方を向いている」とは判定されなかった場合、次に、視聴状態判定部１０９が、ユーザＵ１，Ｕ２が電話中の姿勢になっているか否かを判定する（ステップＳ１２３）。ここで、ユーザＵ１，Ｕ２が電話中の姿勢になっているか否かは、画像処理部１０３において検出されるユーザＵ１，Ｕ２の姿勢によって判定されうる。例えば、視聴状態判定部１０９は、画像処理部１０３に含まれる姿勢推定部１０３７が、ユーザが機器（受話器）を保持して耳に近づけている姿勢をユーザの電話中の姿勢であると推定した場合に、「ユーザが電話中の姿勢になっている」と判定する。

ステップＳ１２３において「ユーザが電話中の姿勢になっている」と判定された場合、次に、視聴状態判定部１０９が、コンテンツに対するユーザの視聴状態は「電話中」であると判定する（ステップＳ１２５）。ここで、視聴状態判定部１０９は、視聴状態が「電話中」であることを示す情報を音声出力制御部１１１に提供する。

続いて、音声出力制御部１１１が、コンテンツの音声の音量をやや下げる（ステップＳ１２１）。かかる音声出力の制御によって、例えばユーザが電話中である場合にその電話を妨げないようにすることが可能になる。

一方、ステップＳ１１３において「ユーザの口が会話中の動きになっている」とは判定されなかった場合、ステップＳ１１５において「ユーザの発話が検出された」とは判定されなかった場合、およびステップＳ１２３において「ユーザが電話中の姿勢になっている」とは判定されなかった場合、次に、視聴状態判定部１０９が、コンテンツに対するユーザの視聴状態は「作業中」であると判定する（ステップＳ１２７）。

続いて、重要度判定部１１９が、ユーザＵ１，Ｕ２に提供中のコンテンツの重要度が高いか否かを判定する（ステップＳ１２９）。ここで、提供中のコンテンツの重要度が高いか否かは、重要度判定部１１９において判定されるコンテンツの各部分の重要度によって判定されうる。例えば、重要度判定部１１９は、コンテンツ解析部１１７によってユーザの関心が高いキーワードやシーンが検出されたコンテンツの部分の重要度が高いと判定する。また、例えば、重要度判定部１１９は、コンテンツ情報記憶部１５１から取得されるコンテンツ情報によって、予め登録されたユーザの好みに適合するコンテンツの部分、またはコマーシャルからコンテンツ本編への切り替わり部分など一般的に関心が高い部分の重要度が高いと判定する。

ステップＳ１２９において、コンテンツの重要度が高いと判定された場合、次に、音声出力制御部１１１が、コンテンツの音声のうち、ボーカルの音声の音量をやや上げる（ステップＳ１３１）。かかる音声出力の制御によって、例えばユーザが表示装置１０の近傍で読書、家事、勉強などコンテンツの視聴以外の作業をしている場合に、コンテンツの中でユーザの関心が高いと推定される部分が開始したことをユーザに知らせることが可能になる。

（３．ハードウェア構成）
次に、図６を参照しながら、上記で説明された本開示の一実施形態に係る情報処理装置１００のハードウェア構成について詳細に説明する。図６は、本開示の一実施形態に係る情報処理装置１００のハードウェア構成を説明するためのブロック図である。

情報処理装置１００は、ＣＰＵ９０１、ＲＯＭ９０３、およびＲＡＭ９０５を含む。さらに、情報処理装置１００は、ホストバス９０７、ブリッジ９０９、外部バス９１１、インターフェース９１３、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３、および通信装置９２５を含んでもよい。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処置装置９００内の動作全般またはその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０５は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一次記憶する。これらはＣＰＵバス等の内部バスにより構成されるホストバス９０７により相互に接続されている。

ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（Peripheral Component Interconnect/Interface）バスなどの外部バス９１１に接続されている。

入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザが操作する操作手段である。また、入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール手段であってもよいし、情報処置装置９００の操作に対応した携帯電話やＰＤＡ等の外部接続機器９２９であってもよい。さらに、入力装置９１５は、例えば、上記の操作手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などから構成されている。情報処置装置９００のユーザは、この入力装置９１５を操作することにより、情報処置装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

出力装置９１７は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置およびランプなどの表示装置や、スピーカおよびヘッドホンなどの音声出力装置や、プリンタ装置、携帯電話、ファクシミリなどがある。出力装置９１７は、例えば、情報処置装置９００が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処置装置９００が行った各種処理により得られた結果を、テキストまたはイメージで表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して出力する。

ストレージ装置９１９は、情報処置装置９００の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（Hard Disk Drive）等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイス等により構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

ドライブ９２１は、記録媒体用リーダライタであり、情報処置装置９００に内蔵、あるいは外付けされる。ドライブ９２１は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体９２７に記録を書き込むことも可能である。リムーバブル記録媒体９２７は、例えば、ＤＶＤメディア、ＨＤ−ＤＶＤメディア、Ｂｌｕ−ｒａｙ（登録商標）メディア等である。また、リムーバブル記録媒体９２７は、コンパクトフラッシュ（登録商標）（Compact Flash：ＣＦ）、フラッシュメモリ、または、ＳＤメモリカード（Secure Digital memory card）等であってもよい。また、リムーバブル記録媒体９２７は、例えば、非接触型ＩＣチップを搭載したＩＣカード（Integrated Circuit card）または電子機器等であってもよい。

接続ポート９２３は、機器を情報処置装置９００に直接接続するためのポートである。接続ポート９２３の一例として、ＵＳＢ（Universal Serial Bus）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Small Computer System Interface）ポート等がある。接続ポート９２３の別の例として、ＲＳ−２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（High-Definition Multimedia Interface）ポート等がある。この接続ポート９２３に外部接続機器９２９を接続することで、情報処置装置９００は、外部接続機器９２９から直接各種のデータを取得したり、外部接続機器９２９に各種のデータを提供したりする。

通信装置９２５は、例えば、通信ネットワーク９３１に接続するための通信デバイス等で構成された通信インターフェースである。通信装置９２５は、例えば、有線または無線ＬＡＮ（Local Area Network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＷＵＳＢ（Wireless USB）用の通信カード等である。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（Asymmetric Digital Subscriber Line）用のルータ、または、各種通信用のモデム等であってもよい。この通信装置９２５は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。また、通信装置９２５に接続される通信ネットワーク９３１は、有線または無線によって接続されたネットワーク等により構成され、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信等であってもよい。

以上、情報処置装置９００のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。従って、上記各実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。

（４．まとめ）
以上で説明された一実施形態によれば、コンテンツの映像が表示される表示部の近傍に位置するユーザの画像を取得する画像取得部と、画像に基づいてコンテンツに対するユーザの視聴状態を判定する視聴状態判定部と、視聴状態に応じて、ユーザに対する音声の出力を制御する音声出力制御部とを含む情報処理装置が提供される。

この場合、例えば、ユーザがさまざまな事情でコンテンツの音声を聴いていない状態である場合を識別することによって、ユーザのニーズにより的確に対応してコンテンツの音声の出力を制御することができる。

また、視聴状態判定部は、画像から検出されるユーザの目の開閉に基づいて、ユーザが音声を聴いているか否かを視聴状態として判定しうる。

この場合、例えば、ユーザが居眠り中である場合などを識別して、コンテンツの音声の出力を制御することができる。例えばユーザが居眠り中である場合、コンテンツの音声に妨げられることなく居眠りをしたい、または居眠りを中止してコンテンツの視聴に復帰したいといったようなユーザのニーズが存在することが考えられる。上記の場合、このようなニーズにより的確に対応したコンテンツの音声の出力の制御が可能になる。

また、視聴状態判定部は、画像から検出されるユーザの口の開閉に基づいて、ユーザが音声を聴いているか否かを視聴状態として判定しうる。

この場合、例えば、ユーザが会話中、または電話中である場合などを識別して、コンテンツの音声の出力を制御することができる。例えばユーザが会話中または電話中である場合、コンテンツの音声が会話または電話の妨げになるために音量を小さくしたいといったようなユーザのニーズが存在することが考えられる。上記の場合、このようなニーズにより的確に対応したコンテンツの音声の出力の制御が可能になる。

また、情報処理装置は、ユーザが発した音声を取得する音声取得部をさらに含み、視聴状態判定部は、音声に含まれる発話の話者がユーザであるか否かに基づいて、ユーザが音声を聴いているか否かを視聴状態として判定しうる。

この場合、例えば、ユーザの口は開閉しているが発話はしていないような場合に、ユーザが会話中または電話中であると誤判定することを防ぐことができる。

また、視聴状態判定部は、画像から検出されるユーザの向きに基づいて、ユーザが音声を聴いているか否かを視聴状態として判定しうる。

この場合、例えば、ユーザが独り言を言っているような場合に、ユーザが会話中であると誤判定することを防ぐことができる。

また、視聴状態判定部は、画像から検出されるユーザの姿勢に基づいて、ユーザが音声を聴いているか否かを視聴状態として判定しうる。

この場合、例えば、ユーザが独り言を言っているような場合に、ユーザが電話中であると誤判定することを防ぐことができる。

また、音声出力制御部は、視聴状態としてユーザが音声を聴いていないことが判定された場合に音声の音量を下げてもよい。

この場合、例えば、ユーザが居眠り中、会話中、または電話中などでコンテンツの音声を聴いておらず、それゆえコンテンツの音声を必要としていない場合、およびコンテンツの音声が邪魔になる場合などに、ユーザのニーズを反映してコンテンツの音声出力を制御することができる。

また、音声出力制御部は、視聴状態としてユーザが音声を聴いていないことが判定された場合に音声の音量を上げてもよい。

この場合、例えば、ユーザが居眠り中、または作業中などでコンテンツの音声を聴いておらず、しかし、コンテンツの視聴に復帰することを望んでいるような場合に、ユーザのニーズを反映してコンテンツの音声出力を制御することができる。

また、情報処理装置は、コンテンツの各部分の重要度を判定する重要度判定部をさらに含み、音声出力制御部は、重要度がより高いコンテンツの部分で音声の音量を上げてもよい。

この場合、例えば、ユーザが、コンテンツの特に重要な部分に限って、コンテンツの視聴に復帰することを望んでいるような場合に、ユーザのニーズを反映してコンテンツの音声出力を制御することができる。

また、情報処理装置は、画像に含まれる顔によってユーザを識別する顔識別部をさらに含み、重要度判定部は、識別されたユーザの属性に基づいて重要度を判定しうる。

この場合、例えば、画像によって自動的にユーザを識別し、さらに、識別されたユーザの好みを反映してコンテンツの重要部分を決定することができる。

また、情報処理装置は、画像に含まれる顔によってユーザを識別する顔識別部をさらに含み、視聴状態判定部は、画像に基づいてユーザがコンテンツの映像を見ているか否かを判定し、音声出力制御部は、識別されたユーザが映像を見ていると判定された場合に、識別されたユーザの属性に応じて音声の音質を変更しうる。

この場合、例えば、ユーザがコンテンツを視聴している場合に、ユーザの好みに合わせたコンテンツの音声出力を提供することができる。

（５．補足）
上記実施形態では、ユーザの動作として「映像を見ている」、「目を瞑っている」、「口が会話の動きをしている」、「発話している」などを例示し、ユーザの視聴状態として「通常視聴中」、「居眠り中」、「会話中」、「電話中」、「作業中」などを例示したが、本技術はかかる例に限定されない。取得された画像および音声に基づいて、さまざまなユーザの動作および視聴状態が判定されうる。

また、上記実施形態では、ユーザの画像と、ユーザが発した音声に基づいてユーザの視聴状態を判定することとしたが、本技術はかかる例に限定されない。ユーザが発した音声は必ずしも視聴状態の判定に用いられなくてもよく、専らユーザの画像に基づいて視聴状態が判定されてもよい。

なお、本技術は以下のような構成も取ることができる。
（１）コンテンツの映像が表示される表示部の近傍に位置するユーザの画像を取得する画像取得部と、
前記画像に基づいて前記コンテンツに対する前記ユーザの視聴状態を判定する視聴状態判定部と、
前記視聴状態に応じて、前記ユーザに対する前記コンテンツの音声の出力を制御する音声出力制御部と、
を備える情報処理装置。
（２）前記視聴状態判定部は、前記画像から検出される前記ユーザの目の開閉に基づいて、前記ユーザが前記音声を聴いているか否かを前記視聴状態として判定する、前記（１）に記載の情報処理装置。
（３）前記視聴状態判定部は、前記画像から検出される前記ユーザの口の開閉に基づいて、前記ユーザが前記音声を聴いているか否かを前記視聴状態として判定する、前記（１）または（２）に記載の情報処理装置。
（４）前記ユーザが発した音声を取得する音声取得部をさらに備え、
前記視聴状態判定部は、前記音声に含まれる発話の話者が前記ユーザであるか否かに基づいて、前記ユーザが前記音声を聴いているか否かを前記視聴状態として判定する、前記（１）〜（３）のいずれか１項に記載の情報処理装置。
（５）前記視聴状態判定部は、前記画像から検出される前記ユーザの向きに基づいて、前記ユーザが前記音声を聴いているか否かを前記視聴状態として判定する、前記（１）〜（４）のいずれか１項に記載の情報処理装置。
（６）前記視聴状態判定部は、前記画像から検出される前記ユーザの姿勢に基づいて、前記ユーザが前記音声を聴いているか否かを前記視聴状態として判定する、前記（１）〜（５）のいずれか１項に記載の情報処理装置。
（７）前記音声出力制御部は、前記視聴状態として前記ユーザが前記音声を聴いていないことが判定された場合に前記音声の音量を下げる、前記（１）〜（６）のいずれか１項に記載の情報処理装置。
（８）前記音声出力制御部は、前記視聴状態として前記ユーザが前記音声を聴いていないことが判定された場合に前記音声の音量を上げる、前記（１）〜（６）のいずれか１項に記載の情報処理装置。
（９）前記コンテンツの各部分の重要度を判定する重要度判定部をさらに備え、
前記音声出力制御部は、前記重要度がより高い前記コンテンツの部分で前記音声の音量を上げる、前記（８）に記載の情報処理装置。
（１０）前記画像に含まれる顔によって前記ユーザを識別する顔識別部をさらに備え、
前記重要度判定部は、前記識別されたユーザの属性に基づいて前記重要度を判定する、前記（９）に記載の情報処理装置。
（１１）前記画像に含まれる顔によって前記ユーザを識別する顔識別部をさらに備え、
前記視聴状態判定部は、前記画像に基づいて前記ユーザが前記コンテンツの映像を見ているか否かを判定し、
前記音声出力制御部は、前記識別されたユーザが前記映像を見ていると判定された場合に、前記識別されたユーザの属性に応じて前記音声の音質を変更する、前記（１）〜（１０）のいずれか１項に記載の情報処理装置。
（１２）コンテンツの映像が表示される表示部の近傍に位置するユーザの画像を取得することと、
前記画像に基づいて前記コンテンツに対する前記ユーザの視聴状態を判定することと、
前記視聴状態に応じて、前記ユーザに対する前記コンテンツの音声の出力を制御することと、
を含む情報処理方法。
（１３）コンテンツの映像が表示される表示部の近傍に位置するユーザの画像を取得する画像取得部と、
前記画像に基づいて前記コンテンツに対する前記ユーザの視聴状態を判定する視聴状態判定部と、
前記視聴状態に応じて、前記ユーザに対する前記コンテンツの音声の出力を制御する音声出力制御部と、
としてコンピュータを動作させるプログラム。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

Ｕ１，Ｕ２ユーザ
１０表示装置
１１表示部
１２スピーカ
２０カメラ
３０マイク
１００情報処理装置
１０１画像取得部
１０３画像処理部
１０３５顔識別部
１０５音声取得部
１０９視聴状態判定部
１１１音声出力制御部
１１３音声出力部
１１９重要度判定部

Claims

コンテンツの映像が表示される表示部の近傍に位置するユーザの画像を取得する画像取得部と、
前記画像に基づいて前記コンテンツに対する前記ユーザの視聴状態を判定する視聴状態判定部と、
前記視聴状態に応じて、前記ユーザに対する前記コンテンツの音声の出力を制御する音声出力制御部と、
前記コンテンツの各部分の重要度を判定する重要度判定部と
を備え、
前記音声出力制御部は、前記視聴状態として前記ユーザが前記音声を聴いていないことが判定された場合であって、前記重要度がより高い前記コンテンツの部分が出力されている場合に前記音声の音量を上げる情報処理装置。
前記視聴状態判定部は、前記画像から検出される前記ユーザの目の開閉に基づいて、前記ユーザが前記音声を聴いているか否かを前記視聴状態として判定する、請求項１に記載の情報処理装置。
前記視聴状態判定部は、前記画像から検出される前記ユーザの口の開閉に基づいて、前記ユーザが前記音声を聴いているか否かを前記視聴状態として判定する、請求項１に記載の情報処理装置。
前記ユーザが発した音声を取得する音声取得部をさらに備え、
前記視聴状態判定部は、前記音声に含まれる発話の話者が前記ユーザであるか否かに基づいて、前記ユーザが前記音声を聴いているか否かを前記視聴状態として判定する、請求項１に記載の情報処理装置。
前記視聴状態判定部は、前記画像から検出される前記ユーザの向きに基づいて、前記ユーザが前記音声を聴いているか否かを前記視聴状態として判定する、請求項１に記載の情報処理装置。
前記視聴状態判定部は、前記画像から検出される前記ユーザの姿勢に基づいて、前記ユーザが前記音声を聴いているか否かを前記視聴状態として判定する、請求項１に記載の情報処理装置。
前記音声出力制御部は、前記視聴状態として前記ユーザが前記音声を聴いていないことが判定された場合に前記音声の音量を下げる、請求項１に記載の情報処理装置。
前記画像に含まれる顔によって前記ユーザを識別する顔識別部をさらに備え、
前記重要度判定部は、前記識別されたユーザの属性に基づいて前記重要度を判定する、請求項１に記載の情報処理装置。
前記画像に含まれる顔によって前記ユーザを識別する顔識別部をさらに備え、
前記視聴状態判定部は、前記画像に基づいて前記ユーザが前記コンテンツの映像を見ているか否かを判定し、
前記音声出力制御部は、前記識別されたユーザが前記映像を見ていると判定された場合に、前記識別されたユーザの属性に応じて前記音声の音質を変更する、請求項１に記載の情報処理装置。
コンテンツの映像が表示される表示部の近傍に位置するユーザの画像を取得することと、
前記画像に基づいて前記コンテンツに対する前記ユーザの視聴状態を判定することと、
前記視聴状態に応じて、前記ユーザに対する前記コンテンツの音声の出力を制御することと、
前記コンテンツの各部分の重要度を判定することと
を含み、前記音声の出力を制御することは、前記視聴状態として前記ユーザが前記音声を聴いていないことが判定された場合であって、前記重要度がより高い前記コンテンツの部分が出力されている場合に前記音声の音量を上げることを含む情報処理方法。
コンテンツの映像が表示される表示部の近傍に位置するユーザの画像を取得する画像取得部と、
前記画像に基づいて前記コンテンツに対する前記ユーザの視聴状態を判定する視聴状態判定部と、
前記視聴状態に応じて、前記ユーザに対する前記コンテンツの音声の出力を制御する音声出力制御部と、
前記コンテンツの各部分の重要度を判定する重要度判定部と
としてコンピュータを動作させ、
前記音声出力制御部は、前記視聴状態として前記ユーザが前記音声を聴いていないことが判定された場合であって、前記重要度がより高い前記コンテンツの部分が出力されている場合に前記音声の音量を上げるプログラム。