[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5772069B2 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP5772069B2
JP5772069B2 JP2011047892A JP2011047892A JP5772069B2 JP 5772069 B2 JP5772069 B2 JP 5772069B2 JP 2011047892 A JP2011047892 A JP 2011047892A JP 2011047892 A JP2011047892 A JP 2011047892A JP 5772069 B2 JP5772069 B2 JP 5772069B2
Authority
JP
Japan
Prior art keywords
user
content
viewing state
unit
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011047892A
Other languages
English (en)
Other versions
JP2012186622A (ja
Inventor
辰吾 鶴見
辰吾 鶴見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2011047892A priority Critical patent/JP5772069B2/ja
Priority to US13/364,755 priority patent/US20120224043A1/en
Priority to CN2012100448201A priority patent/CN102655576A/zh
Publication of JP2012186622A publication Critical patent/JP2012186622A/ja
Application granted granted Critical
Publication of JP5772069B2 publication Critical patent/JP5772069B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4396Processing of audio elementary streams by muting the audio signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Television Receiver Circuits (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本開示は、情報処理装置、情報処理方法およびプログラムに関する。
TVなどの表示装置は、例えば住宅の居間、個室など至るところに設置され、生活のさまざまな局面でユーザにコンテンツの映像や音声を提供している。それゆえ、提供されるコンテンツに対するユーザの視聴状態も、さまざまである。ユーザは、必ずしも専らコンテンツを視聴するわけではなく、例えば、勉強や読書をしながらコンテンツを視聴したりする場合がある。そこで、コンテンツに対するユーザの視聴状態に合わせて、コンテンツの映像や音声の再生特性を制御する技術が開発されている。例えば、特許文献1には、ユーザの視線を検出することによってコンテンツに対するユーザの関心の程度を判定し、判定結果に応じてコンテンツの映像または音声の出力特性を変化させる技術が記載されている。
特開2004−312401号公報
しかし、コンテンツに対するユーザの視聴状態はさらに多様化している。それゆえ、特許文献1に記載の技術では、それぞれの視聴状態におけるユーザの細かなニーズに対応したコンテンツの出力を提供するために十分ではない。
そこで、視聴状態ごとのユーザのニーズにより的確に対応してコンテンツの出力を制御する技術が求められている。
本開示によれば、コンテンツの映像が表示される表示部の近傍に位置するユーザの画像を取得する画像取得部と、上記画像に基づいて上記コンテンツに対する上記ユーザの視聴状態を判定する視聴状態判定部と、上記視聴状態に応じて、上記ユーザに対する上記音声の出力を制御する音声出力制御部と、上記コンテンツの各部分の重要度を判定する重要度判定部とを含み、上記音声出力制御部は、上記視聴状態として上記ユーザが上記音声を聴いていないことが判定された場合であって、上記重要度がより高い上記コンテンツの部分が出力されている場合に上記音声の音量を上げる情報処理装置が提供される。
また、本開示によれば、コンテンツの映像が表示される表示部の近傍に位置するユーザの画像を取得することと、上記画像に基づいて上記コンテンツに対する上記ユーザの視聴状態を判定することと、上記視聴状態に応じて、上記ユーザに対する上記音声の出力を制御することと、上記コンテンツの各部分の重要度を判定することとを含み、上記音声の出力を制御することは、上記視聴状態として上記ユーザが上記音声を聴いていないことが判定された場合であって、上記重要度がより高い上記コンテンツの部分が出力されている場合に上記音声の音量を上げることを含む情報処理方法が提供される。
また、本開示によれば、コンテンツの映像が表示される表示部の近傍に位置するユーザの画像を取得する画像取得部と、上記画像に基づいて上記コンテンツに対する上記ユーザの視聴状態を判定する視聴状態判定部と、上記視聴状態に応じて、上記ユーザに対する上記音声の出力を制御する音声出力制御部と、上記コンテンツの各部分の重要度を判定する重要度判定部ととしてコンピュータを動作させ、上記音声出力制御部は、上記視聴状態として上記ユーザが上記音声を聴いていないことが判定された場合であって、上記重要度がより高い上記コンテンツの部分が出力されている場合に上記音声の音量を上げるプログラムが提供される。
本開示によれば、例えば、コンテンツに対するユーザの視聴状態が、コンテンツの音声の出力制御に反映される。
以上説明したように本開示によれば、視聴状態ごとのユーザのニーズにより的確に対応してコンテンツの出力を制御することができる。
本開示の一実施形態に係る情報処理装置の機能構成を示すブロック図である。 本開示の一実施形態に係る情報処理装置の画像処理部の機能構成を示すブロック図である。 本開示の一実施形態に係る情報処理装置の音声処理部の機能構成を示すブロック図である。 本開示の一実施形態に係る情報処理装置のコンテンツ解析部の機能構成を示すブロック図である。 本開示の一実施形態における処理の例を示すフローチャートである 本開示の一実施形態に係る情報処理装置のハードウェア構成を説明するためのブロック図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.機能構成
2.処理フロー
3.ハードウェア構成
4.まとめ
5.補足
(1.機能構成)
まず、図1を参照して、本開示の一実施形態に係る情報処理装置100の概略的な機能構成について説明する。図1は、情報処理装置100の機能構成を示すブロック図である。
情報処理装置100は、画像取得部101、画像処理部103、音声取得部105、音声処理部107、視聴状態判定部109、音声出力制御部111、音声出力部113、コンテンツ取得部115、コンテンツ解析部117、重要度判定部119、およびコンテンツ情報記憶部151を含む。情報処理装置100は、例えば、TVチューナやPC(Personal Computer)などとして実現されうる。情報処理装置100には、表示装置10、カメラ20、およびマイク30に接続される。表示装置10は、コンテンツの映像が表示される表示部11と、コンテンツの音声が出力されるスピーカ12とを含む。情報処理装置100は、これらの装置はと一体になったTV受像機やPCなどであってもよい。なお、表示装置10の表示部11にコンテンツの映像データを提供する構成など、コンテンツ再生のための公知の構成が適用されうる部分については、図示を省略した。
画像取得部101は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、および通信装置などによって実現される。画像取得部101は、情報処理装置100に接続されたカメラ20から、表示装置10の表示部11の近傍に位置するユーザU1,U2の画像を取得する。なお、ユーザは、図示されているように複数であってもよく、また単一であってもよい。画像取得部101は、取得した画像の情報を画像処理部103に提供する。
画像処理部103は、例えば、CPU、GPU(Graphics Processing Unit)、ROM、およびRAMなどによって実現される。画像処理部103は、画像取得部101から取得した画像の情報をフィルタリングなどによって処理し、ユーザU1,U2に関する情報を取得する。例えば、画像処理部103は、画像からユーザU1,U2の顔角度、口の開閉、目の開閉、視線方向、位置、姿勢などの情報を取得する。また、画像処理部103は、画像に含まれる顔の画像に基づいてユーザU1,U2を識別し、ユーザIDを取得してもよい。画像処理部103は、取得したこれらの情報を、視聴状態判定部109およびコンテンツ解析部117に提供する。なお、画像処理部103の詳細な機能構成については後述する。
音声取得部105は、例えば、CPU、ROM、RAM、および通信装置などによって実現される。音声取得部105は、情報処理装置100に接続されたマイク30から、ユーザU1,U2が発した音声を取得する。音声取得部105は、取得した音声の情報を音声処理部107に提供する。
音声処理部107は、例えば、CPU、ROM、およびRAMなどによって実現される。音声処理部107は、音声取得部105から取得した音声の情報をフィルタリングなどによって処理し、ユーザU1,U2が発した音声に関する情報を取得する。例えば、音声がユーザU1,U2の発話によるものである場合に、音声処理部107は、話者であるユーザU1,U2を推定してユーザIDを取得する。また、音声処理部107は、音声から音源方向、発話の有無などの情報を取得してもよい。音声処理部107は、取得したこれらの情報を、視聴状態判定部109に提供する。なお、音声処理部107の詳細な機能構成については後述する。
視聴状態判定部109は、例えば、CPU、ROM、およびRAMなどによって実現される。視聴状態判定部109は、ユーザU1,U2の動作に基づいて、コンテンツに対するユーザU1,U2の視聴状態を判定する。ユーザU1,U2の動作は、画像処理部103、または音声処理部107から取得される情報に基づいて判定される。ユーザの動作は、例えば、「映像を見ている」、「目を瞑っている」、「口が会話の動きをしている」、「発話している」などである。このようなユーザの動作に基づいて判定されるユーザの視聴状態は、例えば、「通常視聴中」、「居眠り中」、「会話中」、「電話中」、「作業中」などである。視聴状態判定部109は、判定された視聴状態の情報を、音声出力制御部111に提供する。
音声出力制御部111は、例えば、CPU、DSP(Digital Signal Processor)、ROM、およびRAMなどによって実現される。音声出力制御部111は、視聴状態判定部109から取得した視聴状態に応じて、ユーザに対するコンテンツの音声の出力を制御する。音声出力制御部111は、例えば、音声の音量を上げたり、音声の音量を下げたり、音声の音質を変更したりする。音声出力制御部111は、音声に含まれるボーカルの音量を上げるなど、音声の種類ごとに出力を制御してもよい。また、音声出力制御部111は、重要度判定部119から取得したコンテンツの各部分の重要度に応じて音声の出力を制御してもよい。さらに、音声出力制御部111は、画像処理部103が取得したユーザIDを用いて、ROM、RAM、およびストレージ装置などに予め登録されたユーザの属性情報を参照し、属性情報として登録されたユーザの好みに応じて音声の出力を制御してもよい。音声出力制御部111は、音声出力の制御情報を音声出力部113に提供する。
音声出力部113は、例えば、CPU、DSP、ROM、およびRAMなどによって実現される。音声出力部113は、音声出力制御部111から取得した制御情報に従って、コンテンツの音声を表示装置10のスピーカ12に出力する。なお、出力の対象になるコンテンツの音声データは、図示しないコンテンツ再生のための構成によって音声出力部113に提供される。
コンテンツ取得部115は、例えば、CPU、ROM、RAM、および通信装置などによって実現される。コンテンツ取得部115は、表示装置10によってユーザU1,U2に提供されるコンテンツを取得する。コンテンツ取得部115は、例えば、アンテナが受信した放送波を復調してデコードすることによって放送コンテンツを取得してもよい。また、コンテンツ取得部115は、通信装置を介して通信ネットワークからコンテンツをダウンロードしてもよい。さらに、コンテンツ取得部115は、ストレージ装置に格納されたコンテンツを読み出してもよい。コンテンツ取得部115は、取得したコンテンツの映像データおよび音声データを、コンテンツ解析部117に提供する。
コンテンツ解析部117は、例えば、CPU、ROM、およびRAMなどによって実現される。コンテンツ解析部117は、コンテンツ取得部115から取得したコンテンツの映像データおよび音声のデータを解析して、コンテンツに含まれるキーワードや、コンテンツのシーンを検出する。コンテンツ取得部115は、画像処理部103から取得したユーザIDを用いて、予め登録されたユーザの属性情報を参照し、ユーザU1,U2の関心が高いキーワードやシーンを検出する。コンテンツ解析部117は、これらの情報を重要度判定部119に提供する。なお、コンテンツ解析部117の詳細な機能構成については後述する。
コンテンツ情報記憶部151は、例えば、ROM、RAM、およびストレージ装置などによって実現される。コンテンツ情報記憶部151には、例えばEPG、ECGなどのコンテンツ情報が格納される。コンテンツ情報は、例えば、コンテンツ取得部115によってコンテンツとともに取得されてコンテンツ情報記憶部151に格納されてもよい。
重要度判定部119は、例えば、CPU、ROM、およびRAMなどによって実現される。重要度判定部119は、コンテンツの各部分の重要度を判定する。重要度判定部119は、例えば、コンテンツ解析部117から取得したユーザの関心が高いキーワードやシーンの情報に基づいて、コンテンツの各部分の重要度を判定する。この場合、重要度判定部119は、かかるキーワードやシーンが検出されたコンテンツの部分を重要であると判定する。また、重要度判定部119は、コンテンツ情報記憶部151から取得されたコンテンツ情報に基づいてコンテンツの各部分の重要度を判定してもよい。この場合、重要度判定部119は、画像処理部103が取得したユーザIDを用いて、予め登録されたユーザの属性情報を参照し、属性情報として登録されたユーザの好みに適合するコンテンツの部分を重要であると判定する。また、重要度判定部119は、コンテンツ情報によって示されるコマーシャルからコンテンツ本編への切り替わり部分など、ユーザに関わらず一般的に関心が高い部分を重要であると判定してもよい。
(画像処理部の詳細)
続いて、図2を参照して、情報処理装置100の画像処理部103の機能構成についてさらに説明する。図2は、画像処理部103の機能構成を示すブロック図である。
画像処理部103は、顔検出部1031、顔追跡部1033、顔識別部1035、および姿勢推定部1037を含む。顔識別部1035は、顔識別用DB153を参照する。画像処理部103は、画像取得部101から画像データを取得する。また、画像処理部103は、ユーザを識別するユーザID、および顔角度、口の開閉、目の開閉、視線方向、位置、姿勢などの情報を視聴状態判定部109またはコンテンツ解析部117に提供する。
顔検出部1031は、例えば、CPU、GPU、ROM、およびRAMなどによって実現される。顔検出部1031は、画像取得部101から取得した画像データを参照して、画像に含まれる人間の顔を検出する。画像の中に顔が含まれている場合、顔検出部1031は、当該顔の位置や大きさなどを検出する。さらに、顔検出部1031は、画像によって示される顔の状態を検出する。例えば、顔検出部1031は、顔の角度、目を瞑っているか否か、視線の方向といったような状態を検出する。なお、顔検出部1031の処理には、例えば、特開2007−65766号公報や、特開2005−44330号公報に掲載されている技術など、公知のあらゆる技術を適用することが可能である。
顔追跡部1033は、例えば、CPU、GPU、ROM、およびRAMなどによって実現される。顔追跡部1033は、画像取得部101から取得した異なるフレームの画像データについて、顔検出部1031によって検出された顔を追跡する。顔追跡部1033は、顔検出部1031によって検出された顔の画像データのパターンの類似性などを利用して、後続のフレームで当該顔に対応する部分を探索する。顔追跡部1033のこのような処理によって、複数のフレームの画像に含まれる顔が、同一のユーザの顔の時系列変化として認識されうる。
顔識別部1035は、例えば、CPU、GPU、ROM、およびRAMなどによって実現される。顔識別部1035は、顔検出部1031によって検出された顔について、どのユーザの顔であるかの識別を行う処理部である。顔識別部1035は、顔検出部1031によって検出された顔の特徴的な部分などに着目して局所特徴量を算出し、算出した局所特徴量と、顔識別用DB153に予め格納されたユーザの顔画像の局所特徴量とを比較することによって、顔検出部1031により検出された顔を識別し、顔に対応するユーザのユーザIDを特定する。なお、顔識別部1035の処理には、例えば、特開2007−65766号公報や、特開2005−44330号公報に掲載されている技術など、公知のあらゆる技術を適用することが可能である。
姿勢推定部1037は、例えば、CPU、GPU、ROM、およびRAMなどによって実現される。姿勢推定部1037は、画像取得部101から取得した画像データを参照して、画像に含まれるユーザの姿勢を推定する。姿勢推定部1037は、予め登録されたユーザの姿勢の種類ごとの画像の特徴などに基づいて、画像に含まれるユーザの姿勢がどのような種類の姿勢であるかを推定する。例えば、姿勢推定部1037は、ユーザが機器を保持して耳に近づけている姿勢が画像から認識される場合に、ユーザが電話中の姿勢であると推定する。なお、姿勢推定部1037の処理には、公知のあらゆる技術を適用することが可能である。
顔識別用DB153は、例えば、ROM、RAM、およびストレージ装置などによって実現される。顔識別用DB153には、例えば、ユーザの顔画像の局所特徴量が、ユーザIDと関連付けて予め格納される。顔識別用DB153に格納されたユーザの顔画像の局所特徴量は、顔識別部1035によって参照される。
(音声処理部の詳細)
続いて、図3を参照して、情報処理装置100の音声処理部107の機能構成についてさらに説明する。図3は、音声処理部107の機能構成を示すブロック図である。
音声処理部107は、発話検出部1071、話者推定部1073、および音源方向推定部1075を含む。話者推定部1073は、話者識別用DB155を参照する。音声処理部107は、音声取得部105から音声データを取得する。また、音声処理部107は、ユーザを識別するユーザID,および音源方向、発話の有無などの情報を視聴状態判定部109に提供する。
発話検出部1071は、例えば、CPU、ROM、およびRAMなどによって実現される。発話検出部1071は、音声取得部105から取得した音声データを参照して、音声に含まれる発話を検出する。音声の中に発話が含まれている場合、発話検出部1071は、当該発話の開始点、終了点、および周波数特性などを検出する。なお、発話検出部1071の処理には、公知のあらゆる技術を適用することが可能である。
話者推定部1073は、例えば、CPU、ROM、およびRAMなどによって実現される。話者推定部1073は、発話検出部1071によって検出された発話について、話者を推定する。話者推定部1073は、例えば、発話検出部1071によって検出された発話の周波数特性などの特徴を、話者識別用DB155に予め登録されたユーザの発話音声の特徴と比較することによって、発話検出部1071によって検出された発話の話者を推定し、話者のユーザIDを特定する。なお、話者推定部1073の処理には、公知のあらゆる技術を適用することが可能である。
音源方向推定部1075は、例えば、CPU、ROM、およびRAMなどによって実現される。音源方向推定部1075は、例えば、音声取得部105が位置の異なる複数のマイク30から取得した音声データの位相差を検出することによって、音声データに含まれる発話などの音声の音源の方向を推定する。音源方向推定部1075によって推定された音源の方向は、画像処理部103において検出されたユーザの位置と対応付けられ、これによって発話の話者が推定されてもよい。なお、音源方向推定部1075の処理には、公知のあらゆる技術を適用することが可能である。
話者識別用DB155は、例えば、ROM、RAM、およびストレージ装置などによって実現される。話者識別用DB155には、例えば、ユーザの発話音声の周波数特性などの特徴が、ユーザIDと関連付けて予め格納される。話者識別用DB155に格納されたユーザの発話音声の特徴は、話者推定部1073によって参照される。
(コンテンツ解析部の詳細)
続いて、図4を参照して、情報処理装置100のコンテンツ解析部117の機能構成についてさらに説明する。図4は、コンテンツ解析部117の機能構成を示すブロック図である。
コンテンツ解析部117は、発話検出部1171、キーワード検出部1173、およびシーン検出部1175を含む。キーワード検出部1173は、キーワード検出用DB157を参照する。シーン検出部1175は、シーン検出用DB159を参照する。コンテンツ解析部117は、画像処理部103からユーザIDを取得する。また、コンテンツ解析部117は、コンテンツ取得部115からコンテンツの映像データおよび音声データを取得する。コンテンツ解析部117は、ユーザの関心が高いと推定されるキーワードやシーンの情報を重要度判定部119に提供する。
発話検出部1171は、例えば、CPU、ROM、およびRAMなどによって実現される。発話検出部1171は、コンテンツ取得部115から取得したコンテンツの音声データを参照して、音声に含まれる発話を検出する。音声の中に発話が含まれている場合、発話検出部1171は、当該発話の開始点、終了点、および周波数特性などの音声的特徴を検出する。なお、発話検出部1171の処理には、公知のあらゆる技術を適用することが可能である。
キーワード検出部1173は、例えば、CPU、ROM、およびRAMなどによって実現される。キーワード検出部1173は、発話検出部1171によって検出された発話について、発話に含まれるキーワードを検出する。キーワードは、各ユーザの関心が高いキーワードとして予めキーワード検出用DB157に格納されている。キーワード検出部1173は、発話検出部1171によって検出された発話の区間から、キーワード検出用DB157に格納されているキーワードの音声的特徴を有する部分を探索する。キーワード検出部1173は、どのユーザの関心が高いキーワードを検出するかを決定するために、画像処理部103から取得したユーザIDを用いる。発話区間からキーワードが検出された場合、キーワード検出部1173は、例えば、検出されたキーワードと、当該キーワードへの関心が高いユーザのユーザIDとを関連づけて出力する。
シーン検出部1175は、例えば、CPU、ROM、およびRAMなどによって実現される。シーン検出部1175は、コンテンツ取得部115から取得したコンテンツの映像データおよび音声データを参照して、コンテンツにおけるシーンを検出する。シーンは、各ユーザの関心が高いシーンとして予めシーン検出用DB159に格納されている。シーン検出部1175は、コンテンツの映像または音声が、シーン検出用DB159に格納されているシーンの映像的または音声的特徴を有するか否かを判定する。シーン検出部1175は、どのユーザの関心が高いシーンを検出するかを決定するために、画像処理部103から取得したユーザIDを用いる。シーンが検出された場合、シーン検出部1175は、例えば、検出されたシーンと、当該シーンへの関心が高いユーザのユーザIDとを関連付けて出力する。
キーワード検出用DB157は、例えば、ROM、RAM、およびストレージ装置などによって実現される。キーワード検出用DB157には、例えば、ユーザの関心が高いキーワードの音声的特徴が、ユーザIDおよび当該キーワードを識別する情報と関連付けて予め格納される。キーワード検出用DB157に格納されたキーワードの音声的特徴は、キーワード検出部1173によって参照される。
シーン検出用DB159は、例えば、ROM、RAM、およびストレージ装置などによって実現される。シーン検出用DB159には、例えば、ユーザの関心が高いシーンの映像的または音声的特徴が、ユーザIDおよび当該シーンを識別する情報と関連付けて予め格納される。シーン検出用DB159に格納されたシーンの映像的または音声的特徴は、シーン検出部1175によって参照される。
(2.処理フロー)
続いて、図5を参照して、本開示の一実施形態における処理フローについて説明する。図5は、本開示の一実施形態における視聴状態判定部109、音声出力制御部111、および重要度判定部119による処理の例を示すフローチャートである。
図5を参照すると、まず、視聴状態判定部109が、ユーザU1,U2がコンテンツの映像を見ているか否かを判定する(ステップS101)。ここで、ユーザU1,U2が映像を見ているか否かは、画像処理部103において検出されるユーザU1,U2の顔角度、目の開閉、および視線方向によって判定されうる。例えば、視聴状態判定部109は、ユーザの顔角度および視線方向が表示装置10の表示部11の方向に近く、またユーザの目が瞑られていない場合に、「ユーザがコンテンツの映像を見ている」と判定する。ユーザU1,U2が複数である場合、視聴状態判定部109は、ユーザU1,U2のいずれかがコンテンツの映像を見ていると判定された場合に、「ユーザがコンテンツの映像を見ている」と判定しうる。
ステップS101において、「ユーザがコンテンツの映像を見ている」と判定された場合、次に、視聴状態判定部109が、コンテンツに対するユーザの視聴状態は「通常視聴中」であると判定する(ステップS103)。ここで、視聴状態判定部109は、視聴状態が「通常視聴中」であることを示す情報を音声出力制御部111に提供する。
続いて、音声出力制御部111が、ユーザの好みに合わせて、コンテンツの音声の音質を変更する(ステップS105)。ここで、音声出力制御部111は、画像処理部103が取得したユーザIDを用いて、ROM、RAM、およびストレージ装置などに予め登録されたユーザの属性情報を参照し、属性情報として登録されたユーザの好みを取得しうる。
一方、ステップS101において、「ユーザがコンテンツの映像を見ている」とは判定されなかった場合、次に、視聴状態判定部109が、ユーザU1,U2が目を瞑っているか否かを判定する(ステップS107)。ここで、ユーザU1,U2が目を瞑っているか否かは、画像処理部103において検出されるユーザU1,U2の目の開閉の時系列変化によって判定されうる。例えば、視聴状態判定部109は、ユーザの目が閉じた状態が所定の時間以上継続している場合に、「ユーザが目を瞑っている」と判定する。ユーザU1,U2が複数である場合、視聴状態判定部109は、ユーザU1,U2の両方が目を瞑っていると判定された場合に、「ユーザが目を瞑っている」と判定しうる。
ステップS107において「ユーザが目を瞑っている」と判定された場合、次に、視聴状態判定部109が、コンテンツに対するユーザの視聴状態は「居眠り中」であると判定する(ステップS109)。ここで、視聴状態判定部109は、視聴状態が「居眠り中」であることを示す情報を音声出力制御部111に提供する。
続いて、音声出力制御部111が、コンテンツの音声の音量を徐々に小さくし、最終的に消音する(ステップS111)。かかる音声出力の制御によって、例えば、ユーザが居眠り中である場合にその居眠りを妨げないようにすることが可能である。このとき、音声出力の制御とともに、表示部11に表示される映像の輝度を下げ、最終的に消画する映像出力の制御が実行されてもよい。音量を徐々に小さくする途中でユーザの視聴状態が変わったり、ユーザから表示装置10への操作が取得されたりした場合、音量を小さくする制御は中止されうる。
ここで、ステップS111における処理の変形例として、音声出力制御部111は、コンテンツの音声の音量を上げてもよい。かかる音声出力の制御によって、例えば、ユーザがコンテンツを視聴したいにもかかわらず居眠りをしている場合にユーザをコンテンツの視聴に復帰させることが可能である。
一方、ステップS107において、「ユーザが目を瞑っている」とは判定されなかった場合、次に、視聴状態判定部109が、ユーザU1,U2の口が会話中の動きになっているか否かを判定する(ステップS113)。ここで、ユーザU1,U2の口が会話中の動きになっているか否かは、画像処理部103において検出されるユーザU1,U2の口の開閉の時系列変化によって判定されうる。例えば、視聴状態判定部109は、ユーザの口の開閉が変化している状態が所定の時間以上継続している場合に、「ユーザの口が会話中の動きになっている」と判定する。ユーザU1,U2が複数である場合、視聴状態判定部109は、ユーザU1,U2のいずれかの口が会話中の動きになっている場合に、「ユーザの口が会話中の動きになっている」判定しうる。
ステップS113において、「ユーザの口が会話中の動きになっている」と判定された場合、次に、視聴状態判定部109が、ユーザU1,U2の発話が検出されたか否かを判定する(ステップS115)。ここで、ユーザU1,U2の発話が検出されたか否かは、音声処理部107において検出される発話の話者のユーザIDによって判定されうる。例えば、視聴状態判定部109は、画像処理部103から取得したユーザIDが、音声処理部107から取得した発話の話者のユーザIDに一致する場合に、「ユーザの発話が検出された」と判定する。ユーザU1,U2が複数である場合、視聴状態判定部109は、ユーザU1,U2のいずれかの発話が検出された場合に、「ユーザの発話が検出された」と判定しうる。
ステップS115において、「ユーザの発話が検出された」と判定された場合、次に、視聴状態判定部109が、ユーザU1,U2が別のユーザの方を向いているか否かを判定する(ステップS117)。ここで、ユーザU1,U2が別のユーザの方を向いているか否かは、画像処理部103において検出されるユーザU1,U2の顔角度、および位置によって判定されうる。例えば、視聴状態判定部109は、ユーザの顔角度によって示される当該ユーザが向いている方向が、他のユーザの位置と一致する場合に、「ユーザが別のユーザの方を向いている」と判定する。
ステップS117において、「ユーザが別のユーザの方を向いている」と判定された場合、次に、視聴状態判定部109が、コンテンツに対するユーザの視聴状態は「会話中」であると判定する(ステップS119)。ここで、視聴状態判定部109は、視聴状態が「会話中」であることを示す情報を音声出力制御部111に提供する。
続いて、音声出力制御部111が、コンテンツの音声の音量をやや下げる(ステップS121)。かかる音声出力の制御によって、例えばユーザが会話中である場合にその会話を妨げないようにすることが可能になる。
一方、ステップS117において「ユーザが別のユーザの方を向いている」とは判定されなかった場合、次に、視聴状態判定部109が、ユーザU1,U2が電話中の姿勢になっているか否かを判定する(ステップS123)。ここで、ユーザU1,U2が電話中の姿勢になっているか否かは、画像処理部103において検出されるユーザU1,U2の姿勢によって判定されうる。例えば、視聴状態判定部109は、画像処理部103に含まれる姿勢推定部1037が、ユーザが機器(受話器)を保持して耳に近づけている姿勢をユーザの電話中の姿勢であると推定した場合に、「ユーザが電話中の姿勢になっている」と判定する。
ステップS123において「ユーザが電話中の姿勢になっている」と判定された場合、次に、視聴状態判定部109が、コンテンツに対するユーザの視聴状態は「電話中」であると判定する(ステップS125)。ここで、視聴状態判定部109は、視聴状態が「電話中」であることを示す情報を音声出力制御部111に提供する。
続いて、音声出力制御部111が、コンテンツの音声の音量をやや下げる(ステップS121)。かかる音声出力の制御によって、例えばユーザが電話中である場合にその電話を妨げないようにすることが可能になる。
一方、ステップS113において「ユーザの口が会話中の動きになっている」とは判定されなかった場合、ステップS115において「ユーザの発話が検出された」とは判定されなかった場合、およびステップS123において「ユーザが電話中の姿勢になっている」とは判定されなかった場合、次に、視聴状態判定部109が、コンテンツに対するユーザの視聴状態は「作業中」であると判定する(ステップS127)。
続いて、重要度判定部119が、ユーザU1,U2に提供中のコンテンツの重要度が高いか否かを判定する(ステップS129)。ここで、提供中のコンテンツの重要度が高いか否かは、重要度判定部119において判定されるコンテンツの各部分の重要度によって判定されうる。例えば、重要度判定部119は、コンテンツ解析部117によってユーザの関心が高いキーワードやシーンが検出されたコンテンツの部分の重要度が高いと判定する。また、例えば、重要度判定部119は、コンテンツ情報記憶部151から取得されるコンテンツ情報によって、予め登録されたユーザの好みに適合するコンテンツの部分、またはコマーシャルからコンテンツ本編への切り替わり部分など一般的に関心が高い部分の重要度が高いと判定する。
ステップS129において、コンテンツの重要度が高いと判定された場合、次に、音声出力制御部111が、コンテンツの音声のうち、ボーカルの音声の音量をやや上げる(ステップS131)。かかる音声出力の制御によって、例えばユーザが表示装置10の近傍で読書、家事、勉強などコンテンツの視聴以外の作業をしている場合に、コンテンツの中でユーザの関心が高いと推定される部分が開始したことをユーザに知らせることが可能になる。
(3.ハードウェア構成)
次に、図6を参照しながら、上記で説明された本開示の一実施形態に係る情報処理装置100のハードウェア構成について詳細に説明する。図6は、本開示の一実施形態に係る情報処理装置100のハードウェア構成を説明するためのブロック図である。
情報処理装置100は、CPU901、ROM903、およびRAM905を含む。さらに、情報処理装置100は、ホストバス907、ブリッジ909、外部バス911、インターフェース913、入力装置915、出力装置917、ストレージ装置919、ドライブ921、接続ポート923、および通信装置925を含んでもよい。
CPU901は、演算処理装置および制御装置として機能し、ROM903、RAM905、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、情報処置装置900内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM905は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一次記憶する。これらはCPUバス等の内部バスにより構成されるホストバス907により相互に接続されている。
ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。
入力装置915は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザが操作する操作手段である。また、入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール手段であってもよいし、情報処置装置900の操作に対応した携帯電話やPDA等の外部接続機器929であってもよい。さらに、入力装置915は、例えば、上記の操作手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などから構成されている。情報処置装置900のユーザは、この入力装置915を操作することにより、情報処置装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
出力装置917は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置およびランプなどの表示装置や、スピーカおよびヘッドホンなどの音声出力装置や、プリンタ装置、携帯電話、ファクシミリなどがある。出力装置917は、例えば、情報処置装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処置装置900が行った各種処理により得られた結果を、テキストまたはイメージで表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して出力する。
ストレージ装置919は、情報処置装置900の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイス等により構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
ドライブ921は、記録媒体用リーダライタであり、情報処置装置900に内蔵、あるいは外付けされる。ドライブ921は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体927に記録を書き込むことも可能である。リムーバブル記録媒体927は、例えば、DVDメディア、HD−DVDメディア、Blu−ray(登録商標)メディア等である。また、リムーバブル記録媒体927は、コンパクトフラッシュ(登録商標)(Compact Flash:CF)、フラッシュメモリ、または、SDメモリカード(Secure Digital memory card)等であってもよい。また、リムーバブル記録媒体927は、例えば、非接触型ICチップを搭載したICカード(Integrated Circuit card)または電子機器等であってもよい。
接続ポート923は、機器を情報処置装置900に直接接続するためのポートである。接続ポート923の一例として、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポート等がある。接続ポート923の別の例として、RS−232Cポート、光オーディオ端子、HDMI(High-Definition Multimedia Interface)ポート等がある。この接続ポート923に外部接続機器929を接続することで、情報処置装置900は、外部接続機器929から直接各種のデータを取得したり、外部接続機器929に各種のデータを提供したりする。
通信装置925は、例えば、通信ネットワーク931に接続するための通信デバイス等で構成された通信インターフェースである。通信装置925は、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カード等である。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデム等であってもよい。この通信装置925は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。また、通信装置925に接続される通信ネットワーク931は、有線または無線によって接続されたネットワーク等により構成され、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信等であってもよい。
以上、情報処置装置900のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。従って、上記各実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
(4.まとめ)
以上で説明された一実施形態によれば、コンテンツの映像が表示される表示部の近傍に位置するユーザの画像を取得する画像取得部と、画像に基づいてコンテンツに対するユーザの視聴状態を判定する視聴状態判定部と、視聴状態に応じて、ユーザに対する音声の出力を制御する音声出力制御部とを含む情報処理装置が提供される。
この場合、例えば、ユーザがさまざまな事情でコンテンツの音声を聴いていない状態である場合を識別することによって、ユーザのニーズにより的確に対応してコンテンツの音声の出力を制御することができる。
また、視聴状態判定部は、画像から検出されるユーザの目の開閉に基づいて、ユーザが音声を聴いているか否かを視聴状態として判定しうる。
この場合、例えば、ユーザが居眠り中である場合などを識別して、コンテンツの音声の出力を制御することができる。例えばユーザが居眠り中である場合、コンテンツの音声に妨げられることなく居眠りをしたい、または居眠りを中止してコンテンツの視聴に復帰したいといったようなユーザのニーズが存在することが考えられる。上記の場合、このようなニーズにより的確に対応したコンテンツの音声の出力の制御が可能になる。
また、視聴状態判定部は、画像から検出されるユーザの口の開閉に基づいて、ユーザが音声を聴いているか否かを視聴状態として判定しうる。
この場合、例えば、ユーザが会話中、または電話中である場合などを識別して、コンテンツの音声の出力を制御することができる。例えばユーザが会話中または電話中である場合、コンテンツの音声が会話または電話の妨げになるために音量を小さくしたいといったようなユーザのニーズが存在することが考えられる。上記の場合、このようなニーズにより的確に対応したコンテンツの音声の出力の制御が可能になる。
また、情報処理装置は、ユーザが発した音声を取得する音声取得部をさらに含み、視聴状態判定部は、音声に含まれる発話の話者がユーザであるか否かに基づいて、ユーザが音声を聴いているか否かを視聴状態として判定しうる。
この場合、例えば、ユーザの口は開閉しているが発話はしていないような場合に、ユーザが会話中または電話中であると誤判定することを防ぐことができる。
また、視聴状態判定部は、画像から検出されるユーザの向きに基づいて、ユーザが音声を聴いているか否かを視聴状態として判定しうる。
この場合、例えば、ユーザが独り言を言っているような場合に、ユーザが会話中であると誤判定することを防ぐことができる。
また、視聴状態判定部は、画像から検出されるユーザの姿勢に基づいて、ユーザが音声を聴いているか否かを視聴状態として判定しうる。
この場合、例えば、ユーザが独り言を言っているような場合に、ユーザが電話中であると誤判定することを防ぐことができる。
また、音声出力制御部は、視聴状態としてユーザが音声を聴いていないことが判定された場合に音声の音量を下げてもよい。
この場合、例えば、ユーザが居眠り中、会話中、または電話中などでコンテンツの音声を聴いておらず、それゆえコンテンツの音声を必要としていない場合、およびコンテンツの音声が邪魔になる場合などに、ユーザのニーズを反映してコンテンツの音声出力を制御することができる。
また、音声出力制御部は、視聴状態としてユーザが音声を聴いていないことが判定された場合に音声の音量を上げてもよい。
この場合、例えば、ユーザが居眠り中、または作業中などでコンテンツの音声を聴いておらず、しかし、コンテンツの視聴に復帰することを望んでいるような場合に、ユーザのニーズを反映してコンテンツの音声出力を制御することができる。
また、情報処理装置は、コンテンツの各部分の重要度を判定する重要度判定部をさらに含み、音声出力制御部は、重要度がより高いコンテンツの部分で音声の音量を上げてもよい。
この場合、例えば、ユーザが、コンテンツの特に重要な部分に限って、コンテンツの視聴に復帰することを望んでいるような場合に、ユーザのニーズを反映してコンテンツの音声出力を制御することができる。
また、情報処理装置は、画像に含まれる顔によってユーザを識別する顔識別部をさらに含み、重要度判定部は、識別されたユーザの属性に基づいて重要度を判定しうる。
この場合、例えば、画像によって自動的にユーザを識別し、さらに、識別されたユーザの好みを反映してコンテンツの重要部分を決定することができる。
また、情報処理装置は、画像に含まれる顔によってユーザを識別する顔識別部をさらに含み、視聴状態判定部は、画像に基づいてユーザがコンテンツの映像を見ているか否かを判定し、音声出力制御部は、識別されたユーザが映像を見ていると判定された場合に、識別されたユーザの属性に応じて音声の音質を変更しうる。
この場合、例えば、ユーザがコンテンツを視聴している場合に、ユーザの好みに合わせたコンテンツの音声出力を提供することができる。
(5.補足)
上記実施形態では、ユーザの動作として「映像を見ている」、「目を瞑っている」、「口が会話の動きをしている」、「発話している」などを例示し、ユーザの視聴状態として「通常視聴中」、「居眠り中」、「会話中」、「電話中」、「作業中」などを例示したが、本技術はかかる例に限定されない。取得された画像および音声に基づいて、さまざまなユーザの動作および視聴状態が判定されうる。
また、上記実施形態では、ユーザの画像と、ユーザが発した音声に基づいてユーザの視聴状態を判定することとしたが、本技術はかかる例に限定されない。ユーザが発した音声は必ずしも視聴状態の判定に用いられなくてもよく、専らユーザの画像に基づいて視聴状態が判定されてもよい。
なお、本技術は以下のような構成も取ることができる。
(1)コンテンツの映像が表示される表示部の近傍に位置するユーザの画像を取得する画像取得部と、
前記画像に基づいて前記コンテンツに対する前記ユーザの視聴状態を判定する視聴状態判定部と、
前記視聴状態に応じて、前記ユーザに対する前記コンテンツの音声の出力を制御する音声出力制御部と、
を備える情報処理装置。
(2)前記視聴状態判定部は、前記画像から検出される前記ユーザの目の開閉に基づいて、前記ユーザが前記音声を聴いているか否かを前記視聴状態として判定する、前記(1)に記載の情報処理装置。
(3)前記視聴状態判定部は、前記画像から検出される前記ユーザの口の開閉に基づいて、前記ユーザが前記音声を聴いているか否かを前記視聴状態として判定する、前記(1)または(2)に記載の情報処理装置。
(4)前記ユーザが発した音声を取得する音声取得部をさらに備え、
前記視聴状態判定部は、前記音声に含まれる発話の話者が前記ユーザであるか否かに基づいて、前記ユーザが前記音声を聴いているか否かを前記視聴状態として判定する、前記(1)〜(3)のいずれか1項に記載の情報処理装置。
(5)前記視聴状態判定部は、前記画像から検出される前記ユーザの向きに基づいて、前記ユーザが前記音声を聴いているか否かを前記視聴状態として判定する、前記(1)〜(4)のいずれか1項に記載の情報処理装置。
(6)前記視聴状態判定部は、前記画像から検出される前記ユーザの姿勢に基づいて、前記ユーザが前記音声を聴いているか否かを前記視聴状態として判定する、前記(1)〜(5)のいずれか1項に記載の情報処理装置。
(7)前記音声出力制御部は、前記視聴状態として前記ユーザが前記音声を聴いていないことが判定された場合に前記音声の音量を下げる、前記(1)〜(6)のいずれか1項に記載の情報処理装置。
(8)前記音声出力制御部は、前記視聴状態として前記ユーザが前記音声を聴いていないことが判定された場合に前記音声の音量を上げる、前記(1)〜(6)のいずれか1項に記載の情報処理装置。
(9)前記コンテンツの各部分の重要度を判定する重要度判定部をさらに備え、
前記音声出力制御部は、前記重要度がより高い前記コンテンツの部分で前記音声の音量を上げる、前記(8)に記載の情報処理装置。
(10)前記画像に含まれる顔によって前記ユーザを識別する顔識別部をさらに備え、
前記重要度判定部は、前記識別されたユーザの属性に基づいて前記重要度を判定する、前記(9)に記載の情報処理装置。
(11)前記画像に含まれる顔によって前記ユーザを識別する顔識別部をさらに備え、
前記視聴状態判定部は、前記画像に基づいて前記ユーザが前記コンテンツの映像を見ているか否かを判定し、
前記音声出力制御部は、前記識別されたユーザが前記映像を見ていると判定された場合に、前記識別されたユーザの属性に応じて前記音声の音質を変更する、前記(1)〜(10)のいずれか1項に記載の情報処理装置。
(12)コンテンツの映像が表示される表示部の近傍に位置するユーザの画像を取得することと、
前記画像に基づいて前記コンテンツに対する前記ユーザの視聴状態を判定することと、
前記視聴状態に応じて、前記ユーザに対する前記コンテンツの音声の出力を制御することと、
を含む情報処理方法。
(13)コンテンツの映像が表示される表示部の近傍に位置するユーザの画像を取得する画像取得部と、
前記画像に基づいて前記コンテンツに対する前記ユーザの視聴状態を判定する視聴状態判定部と、
前記視聴状態に応じて、前記ユーザに対する前記コンテンツの音声の出力を制御する音声出力制御部と、
としてコンピュータを動作させるプログラム。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
U1,U2 ユーザ
10 表示装置
11 表示部
12 スピーカ
20 カメラ
30 マイク
100 情報処理装置
101 画像取得部
103 画像処理部
1035 顔識別部
105 音声取得部
109 視聴状態判定部
111 音声出力制御部
113 音声出力部
119 重要度判定部

Claims (11)

  1. コンテンツの映像が表示される表示部の近傍に位置するユーザの画像を取得する画像取得部と、
    前記画像に基づいて前記コンテンツに対する前記ユーザの視聴状態を判定する視聴状態判定部と、
    前記視聴状態に応じて、前記ユーザに対する前記コンテンツの音声の出力を制御する音声出力制御部と、
    前記コンテンツの各部分の重要度を判定する重要度判定部と
    を備え
    前記音声出力制御部は、前記視聴状態として前記ユーザが前記音声を聴いていないことが判定された場合であって、前記重要度がより高い前記コンテンツの部分が出力されている場合に前記音声の音量を上げる情報処理装置。
  2. 前記視聴状態判定部は、前記画像から検出される前記ユーザの目の開閉に基づいて、前記ユーザが前記音声を聴いているか否かを前記視聴状態として判定する、請求項1に記載の情報処理装置。
  3. 前記視聴状態判定部は、前記画像から検出される前記ユーザの口の開閉に基づいて、前記ユーザが前記音声を聴いているか否かを前記視聴状態として判定する、請求項1に記載の情報処理装置。
  4. 前記ユーザが発した音声を取得する音声取得部をさらに備え、
    前記視聴状態判定部は、前記音声に含まれる発話の話者が前記ユーザであるか否かに基づいて、前記ユーザが前記音声を聴いているか否かを前記視聴状態として判定する、請求項1に記載の情報処理装置。
  5. 前記視聴状態判定部は、前記画像から検出される前記ユーザの向きに基づいて、前記ユーザが前記音声を聴いているか否かを前記視聴状態として判定する、請求項1に記載の情報処理装置。
  6. 前記視聴状態判定部は、前記画像から検出される前記ユーザの姿勢に基づいて、前記ユーザが前記音声を聴いているか否かを前記視聴状態として判定する、請求項1に記載の情報処理装置。
  7. 前記音声出力制御部は、前記視聴状態として前記ユーザが前記音声を聴いていないことが判定された場合に前記音声の音量を下げる、請求項1に記載の情報処理装置。
  8. 前記画像に含まれる顔によって前記ユーザを識別する顔識別部をさらに備え、
    前記重要度判定部は、前記識別されたユーザの属性に基づいて前記重要度を判定する、請求項1に記載の情報処理装置。
  9. 前記画像に含まれる顔によって前記ユーザを識別する顔識別部をさらに備え、
    前記視聴状態判定部は、前記画像に基づいて前記ユーザが前記コンテンツの映像を見ているか否かを判定し、
    前記音声出力制御部は、前記識別されたユーザが前記映像を見ていると判定された場合に、前記識別されたユーザの属性に応じて前記音声の音質を変更する、請求項1に記載の情報処理装置。
  10. コンテンツの映像が表示される表示部の近傍に位置するユーザの画像を取得することと、
    前記画像に基づいて前記コンテンツに対する前記ユーザの視聴状態を判定することと、
    前記視聴状態に応じて、前記ユーザに対する前記コンテンツの音声の出力を制御することと、
    前記コンテンツの各部分の重要度を判定することと
    を含み、前記音声の出力を制御することは、前記視聴状態として前記ユーザが前記音声を聴いていないことが判定された場合であって、前記重要度がより高い前記コンテンツの部分が出力されている場合に前記音声の音量を上げることを含む情報処理方法。
  11. コンテンツの映像が表示される表示部の近傍に位置するユーザの画像を取得する画像取得部と、
    前記画像に基づいて前記コンテンツに対する前記ユーザの視聴状態を判定する視聴状態判定部と、
    前記視聴状態に応じて、前記ユーザに対する前記コンテンツの音声の出力を制御する音声出力制御部と、
    前記コンテンツの各部分の重要度を判定する重要度判定部と
    としてコンピュータを動作させ
    前記音声出力制御部は、前記視聴状態として前記ユーザが前記音声を聴いていないことが判定された場合であって、前記重要度がより高い前記コンテンツの部分が出力されている場合に前記音声の音量を上げるプログラム。
JP2011047892A 2011-03-04 2011-03-04 情報処理装置、情報処理方法およびプログラム Active JP5772069B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011047892A JP5772069B2 (ja) 2011-03-04 2011-03-04 情報処理装置、情報処理方法およびプログラム
US13/364,755 US20120224043A1 (en) 2011-03-04 2012-02-02 Information processing apparatus, information processing method, and program
CN2012100448201A CN102655576A (zh) 2011-03-04 2012-02-24 信息处理设备、信息处理方法和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011047892A JP5772069B2 (ja) 2011-03-04 2011-03-04 情報処理装置、情報処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2012186622A JP2012186622A (ja) 2012-09-27
JP5772069B2 true JP5772069B2 (ja) 2015-09-02

Family

ID=46731097

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011047892A Active JP5772069B2 (ja) 2011-03-04 2011-03-04 情報処理装置、情報処理方法およびプログラム

Country Status (3)

Country Link
US (1) US20120224043A1 (ja)
JP (1) JP5772069B2 (ja)
CN (1) CN102655576A (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5910846B2 (ja) * 2011-07-26 2016-04-27 ソニー株式会社 制御装置、制御方法、及び、プログラム
US8966370B2 (en) 2012-08-31 2015-02-24 Google Inc. Dynamic adjustment of video quality
EP2894629B1 (en) * 2012-11-30 2019-03-06 Maxell, Ltd. Picture display device, and setting modification method and setting modification program therefor
JP5902079B2 (ja) * 2012-12-07 2016-04-13 日立マクセル株式会社 映像表示装置および端末装置
KR20150043795A (ko) * 2013-10-15 2015-04-23 삼성전자주식회사 영상처리장치 및 그 제어방법
US9137558B2 (en) * 2013-11-26 2015-09-15 At&T Intellectual Property I, Lp Method and system for analysis of sensory information to estimate audience reaction
US10667007B2 (en) * 2014-01-22 2020-05-26 Lenovo (Singapore) Pte. Ltd. Automated video content display control using eye detection
KR101888566B1 (ko) * 2014-06-03 2018-08-16 애플 인크. 실제 물체와 관련된 디지털 정보를 제시하기 위한 방법 및 시스템
KR20150145616A (ko) * 2014-06-20 2015-12-30 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
JP6038848B2 (ja) * 2014-09-01 2016-12-07 ヤフー株式会社 再生プログラム、配信装置、再生方法および情報処理装置
JP6600203B2 (ja) * 2015-09-15 2019-10-30 キヤノン株式会社 情報処理装置、情報処理方法、コンテンツ管理システム、およびプログラム
CN105959794A (zh) * 2016-05-05 2016-09-21 Tcl海外电子(惠州)有限公司 视频终端的音量调节方法及装置
KR20190121758A (ko) * 2017-02-27 2019-10-28 소니 주식회사 정보 처리 장치, 정보 처리 방법, 및 프로그램
CN107734428B (zh) * 2017-11-03 2019-10-01 中广热点云科技有限公司 一种3d音频播放设备
WO2021095536A1 (ja) * 2019-11-12 2021-05-20 ソニーグループ株式会社 情報処理装置、情報処理方法、並びにプログラム
US20220408153A1 (en) * 2019-12-05 2022-12-22 Sony Group Corporation Information processing device, information processing method, and information processing program
CN112261236B (zh) * 2020-09-29 2022-02-15 上海连尚网络科技有限公司 一种在多人语音中用于静音处理的方法与设备
US11949948B2 (en) * 2021-05-11 2024-04-02 Sony Group Corporation Playback control based on image capture

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH089282A (ja) * 1994-06-24 1996-01-12 Hitachi Ltd 表示装置
JPH0934424A (ja) * 1995-07-21 1997-02-07 Mitsubishi Electric Corp 表示システム
JP2000196970A (ja) * 1998-12-28 2000-07-14 Toshiba Corp 情報端末機能付き放送受信機及び同受信機の出力環境設定用プログラムを記録した記録媒体
KR100403238B1 (ko) * 2000-09-30 2003-10-30 엘지전자 주식회사 비디오의 지능형 빨리 보기 시스템
JP2002311977A (ja) * 2001-04-16 2002-10-25 Canon Inc 音声合成装置及びその方法と音声合成システム
US20030154084A1 (en) * 2002-02-14 2003-08-14 Koninklijke Philips Electronics N.V. Method and system for person identification using video-speech matching
JP2004312401A (ja) * 2003-04-08 2004-11-04 Sony Corp 再生装置および再生方法
WO2005101808A1 (en) * 2004-04-15 2005-10-27 Philips Intellectual Property & Standards Gmbh A method for controlling a media content processing device, and a media content processing device
JP2006005418A (ja) * 2004-06-15 2006-01-05 Sharp Corp 情報受信・再生装置、情報受信・再生方法、情報受信・再生プログラム及びプログラム記録媒体
US20060192852A1 (en) * 2005-02-09 2006-08-31 Sally Rosenthal System, method, software arrangement and computer-accessible medium for providing audio and/or visual information
KR101189444B1 (ko) * 2005-09-29 2012-10-09 엘지전자 주식회사 휴대단말기 및 그의 스케줄 관리방법
JP5239126B2 (ja) * 2006-04-11 2013-07-17 株式会社ニコン 電子カメラ
US8451824B2 (en) * 2006-12-22 2013-05-28 Verizon Patent And Licensing Inc. Method and system of providing an integrated set-top box
US9405830B2 (en) * 2007-02-28 2016-08-02 Aol Inc. Personalization techniques using image clouds
JP4898581B2 (ja) * 2007-07-12 2012-03-14 株式会社日立製作所 ユーザインターフェース方法、表示装置、および、ユーザインターフェースシステム
KR20090015455A (ko) * 2007-08-08 2009-02-12 삼성전자주식회사 오디오 신호 및 비디오 신호를 상호 의존적으로 제어하는방법과 그 장치
JP2009111499A (ja) * 2007-10-26 2009-05-21 Toshiba Corp 情報再生装置
JP5649768B2 (ja) * 2007-12-27 2015-01-07 京セラ株式会社 デジタル放送記録装置
US9098838B2 (en) * 2008-01-30 2015-08-04 Kyocera Corporation Portable terminal device and method of determining communication permission thereof
EP2731358A1 (en) * 2008-02-11 2014-05-14 Bone Tone Communications Ltd. A sound system and a method for providing sound
JP2010023639A (ja) * 2008-07-18 2010-02-04 Kenwood Corp 車内会話補助装置
US9105141B2 (en) * 2008-07-28 2015-08-11 Universal Entertainment Corporation Game system
WO2010021373A1 (ja) * 2008-08-22 2010-02-25 ソニー株式会社 画像表示装置、制御方法およびコンピュータプログラム
US8108901B2 (en) * 2008-08-29 2012-01-31 At&T Intellectual Property I, L.P. Managing access to high definition content
US20100107184A1 (en) * 2008-10-23 2010-04-29 Peter Rae Shintani TV with eye detection
CN102448557A (zh) * 2009-05-29 2012-05-09 环球娱乐株式会社 游戏系统
US8131848B1 (en) * 2009-09-29 2012-03-06 Jason Adam Denise Image analysis and communication device control technology
US8634701B2 (en) * 2009-12-04 2014-01-21 Lg Electronics Inc. Digital data reproducing apparatus and corresponding method for reproducing content based on user characteristics
US8315502B2 (en) * 2009-12-08 2012-11-20 Echostar Technologies L.L.C. Systems and methods for selective archival of media content
TWI476632B (zh) * 2009-12-08 2015-03-11 Micro Star Int Co Ltd 運動物體辨識方法及基於運動物體辨識之指令輸入方法
US20110157218A1 (en) * 2009-12-29 2011-06-30 Ptucha Raymond W Method for interactive display
US9554111B2 (en) * 2010-03-08 2017-01-24 Magisto Ltd. System and method for semi-automatic video editing
JP2011223549A (ja) * 2010-03-23 2011-11-04 Panasonic Corp 音声出力装置
JP2011205487A (ja) * 2010-03-26 2011-10-13 Panasonic Corp 指向性音響システム
US20110248822A1 (en) * 2010-04-09 2011-10-13 Jc Ip Llc Systems and apparatuses and methods to adaptively control controllable systems
CN201742483U (zh) * 2010-07-01 2011-02-09 无锡骏聿科技有限公司 一种基于人眼特征分析的电视机工作模式切换装置
US10388178B2 (en) * 2010-08-27 2019-08-20 Arthur Carl Graesser Affect-sensitive intelligent tutoring system
WO2012051605A2 (en) * 2010-10-15 2012-04-19 Jammit Inc. Dynamic point referencing of an audiovisual performance for an accurate and precise selection and controlled cycling of portions of the performance
US8909200B2 (en) * 2011-02-28 2014-12-09 Cisco Technology, Inc. Using face tracking for handling phone events
US8988512B2 (en) * 2011-04-14 2015-03-24 Mediatek Inc. Method for adjusting playback of multimedia content according to detection result of user status and related apparatus thereof

Also Published As

Publication number Publication date
US20120224043A1 (en) 2012-09-06
CN102655576A (zh) 2012-09-05
JP2012186622A (ja) 2012-09-27

Similar Documents

Publication Publication Date Title
JP5772069B2 (ja) 情報処理装置、情報処理方法およびプログラム
US11217240B2 (en) Context-aware control for smart devices
WO2020228815A1 (zh) 一种语音唤醒方法及设备
JP6428954B2 (ja) 情報処理装置、情報処理方法およびプログラム
US10109300B2 (en) System and method for enhancing speech activity detection using facial feature detection
CN105323648B (zh) 字幕隐藏方法和电子装置
JP2019117623A (ja) 音声対話方法、装置、デバイス及び記憶媒体
US9263044B1 (en) Noise reduction based on mouth area movement recognition
US11699442B2 (en) Methods and systems for speech detection
CN109446876A (zh) 手语信息处理方法、装置、电子设备和可读存储介质
WO2017168936A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US20230045237A1 (en) Wearable apparatus for active substitution
WO2017141530A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2010130487A (ja) 撮像装置、情報処理方法、プログラムおよび記憶媒体
CN115482830B (zh) 语音增强方法及相关设备
US20240096343A1 (en) Voice quality enhancement method and related device
JP2008289101A (ja) 音声再生装置
WO2019142418A1 (ja) 情報処理装置および情報処理方法
US20080289002A1 (en) Method and a System for Communication Between a User and a System
JP3838159B2 (ja) 音声認識対話装置およびプログラム
US10923123B2 (en) Two-person automatic speech recognition training to interpret unknown voice inputs
JP4992218B2 (ja) 情報処理装置および方法、並びにプログラム
WO2019138652A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US20130117182A1 (en) Media file abbreviation retrieval
TWI687917B (zh) 語音系統及聲音偵測方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150217

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150331

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150615

R151 Written notification of patent or utility model registration

Ref document number: 5772069

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250