[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

WO2019026360A1 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
WO2019026360A1
WO2019026360A1 PCT/JP2018/016513 JP2018016513W WO2019026360A1 WO 2019026360 A1 WO2019026360 A1 WO 2019026360A1 JP 2018016513 W JP2018016513 W JP 2018016513W WO 2019026360 A1 WO2019026360 A1 WO 2019026360A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
information processing
control unit
user
output control
Prior art date
Application number
PCT/JP2018/016513
Other languages
English (en)
French (fr)
Inventor
広 岩瀬
真一 河野
真里 斎藤
祐平 滝
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/633,161 priority Critical patent/US11250873B2/en
Priority to EP18840593.0A priority patent/EP3663933A1/en
Priority to JP2019533897A priority patent/JPWO2019026360A1/ja
Priority to CN201880049120.7A priority patent/CN110945473A/zh
Publication of WO2019026360A1 publication Critical patent/WO2019026360A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program

Definitions

  • the present disclosure relates to an information processing apparatus and an information processing method.
  • the processor when the processor controls the presentation of content to the user and the non-viewing period is detected in the viewing behavior of the user corresponding to the content, the processor outputs the gist of the content.
  • the information processing method may further include the step of: outputting the information further comprising: determining an amount of information of a gist of the content based on a length of the non-viewing period.
  • the information processing server 20 causes the information processing terminal 10 to resume the output of the content.
  • the information processing server 20 includes a continuation of the content and a voice including the summary A2 related to the content of the voice utterance SO1 output before interruption.
  • the utterance SO2 may be output to the information processing terminal 10.
  • the information processing server 20 can determine the information amount of the summary A2 based on the length of the non-viewing period, the number of times, factors, and the like as described later.
  • the configuration example of the information processing system according to the present embodiment has been described above.
  • the configuration described above with reference to FIG. 2 is merely an example, and the configuration of the information processing system according to the present embodiment is not limited to such an example.
  • the functions of the information processing terminal 10 and the information processing server 20 according to the present embodiment may be realized by a single device.
  • the configuration of the information processing system according to the present embodiment can be flexibly deformed according to the specification and the operation.
  • FIG. 4 is a block diagram showing an example of a functional configuration of the information processing server 20 according to the present embodiment.
  • the information processing server 20 according to the present embodiment includes a recognition unit 210, a summary generation unit 220, an output control unit 230, a voice synthesis unit 240, a storage unit 250, and a terminal communication unit 260.
  • the storage unit 250 includes a user DB 252, a viewing record DB 254, and a content DB 256.
  • the output control unit 230 can also specify, for example, a percentage and cause the summary generation unit 220 to generate a summary.
  • the output control unit 230 can also cause the abstract generation unit 220 to generate an abstract so as to include a specific topic, a subject, a title, and the like.
  • the generation of output and output control by the output control unit 230 according to the present embodiment can be flexibly deformed.
  • the output control unit 230 monitors the occurrence of the interruption cause based on the state of the user recognized by the recognition unit 210 and the surrounding environment (S1102).
  • the information processing server 20 can generate a summary having an amount of information according to the interruption period of the content, and can present it to the user when the content is resumed.
  • the upper part of FIG. 14 shows a situation in which the user U7 who is the mother makes a plan of family travel while interacting with the information processing terminal 10 at 12 am.
  • the user U7 inputs the content related to the determined item to the information processing terminal 10 by the speech UO14.
  • the utterance UO 14 includes the travel destination, the activity, the budget, and the content regarding the surprise party for the user U8 who is the son of the user U7.
  • the user U7 inputs the utterance UO14 to the information processing terminal 10 as information to share with other users of the family.
  • the output control unit 230 causes the user U8 to present the summary A12 which is intentionally excluded the information regarding the budget and the surprise party. More specifically, the output control unit 230 excludes information on the budget from the abstract A12a based on the fact that the attribute of the user U8 is a child. Further, the output control unit 230 estimates that the target person of the surprise party is the user U8 from the vocabulary of “son” and “surprise” included in the utterance UO14, and the information related to the surprise party is included in the summary A14a. Control is done to prevent it.
  • the drive 881 is a device that reads information recorded on a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, or writes information on the removable recording medium 901, for example.
  • a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory
  • each step concerning processing of information processing server 20 of this specification does not necessarily need to be processed in chronological order according to the order described in the flowchart.
  • the steps related to the processing of the information processing server 20 may be processed in an order different from the order described in the flowchart or may be processed in parallel.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Social Psychology (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】ユーザにコンテンツの流れを効果的に知覚させる。 【解決手段】ユーザに対するコンテンツの提示を制御し、前記コンテンツに対応する前記ユーザの視聴行動において非視聴期間が検出された場合、前記コンテンツに係る要旨を出力させる出力制御部、を備え、前記出力制御部は、前記非視聴期間の長さに基づいて前記コンテンツに係る要旨の情報量を決定する、情報処理装置が提供される。また、プロセッサが、ユーザに対するコンテンツの提示を制御し、前記コンテンツに対応する前記ユーザの視聴行動において非視聴期間が検出された場合、前記コンテンツに係る要旨を出力させること、を含み、前記出力させることは、前記非視聴期間の長さに基づいて前記コンテンツに係る要旨の情報量を決定すること、をさらに含む、情報処理方法が提供される。

Description

情報処理装置および情報処理方法
 本開示は、情報処理装置および情報処理方法に関する。
 近年、ユーザに対し音声や視覚情報を用いて情報提示を行う種々の装置が普及している。また、情報提示の中断や再開に際し、ユーザの利便性を向上させる技術も開発されている。例えば、特許文献1には、音声発話の再開時に、中断時間に応じて再発話の再開位置を制御する技術が開示されている。
特開2011-227236号公報
 しかし、特許文献1に記載の技術では、ユーザが中断前の発話内容と再開された発話内容とを正確に結び付け、発話全体の意図を正しく解釈することが困難な場合がある。
 そこで、本開示では、ユーザにコンテンツの流れを効果的に知覚させることが可能な、新規かつ改良された情報処理装置および情報処理方法を提案する。
 本開示によれば、ユーザに対するコンテンツの提示を制御し、前記コンテンツに対応する前記ユーザの視聴行動において非視聴期間が検出された場合、前記コンテンツに係る要旨を出力させる出力制御部、を備え、前記出力制御部は、前記非視聴期間の長さに基づいて前記コンテンツに係る要旨の情報量を決定する、情報処理装置が提供される。
 また、本開示によれば、プロセッサが、ユーザに対するコンテンツの提示を制御し、前記コンテンツに対応する前記ユーザの視聴行動において非視聴期間が検出された場合、前記コンテンツに係る要旨を出力させること、を含み、前記出力させることは、前記非視聴期間の長さに基づいて前記コンテンツに係る要旨の情報量を決定すること、をさらに含む、情報処理方法が提供される。
 以上説明したように本開示によれば、ユーザにコンテンツの流れを効果的に知覚させることが可能となる。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示に係る技術思想の概要について説明するための図である。 本開示の一実施形態に係る情報処理システムの構成例を示すブロック図である。 同実施形態に係る情報処理端末の機能構成例を示すブロック図である。 同実施形態に係る情報処理サーバの機能構成例を示すブロック図である。 同実施形態に係るコンテンツの中断制御について説明するための図である。 同実施形態に係る中断期間の長さに基づく要旨の生成と出力について説明するための図である。 同実施形態に係る中断期間の要因に基づく要旨の生成と出力について説明するための図である。 同実施形態に係る要旨長スコアに基づく要旨の生成と出力について説明するための図である。 同実施形態に係る情報処理サーバによる制御の流れを示すフローチャートである。 同実施形態に係る不在期間に基づく要旨の生成と出力について説明するための図である。 同実施形態に係る非集中期間に基づく要旨の生成と出力について説明するための図である。 同実施形態に係るユーザコンテキストに基づく要旨の情報量および内容の決定について説明するための図である。 同実施形態に係る情報処理サーバによる制御の流れを示すフローチャートである。 同実施形態に係る本開示の一変形例について説明するための図である。 本開示の一実施形態に係るハードウェア構成例を示す図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.本開示に係る技術思想の概要
 2.第1の実施形態
  2.1.システム構成例
  2.2.情報処理端末10の機能構成例
  2.3.情報処理サーバ20の機能構成例
  2.4.出力制御の詳細
  2.5.制御の流れ
 3.第2の実施形態
  3.1.第2の実施形態の概要
  3.2.出力制御の詳細
  3.3.制御の流れ
 4.変形例
 5.ハードウェア構成例
 6.まとめ
 <1.本開示に係る技術思想の概要>
 近年、ユーザに対し情報提示を行う種々の装置が普及している。上記のような装置には、例えば、音声発話や視覚情報を用いてユーザに情報を提示するエージェント装置が挙げられる。エージェント装置は、例えば、ユーザに対するニュースやメッセージの読み上げや、ユーザの問い合わせに対する応答を、音声発話や視覚情報を用いて出力することができる。
 しかし、エージェント装置などから情報提示を受けるユーザの視聴行動は、種々の要因により、その完全性が欠落することも想定される。例えば、情報提示が一度中断され、その後再開された場合、ユーザは中断前に出力された情報を失念していたり、思い出すのに時間を要する場合がある。この場合、ユーザは、再開後に出力された情報の意図や、情報全体の意図を正しく解釈することが困難となる。
 また、完全性の欠落は、ユーザの離席や不在などによっても生じ得る。例えば、エージェント装置が情報を出力している間に、ユーザがエージェント装置から離れた場所に移動し、再びエージェント装置の周囲に戻った場合、当該ユーザは、離席中に出力された情報を認識することができない。また、離席中の情報を認識していないため、その後に出力される情報の意図を解釈することが困難となる。
 また、ユーザの視聴行動が周囲の騒音などにより阻害された場合も上記と同様の事態が起こり得る。例えば、騒音により、ユーザが音声発話の一部を聞き取れなかった場合、当該ユーザは、その後に出力される音声発話の内容を正しく解釈できないことがある。
 このように、ユーザによる一連の視聴行動において、提示される情報を視聴していない期間(以下、非視聴期間、とも称する)が存在する場合、ユーザが提示される情報を理解できない事態や、情報を誤認する事態などが生じ得る。
 本開示に係る技術思想は上記の点に着目して発想されたものであり、ユーザがコンテンツを視聴していない期間が存在する場合であっても、当該ユーザにコンテンツの流れを知覚させることが可能とする。
 このために、本開示の一実施形態に係る情報処理方法を実現する情報処理装置は、コンテンツに対応するユーザの視聴行動において非視聴期間が検出された場合、当該コンテンツに係る要旨を出力させること、を特徴の一つとする。また、本開示の一実施形態に係る情報処理装置は、非視聴期間の長さに基づいてコンテンツに係る要旨の情報量を決定すること、を特徴の一つとする。
 図1は、本開示に係る技術思想の概要について説明するための図である。図1の左側には、情報処理端末10が出力するニュースコンテンツに係る音声発話SO1、音声発話SO1を視聴するユーザU1、および情報処理端末10の周囲で音を発しているテレビジョン装置が示されている。ここで、情報処理端末10は、情報処理サーバ20による制御に基づいて、コンテンツを出力する情報処理装置である。
 この際、情報処理サーバ20は、テレビジョン装置により出力される音により、ユーザU1が音声発話SO1を聞き取れていない、または聞き取れなくなる可能性があると判定し、情報処理端末10の音声発話SO1の出力を中断させる。図1の中央には、情報処理サーバ20による制御に基づいて情報処理端末10が音声発話SO1の出力を中断した状況が示されている。
 その後、テレビジョン装置が発する周囲音が所定値を下回ると、情報処理サーバ20は、情報処理端末10にコンテンツの出力を再開させる。この際、本開示の一実施形態に係る情報処理サーバ20は、図1の右側に示すように、コンテンツの続きと共に、中断前に出力させた音声発話SO1の内容に係る要旨A2を含んだ音声発話SO2を情報処理端末10に出力させてよい。なお、情報処理サーバ20は、後述するように、非視聴期間の長さ、回数、要因などに基づいて、要旨A2の情報量を決定することができる。
 本開示の一実施形態に係る情報処理サーバ20が有する上記の機能によれば、ユーザU1は、情報処理端末10によるコンテンツ提示の中断期間が長く、音声発話SO1の内容を完全に覚えていない場合であっても、音声発話SO1と音声発話SO2との流れを自然に解することができ、またコンテンツ全体の意図を正しく解釈することができる。
 以上、本開示の技術思想の概要について説明した。以下、本開示の技術思想を実現する構成と制御の具体例について詳細に説明する。
 <2.第1の実施形態>
 <<2.1.システム構成例>>
 まず、本開示の第1の実施形態について説明する。本開示の第1の実施形態では、情報処理サーバ20が情報処理端末10によるコンテンツ提示に係る中断期間に基づいて、要旨の情報量を決定する場合について述べる。
 図2は、本実施形態に係る情報処理システムの構成例を示すブロック図である。図2を参照すると、本実施形態に係る情報処理システムは、情報処理端末10および情報処理サーバ20を備える。また、情報処理端末10と情報処理サーバ20とは、互いに情報通信が行えるように、ネットワーク30を介して接続される。
 (情報処理端末10)
 本実施形態に係る情報処理端末10は、情報処理サーバ20による制御に基づいて、ユーザにコンテンツを提示する情報処理装置である。また、本実施形態に係る情報処理端末10は、コンテンツの中断後に当該コンテンツを再開する場合、コンテンツの後続情報と共に情報処理端末10により生成された要旨を出力することを特徴の一つとする。
 なお、本実施形態に係るコンテンツとは、ユーザに対して提示される種々の情報を指す。本実施形態に係るコンテンツは、例えば、メッセージ、ニュース、通知、アラート、広告、ストーリー性を伴う動画や音声、ユーザの問い合わせに対する回答などであってよい。
 本実施形態に係る情報処理端末10は、上記のようなコンテンツを出力する機能を有する種々の装置として実現され得る。本実施形態に係る情報処理端末10は、例えば、携帯電話、スマートフォン、タブレット、ウェアラブル装置、汎用コンピュータ、据え置き型または自律移動型の専用装置などであってもよい。
 (情報処理サーバ20)
 本実施形態に係る情報処理サーバ20は、情報処理端末10によるユーザに対するコンテンツの提示を制御する情報処理装置である。なお、本実施形態に係る情報処理サーバ20は、コンテンツに対応するユーザの視聴行動において非視聴期間が検出された場合、当該コンテンツに係る要旨を情報処理端末10に出力させることを特徴とする。
 この際、本実施形態に係る情報処理サーバ20は、上記の非視聴期間の長さや検出回数、発生要因などに基づいて、要旨の情報量、すなわち長さや、内容を決定することができる。なお、本実施形態に係る非視聴期間は、情報処理端末10によるコンテンツ提示に係る中断期間を指す。
 (ネットワーク30)
 ネットワーク30は、情報処理端末10と情報処理サーバ20とを接続する機能を有する。ネットワーク30は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク30は、IP-VPN(Internt Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク30は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
 以上、本実施形態に係る情報処理システムの構成例について説明した。なお、図2を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末10および情報処理サーバ20が有する機能は、単一の装置により実現されてもよい。本実施形態に係る情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。
 <<2.2.情報処理端末10の機能構成例>>
 次に、本実施形態に係る情報処理端末10の機能構成例について説明する。図3は、本実施形態に係る情報処理端末10の機能構成例を示すブロック図である。図3を参照すると、本実施形態に係る情報処理端末10は、表示部110、音声出力部120、音声入力部130、撮像部140、センサ部150、制御部160、およびサーバ通信部170を備える。
 (表示部110)
 本実施形態に係る表示部110は、画像やテキストなどの視覚情報を出力する機能を有する。本実施形態に係る表示部110は、例えば、情報処理サーバ20による制御に基づいて、コンテンツの内容や要旨を表示することができる。
 このために、本実施形態に係る表示部110は、視覚情報を提示する表示デバイスなどを備える。上記の表示デバイスには、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置、タッチパネルなどが挙げられる。また、本実施形態に係る表示部110は、プロジェクション機能により視覚情報を出力してもよい。
 (音声出力部120)
 本実施形態に係る音声出力部120は、音声発話を含む種々の音を出力する機能を有する。本実施形態に係る音声出力部120は、例えば、情報処理サーバ20による制御に基づいて、コンテンツの内容や要旨などを音声発話により出力することができる。このために、本実施形態に係る音声出力部120は、スピーカやアンプなどの音声出力装置を備える。
 (音声入力部130)
 本実施形態に係る音声入力部130は、ユーザによる発話や、情報処理端末10の周囲で発生する周囲音などの音情報を収集する機能を有する。音声入力部130が収集する音情報は、情報処理サーバ20による音声認識や周囲環境の認識などに用いられる。本実施形態に係る音声入力部130は、音情報を収集するためのマイクロフォンを備える。
 (撮像部140)
 本実施形態に係る撮像部140は、ユーザや周囲環境の画像を撮像する機能を有する。撮像部140が撮像した画像は、情報処理サーバ20によるユーザ認識や周囲環境の認識に用いられる。本実施形態に係る撮像部140は、画像を撮像することが可能な撮像装置を備える。なお、上記の画像には、静止画像のほか動画像が含まれる。
 (センサ部150)
 本実施形態に係るセンサ部150は、周囲環境やユーザの行動、状態に関する種々のセンサ情報を収集する機能を有する。センサ部150が収集したセンサ情報は、情報処理サーバ20による周囲環境の錦やユーザの行動認識、状態認識に用いられる。センサ部150は、例えば、赤外線センサを含む光センサ、加速度センサ、ジャイロセンサ、地磁気センサ、熱センサ、振動センサ、GNSS(Global Navigation Satellite System)信号受信装置などを備える。
 (制御部160)
 本実施形態に係る制御部160は、情報処理端末10が備える各構成を制御する機能を有する。制御部160は、例えば、各構成の起動や停止を制御する。また、制御部160は、情報処理サーバ20により生成される制御信号を表示部110や音声出力部120に入力することができる。また、本実施形態に係る制御部160は、後述する情報処理サーバ20の出力制御部230と同等の機能を有してもよい。
 (サーバ通信部170)
 本実施形態に係るサーバ通信部170は、ネットワーク30を介して情報処理サーバ20との情報通信を行う機能を有する。具体的には、サーバ通信部170は、音声入力部130が収集した音情報や、撮像部140が撮像した画像情報、センサ部150が収集したセンサ情報を情報処理サーバ20に送信する。また、サーバ通信部170は、情報処理サーバ20からコンテンツおよび要旨の出力に係る制御信号や人工音声を受信する。
 以上、本実施形態に係る情報処理端末10の機能構成例について説明した。なお、図3を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末10の機能構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末10は、図3に示す構成のすべてを必ずしも備えなくてもよい。例えば、情報処理端末10は、表示部110、撮像部140、センサ部150などを備えない構成をとることもできる。また、上述したように、本実施形態に係る制御部160は、情報処理サーバ20の出力制御部230と同等の機能を有してもよい。本実施形態に係る情報処理端末10の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 <<2.3.情報処理サーバ20の機能構成例>>
 次に、本実施形態に係る情報処理サーバ20の機能構成例について説明する。図4は、本実施形態に係る情報処理サーバ20の機能構成例を示すブロック図である。図4を参照すると、本実施形態に係る情報処理サーバ20は、認識部210、要旨生成部220、出力制御部230、音声合成部240、記憶部250、および端末通信部260を備える。また、記憶部250は、ユーザDB252、視聴記録DB254、およびコンテンツDB256を備える。
 (認識部210)
 本実施形態に係る認識部210は、ユーザに係る種々の認識を行う機能を有する。例えば、認識部210は、情報処理端末10が収集したユーザの発話や画像と、ユーザDB252に予め記憶されるユーザの音声特徴や画像とを比較することでユーザの認識を行うことができる。
 また、認識部210は、情報処理端末10が収集した音情報や画像、センサ情報に基づいて、ユーザの行動や状態を認識することができる。認識部210は、例えば、情報処理端末10が収集した画像やセンサ情報に基づいて、情報処理端末10の周囲にユーザが存在することを検出してもよい。また、例えば、認識部210は、上記の画像やセンサ情報に基づいて、ユーザが移動や運動、その他の動作を行っていることや、ユーザの表情や感情を認識することができる。
 また、認識部210は、情報処理端末10が収集した音情報、画像、センサ情報に基づいて、周囲環境に係る認識を行う。認識部210は、例えば、上記の音情報に基づいて、情報処理端末10の周囲において発生している周囲音の大きさや、ユーザ同士の会話などを検出することができる。また、認識部210は、情報処理端末10が収集した画像やセンサ情報に基づいて、情報処理端末10の周囲においてユーザ(または、ユーザ以外の人物)が増減したこと、などを認識することが可能である。
 また、本実施形態に係る認識部210は、情報処理端末10が収集した音情報に基づいて、ユーザの発話に基づく音声認識を行う。
 (要旨生成部220)
 本実施形態に係る要旨生成部220は、出力制御部230による制御に基づいて、コンテンツから要旨を生成する機能を有する。要旨生成部220は、例えば、出力制御部230により指示された情報量(長さ)や内容に基づいて、コンテンツの要旨を生成する。このために、本実施形態に係る要旨生成部220は、例えば、自然言語処理によりコンテンツの内容を解析する機能などを有してよい。
 (出力制御部230)
 本実施形態に係る出力制御部230は、ユーザに対するコンテンツの提示を制御し、当該コンテンツに対応するユーザの視聴行動において非視聴期間が検出された場合、コンテンツに係る要旨を情報処理端末10に出力させる機能を有する。この際、本実施形態に係る出力制御部230は、非視聴期間の長さや検出回数、発生要因に基づいて、コンテンツに係る要旨の情報量を決定する。なお、コンテンツが音声発話により出力される場合、上記の情報量は、要旨の発話に係る発話長であるといえる。
 また、本実施形態に係る非視聴期間は、上述したとおり、コンテンツの中断期間であってよい。本実施形態に係る出力制御部230は、例えば、ユーザの操作によりコンテンツが中断された場合、当該コンテンツが再開されるまでの時間を中断期間として取得し、当該中断期間に応じた長さの要旨を要旨生成部220に生成させることができる。
 また、本実施形態に係る出力制御部230は、コンテンツの提示に係る中断と再開を制御してもよい。出力制御部230は、認識部210が認識した周囲環境やユーザの状態に基づいて、情報処理端末10によるコンテンツの提示を中断させることができる。
 この際、出力制御部230は、ユーザがコンテンツの内容を認識できていない、あるいは認識できなくなる可能性が推定されることに基づいて、コンテンツの提示を中断させる。出力制御部230は、例えば、認識部210が認識した周囲音が閾値を上回る場合、ユーザがコンテンツを認識できなくなる可能性があると判定し、情報処理端末10にコンテンツを中断させる。本実施形態に係る出力制御部230が有する上記の機能によれば、周囲音などの影響により音声発話が聞き取りづらい状況において、コンテンツの出力を行うことを回避することができ、ユーザがコンテンツの内容を聞き逃す可能性を効果的に低減することが可能となる。なお、出力制御部230は、周囲音がユーザにより停止可能な音である場合には、停止を求める効果音等を出力させることで、ユーザに周囲音の排除を促してもよい。この場合、中断を回避することで、例えば、重要度の高いコンテンツをユーザに遅延なく提示することが可能となる。
 また、例えば、出力制御部230は、認識部210が認識したユーザの怪訝な表情や、首をかしげる動作などに基づいて、ユーザがコンテンツの内容を認識できていないと判定し、情報処理端末10にコンテンツを中断させてもよい。本実施形態に係る出力制御部230が有する上記の機能によれば、ユーザがコンテンツの内容を理解していない状態のまま、後続情報が提示されることを回避し、また要旨を出力させることで、ユーザの理解を助けることが可能となる。
 また、例えば、出力制御部230は、認識部210が認識した情報処理端末10の周囲における人の増減に基づいて、情報処理端末10にコンテンツを中断させてもよい。例えば、ユーザがコンテンツを視聴している際に、情報処理端末10やユーザの周囲に他の人物が検出された場合、出力制御部230は、ユーザが他の人物に気を取られることや、他の人物とユーザとの間で会話が行われる可能性を予測し、コンテンツを中断させてもよい。
 また、ユーザがコンテンツを視聴している際に、情報処理端末10の周囲に他のユーザが検出された場合、出力制御部230は、当該他のユーザが提示が完了しているコンテンツの内容を把握できていないと判定し、コンテンツを中断させてもよい。この場合、出力制御部230は、他のユーザが検出されるまでに提示されたコンテンツの内容に係る要旨を出力させることで、他のユーザがコンテンツ全体の内容を理解できるように補助することが可能である。
 (音声合成部240)
 本実施形態に係る音声合成部240は、出力制御部230による制御に基づいて、情報処理端末10により出力される人工音声を合成する機能を有する。
 (記憶部250)
 本実施形態に係る記憶部250は、ユーザDB252、視聴記録DB254、およびコンテンツDB256を備える。
 ((ユーザDB252))
 本実施形態に係るユーザDB252は、ユーザに関する種々の情報を記憶する。ユーザDB252は、例えば、ユーザの顔画像や音声特徴などを記憶する。また、ユーザDB252は、ユーザの性別、年齢、嗜好、傾向などの情報を記憶してもよい。
 ((視聴記録DB254))
 本実施形態に係る視聴記録DB254は、コンテンツの中断や再開に係る状態を記憶する。視聴記録DB254は、例えば、出力制御部230により制御に基づいて、コンテンツが中断された時間や、再開された時間を記憶する。また、視聴記録DB254は、コンテンツの中断回数などを記憶してよい。
 ((コンテンツDB256))
 本実施形態に係るコンテンツDB256は、情報処理端末10により提示されるコンテンツを記憶する。本実施形態に係るコンテンツDB256は、例えば、ニュースや広告、動画などのコンテンツを記憶する。なお、本実施形態に係るコンテンツは、必ずしもコンテンツDB256に記憶されなくてもよい。本実施形態に係る出力制御部230は、ネットワーク30を介して別の装置からコンテンツを取得してもよい。また、本実施形態に係る出力制御部230は、例えば、ユーザの問い合わせに基づいて生成された回答をコンテンツして取得してもよい。
 (端末通信部260)
 本実施形態に係る端末通信部260は、ネットワーク30を介して、情報処理端末10との情報通信を行う機能を有する。具体的には、端末通信部260は、情報処理端末10から発話などの音情報、画像情報、センサ情報を受信する。また、端末通信部260は、出力制御部230が生成した制御信号や、音声合成部240が合成した人工音声を情報処理端末10に送信する。
 以上、本実施形態に係る情報処理サーバ20の機能構成例について説明した。なお、図4を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理サーバ20の機能構成は係る例に限定されない。例えば、情報処理サーバ20は、必ずしも図4に示す構成のすべてを備えなくてもよい。認識部210、要旨生成部220、音声合成部240、および記憶部250は、情報処理サーバ20とは異なる別の装置に備えることも可能である。本実施形態に係る情報処理サーバ20の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 <<2.4.出力制御の詳細>>
 次に、本実施形態に係る出力制御部230による出力制御の詳細について説明する。上述したように、本実施形態に係る出力制御部230は、種々の状況に基づいてコンテンツの中断および再開を制御することができる。また、出力制御部230は、中断期間の長さや回数に基づいて要旨の情報量や内容を決定し要旨生成部220に要旨を生成させる。また、本実施形態に係る出力制御部230は、コンテンツの再開時にコンテンツの後続情報と共に要旨生成部220が生成した要旨を出力させる。
 図5は、本実施形態に係るコンテンツの中断制御について説明するための図である。図5には、情報処理端末10が出力する音声発話SO3(コンテンツ)と、音声発話SO3を視聴するユーザU2とが示されている。なお、図5では、出力制御部230が、ユーザU2宛てに送信されたメッセージをコンテンツとして出力させる場合の例が示されている。
 この際、音声発話SO3の出力において、ポイントP1の時点でユーザU2の子供B1が泣き出した場合を想定する。この際、本実施形態に係る出力制御部230は、認識部210が認識した周囲音、すなわち子供B1の泣き声が閾値を上回ることや、認識部210が画像から子供B1が泣き出したことを認識したことに基づいて、情報処理端末10に音声発話SO3の出力を中断させる。
 この場合、出力制御部230は、子供B1の泣き声の音量が閾値以下となったことや、子供B1が泣き止んだことが検出されたことに基づいて、コンテンツの再開を制御し、音声発話SO4を出力させることができる。この際、出力制御部230は、例えば、ポイントP1において出力されていた句や文章の先頭を再開位置として設定すると共に、中断期間の長さに基づいて要旨の情報量を決定し、当該文章よりも前に出力された内容と上記の情報量とに基づく要旨A4を要旨生成部220に生成させる。また、出力制御部230は、要旨生成部220が生成した要旨A4を情報処理端末10に出力させたのち、上記の再開位置からコンテンツの提示を再開させる。
 本実施形態に係る出力制御部230が有する上記の機能によれば、ユーザU2は、中断が行われる前に提示された内容を自然に再把握しながら、コンテンツの後続情報を視聴することができ、コンテンツ全体の流れを容易に理解することが可能となる。
 一方、コンテンツの中断および再開が短時間の間に何度も繰り返される場合、要旨を提示することがかえってユーザの不利益となることも考えられる。例えば、出力制御部230が中断期間の長さのみに基づいて、要旨の情報量を決定する場合を想定する。この際、同程度の長さの中断期間が繰り返される場合においては、同一の要旨が繰り返し提示されることとなり、ユーザに冗長性を感じさせると共に、集中力を低下させることも懸念される。この場合、結果としてコンテンツに対するユーザの理解度を低下させることが想定される。
 このため、本実施形態に係る出力制御部230は、中断期間の長さのみではなく、中断期間の回数を考慮して要旨の情報量を決定してもよい。図6は、本実施形態に係る中断期間の長さに基づく要旨の生成と出力について説明するための図である。
 図6には、図5に示した中断および再開が行われた後、ポイントP1の付近で再びコンテンツの提示が中断された際に、再開時において出力される音声発話が示されている。
 図6の上部には、図5に示した状況を含め合計2回の中断期間が存在した場合に、情報処理端末10が出力する音声発話SO5aが示されている。この際、本実施形態に係る出力制御部230は、冗長性を考慮し、初回再開時において出力させた要旨A4よりも発話長の短い要旨A5aを要旨生成部220に生成させ、要旨A5aを含んだ音声発話SO5aを情報処理端末10に出力させてよい。
 また、図6の下部には、図5に示した状況を含め合計3回の中断期間が存在した場合に、情報処理端末10が出力する音声発話SO5bが示されている。この際、本実施形態に係る出力制御部230は、冗長性を考慮し、2回目の再開時に出力させた要旨A5aよりもさらに発話長の短い要旨A5bを要旨生成部220に生成させ、要旨A5bを含んだ音声発話SO5bを情報処理端末10に出力させることできる。
 本実施形態に係る出力制御部230が有する上記の機能によれば、中断の回数に基づいて要旨を簡潔化することで、要旨が冗長となることを回避し、ユーザがより自然にコンテンツを理解することを補助することが可能となる。
 また、本実施形態に係る出力制御部230は、中断期間の要因に基づいて要旨の情報量を決定することもできる。図7は、本実施形態に係る中断期間の要因に基づく要旨の生成と出力について説明するための図である。
 図7には、図5に示した初回の中断を含む複数回の中断が行われた後、ポイントP1の付近で再びコンテンツの提示が中断された際に、再開時において出力される音声発話が示されている。
 図7の上部には、子供B1が泣き出したことによりコンテンツが中断された後に、再開時において情報処理端末10が出力する音声発話SO6aが示されている。この際、本実施形態に係る出力制御部230は、図6の下部において示した音声発話SO5bにおける要旨A5bと同様に、簡潔化した要旨A6aを要旨生成部220に生成させ、要旨A6aを含んだ音声発話SO6aを情報処理端末10に出力させてよい。
 一方、図7の下部には、図7の上部と同様の中断期間の長さおよび回数が検出されている場合において、情報処理端末10が出力する音声発話SO6bが示されている。一方、図7の下部の中断における要因は、図7の上部とは異なり、ユーザU2が電話により会話を始めたことであってよい。
 この際、他者との会話は、泣き声など非言語情報と比較してユーザU2の短期記憶を上書きしやすいことも想定される。このため、本実施形態に出力制御部230は、図7の上部において示した音声発話SO6aにおける要旨A6aよりも発話長の長い詳細な要旨A6bを要旨生成部220に生成させ、要旨A6bを含んだ音声発話SO6bを情報処理端末10に出力させてよい。
 このように本実施形態に係る出力制御部230は、種々の中断要因に基づいて、異なる情報量を有する要旨の出力を制御することができる。本実施形態に係る出力制御部230が有する上記の機能によれば、状況に応じたより柔軟な要旨提示を行うことで、コンテンツに対するユーザの理解度を向上させることが可能となる。
 以上、本実施形態に係る出力制御部230による要旨の出力制御について説明した。上述したように、本実施形態に係る出力制御部230は、中断期間の長さや回数、また発生要因に基づいて情報量の異なる要旨を要旨生成部220に生成させることができる。
 この際、本実施形態に係る出力制御部230は、例えば、上記の要因を総合的に判断するための要旨長スコアを算出し、当該要旨長スコアの値に基づいて、要旨生成部220に生成させる要旨の情報量を決定してもよい。
 例えば、中断要因が閾値以上の周囲音である場合、要旨長スコアSは、S=T/N、として算出されてもよい。ここで、上記のTは中断期間の長さを、Nは中断回数をそれぞれ表している。
 また、例えば、中断要因がユーザの行動である場合、要旨長スコアSは、動作の大きさに反比例するように算出されてもよいし、行動の種別に応じて算出されてもよい。
 また、例えば、中断要因が情報処理端末10の周囲における人の増減である場合、要旨長スコアSは、S=増加した人数/当初の人数、により算出されてもよい。
 このように、本実施形態に係る要旨長スコアSは、種々の条件を考慮して算出され得る。また、本実施形態に係る要旨長スコアSの算出方法は、例えば、アプリケーションの特性などに応じて適宜設計され得る。
 本実施形態に係る出力制御部230は、上記のように算出した要旨長スコアに基づいて、要旨生成部220に生成させる要旨の情報量を決定することができる。図8は、要旨長スコアに基づく要旨の生成と出力について説明するための図である。
 例えば、要旨長スコアSがレベルS1に該当する場合、出力制御部230は、要旨生成部220に要旨を生成させず、コンテンツの後続情報のみを含む音声発話SO8aを情報処理端末10に出力させてもよい。
 また、要旨長スコアSがレベルS2に該当する場合、出力制御部230は、要旨生成部220に簡潔な要旨A8bを生成させ、要旨A8bを含む音声発話SO8bを情報処理端末10に出力させる。
 また、要旨長スコアSがレベルS3に該当する場合、出力制御部230は、要旨生成部220にレベルS2における要旨A8bよりも情報量の多い要旨A8cを生成させ、要旨A8cを含む音声発話SO8bを情報処理端末10に出力させることができる。
 また、要旨長スコアSがレベルS4に該当する場合、出力制御部230は、要旨生成部220にレベルS3における要旨A8cよりもより詳細な要旨A8dを生成させ、要旨A8dを含む音声発話SO8dを情報処理端末10に出力させることができる。
 このように、本実施形態に係る出力制御部230は、種々の条件に基づいて要旨長スコアを算出し、当該要旨長スコアに基づいて要旨生成部220に生成させる要旨の情報量を決定することができる。本実施形態に係る出力制御部230が有する上記の機能によれば、状況に応じた柔軟な要旨の生成および提示を実現することが可能となる。
 なお、上記で説明した要旨長スコアの算出方法および要旨長スコアに基づく要旨の生成方法はあくまで一例である。本実施形態に係る出力制御部230は、例えば、パーセンテージを指定して要旨生成部220に要旨を生成させることも可能である。また、出力制御部230は、特定のトピックや、主題、題名などを含むように要旨生成部220に要旨を生成させることもできる。本実施形態に係る出力制御部230による要旨の生成および出力制御は、柔軟に変形され得る。
 <<2.5.制御の流れ>>
 次に、本実施形態に係る情報処理サーバ20による制御の流れについて説明する。図9は、本実施形態に係る情報処理サーバ20による制御の流れを示すフローチャートである。
 図9を参照すると、まず、情報処理サーバ20の出力制御部230が情報処理端末10にコンテンツの提示を開始させる(S1101)。
 ステップS1101においてコンテンツの提示が開始されると、出力制御部230は、認識部210が認識するユーザや周囲環境の状態に基づいて中断要因の発生を監視する(S1102)。
 ここで、コンテンツの中断要因が発生した場合(S1102:Yes)、出力制御部230は、情報処理端末10にコンテンツの提示を中断させる(S1103)。なお、コンテンツの中断は、ユーザによる操作入力に基づいて行われてもよい。
 続いて、出力制御部230は、ステップS1103における中断要因が解消されるまで監視を行う(S1104)。
 ここで、コンテンツの中断要因が解消された場合(S1104:Yes)、出力制御部230は、中断要因、中断時間、中断回数などに基づいた要旨長スコアを算出する(S1105)。なお、コンテンツの再開は、ユーザによる操作入力に基づいて行われてもよい。
 続いて、出力制御部230は、ステップS1105において算出した要旨長スコアに応じた情報量を有する要旨を要旨生成部220に生成させる(S1106)。
 次に、出力制御部230は、ステップS1106において要旨生成部220が生成した要旨を情報処理端末10に出力させ、コンテンツを再開させる(S1107)。
 以上、本開示の第1の実施形態について説明した。上述したように、本開示の第1の実施形態に係る情報処理サーバ20は、コンテンツの中断期間に応じた情報量を有する要旨を生成し、コンテンツの再開時にユーザに提示させることができる。
 なお、上記では、情報処理サーバ20がコンテンツに係る音声発話を主に制御する場合を中心に述べたが、本実施形態に係る情報処理サーバ20による制御は係る例に限定されない。本実施形態に係る情報処理サーバ20は、視覚情報を用いたコンテンツおよび要旨の出力制御を行うことも可能である。
 また、本実施形態に係る情報処理サーバ20は、例えば、中断時の背景音などを制御してもよい。この際、情報処理サーバ20は、コンテンツの種別に応じた背景音を情報処理端末10に出力させることで、ユーザに何のコンテンツが中断中であるかを提示することもできる。また、情報処理サーバ20は、コンテンツの種別に応じて色やパターンの異なる光を情報処理端末10に出力させてもよい。
 また、上記では、情報処理サーバ20が主に中断前に提示された内容に係る要旨を生成し、情報処理端末10に出力させる場合を中心に述べた。一方、コンテンツがメッセージなどである場合、情報処理サーバ20は、当該メッセージの題名や送信者に係る情報を含んだ要旨を生成し、情報処理端末10に出力させてもよい。
 また、情報処理サーバ20は、例えば、「5分前に提示したメッセージの続きです」、などの付加情報を含む要旨を生成してもよいし、有効期限が切れた情報は要旨に含まない要制御することも可能である。上記の有効期限が切れた情報には、例えば、「5分後に到着します」、という情報を含むメッセージが当該情報の出力前に中断された場合において、中断期間により5分が既に経過しており、メッセージの送信者が既にユーザのもとに到着している状況などが想定される。
 <3.第2の実施形態>
 <<3.1.第2の実施形態の概要>>
 次に、本開示の第2の実施形態について説明する。第1の実施形態では、情報処理サーバ20がコンテンツの中断期間に基づいて要旨の生成および出力を制御する場合の例を述べた。一方、上述したように、本開示における非視聴期間は、中断期間に限定されない。本開示に係る非視聴期間は、コンテンツをユーザが知覚していない非知覚期間を含んでよい。
 ここで、上記の非知覚期間とは、コンテンツの提示中において、何らかの原因によりユーザがコンテンツの内容を知覚できなかった期間を指す。例えば、コンテンツの提示中にユーザが情報処理端末10の周囲から離席し、再び戻った場合、ユーザは離席中に提示されていたコンテンツの内容を知覚することができない。このように、本開示における非知覚期間は、コンテンツの提示中にユーザが当該コンテンツの享受範囲から逸脱した不在期間を含む。
 また、例えば、コンテンツの提示中に外部要因によりユーザの集中力が低下した場合、当該ユーザは提示されたコンテンツの内容を知覚できない場合がある。このため、本開示における非知覚期間は、コンテンツの提示中にユーザが当該コンテンツに係る情報に集中していない非集中期間を含んでよい。
 このように、コンテンツに対応するユーザの視聴行動においては、中断以外の要素においても完全性が失われる場合が想定される。そこで、本開示の第2の実施形態に係る情報処理サーバ20は、上記のような非知覚期間の長さ、検出回数、また要因に基づいて決定した情報量を有する要旨を情報処理端末10に出力させること、を特徴の一つとする。
 以下、本実施形態に係る情報処理サーバ20が有する上記の特徴について詳細に説明する。なお、以下の説明においては、第1の実施形態との差異について中心に述べ、第1の実施形態と共通する構成や機能については、詳細な説明を省略する。
 <<3.2.出力制御の詳細>>
 続いて、本実施形態に係る出力制御部230による出力制御の詳細について説明する。まず、本実施形態に係る出力制御部230による不在期間に基づく要旨の出力制御について述べる。上述したように、本実施形態に係る非知覚期間はユーザの不在期間を含む。この際、本実施形態に係る上記の不在期間の長さまたは検出回数に基づいて、要旨の情報量を決定することができる。
 図10は、本実施形態に係る不在期間に基づく要旨の生成と出力について説明するための図である。図10には、情報処理端末10が出力するニュースコンテンツに係る音声発話SO10a~10cと、コンテンツを視聴するユーザU3とが示されている。
 この際、ユーザU3は、音声発話SO10bが出力されている最中に情報処理端末10の周囲を一旦離れ、音声発話SO10cの出力が開始されるタイミングで再び情報処理端末10の周辺に戻ってきている。
 この場合、本実施形態に係る出力制御部230は、認識部210が認識したユーザの不在、および帰還に基づいて、音声発話SO10bが提示されていた期間を不在期間として設定する。この際、本実施形態に係る出力制御部230は、上記の不在期間の長さに基づいて決定した情報量を含む要旨A10を要旨生成部220に生成させ、要旨A10を含む音声発話SO10cを情報処理端末10に出力させてよい。
 図10における要旨A10の内容に注目すると、出力制御部230が、不在期間に提示された音声発話SO10bの内容を含む要旨を生成していることがわかる。このように、本実施形態に係る出力制御部230は、不在期間などの非知覚期間が終了した際、非知覚期間の間に提示された情報を含む要旨を要旨生成部220に生成させ、当該要旨を情報処理端末10に出力させることができる。
 本実施形態に係る出力制御部230によれば、ユーザが所用などにより一時的に情報処理端末10の周囲を不在とした場合であっても、当該ユーザに不在期間中に提示したコンテンツの内容に係る要旨を提供することができる。本実施形態に係る出力制御部230が有する上記の機能によれば、欠落したユーザの視聴体験を補うことで、ユーザが提示されるコンテンツの全体の流れを容易に把握することが可能となる。
 次に、本実施形態に係る非集中期間に基づく要旨の生成と出力について説明する。図11は、本実施形態に係る非集中期間に基づく要旨の生成と出力について説明するための図である。図11には、図10に示した状況と同様に、情報処理端末10が出力するニュースコンテンツに係る音声発話SO11a~11cと、コンテンツを視聴するユーザU3とが示されている。
 一方、図11の場合、図10とは異なり、ユーザU3は、音声発話SO11a~11cが出力されている間、ずっと情報処理端末10の周囲に存在している。しかし、図11に示す状況では、音声発話SO11bが出力されている間に、人物P1およびP2がユーザU3と情報処理端末10の周囲に検出されている。
 この際、本実施形態に係る出力制御部230は、認識部210が人物P1およびP2を認識したことに基づいて、人物P1およびP2の影響によりユーザU3の集中力が低下し、音声発話SO11を知覚できなかった可能性があると判定し、人物P1およびP2が検出されていた期間を非集中期間として設定する。この際、本実施形態に係る出力制御部230は、上記の非集中期間の長さに基づいて決定した情報量を含む要旨A11を要旨生成部220に生成させ、要旨A11を含む音声発話SO11cを情報処理端末10に出力させてよい。
 なお、出力制御部230は、認識部210がユーザU3の首をかしげる動作や情報処理端末10に近づく動作を認識したことに基づいて非知覚期間を設定することも可能である。
 ここで、図11における要旨A11の内容に注目すると、出力制御部230が、非知覚期間に提示された音声発話SO11bの内容を含む要旨を生成していることがわかる。このように、本実施形態に係る出力制御部230は、不在期間などの非知覚期間が終了した際、非知覚期間の間に提示された情報を含む要旨を要旨生成部220に生成させ、当該要旨を情報処理端末10に出力させることができる。
 本実施形態に係る出力制御部230によれば、ユーザが提示されたコンテンツの内容を知覚していない可能性がある場合であっても、当該ユーザに非集中期間中に提示したコンテンツの内容に係る要旨を提供することができる。
 次に、本実施形態に係る出力制御部230によるユーザコンテキストに基づく要旨の情報量および内容の決定について説明する。
 図12は、本実施形態に係るユーザコンテキストに基づく要旨の情報量および内容の決定について説明するための図である。図12に示す一例の場合、情報処理サーバ20は、会議におけるユーザの発言内容に基づいて、当該会議の議事録の生成および出力を制御する装置であってもよい。また、情報処理サーバ20は、予め設定された内容を会議において情報処理端末10に出力させる装置であってもよい。
 ここで、図12の上部には、会議における複数の議題が時刻tに沿って示されている。また、図12には、会議に参加するユーザU4~U6と、ユーザU4~U6がそれぞれ会議に出席していた時間が矢印によって示されている。
 例えば、ユーザU3は、予算が議題に挙がっている際に、会議室を不在としている。この際、本実施形態に係る出力制御部230は、ユーザU4が会議室に到着した際に、予算に関して議論された内容に係る要旨A12aを要旨生成部220に生成させ、要旨A12aをユーザU4に割り当てられた表示部110aに表示させる。なお、情報処理端末10がビームフォーミングなどの指向性を伴う音声出力機能を有する場合、出力制御部230は、情報処理端末10に、要旨A12aをユーザU4に対して音声出力させてもよい。
 また、ユーザU5およびU6は、発注先が議題に挙がっている際に、会議室を不在としている。ここで、ユーザU5は若手社員であり、ユーザU6はマネージャである。この際、本実施形態に係る出力制御部230は、ユーザU5およびU6が会議室に戻った際に、発注先に関して議論された内容に係る要旨A12bおよびA12cを要旨生成部220に生成させ、要旨A12bおよびA12cを、それぞれユーザU5およびU6に割り当てられた表示部110bおよび110cに表示させている。
 ここで、図12に示す要旨A12bおよびA12cを参照すると、要旨A12bおよびA12cは、互いに情報量が異なっていることがわかる。すなわち、本実施形態に係る出力制御部230は、ユーザU5およびU6の役職に基づいて、異なる情報量を有する要旨A12bおよびA12cを要旨生成部220に生成させ、表示部110bおよび110cに出力させている。より具体的には、出力制御部230は、若手社員であるユーザU5に対しては、簡潔な要旨A12bを提示させ、マネージャであるユーザU6に対しては、より詳細な要旨A12cを提示させている。
 このように、例えば、役職などのユーザの属性によっては、不在期間が同一である場合であっても、要旨に求められる粒度のレベルが異なることも想定される。このため、本実施形態に係る出力制御部230は、ユーザに係るユーザコンテキストに基づいて、要旨の情報量や内容を決定してよい。ここで、上記のコンテキストは、ユーザの年齢、性別、役職などの属性や、ユーザの嗜好や特性、ユーザの状態などを含む。
 例えば、本実施形態に係る出力制御部230は、子供であるユーザに対しては、易しい語彙や口調による簡潔な要旨が提示されるよう制御を行ってもよい。また、出力制御部230は、ユーザが急いでいる場合には、重要な内容だけを含む簡潔な要旨が提示されるよう制御を行うことも可能である。
 本実施形態に係る出力制御部230が有する上記の機能によれば、非知覚期間の長さや回数が同一である場合であっても、それぞれのユーザに応じた適切な要旨を提示することができ、各ユーザのコンテンツに対する理解を効果的に高めることが可能となる。
 また、本実施形態に係る出力制御部230は、図12に示すように、複数のユーザのそれぞれに係る非知覚期間に基づいて、要旨生成部220にユーザごとに異なる要旨を生成させることができる。本実施形態に係る出力制御部230が有する上記の機能によれば、情報処理端末10が複数人のユーザによって同時に利用される場合であっても、各ユーザのコンテンツに対する理解を補助することが可能である。
 <<3.3.制御の流れ>>
 次に、本実施形態に係る情報処理サーバ20による制御の流れについて説明する。図13は、本実施形態に係る情報処理サーバ20による制御の流れを示すフローチャートである。
 図13を参照すると、まず、情報処理サーバ20の出力制御部230が情報処理端末10にコンテンツの提示を開始させる(S1201)。
 ステップS1201においてコンテンツの提示が開始されると、出力制御部230は、認識部210が認識するユーザや周囲環境の状態に基づいて、不在期間や非集中期間などの非知覚期間の発生を監視する(S1202)。
 ここで、コンテンツの非知覚期間が発生した場合(S1202:Yes)、出力制御部230は、非知覚期間の終了を監視する状態に遷移する。
 次に、コンテンツの非知覚期間の終了を検知した場合(S1203:Yes)、出力制御部230は、非知覚期間の長さ、回数、要因、およびユーザコンテキストに基づいた要旨長スコアを算出する(S1204)。
 続いて、出力制御部230は、ステップS1204において算出した要旨長スコアに応じた情報量および内容を有する要旨を要旨生成部220に生成させる(S1205)。
 次に、出力制御部230は、ステップS1205において要旨生成部220が生成した要旨を情報処理端末10に出力させ、コンテンツを再開させる(S1206)。
 <4.変形例>
 次に、情報処理サーバ20による出力制御の変形例について説明する。上記の第1の実施形態および第2の実施形態では、出力制御部230が、非視聴期間の長さや検出回数に基づいて要旨の生成と出力を制御する場合を述べたが、本開示の技術思想は、ユーザの状況に対応した適切な要旨を提示することで、ユーザの利便性を高めることを根本とする。このため、本開示の変形例に係る情報処理サーバ20は、ユーザコンテキストに重きをおいて要旨を生成し、当該要旨を情報処理端末10に出力させてもよい。
 図14は、本開示の一変形例について説明するための図である。図14に示す情報処理端末10は、情報処理サーバ20による制御に基づいて、ユーザとの音声対話を行うエージェント装置である。なお、図14に示す一例では、家庭において複数のユーザが情報処理端末10を利用するシーンが示されている。
 例えば、図14の上段は、午前12時において、母親であるユーザU7が情報処理端末10との対話を行いながら家族旅行の計画を立てている状況を示している。この際、ユーザU7は、決定した事項に関する内容を発話UO14により情報処理端末10に入力している。ここで、発話UO14は、旅行先、アクティビティ、予算、およびユーザU7の息子であるユーザU8のためのサプライズパーティーに関する内容を含む。また、ユーザU7は、発話UO14を家族の他のユーザに共有する情報として情報処理端末10に入力している。
 続いて、図14の中段に示す午後4時において、出力制御部230は、認識部210がユーザU7の息子であるユーザU8の帰宅を検出したことに基づいて、ユーザU7により入力された発話UO14の要旨A14aを含む音声発話SO14aを情報処理端末10に出力させている。この際、出力制御部230は、発話UO14により入力された情報のうち旅行先とアクティビティに係る情報のみを含む要旨A14aを要旨生成部220に生成させている。
 すなわち、出力制御部230は、ユーザU8に対し、予算とサプライズパーティーに関する情報を敢えて除外した要旨A12を提示させている。より詳細には、出力制御部230は、ユーザU8の属性が子供であることに基づいて予算に関する情報を要旨A12aから除外している。また、出力制御部230は、発話UO14に含まれる「息子」や「サプライズ」の語彙から、サプライズパーティーの対象者がユーザU8であることを推定し、当該サプライズパーティーに係る情報が要旨A14aに含まれないように制御を行っている。
 このように、本変形例に係る出力制御部230は、ユーザコンテキストを重視した要旨の生成および提示を制御してよい。本実施形態に係る出力制御部230が有する上記の機能によれば、家庭などの知識レベルや社会的成熟度が大きく異なる複数のユーザが混在する環境であっても、各ユーザに応じた適切な情報を含む要旨を提示することが可能となる。
 一方、図14の下段に示す午後7時において、出力制御部230は、認識部210がユーザU7の夫であるユーザU9の帰宅を検出したことに基づいて、ユーザU7により入力された発話UO14の要旨A14bを含む音声発話SO14bを情報処理端末10に出力させている。この際、出力制御部230は、要旨A14aとは異なり、発話UO14により入力された情報のうちアクティビティを除くすべての事項を含む要旨A14bを要旨生成部220に生成させている。
 出力制御部230は、例えば、ユーザU9が、普段、旅行先におけるアクティビティに対して意見をしない傾向があることに基づいて、上記のような要旨A14bを要旨生成部220に生成させることができる。
 以上、情報処理サーバ20による出力制御の変形例について説明した。図14を用いて説明したように、本開示に係る技術思想は、種々の様態に変形可能である。また、本開示に係る技術思想によれば、状況に応じた適切な要旨をユーザに提供し、ユーザの利便性を効果的に高めることが可能である。
 <5.ハードウェア構成例>
 次に、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20に共通するハードウェア構成例について説明する。図15は、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20のハードウェア構成例を示すブロック図である。図15を参照すると、情報処理端末10および情報処理サーバ20は、例えば、CPU871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
 (CPU871)
 CPU871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
 (ROM872、RAM873)
 ROM872は、CPU871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、CPU871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
 (ホストバス874、ブリッジ875、外部バス876、インターフェース877)
 CPU871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
 (入力装置878)
 入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
 (出力装置879)
 出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
 (ストレージ880)
 ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
 (ドライブ881)
 ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
 (リムーバブル記録媒体901)
リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
 (接続ポート882)
 接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
 (外部接続機器902)
 外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
 (通信装置883)
 通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
 <6.まとめ>
 以上説明したように、本開示の一実施形態に係る情報処理サーバ20は、コンテンツに対応するユーザの視聴行動において非視聴期間が検出された場合、当該コンテンツに係る要旨を出力させること、を特徴の一つとする。また、本開示の一実施形態に係る情報処理サーバ20は、非視聴期間の長さに基づいてコンテンツに係る要旨の情報量を決定する機能を有する。係る構成によれば、ユーザにコンテンツの流れを効果的に知覚させることが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 また、本明細書の情報処理サーバ20の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理サーバ20の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 ユーザに対するコンテンツの提示を制御し、前記コンテンツに対応する前記ユーザの視聴行動において非視聴期間が検出された場合、前記コンテンツに係る要旨を出力させる出力制御部、
 を備え、
 前記出力制御部は、前記非視聴期間の長さに基づいて前記コンテンツに係る要旨の情報量を決定する、
情報処理装置。
(2)
 前記出力制御部は、前記非視聴期間の検出回数に基づいて、前記要旨の情報量を決定する、
前記(1)に記載の情報処理装置。
(3)
 前記出力制御部は、前記非視聴期間の発生要因に基づいて、前記要旨の情報量を決定する、
前記(1)または(2)に記載の情報処理装置。
(4)
 前記出力制御部は、前記ユーザに係るユーザコンテキストに基づいて、前記要旨の情報量または内容を決定する、
前記(1)~(3)のいずれかに記載の情報処理装置。
(5)
 前記非視聴期間は、前記コンテンツの中断期間を含み、
 前記出力制御部は、前記中断期間の長さまたは検出回数に基づいて、前記要旨の情報量を決定する、
前記(1)~(4)のいずれかに記載の情報処理装置。
(6)
 前記出力制御部は、前記コンテンツの提示に係る中断と再開を制御し、前記コンテンツの再開時に前記要旨を出力させる、
前記(5)に記載の情報処理装置。
(7)
 前記出力制御部は、前記コンテンツの再開時に、前記中断期間よりも前に提示された前記コンテンツの内容に係る前記要旨を出力させる、
前記(6)に記載の情報処理装置。
(8)
 前記出力制御部は、前記コンテンツの中断期間に基づいて、前記コンテンツの再開位置を決定する、
前記(6)または(7)に記載の情報処理装置。
(9)
 前記出力制御部は、前記コンテンツの提示時における周囲環境に基づいて前記コンテンツを中断させる、
前記(5)~(8)のいずれかに記載の情報処理装置。
(10)
 前記出力制御部は、前記コンテンツの提示時における周囲音に基づいて前記コンテンツを中断させる、
前記(5)~(9)のいずれかに記載の情報処理装置。
(11)
 前記出力制御部は、前記コンテンツの提示時における前記ユーザの状態に基づいて前記コンテンツを中断させる、
前記(5)~(10)のいずれかに記載の情報処理装置。
(12)
 前記非視聴期間は、提示された前記コンテンツを前記ユーザが知覚していない非知覚期間を含み、
 前記出力制御部は、前記非知覚期間の長さまたは検出回数に基づいて、前記要旨の情報量を決定する、
前記(1)~(11)のいずれかに記載の情報処理装置。
(13)
 前記非知覚期間は、前記コンテンツの提示中に前記ユーザが前記コンテンツの享受範囲から逸脱した不在期間を含み、
 前記出力制御部は、前記不在期間の長さまたは検出回数に基づいて、前記要旨の情報量を決定する、
前記(12)に記載の情報処理装置。
(14)
 前記非知覚期間は、前記コンテンツの提示中に前記ユーザが前記コンテンツに係る情報に集中していない非集中期間を含み、
 前記出力制御部は、前記非集中期間の長さまたは検出回数に基づいて、前記要旨の情報量を決定する、
前記(12)または(13)に記載の情報処理装置。
(15)
 前記出力制御部は、前記非知覚期間が終了した場合、前記要旨を出力させる、
前記(12)~(14)のいずれかに記載の情報処理装置。
(16)
 前記出力制御部は、前記非知覚期間の間に提示された情報を含む前記要旨の出力を制御する、
前記(12)~(15)のいずれかに記載の情報処理装置。
(17)
 前記出力制御部は、複数の前記ユーザのそれぞれに係る前記非知覚期間に基づいて、複数の前記ユーザごとに異なる前記要旨を出力させる、
前記(12)~(16)のいずれかに記載の情報処理装置。
(18)
 前記出力制御部は、前記コンテンツに係る音声発話を制御し、前記非視聴期間の長さまたは検出回数に基づいて、前記要旨の発話長を決定する、
前記(1)~(17)のいずれかに記載の情報処理装置。
(19)
 前記出力制御部による制御に基づいて、前記コンテンツおよび前記要旨に係る音声発話を出力する音声出力部、
 をさらに備える、
前記(1)~(18)のいずれかに記載の情報処理装置。
(20)
 プロセッサが、ユーザに対するコンテンツの提示を制御し、前記コンテンツに対応する前記ユーザの視聴行動において非視聴期間が検出された場合、前記コンテンツに係る要旨を出力させること、
 を含み、
 前記出力させることは、前記非視聴期間の長さに基づいて前記コンテンツに係る要旨の情報量を決定すること、
 をさらに含む、
情報処理方法。
 10   情報処理端末
 110  表示部
 120  音声出力部
 130  音声入力部
 140  撮像部
 150  センサ部
 160  制御部
 170  サーバ通信部
 20   情報処理サーバ
 210  認識部
 220  要旨生成部
 230  出力制御部
 240  音声合成部
 250  記憶部
 252  ユーザDB
 254  視聴記録DB
 256  コンテンツDB
 260  端末通信部

Claims (20)

  1.  ユーザに対するコンテンツの提示を制御し、前記コンテンツに対応する前記ユーザの視聴行動において非視聴期間が検出された場合、前記コンテンツに係る要旨を出力させる出力制御部、
     を備え、
     前記出力制御部は、前記非視聴期間の長さに基づいて前記コンテンツに係る要旨の情報量を決定する、
    情報処理装置。
  2.  前記出力制御部は、前記非視聴期間の検出回数に基づいて、前記要旨の情報量を決定する、
    請求項1に記載の情報処理装置。
  3.  前記出力制御部は、前記非視聴期間の発生要因に基づいて、前記要旨の情報量を決定する、
    請求項1に記載の情報処理装置。
  4.  前記出力制御部は、前記ユーザに係るユーザコンテキストに基づいて、前記要旨の情報量または内容を決定する、
    請求項1に記載の情報処理装置。
  5.  前記非視聴期間は、前記コンテンツの中断期間を含み、
     前記出力制御部は、前記中断期間の長さまたは検出回数に基づいて、前記要旨の情報量を決定する、
    請求項1に記載の情報処理装置。
  6.  前記出力制御部は、前記コンテンツの提示に係る中断と再開を制御し、前記コンテンツの再開時に前記要旨を出力させる、
    請求項5に記載の情報処理装置。
  7.  前記出力制御部は、前記コンテンツの再開時に、前記中断期間よりも前に提示された前記コンテンツの内容に係る前記要旨を出力させる、
    請求項6に記載の情報処理装置。
  8.  前記出力制御部は、前記コンテンツの中断期間に基づいて、前記コンテンツの再開位置を決定する、
    請求項6に記載の情報処理装置。
  9.  前記出力制御部は、前記コンテンツの提示時における周囲環境に基づいて前記コンテンツを中断させる、
    請求項5に記載の情報処理装置。
  10.  前記出力制御部は、前記コンテンツの提示時における周囲音に基づいて前記コンテンツを中断させる、
    請求項5に記載の情報処理装置。
  11.  前記出力制御部は、前記コンテンツの提示時における前記ユーザの状態に基づいて前記コンテンツを中断させる、
    請求項5に記載の情報処理装置。
  12.  前記非視聴期間は、提示された前記コンテンツを前記ユーザが知覚していない非知覚期間を含み、
     前記出力制御部は、前記非知覚期間の長さまたは検出回数に基づいて、前記要旨の情報量を決定する、
    請求項1に記載の情報処理装置。
  13.  前記非知覚期間は、前記コンテンツの提示中に前記ユーザが前記コンテンツの享受範囲から逸脱した不在期間を含み、
     前記出力制御部は、前記不在期間の長さまたは検出回数に基づいて、前記要旨の情報量を決定する、
    請求項12に記載の情報処理装置。
  14.  前記非知覚期間は、前記コンテンツの提示中に前記ユーザが前記コンテンツに係る情報に集中していない非集中期間を含み、
     前記出力制御部は、前記非集中期間の長さまたは検出回数に基づいて、前記要旨の情報量を決定する、
    請求項12に記載の情報処理装置。
  15.  前記出力制御部は、前記非知覚期間が終了した場合、前記要旨を出力させる、
    請求項12に記載の情報処理装置。
  16.  前記出力制御部は、前記非知覚期間の間に提示された情報を含む前記要旨の出力を制御する、
    請求項12に記載の情報処理装置。
  17.  前記出力制御部は、複数の前記ユーザのそれぞれに係る前記非知覚期間に基づいて、複数の前記ユーザごとに異なる前記要旨を出力させる、
    請求項12に記載の情報処理装置。
  18.  前記出力制御部は、前記コンテンツに係る音声発話を制御し、前記非視聴期間の長さまたは検出回数に基づいて、前記要旨の発話長を決定する、
    請求項1に記載の情報処理装置。
  19.  前記出力制御部による制御に基づいて、前記コンテンツおよび前記要旨に係る音声発話を出力する音声出力部、
     をさらに備える、
    請求項1に記載の情報処理装置。
  20.  プロセッサが、ユーザに対するコンテンツの提示を制御し、前記コンテンツに対応する前記ユーザの視聴行動において非視聴期間が検出された場合、前記コンテンツに係る要旨を出力させること、
     を含み、
     前記出力させることは、前記非視聴期間の長さに基づいて前記コンテンツに係る要旨の情報量を決定すること、
     をさらに含む、
    情報処理方法。
PCT/JP2018/016513 2017-07-31 2018-04-24 情報処理装置および情報処理方法 WO2019026360A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US16/633,161 US11250873B2 (en) 2017-07-31 2018-04-24 Information processing device and information processing method
EP18840593.0A EP3663933A1 (en) 2017-07-31 2018-04-24 Information processing device and information processing method
JP2019533897A JPWO2019026360A1 (ja) 2017-07-31 2018-04-24 情報処理装置および情報処理方法
CN201880049120.7A CN110945473A (zh) 2017-07-31 2018-04-24 信息处理装置和信息处理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-148167 2017-07-31
JP2017148167 2017-07-31

Publications (1)

Publication Number Publication Date
WO2019026360A1 true WO2019026360A1 (ja) 2019-02-07

Family

ID=65232515

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/016513 WO2019026360A1 (ja) 2017-07-31 2018-04-24 情報処理装置および情報処理方法

Country Status (5)

Country Link
US (1) US11250873B2 (ja)
EP (1) EP3663933A1 (ja)
JP (1) JPWO2019026360A1 (ja)
CN (1) CN110945473A (ja)
WO (1) WO2019026360A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113450788A (zh) * 2020-03-26 2021-09-28 本田技研工业株式会社 声音输出的控制方法和声音输出控制装置
JP2021156993A (ja) * 2020-03-26 2021-10-07 本田技研工業株式会社 音声出力の制御方法および音声出力制御装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11558664B1 (en) * 2021-08-24 2023-01-17 Motorola Mobility Llc Electronic device that pauses media playback based on interruption context
US11837062B2 (en) 2021-08-24 2023-12-05 Motorola Mobility Llc Electronic device that pauses media playback based on external interruption context

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10214268A (ja) * 1997-01-29 1998-08-11 Omron Corp 文書検索方法および装置
JP2003259311A (ja) * 2002-03-06 2003-09-12 Nippon Telegr & Teleph Corp <Ntt> 映像再生方法、映像再生装置、映像再生プログラム
JP2004088384A (ja) * 2002-08-27 2004-03-18 Sony Corp 情報処理装置および方法、プログラム格納媒体、並びにプログラム
JP2005295343A (ja) * 2004-04-01 2005-10-20 Matsushita Electric Ind Co Ltd テレビ放送補完システム、端末、テレビ放送補完方法およびコンピュータプログラム
JP2006155125A (ja) * 2004-11-29 2006-06-15 Oki Electric Ind Co Ltd 書籍要約情報閲覧システム
JP2006333451A (ja) * 2005-04-27 2006-12-07 Matsushita Electric Ind Co Ltd 映像要約装置および映像要約方法
WO2007113580A1 (en) * 2006-04-05 2007-10-11 British Telecommunications Public Limited Company Intelligent media content playing device with user attention detection, corresponding method and carrier medium
JP2011061733A (ja) * 2009-09-14 2011-03-24 Kddi Corp 遠隔操作装置の起動状態に応じて要約コンテンツを生成するシステム及び方法
JP2011227236A (ja) 2010-04-19 2011-11-10 Honda Motor Co Ltd 音声対話装置
WO2015045158A1 (ja) * 2013-09-30 2015-04-02 楽天株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP2016504836A (ja) * 2012-11-29 2016-02-12 クゥアルコム・インコーポレイテッドQualcomm Incorporated コンテンツ提示を提供するためにユーザエンゲージメントを使用するための方法および装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3886037B2 (ja) * 2002-02-14 2007-02-28 株式会社ライセンス&プロパティコントロール 地下構造物用丸型蓋
US20130275899A1 (en) * 2010-01-18 2013-10-17 Apple Inc. Application Gateway for Providing Different User Interfaces for Limited Distraction and Non-Limited Distraction Contexts
US20140075309A1 (en) * 2012-09-11 2014-03-13 International Business Machines Corproation Considering user needs when presenting context-sensitive information
US9274673B2 (en) * 2013-12-31 2016-03-01 Google Inc. Methods, systems, and media for rewinding media content based on detected audio events
KR102217186B1 (ko) * 2014-04-11 2021-02-19 삼성전자주식회사 요약 컨텐츠 서비스를 위한 방송 수신 장치 및 방법
US9875734B2 (en) * 2016-01-05 2018-01-23 Motorola Mobility, Llc Method and apparatus for managing audio readouts
US20170257669A1 (en) * 2016-03-02 2017-09-07 At&T Intellectual Property I, L.P. Enhanced Content Viewing Experience Based on User Engagement
US10218760B2 (en) * 2016-06-22 2019-02-26 JBF Interlude 2009 LTD Dynamic summary generation for real-time switchable videos

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10214268A (ja) * 1997-01-29 1998-08-11 Omron Corp 文書検索方法および装置
JP2003259311A (ja) * 2002-03-06 2003-09-12 Nippon Telegr & Teleph Corp <Ntt> 映像再生方法、映像再生装置、映像再生プログラム
JP2004088384A (ja) * 2002-08-27 2004-03-18 Sony Corp 情報処理装置および方法、プログラム格納媒体、並びにプログラム
JP2005295343A (ja) * 2004-04-01 2005-10-20 Matsushita Electric Ind Co Ltd テレビ放送補完システム、端末、テレビ放送補完方法およびコンピュータプログラム
JP2006155125A (ja) * 2004-11-29 2006-06-15 Oki Electric Ind Co Ltd 書籍要約情報閲覧システム
JP2006333451A (ja) * 2005-04-27 2006-12-07 Matsushita Electric Ind Co Ltd 映像要約装置および映像要約方法
WO2007113580A1 (en) * 2006-04-05 2007-10-11 British Telecommunications Public Limited Company Intelligent media content playing device with user attention detection, corresponding method and carrier medium
JP2011061733A (ja) * 2009-09-14 2011-03-24 Kddi Corp 遠隔操作装置の起動状態に応じて要約コンテンツを生成するシステム及び方法
JP2011227236A (ja) 2010-04-19 2011-11-10 Honda Motor Co Ltd 音声対話装置
JP2016504836A (ja) * 2012-11-29 2016-02-12 クゥアルコム・インコーポレイテッドQualcomm Incorporated コンテンツ提示を提供するためにユーザエンゲージメントを使用するための方法および装置
WO2015045158A1 (ja) * 2013-09-30 2015-04-02 楽天株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KATO, YOSHIHIRO ET AL.: "Hierarchical Teleconference System with User's Nomadic", IPSJ SYMPOSIUM SERIES, vol. 99, no. 7, 30 June 1999 (1999-06-30), pages 97 - 102, XP009518578, ISSN: 1344-0640 *
MASUMITSU, KEN ET AL.: "Personalized video summarization ussing importance seore", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J84-D-ii, no. 8, 1 August 2001 (2001-08-01), pages 1848 - 1885, XP009518556, ISSN: 0915-1923 *
See also references of EP3663933A4

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113450788A (zh) * 2020-03-26 2021-09-28 本田技研工业株式会社 声音输出的控制方法和声音输出控制装置
JP2021156994A (ja) * 2020-03-26 2021-10-07 本田技研工業株式会社 音声出力の制御方法および音声出力制御装置
JP2021156993A (ja) * 2020-03-26 2021-10-07 本田技研工業株式会社 音声出力の制御方法および音声出力制御装置
CN113516978A (zh) * 2020-03-26 2021-10-19 本田技研工业株式会社 声音输出的控制方法和声音输出控制装置
JP7407047B2 (ja) 2020-03-26 2023-12-28 本田技研工業株式会社 音声出力の制御方法および音声出力制御装置
JP7407046B2 (ja) 2020-03-26 2023-12-28 本田技研工業株式会社 音声出力の制御方法および音声出力制御装置
CN113450788B (zh) * 2020-03-26 2024-08-06 本田技研工业株式会社 声音输出的控制方法和声音输出控制装置

Also Published As

Publication number Publication date
US20210158836A1 (en) 2021-05-27
EP3663933A4 (en) 2020-06-10
CN110945473A (zh) 2020-03-31
EP3663933A1 (en) 2020-06-10
JPWO2019026360A1 (ja) 2020-05-28
US11250873B2 (en) 2022-02-15

Similar Documents

Publication Publication Date Title
US9263044B1 (en) Noise reduction based on mouth area movement recognition
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US20180018373A1 (en) Context-based digital assistant
JP7283384B2 (ja) 情報処理端末、情報処理装置、および情報処理方法
WO2019026360A1 (ja) 情報処理装置および情報処理方法
KR20210008521A (ko) 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드
JP2023503219A (ja) 複数のデータソースを用いた発話転写
WO2020026850A1 (ja) 情報処理装置、情報処理方法及びプログラム
WO2019138651A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US11803579B2 (en) Apparatus, systems and methods for providing conversational assistance
JPWO2017200074A1 (ja) 対話方法、対話システム、対話装置、及びプログラム
US10536786B1 (en) Augmented environmental awareness system
AU2018233050B2 (en) Accessible Audio Switching for Client Devices in an Online Conference
KR102488285B1 (ko) 디지털 어시스턴트를 이용한 오디오 정보 제공
JPWO2018034077A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US8553855B2 (en) Conference support apparatus and conference support method
WO2019202804A1 (ja) 音声処理装置および音声処理方法
WO2019026395A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US11302317B2 (en) Information processing apparatus and information processing method to attract interest of targets using voice utterance
US20180108356A1 (en) Voice processing apparatus, wearable apparatus, mobile terminal, and voice processing method
WO2020194828A1 (ja) 情報処理システム、情報処理装置、および情報処理方法
JPWO2017200077A1 (ja) 対話方法、対話システム、対話装置、及びプログラム
WO2019054009A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2019142420A1 (ja) 情報処理装置および情報処理方法
US20210082427A1 (en) Information processing apparatus and information processing method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18840593

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019533897

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018840593

Country of ref document: EP

Effective date: 20200302