[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP7215417B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP7215417B2
JP7215417B2 JP2019525931A JP2019525931A JP7215417B2 JP 7215417 B2 JP7215417 B2 JP 7215417B2 JP 2019525931 A JP2019525931 A JP 2019525931A JP 2019525931 A JP2019525931 A JP 2019525931A JP 7215417 B2 JP7215417 B2 JP 7215417B2
Authority
JP
Japan
Prior art keywords
user
voice
angular direction
unit
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019525931A
Other languages
English (en)
Other versions
JPWO2019093123A1 (ja
Inventor
秀明 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2019093123A1 publication Critical patent/JPWO2019093123A1/ja
Application granted granted Critical
Publication of JP7215417B2 publication Critical patent/JP7215417B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/164Detection; Localisation; Normalisation using holistic features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、どのユーザに対して応答するべきかを判断することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。
近年、ユーザが音声により操作を行うことができる家庭用の音声アシスタントデバイス(ホームエージェント)が提供されている。
ホームエージェントの中には、複数のユーザそれぞれのプロファイルデータに基づいて、どのユーザが発話による操作を依頼しているかを認識できるものがある。
また、特許文献1には、マイクロホンアレイに対する特定の方向からのオーディオ信号成分を抽出することで、環境の中を動いているユーザの音声を、他のユーザが話しても認識できるようにした構成が開示されている。このような構成によれば、個々のユーザのプロファイルデータを用いることなく、どのユーザに対して応答するべきかを判断することができる。
特表2006-504130号公報
しかしながら、特許文献1の構成では、オーディオ信号のみに基づいてユーザの音声を認識するため、様々な環境音が存在する環境などにおいては、音声の認識に失敗し、どのユーザに対して応答するべきかが正しく判断されない可能性があった。
本技術は、このような状況に鑑みてなされたものであり、どのユーザに対して応答するべきかを正しく判断することができるようにするものである。
本技術の情報処理装置は、ユーザが存在する環境の画像において検出された前記ユーザの顔をトラッキングするトラッキング部と、前記環境の音声に基づいて、前記ユーザとの対話を開始するトリガが検出された角度方向に、前記ユーザとの対話を行うための音声セッションを生成する音声セッション生成部と、前記音声セッションが生成された前記角度方向に、前記画像において検出された前記ユーザの前記顔がトラッキングされている場合、前記角度方向に存在する前記ユーザを、発話を受け付けるべき発話者に特定する発話者特定部と、特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力する意味解析部とを備え、前記音声セッション生成部は、N個の前記音声セッションを生成している状態で、前記N個の前記音声セッションが生成されている前記角度方向とは異なる前記角度方向に前記トリガが検出された場合、前記N個の前記音声セッションのうち、前記発話の発生する確率が最も低いと推定される前記音声セッションを終了する
本技術においては、ユーザが存在する環境の画像において検出された前記ユーザの顔がトラッキングされ、前記環境の音声に基づいて、前記ユーザとの対話を開始するトリガが検出された角度方向に、前記ユーザとの対話を行うための音声セッションが生成され、前記音声セッションが生成された前記角度方向に、前記画像において検出された前記ユーザの前記顔がトラッキングされている場合、前記角度方向に存在する前記ユーザが、発話を受け付けるべき発話者に特定され、特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求が出力され、N個の前記音声セッションを生成している状態で、前記N個の前記音声セッションが生成されている前記角度方向とは異なる前記角度方向に前記トリガが検出された場合、前記N個の前記音声セッションのうち、前記発話の発生する確率が最も低いと推定される前記音声セッションが終了される
本技術によれば、どのユーザに対して応答するべきかを正しく判断することが可能となる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術を適用した応答システムの概要について説明する図である。 ホームエージェントのハードウェア構成例を示すブロック図である。 ホームエージェントの機能構成例を示すブロック図である。 音声セッションの詳細について説明する図である。 顔トラッキング処理の流れについて説明するフローチャートである。 応答生成処理の流れについて説明するフローチャートである。 1人のユーザによる操作の例を示す図である。 複数人のユーザによる操作での音声セッションの制御について説明する図である。 音声セッションと顔トラッキングの状態管理の流れについて説明するフローチャートである。 トラッキング切り替え処理の流れについて説明するフローチャートである。 顔トラッキングの切り替えの例を示す図である。 音声セッションと顔トラッキングの状態管理の流れについて説明するフローチャートである。 応答システムの機能構成例を示すブロック図である。 応答システムによる応答生成処理の流れを示す図である。 コンピュータの構成例を示すブロック図である。
以下、本開示を実施するための形態(以下、実施の形態とする)について説明する。なお、説明は以下の順序で行う。
1.応答システムの概要
2.ホームエージェントの構成と動作
3.複数人のユーザによる操作の例
4.クラウドコンピューティングへの適用
5.その他
<1.応答システムの概要>
図1は、本技術を適用した応答システムの概要を示している。
図1には、3人のユーザ10A,10B,10Cと、本技術を適用した情報処理装置(電子機器)として、各ユーザの発話に対して応答を出力するホームエージェント20が示されている。ホームエージェント20は、家庭用の音声アシスタントデバイスとして構成される。
ホームエージェント20は、ユーザ10A,10B,10Cが存在する環境の画像と音声を取得するとともに、その環境におけるセンシングを行う。ホームエージェント20は、その画像から得られる顔やその方向、音声から得られる発話区間(発話している時間)や発話された位置、および、センシングにより得られたセンシング情報を用いて、どのユーザが発話により操作を依頼しているかを特定する。そして、ホームエージェント20は、特定されたユーザに対する応答を生成し、出力する。
図1の例では、ユーザ10Aが「OK Agent.」という起動ワードを発話した後、「明日の天気を教えて」と発話することで、ホームエージェント20に対して明日の天気を尋ねている。起動ワードは、ホームエージェント20がユーザとの対話を開始するためのトリガとなる。
これに対して、ホームエージェント20は、ユーザ10Aの発話を認識し、意味解析を行うことで、「明日は晴れです」という応答を生成し、出力している。
以下においては、上述した応答システムを実現するホームエージェント20の詳細について説明する。
<2.ホームエージェントの構成と動作>
(ホームエージェントのハードウェア構成例)
図2は、本技術を適用したホームエージェント20のハードウェア構成例を示すブロック図である。
CPU(Central Processing Unit)51、ROM(Read Only Memory)52、RAM(Random Access Memory)53は、バス54により相互に接続される。
バス54には、カメラ55、マイクロホン(以下、マイクという)56、センサ57、スピーカ58、ディスプレイ59、入力部60、記憶部61、および通信部62が接続される。
カメラ55は、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサやCCD(Charge Coupled Device)イメージセンサなどの固体撮像素子を備え、ユーザが存在する環境を撮像することで、その環境の画像を取得する。
マイク56は、ユーザが存在する環境の音声を取得する。
センサ57は、人感センサやバイタルセンサなどの各種のセンサにより構成される。例えば、センサ57は、人物(ユーザ)の存在の有無や、その人物の脈拍や呼吸などの生体情報を検知する。
スピーカ58は、音声(合成音声)を出力する。
ディスプレイ59は、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイなどにより構成される。
入力部60は、ディスプレイ59に重ねて設けられたタッチパネルや、ホームエージェント20の筐体に設けられた各種のボタンにより構成される。入力部60は、ユーザによる操作を検出し、操作の内容を表す情報を出力する。
記憶部61は、不揮発性のメモリなどにより構成される。記憶部61は、CPU51が実行するプログラムの他に、音声合成用のデータなどの各種のデータを記憶する。
通信部62は、ネットワークインタフェースなどにより構成される。通信部62は、無線や有線による通信を外部の装置との間で行う。
(ホームエージェントの機能構成例)
図3は、ホームエージェント20の機能構成例を示すブロック図である。
図3に示されるホームエージェント20の機能ブロックのうちの一部は、図2のCPU51により所定のプログラムが実行されることによって実現される。
ホームエージェント20は、撮像部71、音声取得部72、センシング部73、トラッキング部74、音声セッション生成部75、発話者特定部76、音声認識部77、意味解析部78、および応答生成部79から構成される。
撮像部71は、図2のカメラ55に対応し、ユーザが存在する環境を撮像することにより、その環境の画像を取得する。ユーザが存在する環境の画像(画像データ)は、リアルタイムに取得され、トラッキング部74と音声セッション生成部75に供給される。
音声取得部72は、図2のマイク56に対応し、ユーザが存在する環境の音声を取得する。ユーザが存在する環境の音声(音声データ)もまた、リアルタイムに取得され、音声セッション生成部75に供給される。
センシング部73は、図2のセンサ57に対応し、ユーザが存在する環境においてセンシングを行う。センシングにより得られたセンシング情報もまた、リアルタイムに取得され、トラッキング部74、音声セッション生成部75、および発話者特定部76に供給される。
トラッキング部74は、撮像部71からの画像と、センシング部73からのセンシング情報に基づいて、撮像部71の撮像範囲におけるユーザの状態(存在の有無や動きの有無)を推定し、顔識別、顔向き検出、位置推定の各処理を行う。これらの各処理により、ユーザが誰であるのか、ユーザの顔が向いている方向、ユーザのいる位置が推定される。
また、トラッキング部74は、上述した各処理の結果に基づいて、撮像部71からの画像において検出されたユーザの顔をトラッキングする。トラッキングされている顔の角度方向を表すトラッキング情報は、発話者特定部76に供給される。なお、ハードウェア上のリソースの制約により、同時にトラッキングできる顔の数には上限があるものとする。
音声セッション生成部75は、音声取得部72からの音声と、センシング部73からのセンシング情報に基づいて、発話しているユーザの方向(ホームエージェント20から見た角度方向)と発話区間を推定する。
また、音声セッション生成部75は、発話しているユーザの角度方向に、ユーザとの対話を行うための音声セッションを生成する。これにより、音声セッションが生成された角度方向からの音声のみが取得される。音声セッション生成部75は、取得した音声と、生成された音声セッションの角度方向を表す音声セッション情報とを対応付けて、発話者特定部76に供給する。なお、同時にトラッキングできる顔の数の制限に従い、同時に生成できる音声セッションの数にも上限があるものとする。
発話者特定部76は、ユーザが存在する環境の画像、音声、およびその環境におけるセンシングにより得られたセンシング情報に基づいて、所定の角度方向に存在するユーザを、発話を受け付けるべき発話者に特定する。
具体的には、発話者特定部76は、トラッキング部74からのトラッキング情報と、音声セッション生成部75からの音声セッション情報に基づいて、音声セッションが生成された角度方向周辺にユーザの顔がトラッキングされているか否かを判定する。音声セッションが生成された角度方向周辺にユーザの顔がトラッキングされている場合、発話者特定部76は、その顔のユーザを発話者に特定する。
また、発話者特定部76は、音声セッション生成部75からの音声のうち、発話者がいる角度方向に生成されている音声セッション(音声セッション情報)に対応付けられている音声(音声データ)を音声認識部77に供給する。
以上のことから、トラッキング部74、音声セッション生成部75、および発話者特定部76は、ユーザが存在する環境において得られた複数のモーダルに基づいて、発話を受け付けるべきユーザをトラッキングする、ユーザトラッキング部を構成すると言える。
ここでいうモーダルには、撮像部71により取得される画像、音声取得部72により取得される音声、センシング部73により取得されるセンシング情報が含まれる。
音声認識部77は、発話者特定部76からの音声データと、広範囲な発話内容に対応する語彙があらかじめ登録された大語彙音声認識辞書に登録されている語彙(単語)とを照合することで音声認識を行う。音声認識によって得られた文字列は、意味解析部78に供給される。
意味解析部78は、音声認識部77からの文字列からなる文章に対して、自然言語処理、具体的には意味解析を行うことで、発話者の要求を抽出する。発話者の要求を示す情報は、応答生成部79に供給される。
応答生成部79は、意味解析部78からの情報に基づいて、発話者の要求に対する応答を生成する。生成された応答は、図2のスピーカ58を介して出力される。
(音声セッションの詳細)
ここで、音声セッションの詳細について説明する。
上述したように、音声セッションは、発話しているユーザとの対話を行うために、そのユーザのいる角度方向に生成され、ホームエージェント20が、そのユーザにより操作可能な状態にあることを示すものである。
音声セッションは、ユーザによる何らかの操作を行うという意思表示をトリガとして、ホームエージェント20がそれを認識することで生成される。
そして、ホームエージェント20は、音声セッションが生成されている角度方向からの音声に対してのみ発話解析を行い、応答を生成する。
例えば、図4に示されるように、ホームエージェント20から見て角度方向θaにいるユーザUaによって、トリガとして「OK Agent.」という起動ワードが発話されると、時刻t1において、角度方向θaに音声セッションが生成される。
その後、ユーザUaによって「明日の天気を教えて」と発話されると、ホームエージェント20は、角度方向θaからの音声に対して発話解析を行い、「明日の天気を教えて」に対する応答を生成する。
また、ホームエージェント20から見て角度方向θbにいるユーザUbによって、トリガとして「OK Agent.」という起動ワードが発話されると、時刻t2において、角度方向θbに音声セッションが生成される。
その後、ユーザUbによって「今何時?」と発話されると、ホームエージェント20は、角度方向θbからの音声に対して発話解析を行い、「今何時?」に対する応答を生成する。
なお、上述したように、同時に生成できる音声セッションの数には上限があり、最大N個までとする。すでにN個の音声セッションが生成されている状態で、新たな音声セッションを生成しようとする場合、ホームエージェント20は、既存の音声セッションのうちの1つを終了させ、新たな音声セッションを生成する。
(ホームエージェントの動作例)
ホームエージェント20は、ユーザの存在する環境において、一定の時間間隔で顔のトラッキングをしながら、起動ワードをトリガとして音声セッションを生成することで、発話者を特定する。
そこで、まず、図5のフローチャートを参照して、ホームエージェント20による顔トラッキング処理の流れについて説明する。
ステップS11において、ホームエージェント20は、センシング部73によるセンシングを開始する。このとき、ホームエージェント20は、撮像部71による画像の取得も開始する。これ以降、センシング部73によるセンシングと、撮像部71による画像の取得は、継続的に行われるものとする。
ステップS12において、トラッキング部74は、撮像部71により取得されている画像において、顔を検出したか否かを判定する。顔が検出されていない間、処理はステップS12を繰り返し、顔が検出されると、処理はステップS13に進む。
ステップS13において、トラッキング部74は、検出された顔のトラッキングを開始する。顔のトラッキングに成功すると、トラッキング部74は、その顔についてのトラッキング情報を発話者特定部76に供給する。
ステップS14において、トラッキング部74は、同時にトラッキングできる顔の数の上限であるM個の顔をトラッキングしているか否かを判定する。
M個の顔がトラッキングされておらず、まだ、トラッキングしている顔の数が上限に達していない場合、M個の顔がトラッキングされるまで、処理はステップS12乃至S14を繰り返す。
一方、M個の顔がトラッキングされると、処理はステップS14を繰り返す。その間、何らかの原因でトラッキングに失敗し、トラッキングしている顔の数がM個を下回ると、処理はステップS12に戻り、再びM個の顔がトラッキングされるまで、ステップS12乃至S14を繰り返す。
以上のようにして、顔のトラッキングが継続的に行われる。
次に、図6のフローチャートを参照して、応答生成処理の流れについて説明する。図6の処理は、図5のフローチャートを参照して説明した顔トラッキング処理が実行されている状態で実行される。
ステップS31において、音声セッション生成部75は、音声取得部72からの音声に基づいて、起動ワードを検出したか否かを判定する。起動ワードが検出されていない間、処理はステップS31を繰り返し、起動ワードが検出されると、処理はステップS32に進む。
ステップS32において、音声セッション生成部75は、起動ワードが検出された角度方向θに音声セッションを生成する。このとき、音声セッション生成部75は、生成された音声セッションについての音声セッション情報を、発話者特定部76に供給する。
ステップS33において、発話者特定部76は、トラッキング部74からのトラッキング情報と、音声セッション生成部75からの音声セッション情報に基づいて、起動ワードが検出された角度方向θ周辺に顔がトラッキングされているか否かを判定する。
角度方向θ周辺に顔がトラッキングされていると判定された場合、処理はステップS34に進む。
ステップS34において、発話者特定部76は、音声セッション情報とトラッキング情報をバインドして、角度方向θ周辺にトラッキングされている顔のユーザを、発話者に特定する。これにより、角度方向θからの音声に対する発話解析が行われるようになる。
すなわち、ステップS35において、音声セッション生成部75は、音声取得部72からの音声に基づいて、角度方向θからの発話を検出したか否かを判定する。発話が検出されていない間、処理はステップS35を繰り返す。一方、発話が検出されると、発話者特定部76は、検出された音声(音声データ)を音声認識部77に供給し、処理はステップS36に進む。
ステップS36において、音声認識部77は、発話者特定部76からの音声データと、大語彙音声認識辞書に登録されている語彙とを照合することで音声認識を行う。
ステップS37において、意味解析部78は、音声認識部77による音声認識によって得られた文字列からなる文章に対して意味解析を行うことで、発話者の要求を抽出する。
ステップS38において、応答生成部79は、意味解析部78により抽出された発話者の要求に対する応答を生成し、スピーカ58を介して出力する。
なお、ステップS33において、角度方向θ周辺に顔がトラッキングされていないと判定された場合、ステップS34はスキップされ、処理はステップS35に進む。ここで、角度方向θからの発話が検出された場合であっても、ホームエージェント20は、発話内容に応じた応答を出力する。
図7は、上述した顔トラッキング処理と応答生成処理に基づいた、1人のユーザによるホームエージェント20の操作の例を示している。
図7には、1人のユーザ10とホームエージェント20が示されている。
まず、#1に示されるように、ホームエージェント20は、ユーザ10の顔のトラッキングを開始する(図5のステップS13)。
この状態で、#2に示されるように、ユーザ10が「OK Agent.」と起動ワードを発話すると、ホームエージェント20は、起動ワードを検出する(図6のステップS31)。
起動ワードが検出されると、#3に示されるように、ホームエージェント20は、起動ワードが検出された角度方向に音声セッションを生成する(図6のステップS32)。これにより、ホームエージェント20は、ユーザ10を発話者に特定する(図6のステップS34)。
その後、#4に示されるように、ユーザ10が「明日の天気を教えて」と発話すると、ホームエージェント20は、その発話を検出し、音声認識と意味解析を行うことで、ユーザ10の要求を抽出する(図6のステップS35乃至S37)。
そして、ホームエージェント20は、#5に示されるように、ユーザ10の要求に対して「明日は晴れです」という応答を生成し、出力する(図6のステップS38)。
以上の処理によれば、複数人のユーザが存在する環境において、顔がトラッキングされているユーザ毎に音声セッションが生成されることにより、発話者が特定されるようになる。すなわち、様々な環境音の影響を受けることなく、複数のモーダルに基づいて発話を受け付けるべきユーザがトラッキングされるので、ホームエージェント20は、どのユーザに対して応答するべきかを正しく判断することが可能となる。
(トリガの例)
以上においては、ホームエージェント20に対して何らかの操作を行うという意思表示(トリガ)として、「OK Agent.」などのあらかじめ決められた言葉(起動ワード)の発話を例にして説明した。これに限らず、トリガは、撮像部71からの画像、音声取得部72からの音声、センシング部73からのセンシング情報の少なくともいずれかに基づくものであってもよい。
例えば、ホームエージェント20に向かって「手を振る」などのあらかじめ決められたジェスチャ(動作)をトリガとしてもよい。ジェスチャは、撮像部71により取得されている画像において検出されるようにする。
また、センシング部73からのセンシング情報に基づいた顔向き検出や視線検出によって、ユーザがホームエージェント20を一定の時間見続けていることをトリガとしてもよい。
さらに、人感センサの機能を有するセンシング部73からのセンシング情報に基づいた人検出によって、ユーザがホームエージェント20から一定の距離範囲内に近づいたことをトリガとしてもよい。
<3.複数人のユーザによる操作の例>
ホームエージェント20は、複数人のユーザによる操作を受け付けることができる。
(音声セッションの制御)
図8は、複数人のユーザによる操作での音声セッションの制御について説明する図である。
図8に示されるように、ホームエージェント20から見て角度方向θaにいるユーザUa、角度方向θbにいるユーザUb、角度方向θcにいるユーザUc、角度方向θdにいるユーザUdの4人によって、起動ワード「OK Agent.」が発話されている。これにより、角度方向θa,θb,θc,θdの4方向に音声セッションが生成されている。
図8の例では、ユーザUaは、起動ワードを発話した後、「明日の天気を教えて」と発話し、続いて「最高気温は?」と発話している。その時刻はt12である。
ユーザUbは、起動ワードを発話した後、「今何時?」と発話している。その時刻はt11である。
ユーザUcは、起動ワードを発話した後、「美味しいレストランを教えて」と発話している。その時刻はt13である。
ユーザUdは、起動ワードを発話した後、「メール送って」と発話している。その時刻はt14である。
ここでは、同時に生成できる音声セッションの数の上限は4個であるものとする。
この状態の中で、時刻t15において、ホームエージェント20から見て角度方向θeにいるユーザUeによって、起動ワード「OK Agent.」が発話された場合、ホームエージェント20は、4方向の音声セッションの中で、時間的に最も前に発話が検出された音声セッションを終了させる。
具体的には、ホームエージェント20は、時刻t15において、時刻t11に発話が検出された角度方向θbの音声セッションを終了し、新たに角度方向θeに音声セッションを生成する。
このようにして、音声セッションの生成・終了の制御が行われる。なお、ユーザの移動がある場合にも、同様の制御が行われる。
図8の例では、時間的に最も前に発話が検出された音声セッションを終了させるものとしたが、ホームエージェント20に対する発話の発生する確率が最も低い音声セッションを終了させればよく、他の条件に基づいて音声セッションを終了させることもできる。
例えば、人感センサの機能を有するセンシング部73からのセンシング情報に基づいた人検出や、撮像部71により取得されている画像における動き検出によって、動きのあるユーザの音声セッションを終了させるようにしてもよい。
また、センシング部73からのセンシング情報に基づいた顔向き検出や視線検出、撮像部71により取得されている画像における顔検出によって、ユーザがホームエージェント20に顔を向けていないユーザの音声セッションを終了させるようにしてもよい。
さらに、バイタルセンサの機能を有するセンシング部73からのセンシング情報に基づいて、寝てしまったユーザの音声セッションを終了させるようにしてもよい。
また、自身の所有するスマートフォンなどの携帯端末を操作しているユーザの音声セッションを終了させるようにしてもよい。ユーザが携帯端末を操作しているか否かの判定は、撮像部71により取得されている画像、携帯端末上で起動しているアプリケーションの起動状態や動作状態の検知などに基づいて行うことができる。
以上のようにして、複数人のユーザによる操作での音声セッションの制御が行われる。
(音声セッションと顔トラッキングの状態管理)
上述したように、ホームエージェント20は、顔をトラッキングしているユーザ毎に音声セッションを生成する。さらに、ホームエージェント20は、音声セッションと顔トラッキングの状態をともに管理することで、図8を参照して説明した音声セッションの制御と連動して、顔のトラッキングを切り替えることができる。
ここで、図9のフローチャートを参照して、音声セッションと顔トラッキングの状態管理の流れについて説明する。
ステップS51において、音声セッション生成部75は、音声取得部72からの音声に基づいて、起動ワードを検出したか否かを判定する。起動ワードが検出されていない間、処理はステップS51を繰り返し、起動ワードが検出されると、処理はステップS52に進む。
ステップS52において、現在生成されている音声セッションとして、生成できる数の上限であるN個の音声セッションがあるか否かを判定する。なお、同時に生成できる音声セッションの数の上限Nは、同時にトラッキングできる顔の数の上限Mと同じ数であるものとするが、異なる数であってもよい。
N個の音声セッションがある場合、処理はステップS53に進み、音声セッション生成部75は、発話の発生する確率が最も低いと推定される音声セッションを終了する。
このとき、音声セッション生成部75は、撮像部71からの画像、音声取得部72からの音声、および、センシング部73からのセンシング情報の少なくともいずれかに基づいて、発話の発生する確率が最も低い音声セッションを推定する。例えば、図8の例と同様に、音声セッション生成部75は、音声取得部72からの音声に基づいて、時間的に最も前に発話が検出された音声セッションを、発話の発生する確率が最も低い音声セッションと推定し、その音声セッションを終了する。
一方、N個の音声セッションがなく、まだ、音声セッションの数が上限に達していない場合、ステップS53はスキップされる。
ステップS54において、音声セッション生成部75は、起動ワードが検出された角度方向θに音声セッションを生成する。
ステップS55において、トラッキング部74は、角度方向θ周辺に顔がトラッキングされているか否かを判定する。
角度方向θ周辺に顔がトラッキングされていると判定された場合、音声セッションと顔トラッキングの状態管理の処理は終了し、図6のフローチャートのステップS34以降と同様の処理が実行される。
一方、角度方向θ周辺に顔がトラッキングされていないと判定された場合、処理はステップS56に進む。
ステップS56において、トラッキング部74は、トラッキング対象となる顔を切り替えるトラッキング切り替え処理を実行し、その後、図6のフローチャートのステップS34以降と同様の処理が実行される。
ここで、図10のフローチャートを参照して、トラッキング切り替え処理の詳細について説明する。
ステップS71において、トラッキング部74は、同時にトラッキングできる顔の数の上限であるM個の顔をトラッキングしているか否かを判定する。
M個の顔がトラッキングされている場合、処理はステップS72に進み、トラッキング部74は、撮像部71により取得されている画像において、角度方向θ周辺に顔を検出したか否かを判定する。
角度方向θ周辺に顔が検出された場合、処理はステップS73に進み、トラッキング部74は、発話する確率が最も低いと推定されるユーザの顔のトラッキングを終了する。
このとき、トラッキング部74は、撮像部71からの画像と、センシング部73からのセンシング情報の少なくともいずれかに基づいて、発話する確率が最も低いユーザを推定する。例えば、トラッキング部74は、撮像部71からの画像に基づいて、ホームエージェント20から最も離れた位置にいるユーザを、発話する確率が最も低いユーザと推定し、そのユーザの顔のトラッキングを終了する。
その後、ステップS74において、トラッキング部74は、角度方向θ周辺で検出された顔のトラッキングを開始する。このとき、角度方向θ周辺で検出された顔が複数ある場合には、角度方向θに最も近い角度方向で検出された顔のトラッキングが開始されるようにする。
一方、ステップS71において、M個の顔がトラッキングされていないと判定されるか、ステップS72において、角度方向θ周辺に顔が検出されていないと判定された場合、新たなトラッキングが開始されることなく、処理は終了する。
図11は、上述した処理に基づいた、起動ワードの検出に連動した顔トラッキングの切り替えの例を示している。
図11には、5人のユーザ10A,10B,10C,10D,10Eとホームエージェント20が示されている。
図11左側の状態では、5人のユーザのうち4人のユーザ10A,10B,10C,10Dの顔がホームエージェント20によりトラッキングされている。図中、破線TR1乃至TR4は、顔がトラッキングされていることを表している。
図11の例では、同時にトラッキングできる顔の数の上限は4個であるものとする。したがって、図11左側の状態においては、ユーザ10Eの顔はトラッキングされていない。
この状態で、ユーザ10Eが「OK Agent.」と起動ワードを発話すると、ホームエージェント20は、起動ワードが検出された角度方向に音声セッションを生成する。
その後、図11右側に示されるように、ホームエージェント20は、最も離れた位置にいるユーザ10Dの顔のトラッキングを終了するとともに、起動ワードが検出された角度方向に検出されたユーザ10Eの顔のトラッキング(TR4’)を開始する。
このようにして、起動ワードの検出に連動して、トラッキング対象となる顔を切り替えることができる。
以上においては、起動ワードの検出に連動したトラッキングの切り替えの例について説明したが、発話の検出に連動して、トラッキング対象となる顔を切り替えるようにすることもできる。
図12は、発話の検出に連動して顔のトラッキングを切り替えるようにした、音声セッションと顔トラッキングの状態管理の流れについて説明するフローチャートである。
ステップS91において、音声セッション生成部75は、音声取得部72からの音声に基づいて、角度方向θに発話を検出したか否かを判定する。発話が検出されていない間、処理はステップS91を繰り返し、発話が検出されると、処理はステップS92に進む。
ステップS92において、トラッキング部74は、角度方向θ周辺に顔がトラッキングされているか否かを判定する。
角度方向θ周辺に顔がトラッキングされていると判定された場合、音声セッションと顔トラッキングの状態管理の処理は終了し、図6のフローチャートのステップS34以降と同様の処理が実行される。
一方、角度方向θ周辺に顔がトラッキングされていないと判定された場合、処理はステップS93に進み、トラッキング部74は、図10のフローチャートを参照して説明したトラッキング切り替え処理を実行する。
角度方向θに音声セッションが生成されている状態で、その角度方向θにいるユーザが一時的に移動するなどした場合、そのユーザの顔のトラッキングは終了してしまうことがある。そのような場合であっても、上述した処理によれば、新たにそのユーザの顔のトラッキングを開始することができる。
<4.クラウドコンピューティングへの適用>
本技術は、クラウドコンピューティングへ適用することもできる。
図13は、クラウドコンピューティングへ適用した応答システムの機能構成例を示すブロック図である。
図13に示されるように、ホームエージェント120は、撮像部121、音声取得部122、センシング部123、および応答生成部124を備えている。
ホームエージェント120は、撮像部121により取得された画像、音声取得部122により取得された音声、センシング部123により取得されたセンシング情報を、ネットワークNWを介して接続されるサーバ130に送信する。
また、ホームエージェント120は、サーバ130からネットワークNWを介して送信されてくる意味解析の結果に基づいて、応答生成部124により生成された応答を出力する。
サーバ130は、通信部131、トラッキング部132、音声セッション生成部133、発話者特定部134、音声認識部135、および意味解析部136を備えている。
通信部131は、ホームエージェント120からネットワークNWを介して送信されてくる画像、音声、センシング情報を受信する。また、通信部131は、意味解析部136による意味解析の結果を、ネットワークNWを介してホームエージェント120に送信する。
トラッキング部132乃至意味解析部136は、それぞれ、図3のトラッキング部74乃至意味解析部78と同一の機能を有している。
次に、図14を参照して、図13の応答システムによる応答生成処理の流れについて説明する。
ステップS111において、ホームエージェント120は、撮像部121、音声取得部122、センシング部123それぞれにより取得される画像、音声、センシング情報を、逐次サーバ130に送信する。
サーバ130は、ステップS121において、画像、音声、センシング情報を受信すると、ステップS122において、ホームエージェント120からの画像とセンシング情報に基づいて、顔のトラッキングを開始する。
サーバ130は、ホームエージェント120からの音声として、起動ワードを受信すると、ステップS123において、音声セッションを生成し、ステップS124において、発話者を特定する。
サーバ130は、ホームエージェント120からの音声として、発話(発話者による要求)を受信すると、ステップS125において、音声認識を行う。さらに、サーバ130は、ステップS126において、音声認識によって得られた文字列からなる文章に対して意味解析を行うことで、発話者の要求を抽出する。
そして、サーバ130は、ステップS127において、意味解析の結果である発話者の要求を示す情報を、ホームエージェント120に送信する。
ホームエージェント120は、ステップS112において、サーバ130からの発話者の要求を示す情報を受信すると、ステップS113において、発話者の要求に対する応答を生成し、図示せぬスピーカを介して出力する。
以上の処理においても、様々な環境音の影響を受けることなく発話を受け付けるべきユーザがトラッキングされるので、サーバ130は、どのユーザに対して応答するべきかを正しく判断することが可能となる。
<5.その他>
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図15は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
上述したホームエージェント20およびサーバ130は、図15に示す構成を有するコンピュータにより実現される。
CPU1001、ROM1002、RAM1003は、バス1004により相互に接続されている。
バス1004には、さらに、入出力インタフェース1005が接続されている。入出力インタフェース1005には、キーボード、マウスなどよりなる入力部1006、ディスプレイ、スピーカなどよりなる出力部1007が接続される。また、入出力インタフェース1005には、ハードディスクや不揮発性のメモリなどよりなる記憶部1008、ネットワークインタフェースなどよりなる通信部1009、リムーバブルメディア1011を駆動するドライブ1010が接続される。
以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを入出力インタフェース1005およびバス1004を介してRAM1003にロードして実行することにより、上述した一連の処理が行われる。
CPU1001が実行するプログラムは、例えばリムーバブルメディア1011に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部1008にインストールされる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたときなどの必要なタイミングで処理が行われるプログラムであっても良い。
なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
さらに、本技術は以下のような構成をとることができる。
(1)
ユーザが存在する環境の画像と音声に基づいて、所定の角度方向に存在する前記ユーザを、発話を受け付けるべき発話者に特定する発話者特定部と、
特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力する意味解析部と
を備える情報処理装置。
(2)
前記発話者特定部は、前記ユーザとの対話を行うための音声セッションが生成された前記角度方向に、前記画像において検出された前記ユーザの顔がトラッキングされている場合、前記ユーザを前記発話者に特定する
(1)に記載の情報処理装置。
(3)
前記画像において検出された前記ユーザの前記顔をトラッキングするトラッキング部と、
前記ユーザとの対話を開始するトリガが検出された前記角度方向に前記音声セッションを生成する音声セッション生成部と
をさらに備える
(2)に記載の情報処理装置。
(4)
前記発話者特定部は、前記画像、前記音声、および、前記環境におけるセンシングにより得られたセンシング情報に基づいて、前記発話者を特定する
(3)に記載の情報処理装置。
(5)
前記トリガは、前記画像、前記音声、および前記センシング情報の少なくともいずれかに基づいて検出される
(4)に記載の情報処理装置。
(6)
前記トリガは、前記音声から検出される、あらかじめ決められた文言の発話である
(5)に記載の情報処理装置。
(7)
前記トリガは、前記画像から検出される、あらかじめ決められた動作である
(5)に記載の情報処理装置。
(8)
前記音声セッション生成部は、N個の前記音声セッションを生成している状態で、前記N個の前記音声セッションが生成されている前記角度方向とは異なる前記角度方向に前記トリガが検出された場合、前記N個の前記音声セッションのうち、前記発話の発生する確率が最も低いと推定される前記音声セッションを終了する
(3)乃至(7)のいずれかに記載の情報処理装置。
(9)
前記音声セッション生成部は、前記画像、前記音声、および前記センシング情報の少なくともいずれかに基づいて、前記発話の発生する確率が最も低い前記音声セッションを推定する
(8)に記載の情報処理装置。
(10)
前記音声セッション生成部は、前記音声に基づいて、時間的に最も前に前記発話が検出された前記音声セッションを終了する
(9)に記載の情報処理装置。
(11)
前記トラッキング部は、M個の前記顔をトラッキングしている状態で、前記M個の前記顔がトラッキングされている前記角度方向とは異なる前記角度方向に前記顔が検出された場合、前記M個の前記顔のトラッキングのうち、前記発話する確率が最も低いと推定される前記ユーザの前記顔のトラッキングを終了する
(8)乃至(10)のいずれかに記載の情報処理装置。
(12)
前記トラッキング部は、前記画像および前記センシング情報の少なくともいずれかに基づいて、前記発話する確率が最も低い前記ユーザを推定する
(11)に記載の情報処理装置。
(13)
前記トラッキング部は、前記画像に基づいて、最も離れた位置にいる前記ユーザの前記顔のトラッキングを終了する
(12)に記載の情報処理装置。
(14)
前記トラッキング部がトラッキングする前記顔の数Mと、前記音声セッション生成部が生成する前記音声セッションの数Nとは同じ数である
(11)乃至(13)のいずれかに記載の情報処理装置。
(15)
特定された前記発話者による前記発話の音声認識を行う音声認識部
をさらに備え、
前記意味解析部は、前記発話の音声認識結果を用いて前記意味解析を行う
(1)乃至(14)のいずれかに記載の情報処理装置。
(16)
前記発話者の要求に対する応答を生成する応答生成部
をさらに備える
(1)乃至(15)のいずれかに記載の情報処理装置。
(17)
前記環境の前記画像を取得する撮像部と、
前記環境の前記音声を取得する音声取得部と
を備える
(1)乃至(16)のいずれかに記載の情報処理装置。
(18)
情報処理装置が、
ユーザが存在する環境の画像と音声に基づいて、所定の角度方向に存在するユーザを、発話を受け付けるべき発話者に特定し、
特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力する
情報処理方法。
(19)
コンピュータに、
ユーザが存在する環境の画像と音声に基づいて、所定の角度方向に存在するユーザを、発話を受け付けるべき発話者に特定し、
特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力する
処理を実行させるプログラム。
(20)
ユーザが存在する環境の画像を取得する撮像部と、
前記環境の音声を取得する音声取得部と、
前記画像と前記音声に基づいて、所定の角度方向に存在する前記ユーザが、発話を受け付けるべき発話者に特定され、特定された前記発話者による前記発話の意味解析が行われることで出力された前記発話者の要求に対する応答を生成する応答生成部と
を備える電子機器。
(21)
ユーザが存在する環境において得られた複数のモーダルに基づいて、発話を受け付けるべき前記ユーザをトラッキングするユーザトラッキング部と、
トラッキングされている前記ユーザによる前記発話の意味解析を行うことで、前記ユーザの要求を出力する意味解析部と
を備える情報処理装置。
(22)
前記複数のモーダルは、少なくとも前記環境の画像と音声を含む
(21)に記載の情報処理装置。
20 ホームエージェント, 71 撮像部, 72 音声取得部, 73 センシング部, 74 トラッキング部, 75 音声セッション生成部, 76 発話者特定部, 77 音声認識部, 78 意味解析部, 79 応答生成部, 120 ホームエージェント, 121 撮像部, 122 音声取得部, 123 センシング部, 124 応答生成部, 130 サーバ, 131 通信部, 132 トラッキング部, 133 音声セッション生成部, 134 発話者特定部, 135 音声認識部, 136 意味解析部

Claims (18)

  1. ユーザが存在する環境の画像において検出された前記ユーザの顔をトラッキングするトラッキング部と、
    前記環境の音声に基づいて、前記ユーザとの対話を開始するトリガが検出された角度方向に、前記ユーザとの対話を行うための音声セッションを生成する音声セッション生成部と、
    前記音声セッションが生成された前記角度方向に、前記画像において検出された前記ユーザの前記顔がトラッキングされている場合、前記角度方向に存在する前記ユーザを、発話を受け付けるべき発話者に特定する発話者特定部と、
    特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力する意味解析部と
    を備え、
    前記音声セッション生成部は、N個の前記音声セッションを生成している状態で、前記N個の前記音声セッションが生成されている前記角度方向とは異なる前記角度方向に前記トリガが検出された場合、前記N個の前記音声セッションのうち、前記発話の発生する確率が最も低いと推定される前記音声セッションを終了する
    情報処理装置。
  2. 前記発話者特定部は、前記画像、前記音声、および、前記環境におけるセンシングにより得られたセンシング情報に基づいて、前記発話者を特定する
    請求項に記載の情報処理装置。
  3. 前記トリガは、前記画像、前記音声、および前記センシング情報の少なくともいずれかに基づいて検出される
    請求項に記載の情報処理装置。
  4. 前記トリガは、前記音声から検出される、あらかじめ決められた文言の発話である
    請求項に記載の情報処理装置。
  5. 前記トリガは、前記画像から検出される、あらかじめ決められた動作である
    請求項に記載の情報処理装置。
  6. 前記音声セッション生成部は、前記画像、前記音声、および前記センシング情報の少なくともいずれかに基づいて、前記発話の発生する確率が最も低い前記音声セッションを推定する
    請求項2乃至5のいずれかに記載の情報処理装置。
  7. 前記音声セッション生成部は、前記音声に基づいて、時間的に最も前に前記発話が検出された前記音声セッションを終了する
    請求項に記載の情報処理装置。
  8. 前記トラッキング部は、M個の前記顔をトラッキングしている状態で、前記M個の前記顔がトラッキングされている前記角度方向とは異なる前記角度方向に前記顔が検出された場合、前記M個の前記顔のトラッキングのうち、前記発話する確率が最も低いと推定される前記ユーザの前記顔のトラッキングを終了する
    請求項2乃至5のいずれかに記載の情報処理装置。
  9. 前記トラッキング部は、前記画像および前記センシング情報の少なくともいずれかに基づいて、前記発話する確率が最も低い前記ユーザを推定する
    請求項に記載の情報処理装置。
  10. 前記トラッキング部は、前記画像に基づいて、最も離れた位置にいる前記ユーザの前記顔のトラッキングを終了する
    請求項に記載の情報処理装置。
  11. 前記トラッキング部がトラッキングする前記顔の数Mと、前記音声セッション生成部が生成する前記音声セッションの数Nとは同じ数である
    請求項8乃至10のいずれかに記載の情報処理装置。
  12. 特定された前記発話者による前記発話の音声認識を行う音声認識部
    をさらに備え、
    前記意味解析部は、前記発話の音声認識結果を用いて前記意味解析を行う
    請求項1乃至11のいずれかに記載の情報処理装置。
  13. 前記発話者の要求に対する応答を生成する応答生成部
    をさらに備える
    請求項1乃至12のいずれかに記載の情報処理装置。
  14. 前記環境の前記画像を取得する撮像部と、
    前記環境の前記音声を取得する音声取得部と
    を備える
    請求項1乃至13のいずれかに記載の情報処理装置。
  15. 情報処理装置が、
    ユーザが存在する環境の画像において検出された前記ユーザの顔をトラッキングし、
    前記環境の音声に基づいて、前記ユーザとの対話を開始するトリガが検出された角度方向に、前記ユーザとの対話を行うための音声セッションを生成し、
    前記音声セッションが生成された前記角度方向に、前記画像において検出された前記ユーザの前記顔がトラッキングされている場合、前記角度方向に存在する前記ユーザを、発話を受け付けるべき発話者に特定し、
    特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力し、
    N個の前記音声セッションを生成している状態で、前記N個の前記音声セッションが生成されている前記角度方向とは異なる前記角度方向に前記トリガが検出された場合、前記N個の前記音声セッションのうち、前記発話の発生する確率が最も低いと推定される前記音声セッションを終了する
    情報処理方法。
  16. コンピュータに、
    ユーザが存在する環境の画像において検出された前記ユーザの顔をトラッキングし、
    前記環境の音声に基づいて、前記ユーザとの対話を開始するトリガが検出された角度方向に、前記ユーザとの対話を行うための音声セッションを生成し、
    前記音声セッションが生成された前記角度方向に、前記画像において検出された前記ユーザの前記顔がトラッキングされている場合、前記角度方向に存在する前記ユーザを、発話を受け付けるべき発話者に特定し、
    特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力し、
    N個の前記音声セッションを生成している状態で、前記N個の前記音声セッションが生成されている前記角度方向とは異なる前記角度方向に前記トリガが検出された場合、前記N個の前記音声セッションのうち、前記発話の発生する確率が最も低いと推定される前記音声セッションを終了する
    処理を実行させるためのプログラム。
  17. ユーザが存在する環境において得られた複数のモーダルに基づいて、発話を受け付けるべき前記ユーザをトラッキングしつつ、前記ユーザとの対話を開始するトリガが検出された角度方向に、前記ユーザとの対話を行うための音声セッションを生成するユーザトラッキング部と、
    前記音声セッションが生成された前記角度方向にトラッキングされている前記ユーザによる前記発話の意味解析を行うことで、前記ユーザの要求を出力する意味解析部と
    を備え
    前記ユーザトラッキング部は、N個の前記音声セッションを生成している状態で、前記N個の前記音声セッションが生成されている前記角度方向とは異なる前記角度方向に前記トリガが検出された場合、前記N個の前記音声セッションのうち、前記発話の発生する確率が最も低いと推定される前記音声セッションを終了する
    情報処理装置。
  18. 前記複数のモーダルは、少なくとも前記環境の画像と音声を含む
    請求項17に記載の情報処理装置。
JP2019525931A 2017-11-07 2018-10-24 情報処理装置、情報処理方法、およびプログラム Active JP7215417B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017215067 2017-11-07
JP2017215067 2017-11-07
PCT/JP2018/039409 WO2019093123A1 (ja) 2017-11-07 2018-10-24 情報処理装置および電子機器

Publications (2)

Publication Number Publication Date
JPWO2019093123A1 JPWO2019093123A1 (ja) 2020-09-24
JP7215417B2 true JP7215417B2 (ja) 2023-01-31

Family

ID=66439217

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019525931A Active JP7215417B2 (ja) 2017-11-07 2018-10-24 情報処理装置、情報処理方法、およびプログラム

Country Status (4)

Country Link
US (1) US20200090663A1 (ja)
EP (1) EP3567470A4 (ja)
JP (1) JP7215417B2 (ja)
WO (1) WO2019093123A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7442330B2 (ja) * 2020-02-05 2024-03-04 キヤノン株式会社 音声入力装置およびその制御方法ならびにプログラム
KR20220034571A (ko) 2020-09-11 2022-03-18 삼성전자주식회사 음성에 포함된 커맨드를 확인하는 전자 장치와 이의 동작 방법
WO2024135001A1 (ja) * 2022-12-22 2024-06-27 株式会社Jvcケンウッド 遠隔制御装置及び遠隔制御方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016157662A1 (ja) 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
JP2017010176A (ja) 2015-06-18 2017-01-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器特定方法、機器特定装置及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004038697A1 (en) 2002-10-23 2004-05-06 Koninklijke Philips Electronics N.V. Controlling an apparatus based on speech
JP2006251266A (ja) * 2005-03-10 2006-09-21 Hitachi Ltd 視聴覚連携認識方法および装置
JP2008087140A (ja) * 2006-10-05 2008-04-17 Toyota Motor Corp 音声認識ロボットおよび音声認識ロボットの制御方法
JP5797009B2 (ja) * 2011-05-19 2015-10-21 三菱重工業株式会社 音声認識装置、ロボット、及び音声認識方法
KR101641448B1 (ko) * 2012-03-16 2016-07-20 뉘앙스 커뮤니케이션즈, 인코포레이티드 사용자 전용 자동 음성 인식
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
EP3264258A4 (en) * 2015-02-27 2018-08-15 Sony Corporation Information processing device, information processing method, and program
US20180373992A1 (en) * 2017-06-26 2018-12-27 Futurewei Technologies, Inc. System and methods for object filtering and uniform representation for autonomous systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016157662A1 (ja) 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
JP2017010176A (ja) 2015-06-18 2017-01-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器特定方法、機器特定装置及びプログラム

Also Published As

Publication number Publication date
US20200090663A1 (en) 2020-03-19
EP3567470A4 (en) 2020-03-25
EP3567470A1 (en) 2019-11-13
WO2019093123A1 (ja) 2019-05-16
JPWO2019093123A1 (ja) 2020-09-24

Similar Documents

Publication Publication Date Title
JP6887031B2 (ja) 方法、電子装置、家庭用機器ネットワークおよび記憶媒体
US10762899B2 (en) Speech recognition method and apparatus based on speaker recognition
JP7348288B2 (ja) 音声対話の方法、装置、及びシステム
US10019992B2 (en) Speech-controlled actions based on keywords and context thereof
US20200335128A1 (en) Identifying input for speech recognition engine
CN110689889B (zh) 人机交互方法、装置、电子设备及存储介质
US9256269B2 (en) Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state
KR101726945B1 (ko) 수동 시작/종료 포인팅 및 트리거 구문들에 대한 필요성의 저감
CN103456299A (zh) 一种控制语音识别的方法和装置
JP7215417B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20220059080A1 (en) Realistic artificial intelligence-based voice assistant system using relationship setting
US11393490B2 (en) Method, apparatus, device and computer-readable storage medium for voice interaction
KR20210011146A (ko) 비음성 웨이크업 신호에 기반한 서비스 제공 장치 및 그 방법
JP2019012506A (ja) 機械の自動活性のための方法及びシステム
WO2016206647A1 (zh) 用于控制机器装置产生动作的系统
JP2018075657A (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
US20160343370A1 (en) Speech feedback system
US20240212681A1 (en) Voice recognition device having barge-in function and method thereof
US20240127799A1 (en) Processing continued conversations over multiple devices
US12046234B1 (en) Predicting on-device command execution
RU2746201C2 (ru) Система и способ невербальной активации сервиса на мобильном устройстве
JP2001188896A (ja) 情報処理装置および方法、並びに記録媒体
EP4217845A1 (en) Selecting between multiple automated assistants based on invocation properties
WO2023113877A1 (en) Selecting between multiple automated assistants based on invocation properties
CN115472162A (zh) 通信终端的控制方法、装置、介质及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230102

R151 Written notification of patent or utility model registration

Ref document number: 7215417

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151