JP7215417B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP7215417B2 JP7215417B2 JP2019525931A JP2019525931A JP7215417B2 JP 7215417 B2 JP7215417 B2 JP 7215417B2 JP 2019525931 A JP2019525931 A JP 2019525931A JP 2019525931 A JP2019525931 A JP 2019525931A JP 7215417 B2 JP7215417 B2 JP 7215417B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- voice
- angular direction
- unit
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 45
- 238000003672 processing method Methods 0.000 title claims description 5
- 230000004044 response Effects 0.000 claims description 45
- 238000004458 analytical method Methods 0.000 claims description 41
- 238000000034 method Methods 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 39
- 238000003384 imaging method Methods 0.000 claims description 30
- 230000007613 environmental effect Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 3
- 230000009471 action Effects 0.000 claims description 2
- 239000003795 chemical substances by application Substances 0.000 description 84
- 230000004913 activation Effects 0.000 description 33
- 238000012545 processing Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 13
- 238000001514 detection method Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 238000005401 electroluminescence Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/164—Detection; Localisation; Normalisation using holistic features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- User Interface Of Digital Computer (AREA)
Description
2.ホームエージェントの構成と動作
3.複数人のユーザによる操作の例
4.クラウドコンピューティングへの適用
5.その他
図1は、本技術を適用した応答システムの概要を示している。
(ホームエージェントのハードウェア構成例)
図2は、本技術を適用したホームエージェント20のハードウェア構成例を示すブロック図である。
図3は、ホームエージェント20の機能構成例を示すブロック図である。
ここで、音声セッションの詳細について説明する。
ホームエージェント20は、ユーザの存在する環境において、一定の時間間隔で顔のトラッキングをしながら、起動ワードをトリガとして音声セッションを生成することで、発話者を特定する。
以上においては、ホームエージェント20に対して何らかの操作を行うという意思表示(トリガ)として、「OK Agent.」などのあらかじめ決められた言葉(起動ワード)の発話を例にして説明した。これに限らず、トリガは、撮像部71からの画像、音声取得部72からの音声、センシング部73からのセンシング情報の少なくともいずれかに基づくものであってもよい。
ホームエージェント20は、複数人のユーザによる操作を受け付けることができる。
図8は、複数人のユーザによる操作での音声セッションの制御について説明する図である。
上述したように、ホームエージェント20は、顔をトラッキングしているユーザ毎に音声セッションを生成する。さらに、ホームエージェント20は、音声セッションと顔トラッキングの状態をともに管理することで、図8を参照して説明した音声セッションの制御と連動して、顔のトラッキングを切り替えることができる。
本技術は、クラウドコンピューティングへ適用することもできる。
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
(1)
ユーザが存在する環境の画像と音声に基づいて、所定の角度方向に存在する前記ユーザを、発話を受け付けるべき発話者に特定する発話者特定部と、
特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力する意味解析部と
を備える情報処理装置。
(2)
前記発話者特定部は、前記ユーザとの対話を行うための音声セッションが生成された前記角度方向に、前記画像において検出された前記ユーザの顔がトラッキングされている場合、前記ユーザを前記発話者に特定する
(1)に記載の情報処理装置。
(3)
前記画像において検出された前記ユーザの前記顔をトラッキングするトラッキング部と、
前記ユーザとの対話を開始するトリガが検出された前記角度方向に前記音声セッションを生成する音声セッション生成部と
をさらに備える
(2)に記載の情報処理装置。
(4)
前記発話者特定部は、前記画像、前記音声、および、前記環境におけるセンシングにより得られたセンシング情報に基づいて、前記発話者を特定する
(3)に記載の情報処理装置。
(5)
前記トリガは、前記画像、前記音声、および前記センシング情報の少なくともいずれかに基づいて検出される
(4)に記載の情報処理装置。
(6)
前記トリガは、前記音声から検出される、あらかじめ決められた文言の発話である
(5)に記載の情報処理装置。
(7)
前記トリガは、前記画像から検出される、あらかじめ決められた動作である
(5)に記載の情報処理装置。
(8)
前記音声セッション生成部は、N個の前記音声セッションを生成している状態で、前記N個の前記音声セッションが生成されている前記角度方向とは異なる前記角度方向に前記トリガが検出された場合、前記N個の前記音声セッションのうち、前記発話の発生する確率が最も低いと推定される前記音声セッションを終了する
(3)乃至(7)のいずれかに記載の情報処理装置。
(9)
前記音声セッション生成部は、前記画像、前記音声、および前記センシング情報の少なくともいずれかに基づいて、前記発話の発生する確率が最も低い前記音声セッションを推定する
(8)に記載の情報処理装置。
(10)
前記音声セッション生成部は、前記音声に基づいて、時間的に最も前に前記発話が検出された前記音声セッションを終了する
(9)に記載の情報処理装置。
(11)
前記トラッキング部は、M個の前記顔をトラッキングしている状態で、前記M個の前記顔がトラッキングされている前記角度方向とは異なる前記角度方向に前記顔が検出された場合、前記M個の前記顔のトラッキングのうち、前記発話する確率が最も低いと推定される前記ユーザの前記顔のトラッキングを終了する
(8)乃至(10)のいずれかに記載の情報処理装置。
(12)
前記トラッキング部は、前記画像および前記センシング情報の少なくともいずれかに基づいて、前記発話する確率が最も低い前記ユーザを推定する
(11)に記載の情報処理装置。
(13)
前記トラッキング部は、前記画像に基づいて、最も離れた位置にいる前記ユーザの前記顔のトラッキングを終了する
(12)に記載の情報処理装置。
(14)
前記トラッキング部がトラッキングする前記顔の数Mと、前記音声セッション生成部が生成する前記音声セッションの数Nとは同じ数である
(11)乃至(13)のいずれかに記載の情報処理装置。
(15)
特定された前記発話者による前記発話の音声認識を行う音声認識部
をさらに備え、
前記意味解析部は、前記発話の音声認識結果を用いて前記意味解析を行う
(1)乃至(14)のいずれかに記載の情報処理装置。
(16)
前記発話者の要求に対する応答を生成する応答生成部
をさらに備える
(1)乃至(15)のいずれかに記載の情報処理装置。
(17)
前記環境の前記画像を取得する撮像部と、
前記環境の前記音声を取得する音声取得部と
を備える
(1)乃至(16)のいずれかに記載の情報処理装置。
(18)
情報処理装置が、
ユーザが存在する環境の画像と音声に基づいて、所定の角度方向に存在するユーザを、発話を受け付けるべき発話者に特定し、
特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力する
情報処理方法。
(19)
コンピュータに、
ユーザが存在する環境の画像と音声に基づいて、所定の角度方向に存在するユーザを、発話を受け付けるべき発話者に特定し、
特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力する
処理を実行させるプログラム。
(20)
ユーザが存在する環境の画像を取得する撮像部と、
前記環境の音声を取得する音声取得部と、
前記画像と前記音声に基づいて、所定の角度方向に存在する前記ユーザが、発話を受け付けるべき発話者に特定され、特定された前記発話者による前記発話の意味解析が行われることで出力された前記発話者の要求に対する応答を生成する応答生成部と
を備える電子機器。
(21)
ユーザが存在する環境において得られた複数のモーダルに基づいて、発話を受け付けるべき前記ユーザをトラッキングするユーザトラッキング部と、
トラッキングされている前記ユーザによる前記発話の意味解析を行うことで、前記ユーザの要求を出力する意味解析部と
を備える情報処理装置。
(22)
前記複数のモーダルは、少なくとも前記環境の画像と音声を含む
(21)に記載の情報処理装置。
Claims (18)
- ユーザが存在する環境の画像において検出された前記ユーザの顔をトラッキングするトラッキング部と、
前記環境の音声に基づいて、前記ユーザとの対話を開始するトリガが検出された角度方向に、前記ユーザとの対話を行うための音声セッションを生成する音声セッション生成部と、
前記音声セッションが生成された前記角度方向に、前記画像において検出された前記ユーザの前記顔がトラッキングされている場合、前記角度方向に存在する前記ユーザを、発話を受け付けるべき発話者に特定する発話者特定部と、
特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力する意味解析部と
を備え、
前記音声セッション生成部は、N個の前記音声セッションを生成している状態で、前記N個の前記音声セッションが生成されている前記角度方向とは異なる前記角度方向に前記トリガが検出された場合、前記N個の前記音声セッションのうち、前記発話の発生する確率が最も低いと推定される前記音声セッションを終了する
情報処理装置。 - 前記発話者特定部は、前記画像、前記音声、および、前記環境におけるセンシングにより得られたセンシング情報に基づいて、前記発話者を特定する
請求項1に記載の情報処理装置。 - 前記トリガは、前記画像、前記音声、および前記センシング情報の少なくともいずれかに基づいて検出される
請求項2に記載の情報処理装置。 - 前記トリガは、前記音声から検出される、あらかじめ決められた文言の発話である
請求項3に記載の情報処理装置。 - 前記トリガは、前記画像から検出される、あらかじめ決められた動作である
請求項3に記載の情報処理装置。 - 前記音声セッション生成部は、前記画像、前記音声、および前記センシング情報の少なくともいずれかに基づいて、前記発話の発生する確率が最も低い前記音声セッションを推定する
請求項2乃至5のいずれかに記載の情報処理装置。 - 前記音声セッション生成部は、前記音声に基づいて、時間的に最も前に前記発話が検出された前記音声セッションを終了する
請求項6に記載の情報処理装置。 - 前記トラッキング部は、M個の前記顔をトラッキングしている状態で、前記M個の前記顔がトラッキングされている前記角度方向とは異なる前記角度方向に前記顔が検出された場合、前記M個の前記顔のトラッキングのうち、前記発話する確率が最も低いと推定される前記ユーザの前記顔のトラッキングを終了する
請求項2乃至5のいずれかに記載の情報処理装置。 - 前記トラッキング部は、前記画像および前記センシング情報の少なくともいずれかに基づいて、前記発話する確率が最も低い前記ユーザを推定する
請求項8に記載の情報処理装置。 - 前記トラッキング部は、前記画像に基づいて、最も離れた位置にいる前記ユーザの前記顔のトラッキングを終了する
請求項9に記載の情報処理装置。 - 前記トラッキング部がトラッキングする前記顔の数Mと、前記音声セッション生成部が生成する前記音声セッションの数Nとは同じ数である
請求項8乃至10のいずれかに記載の情報処理装置。 - 特定された前記発話者による前記発話の音声認識を行う音声認識部
をさらに備え、
前記意味解析部は、前記発話の音声認識結果を用いて前記意味解析を行う
請求項1乃至11のいずれかに記載の情報処理装置。 - 前記発話者の要求に対する応答を生成する応答生成部
をさらに備える
請求項1乃至12のいずれかに記載の情報処理装置。 - 前記環境の前記画像を取得する撮像部と、
前記環境の前記音声を取得する音声取得部と
を備える
請求項1乃至13のいずれかに記載の情報処理装置。 - 情報処理装置が、
ユーザが存在する環境の画像において検出された前記ユーザの顔をトラッキングし、
前記環境の音声に基づいて、前記ユーザとの対話を開始するトリガが検出された角度方向に、前記ユーザとの対話を行うための音声セッションを生成し、
前記音声セッションが生成された前記角度方向に、前記画像において検出された前記ユーザの前記顔がトラッキングされている場合、前記角度方向に存在する前記ユーザを、発話を受け付けるべき発話者に特定し、
特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力し、
N個の前記音声セッションを生成している状態で、前記N個の前記音声セッションが生成されている前記角度方向とは異なる前記角度方向に前記トリガが検出された場合、前記N個の前記音声セッションのうち、前記発話の発生する確率が最も低いと推定される前記音声セッションを終了する
情報処理方法。 - コンピュータに、
ユーザが存在する環境の画像において検出された前記ユーザの顔をトラッキングし、
前記環境の音声に基づいて、前記ユーザとの対話を開始するトリガが検出された角度方向に、前記ユーザとの対話を行うための音声セッションを生成し、
前記音声セッションが生成された前記角度方向に、前記画像において検出された前記ユーザの前記顔がトラッキングされている場合、前記角度方向に存在する前記ユーザを、発話を受け付けるべき発話者に特定し、
特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力し、
N個の前記音声セッションを生成している状態で、前記N個の前記音声セッションが生成されている前記角度方向とは異なる前記角度方向に前記トリガが検出された場合、前記N個の前記音声セッションのうち、前記発話の発生する確率が最も低いと推定される前記音声セッションを終了する
処理を実行させるためのプログラム。 - ユーザが存在する環境において得られた複数のモーダルに基づいて、発話を受け付けるべき前記ユーザをトラッキングしつつ、前記ユーザとの対話を開始するトリガが検出された角度方向に、前記ユーザとの対話を行うための音声セッションを生成するユーザトラッキング部と、
前記音声セッションが生成された前記角度方向にトラッキングされている前記ユーザによる前記発話の意味解析を行うことで、前記ユーザの要求を出力する意味解析部と
を備え、
前記ユーザトラッキング部は、N個の前記音声セッションを生成している状態で、前記N個の前記音声セッションが生成されている前記角度方向とは異なる前記角度方向に前記トリガが検出された場合、前記N個の前記音声セッションのうち、前記発話の発生する確率が最も低いと推定される前記音声セッションを終了する
情報処理装置。 - 前記複数のモーダルは、少なくとも前記環境の画像と音声を含む
請求項17に記載の情報処理装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017215067 | 2017-11-07 | ||
JP2017215067 | 2017-11-07 | ||
PCT/JP2018/039409 WO2019093123A1 (ja) | 2017-11-07 | 2018-10-24 | 情報処理装置および電子機器 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019093123A1 JPWO2019093123A1 (ja) | 2020-09-24 |
JP7215417B2 true JP7215417B2 (ja) | 2023-01-31 |
Family
ID=66439217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019525931A Active JP7215417B2 (ja) | 2017-11-07 | 2018-10-24 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20200090663A1 (ja) |
EP (1) | EP3567470A4 (ja) |
JP (1) | JP7215417B2 (ja) |
WO (1) | WO2019093123A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7442330B2 (ja) * | 2020-02-05 | 2024-03-04 | キヤノン株式会社 | 音声入力装置およびその制御方法ならびにプログラム |
KR20220034571A (ko) | 2020-09-11 | 2022-03-18 | 삼성전자주식회사 | 음성에 포함된 커맨드를 확인하는 전자 장치와 이의 동작 방법 |
WO2024135001A1 (ja) * | 2022-12-22 | 2024-06-27 | 株式会社Jvcケンウッド | 遠隔制御装置及び遠隔制御方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016157662A1 (ja) | 2015-03-31 | 2016-10-06 | ソニー株式会社 | 情報処理装置、制御方法、およびプログラム |
JP2017010176A (ja) | 2015-06-18 | 2017-01-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 機器特定方法、機器特定装置及びプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004038697A1 (en) | 2002-10-23 | 2004-05-06 | Koninklijke Philips Electronics N.V. | Controlling an apparatus based on speech |
JP2006251266A (ja) * | 2005-03-10 | 2006-09-21 | Hitachi Ltd | 視聴覚連携認識方法および装置 |
JP2008087140A (ja) * | 2006-10-05 | 2008-04-17 | Toyota Motor Corp | 音声認識ロボットおよび音声認識ロボットの制御方法 |
JP5797009B2 (ja) * | 2011-05-19 | 2015-10-21 | 三菱重工業株式会社 | 音声認識装置、ロボット、及び音声認識方法 |
KR101641448B1 (ko) * | 2012-03-16 | 2016-07-20 | 뉘앙스 커뮤니케이션즈, 인코포레이티드 | 사용자 전용 자동 음성 인식 |
JP2014153663A (ja) * | 2013-02-13 | 2014-08-25 | Sony Corp | 音声認識装置、および音声認識方法、並びにプログラム |
EP3264258A4 (en) * | 2015-02-27 | 2018-08-15 | Sony Corporation | Information processing device, information processing method, and program |
US20180373992A1 (en) * | 2017-06-26 | 2018-12-27 | Futurewei Technologies, Inc. | System and methods for object filtering and uniform representation for autonomous systems |
-
2018
- 2018-10-24 JP JP2019525931A patent/JP7215417B2/ja active Active
- 2018-10-24 WO PCT/JP2018/039409 patent/WO2019093123A1/ja unknown
- 2018-10-24 US US16/468,527 patent/US20200090663A1/en not_active Abandoned
- 2018-10-24 EP EP18875327.1A patent/EP3567470A4/en not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016157662A1 (ja) | 2015-03-31 | 2016-10-06 | ソニー株式会社 | 情報処理装置、制御方法、およびプログラム |
JP2017010176A (ja) | 2015-06-18 | 2017-01-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 機器特定方法、機器特定装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20200090663A1 (en) | 2020-03-19 |
EP3567470A4 (en) | 2020-03-25 |
EP3567470A1 (en) | 2019-11-13 |
WO2019093123A1 (ja) | 2019-05-16 |
JPWO2019093123A1 (ja) | 2020-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6887031B2 (ja) | 方法、電子装置、家庭用機器ネットワークおよび記憶媒体 | |
US10762899B2 (en) | Speech recognition method and apparatus based on speaker recognition | |
JP7348288B2 (ja) | 音声対話の方法、装置、及びシステム | |
US10019992B2 (en) | Speech-controlled actions based on keywords and context thereof | |
US20200335128A1 (en) | Identifying input for speech recognition engine | |
CN110689889B (zh) | 人机交互方法、装置、电子设备及存储介质 | |
US9256269B2 (en) | Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state | |
KR101726945B1 (ko) | 수동 시작/종료 포인팅 및 트리거 구문들에 대한 필요성의 저감 | |
CN103456299A (zh) | 一种控制语音识别的方法和装置 | |
JP7215417B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US20220059080A1 (en) | Realistic artificial intelligence-based voice assistant system using relationship setting | |
US11393490B2 (en) | Method, apparatus, device and computer-readable storage medium for voice interaction | |
KR20210011146A (ko) | 비음성 웨이크업 신호에 기반한 서비스 제공 장치 및 그 방법 | |
JP2019012506A (ja) | 機械の自動活性のための方法及びシステム | |
WO2016206647A1 (zh) | 用于控制机器装置产生动作的系统 | |
JP2018075657A (ja) | 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム | |
US20160343370A1 (en) | Speech feedback system | |
US20240212681A1 (en) | Voice recognition device having barge-in function and method thereof | |
US20240127799A1 (en) | Processing continued conversations over multiple devices | |
US12046234B1 (en) | Predicting on-device command execution | |
RU2746201C2 (ru) | Система и способ невербальной активации сервиса на мобильном устройстве | |
JP2001188896A (ja) | 情報処理装置および方法、並びに記録媒体 | |
EP4217845A1 (en) | Selecting between multiple automated assistants based on invocation properties | |
WO2023113877A1 (en) | Selecting between multiple automated assistants based on invocation properties | |
CN115472162A (zh) | 通信终端的控制方法、装置、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210913 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220906 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220909 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230102 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7215417 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |