JP7317403B2 - Processing device, processing method, and program - Google Patents
Processing device, processing method, and program Download PDFInfo
- Publication number
- JP7317403B2 JP7317403B2 JP2022014985A JP2022014985A JP7317403B2 JP 7317403 B2 JP7317403 B2 JP 7317403B2 JP 2022014985 A JP2022014985 A JP 2022014985A JP 2022014985 A JP2022014985 A JP 2022014985A JP 7317403 B2 JP7317403 B2 JP 7317403B2
- Authority
- JP
- Japan
- Prior art keywords
- blinking
- interactive device
- timing
- processing
- dialogue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02B—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
- Y02B20/00—Energy efficient lighting technologies, e.g. halogen lamps or gas discharge lamps
- Y02B20/40—Control techniques providing energy savings, e.g. smart controller or presence detection
Landscapes
- Manipulator (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- User Interface Of Digital Computer (AREA)
Description
本発明は、人と対話装置とのコミュニケーションを支援する技術に関する。 The present invention relates to technology for supporting communication between a person and an interactive device.
人と対話装置との疑似的なコミュニケーション(以下、単に「コミュニケーション」という。)を実現する技術が、従来から提案されている。特許文献1は、対話型の玩具を開示している。また、目の瞬きを模した動作を行う対話装置が提案されている。特許文献2は、CGキャラクタタの目をあらかじめ設定される瞬きの間隔により開閉させることを開示している。特許文献3は、頭の頷き動作のタイミングを起点とし、経時的に指数分布させたタイミングで瞬き動作をするロボットを開示している。なお、話し手及び聞き手の瞬きに関して、本件の発明者らによって、非特許文献1及び非特許文献2に以下の事項が開示されている。非特許文献1は、話し手と聞き手の瞬きが時間遅れで同期することを開示している。また、非特許文献1は、話し手の瞬きは、話の終わり掛け、又は発話の合間で増加することを開示している。非特許文献2は、ロボットである話し手と人間である聞き手との間で、瞬きが時間遅れで同期することを開示している。 Techniques for realizing pseudo-communication (hereinafter simply referred to as "communication") between a person and an interactive device have been conventionally proposed. US Pat. No. 5,300,000 discloses an interactive toy. Also, an interactive device has been proposed that simulates the blinking of an eye. Patent Literature 2 discloses opening and closing the eyes of a CG character at preset intervals between blinks. Patent Literature 3 discloses a robot that starts from the timing of a nodding motion of the head and performs a blinking motion at timings that are exponentially distributed over time. Regarding the blinking of the speaker and the listener, the following items are disclosed in Non-Patent Document 1 and Non-Patent Document 2 by the inventors of this case. Non-Patent Document 1 discloses that the blinks of the speaker and the listener are synchronized with a time delay. In addition, Non-Patent Document 1 discloses that a speaker's blinking increases near the end of a talk or between utterances. Non-Patent Document 2 discloses the time-delayed synchronization of blinks between a robot speaker and a human listener.
ユーザと対話装置との間のコミュニケーションとは無関係に、対話装置が瞬き動作をしても、コミュニケーションの質の向上に寄与することが難しい場合がある。 Regardless of the communication between the user and the interactive device, even if the interactive device blinks, it may be difficult to contribute to improving the quality of communication.
そこで、本発明は、瞬き動作を用いて対話装置とユーザとのコミュニケーションを支援することを目的とする。 SUMMARY OF THE INVENTION Accordingly, it is an object of the present invention to support communication between an interactive device and a user by using blinking motions.
本発明の一実施形態は、対話装置の周辺の環境を示す環境情報を取得する環境情報取得部と、前記環境情報に基づいて前記対話装置が行う瞬き動作の頻度を制御する瞬き動作制御部と、を有する処理装置を提供する。
上記処理装置において、前記瞬き動作制御部は、前記対話装置の周辺の環境と、前記環境の下で人間が行う瞬きとの関係を学習し、当該関係に基づいて前記対話装置に瞬き動作をさせてもよい。
上記処理装置において、前記環境情報は、ユーザから前記対話装置に対する対話情報であってもよい。
上記処理装置において、前記瞬き動作制御部は、前記環境情報が所定の条件をみたすとき、前記対話装置が行う瞬き動作の頻度を高くしてもよい。
上記処理装置において、前記瞬き動作制御部は、前記学習結果にもとづいて前記対話情報が意外性の高い話題になったと判断したときには瞬き動作の頻度を高くしてもよい。
本発明の一実施形態は、コンピュータが実行する処理方法であって、対話装置の周辺の環境を示す環境情報を取得し、前記環境情報に基づいて前記対話装置が行う瞬き動作の頻度を制御する処理方法を提供する。
本発明の一実施形態は、コンピュータに、対話装置の周辺の環境を示す環境情報を取得し、前記環境情報に基づいて前記対話装置が行う瞬き動作の頻度を制御することを実現させるためのプログラムを提供する。
本発明の一実施形態は、特定の期間または場面における対話装置による第1瞬き動作回数を取得する第1取得部と、前記特定の期間における前記対話装置のユーザによる第2瞬き動作回数を取得する第2取得部と、所定の期間における前記第1瞬き動作回数および前記第2瞬き動作回数に応じた対話処理を行う処理部と、を有する処理装置を提供する。
上記処理装置において、前記処理部は、前記特定の期間または場面における前記第1瞬き動作回数および前記第2瞬き動作回数に基づいた評価値を算出し、前記評価値と所定の閾値との関係に基づいて対話処理を行ってもよい。
上記処理装置において、前記評価値が所定の閾値未満であるとき、前記処理部は、現在の話題を変更してもよい。
上記処理装置において、前記評価値が所定の閾値未満であるとき、前記処理部は、対話処理を終了してもよい。
上記処理装置において、前記評価値が所定の閾値以上であるとき、前記処理部は、現在の話題を継続してもよい。
本発明の一実施形態は、コンピュータが実行する処理方法であって、特定の期間または場面における対話装置による第1瞬き動作回数を取得し、前記特定の期間における前記対話装置のユーザによる第2瞬き動作回数を取得し、所定の期間における前記第1瞬き動作回数および前記第2瞬き動作回数に応じた対話処理を行う、処理方法を提供する。
本発明の一実施形態は、コンピュータに、特定の期間または場面における対話装置による第1瞬き動作回数を取得し、前記特定の期間における前記対話装置のユーザによる第2瞬き動作回数を取得し、所定の期間における前記第1瞬き動作回数および前記第2瞬き動作回数に応じた対話処理を行う、ことを実現させるためのプログラムを提供する。
本発明の一実施形態は、対話装置の瞬き動作のタイミングを取得する第1取得部と、前記対話装置のユーザの瞬きのタイミングを取得する第2取得部と、前記瞬き動作のタイミングと前記ユーザの瞬きのタイミングとの差異に応じた処理を行う処理部と、を有する処理装置を提供する。
An embodiment of the present invention comprises an environment information acquisition unit that acquires environment information indicating the environment around an interaction device, and a blinking action control unit that controls the frequency of blinking actions performed by the interaction device based on the environment information. A processing apparatus is provided having:
In the above processing device, the blinking motion control unit learns the relationship between the surrounding environment of the interactive device and the blinking performed by a human under the environment, and causes the interactive device to perform the blinking motion based on the relationship. may
In the above processing device, the environment information may be dialogue information from a user to the dialogue device.
In the above processing device, the blinking motion control section may increase the frequency of blinking motions performed by the interactive device when the environment information satisfies a predetermined condition.
In the above processing device, the blinking motion control unit may increase the frequency of blinking motions when determining that the dialogue information has become a highly unexpected topic based on the learning result.
An embodiment of the present invention is a processing method executed by a computer, in which environmental information indicating the environment around an interactive device is obtained, and the frequency of blinking performed by the interactive device is controlled based on the environmental information. Provide processing methods.
An embodiment of the present invention is a program for causing a computer to obtain environmental information indicating the environment around an interactive device and to control the frequency of blinking actions performed by the interactive device based on the environmental information. I will provide a.
An embodiment of the present invention comprises: a first acquisition unit that acquires the number of first blinking actions performed by an interactive device during a specific period or scene; A processing device is provided that includes a second acquisition unit and a processing unit that performs interactive processing according to the number of first blinking operations and the number of second blinking operations in a predetermined period.
In the above processing device, the processing unit calculates an evaluation value based on the number of times of the first blinking action and the number of times of the second blinking action in the specific period or scene, and determines the relationship between the evaluation value and a predetermined threshold value. You may perform interactive processing based on.
In the above processing device, the processing unit may change the current topic when the evaluation value is less than a predetermined threshold.
In the above processing device, the processing unit may end the interactive processing when the evaluation value is less than a predetermined threshold.
In the above processing device, the processing unit may continue the current topic when the evaluation value is equal to or greater than a predetermined threshold.
An embodiment of the present invention is a computer-implemented processing method, which obtains the number of first blinking actions by an interactive device in a specific period or scene, Provided is a processing method that acquires the number of operations and performs interactive processing according to the number of times of the first blinking operation and the number of times of the second blinking operation in a predetermined period.
According to an embodiment of the present invention, a computer acquires a first number of blinking actions by an interactive device in a specific period or scene, acquires a second number of blinking actions by a user of the interactive device in the specific period, and obtains a predetermined number of blinking actions. A program is provided for realizing interactive processing according to the number of times of the first blinking action and the number of times of the second blinking action in the period of .
An embodiment of the present invention comprises: a first acquisition unit that acquires a blinking timing of a dialogue device; a second acquisition unit that acquires a blinking timing of a user of the dialogue device; and a processing unit that performs processing according to the difference from the timing of blinking.
上記処理装置において、前記処理部は、前記差異に基づく指標値に応じた処理を行って
もよい。
In the above processing device, the processing unit may perform processing according to the index value based on the difference.
上記処理装置において、前記処理部は、前記ユーザの瞬きのタイミングが前記瞬き動作のタイミングに応じた所定期間内に含まれる度合いに応じた処理を行ってもよい。 In the above processing device, the processing unit may perform processing according to the degree to which the blinking timing of the user is included within a predetermined period corresponding to the timing of the blinking motion.
上記処理装置において、前記所定期間は、前記瞬き動作のタイミングから500ミリ秒以下の時点を含んでもよい。 In the above processing device, the predetermined period of time may include a time point of 500 milliseconds or less from the timing of the blinking action.
上記処理装置において、前記処理部は、前記ユーザの瞬きのタイミング及び前記瞬き動作のタイミングを所定の時間軸上に時刻順に並べた第1データにおける前記度合いと、前記ユーザの瞬きのタイミング及び前記瞬き動作のタイミングの少なくとも一方の順番を変更した第2データにおける前記度合いとに応じて、前記処理を行ってもよい。 In the above processing device, the processing unit stores the degree in first data in which the user's blink timing and the blink action timing are arranged in chronological order on a predetermined time axis, the user's blink timing and the blink. The processing may be performed according to the degree in the second data in which the order of at least one of the operation timings is changed.
上記処理装置において、前記処理部は、前記対話装置に前記差異に応じた対話処理を行わせてもよい。 In the above processing device, the processing unit may cause the dialogue device to perform dialogue processing according to the difference.
上記処理装置において、前記処理部は、前記対話装置の識別子と対応付けて、前記差異に応じた評価データを出力してもよい。 In the above processing device, the processing unit may output evaluation data corresponding to the difference in association with an identifier of the interactive device.
上記処理装置において、前記対話装置の周辺の環境を示す環境情報を取得する環境情報取得部と、前記環境情報に応じた第1タイミングに、前記対話装置に瞬き動作をさせる瞬き動作制御部と、を有してもよい。 In the above processing device, an environment information acquisition unit that acquires environment information indicating an environment around the interaction device; a blinking operation control unit that causes the interaction device to perform a blinking operation at a first timing according to the environment information; may have
上記処理装置において、前記ユーザが瞬きをするタイミングと前記環境とを対応付けたデータを記憶装置に蓄積させる記憶制御部を有し、前記瞬き動作制御部は、前記第1タイミングを、前記記憶装置に蓄積されたデータと前記環境情報とに応じたタイミングとしてもよい。 In the above processing device, a storage control unit is provided for accumulating in a storage device data that associates the timing at which the user blinks with the environment, and the blinking operation control unit stores the first timing in the storage device. The timing may be determined according to the data accumulated in the storage and the environmental information.
上記処理装置において、前記瞬き動作制御部は、さらに、前記第1タイミングとは異なる第2タイミングに前記対話装置に瞬き動作をさせてもよい。 In the processing device described above, the blinking motion control section may cause the interactive device to perform a blinking motion at a second timing different from the first timing.
上記処理装置において、目の瞼に相当する瞼部と、前記瞼部を開閉させることにより、前記瞼部の瞬き動作を制御する瞬き動作制御部と、を有し、前記第1取得部は、前記瞼部の瞬き動作のタイミングを取得してもよい。 The processing device described above includes an eyelid portion corresponding to an eyelid, and a blinking motion control portion that controls a blinking motion of the eyelid portion by opening and closing the eyelid portion, wherein the first obtaining portion comprises: The timing of the blinking motion of the eyelid may be acquired.
上記処理装置において、表示部と、前記表示部に表示されたオブジェクトの瞬き動作を制御する瞬き動作制御部と、を有し、前記第1取得部は、前記オブジェクトの瞬き動作のタイミングを取得してもよい。 The above processing device has a display unit and a blinking action control unit that controls a blinking action of an object displayed on the display unit, and the first acquisition unit acquires the timing of the blinking action of the object. may
本発明の一実施形態は、対話装置の瞬き動作のタイミング、及び前記対話装置のユーザの瞬きのタイミングを取得し、前記瞬き動作のタイミングと前記ユーザの瞬きのタイミングとの差異に応じた処理を行う、処理方法を提供する。 An embodiment of the present invention acquires the timing of a blinking action of an interactive device and the timing of a blinking of a user of the interactive device, and performs processing according to the difference between the timing of the blinking action and the timing of the user's blinking. to do, to provide a treatment method.
本発明の一実施形態は、コンピュータに、対話装置の瞬き動作のタイミング、及び前記対話装置のユーザの瞬きのタイミングを取得し、前記瞬き動作のタイミングと前記ユーザの瞬きのタイミングとの差異に応じた処理を行う機能を実現させるためのプログラムを提供する。 In one embodiment of the present invention, a computer acquires the timing of a blinking action of an interactive device and the timing of a blinking of a user of the interactive device, and according to the difference between the timing of the blinking action and the timing of the user's blinking, Provide a program for realizing the function to perform the processing.
本発明によれば、瞬き動作を用いて対話装置とユーザとのコミュニケーションを支援することができる。 According to the present invention, it is possible to support communication between the interactive device and the user by using blinking motions.
以下、本発明の一実施形態について、図面を参照しながら詳細に説明する。以下に示す実施形態は本発明の実施形態の一例であって、本発明はこれらの実施形態に限定されるものではない。なお、本実施形態で参照する図面において、同一部分又は同様な機能を有する部分には同一の符号又は類似の符号(数字の後にA、Bなどを付しただけの符号)を付し、その繰り返しの説明は省略する場合がある。 An embodiment of the present invention will be described in detail below with reference to the drawings. The embodiments shown below are examples of embodiments of the present invention, and the present invention is not limited to these embodiments. In the drawings referred to in this embodiment, the same parts or parts having similar functions are denoted by the same reference numerals or similar reference numerals (reference numerals followed by A, B, etc.). may be omitted.
発明者は、話し手及び聞き手の瞬きのタイミングの差異を、当該話し手及び聞き手が行うコミュニケーションの質の評価に用いることができる、という知見を得た。例えば、話し手及び聞き手の瞬きのタイミングの一致度合いが高い場合、聞き手は話し手の発話に対して高い関心を示していると推測することができる。反対に、その一致度合いが低い場合、聞き手は話し手の発話に対してさほど関心を示していないと推測することができる。このような知見を得るに至った検証については、後述する。以下、対話装置とそのユーザとのコミュニケーションを実現する技術に、このような知見を適用した場合の実施の形態を説明する。 The inventors have found that the difference in blink timing between the speaker and the listener can be used to evaluate the quality of communication performed by the speaker and the listener. For example, when the blink timings of the speaker and the listener match to a high degree, it can be inferred that the listener shows a high degree of interest in the speaker's utterance. Conversely, if the degree of agreement is low, it can be inferred that the listener does not show much interest in the speaker's utterance. The verification that led to such findings will be described later. An embodiment in which such knowledge is applied to a technique for realizing communication between an interactive device and its user will be described below.
[第1実施形態]
図1は、本発明の第1実施形態である対話装置10の外観構成の一例を示す図である。対話装置10は、ユーザUと対話する処理装置である。ユーザUは、対話装置10のユーザである。ユーザUは、対話装置10と対面し、対話装置10と対話によるコミュニケーションをとる。
[First embodiment]
FIG. 1 is a diagram showing an example of the external configuration of a
対話装置10は、生物を模した外観を有するロボットである。対話装置10は、例えば、人間若しくはその他の動物(例えば犬又は猫)、又は架空の人物(例えば、アニメーションの登場人物)を模した外観を有する。対話装置10の外観については、問わない。
The
対話装置10は、顔部101と、瞼部102とを有する。顔部101は、顔に相当する部位である、瞼部102は、顔部101に配置され、目の瞼に相当する部位である。瞼部102は、開閉することにより、目の瞬きを模した動作(以下「瞬き動作」という。)をする。本実施形態では、2つの瞼部102が同じ動作をする。
The
図2は、対話装置10の瞬き動作を説明する図である。対話装置10は、平常時において、瞼部102を開状態とする。対話装置10は、瞬き動作をするタイミングで、瞼部102を開状態から閉状態に遷移させ(矢印A1)、閉状態から開状態に遷移させる(矢印A2)。瞼部102の開状態から閉状態、及び閉状態から開状態の遷移のタイミングは、瞼部102が目の瞬きを模した動作をするようにあらかじめ設定されている。
FIG. 2 is a diagram for explaining the blinking action of the
対話装置10は、口、鼻、及びその他の部位を顔部101に有してもよい。対話装置10は、さらに、顔部101に配置されたこれらの各部位を動作させてもよいが、本実施形態では説明を省略する。
The
対話装置10の設置場所、及び用途は特に問わない。対話装置10は、例えば商業施設(例えば店舗)、公共施設又はその他の施設に設置される。この場合、ユーザUは、当該施設の利用者である。対話装置10は、医療用、玩具又はその他の用途で用いられてもよい。
The installation location and use of the
図3は、対話装置10のハードウェア構成を示すブロック図である。対話装置10は、制御部11と、音声入力部12と、音声出力部13と、記憶部14と、撮像部15と、瞼部102とを有する。制御部11は、対話装置10の各部を制御する。制御部11は、例えば、CPUで例示される演算処理装置、及びメモリを含む。メモリは、例えば、演算処理装置がワークエリアとして使用するRAM、及び制御プログラムを記憶するROMを含む。
FIG. 3 is a block diagram showing the hardware configuration of the
音声入力部12は、音声の入力を受け付ける。音声入力部12は、入力を受け付けた音声を音声信号に変換して、制御部11に供給する。音声入力部12は、例えば、マイクロフォン、A(Analog)/D(Digital)変換回路、及びフィルタを含む。
The
音声出力部13は、音声を出力する。音声出力部13は、制御部11から供給された音声信号から変換した音を出力する。音声出力部13は、例えば、D/A変換回路、及びスピーカを含む。
The
記憶部14は、データを記憶する。記憶部14は、例えば、プログラム141、及び対
話データ142を記憶する。プログラム141は、制御部11に所定の機能を実現させるためのプログラムである。
The
対話データ142は、対話装置10がユーザUと対話するためのデータである。対話データ142は、例えば、入力データと出力データとを対応付けたデータを複数記憶している。入力データは、ユーザUが発話すると想定される発話の内容を文字列で表したデータである。出力音声は、当該発話に対する応答の内容を文字列で表したデータである。例えば、入力データが「名前は?」である場合、当該入力データに対応付けられる出力データは「私の名前はXXです。」(「XX」は、対話装置10の名称)である。
The
対話データ142は、話題を識別する識別子を、入力データ及び出力データに対応付けて含んでもよい。例えば、サッカーに関する発話に用いられる入力データ及び出力データには、第1識別子「ID001」が対応付けられる。食事に関する発話に用いられる入力データ及び出力データには、第2識別子「ID002」が対応付けられる。
なお、対話データ142は、別の形式のデータであってもよい。記憶部14は、例えば、光学式記録媒体、磁気記録媒体、及び半導体記録媒体で例示される任意の形式の記録媒体(記憶装置)を含みうる。
It should be noted that the
撮像部15は、被写体を撮像し、撮像した画像を示す撮像データを生成する。被写体は、ユーザUである。撮像部15は、例えば、CCD(Charge Coupled Device)イメージセンサで例示される撮像素子、及びレンズを含む。撮像部15のレンズは、例えば顔部101における瞼部102の近傍に設けられるが、顔部101におけるその他の位置、又は顔部101以外の位置に設けられてもよい。
The
瞼部102は、制御部11の制御に応じて開閉する。瞼部102は、例えば、開閉機構(例えば、ダイヤフラム及びシリンダ)、及び当該開閉機構を駆動させる駆動回路を含む。瞬き動作を実現するための機構については、種々の公知技術を適用し得る。
The
図4は、対話装置10の機能構成を示すブロック図である。対話装置10の制御部11は、プログラム141を実行することにより、瞬き動作制御部111と、第1取得部112と、瞬き検出部113と、第2取得部114と、処理部115とに相当する機能を実現する。
FIG. 4 is a block diagram showing the functional configuration of the
瞬き動作制御部111は、瞼部102を開閉させることにより、対話装置10の瞬き動作を制御する。瞬き動作制御部111は、例えば、瞬き動作をするための瞬き制御データを、瞼部102に出力する。瞼部102は、瞬き制御データに応じて開閉する。
The blinking
第1取得部112は、対話装置10(瞼部102)の瞬き動作のタイミングを取得する。第1取得部112は、例えば、瞬き動作制御部111から瞬き動作のタイミングを示すデータを取得する。
The
瞬き検出部113は、ユーザUの瞬きを検出する。具体的には、瞬き検出部113は、撮像部15により生成された撮像データに基づいて、ユーザUの瞬きを検出する。
The
第2取得部114は、ユーザUの瞬きのタイミングを取得する。第2取得部114は、本実施形態では、ユーザUの瞬きのタイミングを示すデータ(以下「瞬きデータ」という。)を取得する。瞬きデータは、瞬きが検出された時刻を、その時刻順に並べたデータ(第1データ)である。第2取得部114は、例えば、瞬き検出部113による瞬きの検出結果に基づいて、瞬きデータを生成する。
The
処理部115は、対話装置10の瞬き動作のタイミングとユーザUの瞬きのタイミングとの差異に応じた処理を行う。処理部115は、本実施形態では、対話処理を行う。対話処理は、対話データ142を用いて対話するための処理である。具体的には、対話処理は、音声入力部12を介して入力された音声を認識して入力データに変換する処理を含む。また、対話処理は、当該入力データに対応付けられた出力データを音声に変換し、音声入力部12を介して出力する処理を含む。
The
次に、対話装置10の動作を説明する。図5は、対話装置10が実行する処理を示すフローチャートである。
Next, the operation of the
処理部115は、対話処理を開始する(ステップS1)。対話処理を開始する契機は問わない。処理部115は、ユーザUの存在を認識したタイミングであってもよい。対話装置10のユーザは、例えば、撮像データが示す画像から認識される人、又は撮像部15の撮像方向に位置する人、撮像部15の位置に応じた位置に居る人である。対話装置10のユーザは、対話装置10にログインした人であってもよい。また、処理部115は、音声入力部12を介して入力された音声から所定の音声(例えば、挨拶を示す音声)を認識した場合、又は所定の操作を受け付けた場合に、対話処理を開始してもよい。
The
次に、処理部115は、撮像部15に撮像を開始させる(ステップS2)。撮像が開始すると、対話装置10は以下で説明する処理を行う。
Next, the
まず、瞬き動作に関する処理を説明する。瞬き動作制御部111は、瞬き動作をするかどうかを判断する(ステップS11)。瞬き動作制御部111は、例えば、対話装置10の発話中、又は発話が終了したタイミングで、瞬き動作をすると判断する。発話が終了したタイミングは、例えば、話の切れ目となるタイミングである。瞬き動作のタイミングは、ランダムなタイミングを含んでもよい。
First, the processing related to the blinking motion will be described. The blinking
ステップS11で「YES」と判断した場合、瞬き動作制御部111は、対話装置10に瞬き動作をさせる(ステップS12)。ステップS11で「NO」と判断した場合、瞬き動作制御部111は、瞬き動作をしない。そして、対話装置10の処理はステップS3に進む。
If it is determined as "YES" in step S11, the blinking
次に、対話装置10とユーザとのコミュニケーションの質の評価に関する処理を説明する。
Next, the process for evaluating the quality of communication between the
第1取得部112は、対話装置10の瞬き動作のタイミングを取得する(ステップS21)。次に、瞬き検出部113は、撮像部15から供給された撮像データに基づいて、ユーザUの瞬きを検出する(ステップS22)。瞬きの検出のアルゴリズムは、種々の公知技術が適用されてよい。瞬き検出部113は、例えば、撮像データが示す画像から、ユーザUの目の周縁に沿って複数の特徴点を抽出する。瞬き検出部113は、例えば、Haar-likeに基づいて特徴点を抽出する。瞬き検出部113は、複数のフレームの撮像データに基づいて、抽出した特徴点の移動の方向、及びその速度の時間的な変化を特定することにより、ユーザUの瞬きの有無を検出する。例えば人の瞬きに起因して、およそ0~300ミリ秒の間に、特徴点の急激な速度の変化が生じる。そこで、瞬き検出部113は、所定期間内の速度変化が閾値以上となった場合、ユーザUの瞬きがあったことを検出する。
The
次に、第2取得部114は、瞬きの検出結果に基づいて、ユーザUの瞬きのタイミングを示す瞬きデータを取得する(ステップS23)。
Next, the
次に、処理部115は、指標算出処理を行う(ステップS24)。指標算出処理は、対話装置10とユーザUとのコミュニケーションの質の指標を算出する処理である。
Next, the
図6は、指標算出処理を示すフローチャートである。以下、指標算出処理を、具体例を挙げて説明する。 FIG. 6 is a flowchart showing index calculation processing. The index calculation process will be described below with specific examples.
まず、処理部115は、ユーザUの瞬きのタイミングと、対話装置10の瞬き動作のタイミングとの差異を算出する(ステップS241)。処理部115は、例えば、所定期間におけるユーザUの瞬きのタイミングと、瞼部102の瞬き動作のタイミングとのすべての組み合わせについて差異(以下「タイミング差」という。)を算出する。所定期間は、例えば30秒であるが、30秒未満であってもよいし、30秒よりも長くてもよい。所定期間は、例えば、対話装置10の発話が終了するタイミングから所定時間前まで遡った期間の全体又は一部の期間である。
First, the
図7は、タイミング差の算出方法を説明する図である。図7に示すタイミングチャートは、ユーザUの瞬きのタイミング、及び対話装置10が瞬き動作をしたタイミングを示す。図7に示すように、ユーザUの瞬きのタイミングを、その時刻順に、t11,t12,・・・t1Bと表す。対話装置10の瞬き動作のタイミングを、その時刻順に、t21,t22,・・・t27と表す。この場合、処理部115は、t11,t12,・・・t1Bの各々について、t21,t22,・・・t27の各々との差異を算出する。瞬きのタイミングt1iと瞬き動作のタイミングt2jとの差異であるタイミング差を、以下「Δtij」と表す。この場合、処理部115は、タイミング差TD{Δt11、Δt12、・・・、Δt17、Δt21、Δt22、・・・、Δt27、・・・ΔtB1、ΔtB2、・・・、ΔtB7}を算出する。
FIG. 7 is a diagram explaining a method of calculating the timing difference. The timing chart shown in FIG. 7 shows the timing of blinking of the user U and the timing of the blinking motion of the
図8は、タイミング差の出現頻度の分布を示すグラフDGを示す。図8のグラフDGにおいて、横軸がタイミング差に対応し、縦軸が各タイミング差の出現の度合い(つまり、出現頻度)に対応する。図8に示す例では、或る時間範囲T内で、出現頻度が高くなっている。 FIG. 8 shows a graph DG showing the distribution of the appearance frequency of timing differences. In the graph DG of FIG. 8, the horizontal axis corresponds to the timing difference, and the vertical axis corresponds to the degree of appearance of each timing difference (that is, appearance frequency). In the example shown in FIG. 8, within a certain time range T, the appearance frequency is high.
ところで、グラフDGで示される出現頻度の分布は、ユーザUと対話装置10とのコミュニケーションだけでなく、ユーザUの瞬きの特性(例えば、回数及び頻度)、及び対話装置10の瞬き動作の特性(例えば、回数及び頻度)に起因して生じたと考えられる。例えば、ユーザUの瞬きの頻度、及び対話装置10の瞬き動作の頻度が高い場合ほど、小さいタイミング差の出現頻度が高くなりやすい。このため、タイミング差TDが、どの程度、対話装置10とユーザUとのコミュニケーションに起因して生じたかを明らかにする必要がある。そこで、処理部115は、サロゲートデータ法に基づいて、出現頻度の分布を解析する。
By the way, the appearance frequency distribution shown by the graph DG is not only the communication between the user U and the
すなわち、処理部115は、ランダムデータ(第2データ)を生成する(ステップS242)。ランダムデータは、時間軸上で対話装置10の瞬き動作の間隔の順番をランダムに変更したデータを含む。
That is, the
図9は、ランダムデータR1~RKの一例を示す図である。処理部115は、K通り(例えば、1000通り)のランダムデータR1~RKを生成する。図9に示すランダムデータR1~RKにおいては、対話装置10の瞬き動作の間隔の順番が変更され、ユーザUの瞬きの間隔の順番は変更されていない。なお、図7に示すタイミング「t2j」と、図9に示すタイミング「t2ja」とが対応する。
FIG. 9 is a diagram showing an example of random data R1-RK. The
次に、処理部115は、生成したランダムデータの各々について、ユーザUの瞬きのタイミングと、対話装置10の瞬き動作のタイミングとの差異であるタイミング差を算出する(ステップS243)。タイミング差の算出方法は、ステップS241と同じでよい。瞬きのタイミングt1iaと瞬き動作のタイミングt2jaとの差異であるタイミング差を、以下「Δtija」と表す。図9に示す場合、処理部115は、ランダムデータに基づいて、タイミング差TR{Δt11a、Δt15a、・・・、Δt13a、Δt21a、Δt25a、・・・、Δt23a、・・・ΔtB1a、ΔtB5a、・・・、ΔtB3a}を算出する。ランダムデータにおけるタイミング差の出現頻度は、例えば、図8のグラフRGで示される。なお、グラフRGは、ランダムデータR1~RKのタイミング差の出現頻度の平均を示す。
Next, the
次に、処理部115は、瞬きデータに基づくタイミング差と、ランダムデータに基づくタイミング差とに応じた評価値を算出する(ステップS244)。評価値は、対話装置10とユーザUとのコミュニケーションの質の指標となる指標値である。ランダムデータは、対話装置10の瞬き動作の間隔をランダムに変更したデータである。このため、ランダムデータは、対話装置10の瞬き動作の回数、及び間隔を維持したまま、時系列の情報が崩されたデータといえる。よって、タイミング差TDの分布と、ランダムデータR1~RKの分布とを比較することによって、ユーザUの瞬きデータが示すタイミング差の出現分布が、対話装置10とユーザUとのコミュニケーションに起因して現れた度合いを把握することができる。
Next, processing
処理部115は、評価値をZ値によって算出する。すなわち、処理部115は、瞬きデータが示すタイミング差TD{Δt11、Δt12、・・・、Δt17、Δt21、Δt22、・・・、Δt27、・・・ΔtB1、ΔtB2、・・・、ΔtB7}の各々から、ランダムデータR1~RKにおけるタイミング差の平均値を減じ、さらに、得られた値をランダムデータR1~RKにおけるタイミング差の標準偏差で除することによって、評価値を算出する。例えば、タイミング差TDの分布がランダムデータの分布と同じである場合、評価値は「0」である。この場合、ユーザUの瞬きが、対話装置10とユーザUとのコミュニケーションに起因の影響を受けていないと推測することができる。一方、評価値が大きく、タイミング差TDの分布とランダムデータの分布との差異が大きい場合、ユーザUの瞬きが、対話装置10とユーザUとのコミュニケーションの影響を受けていると推測することができる。図8を用いて説明すると、出現頻度の差異Δが大きい場合ほど、コミュニケーションの影響をより強く受けていると推測され、評価値は大きくなる。
The
図10は、評価値の一例を示すグラフである。図10に示すグラフにおいて、横軸はタイミング差に対応し、縦軸は評価値に対応する。タイミング差が正の値である場合、ユーザUの瞬きのタイミングが対話装置10の瞬き動作のタイミングよりも遅れていることを意味する。タイミング差が負の値である場合、ユーザUの瞬きのタイミングが対話装置10の瞬き動作のタイミングよりも早いことを意味する。また、タイミング差は、ここでは、250ミリ秒刻みで表す。図10において、タイミング差「0」ミリ秒は、タイミング差が0ミリ秒以上250ミリ秒未満であることを示す。タイミング差「+250」ミリ秒及び「-250」ミリ秒は、タイミング差が250秒以上500ミリ秒未満であることを示す。本実施形態では、処理部115は、ユーザUの瞬きのタイミングが対話装置10の瞬き動作のタイミングよりも後の所定期間内に含まれる度合いに基づいて、対話装置10とユーザUのコミュニケーションの質の評価値を算出する。具体的には、処理部115は、タイミング差「+250」ミリ秒に対応する評価値を、対話装置10とユーザUとのコミュニケーションの質の評価値として算出する。すなわち、処理部115は、ユーザUの瞬きのタイミングが、対話装置10の瞬き動作のタイミングよりも遅れ、かつそのタイミング差が250ミリ秒以上500ミリ秒未満である瞬きの出現頻度に基づいて、評価値を算出する。図10に示す例では、評価値は「0.4」である。以上が、指標算出処理の説明である。
FIG. 10 is a graph showing an example of evaluation values. In the graph shown in FIG. 10, the horizontal axis corresponds to the timing difference, and the vertical axis corresponds to the evaluation value. If the timing difference is a positive value, it means that the blinking timing of the user U is behind the blinking motion timing of the
なお、ランダムデータは、対話装置10の瞬き動作の間隔の順番が変更されておらず、ユーザUの瞬きの間隔の順番が変更されたデータであってもよい。また、ランダムデータは、対話装置10の瞬き動作の間隔の順番、及びユーザUの瞬きの間隔の順番が変更されたデータであってもよい。指標算出処理が終了すると、対話装置10の処理はステップS3に進む。
The random data may be data in which the order of the blinking intervals of the user U is changed without changing the order of the blinking motion intervals of the
次に、図5に戻って対話処理に関する処理を説明する。処理部115は、ステップS24の指標算出処理で算出された評価値が閾値以上であるかどうかを判断する(ステップS31)。評価値は、ここでは、直近の期間に対応する評価値である。閾値は、ユーザUが対話装置10との対話に関心があるかどうかを判断する際の指標となる値である。閾値は、例えば、あらかじめ決められた値である。
Next, referring back to FIG. 5, processing related to interactive processing will be described. The
ステップS31で「YES」と判断した場合、処理部115は、第1対話処理を行う(ステップS32)。ステップS32で「NO」と判断した場合、処理部115は、第1対話処理とは異なる第2対話処理を行う(ステップS33)。すなわち、処理部115は、評価値が閾値以上であるか否かに応じて異なる対話処理を行う。評価値が閾値以上である場合、ユーザUの対話装置10とのコミュニケーションへの関心度合いが高いと推測できる。よって、処理部115は、例えば、現在の話題を変更しない第1対話処理を行う。処理部115は、例えば、ユーザUとサッカーについて対話をしていた場合、引き続きサッカーについて対話をする。この際、処理部115は、対話データに含まれる識別子「ID001」に対応付けられた入力データ及び出力データに基づいて、第1対話処理を行う。
If "YES" is determined in step S31, the
一方、評価値が閾値未満である場合、ユーザUの対話装置10とのコミュニケーションへの関心度合いが低いと推測できる。よって、処理部115は、現在の話題を変更した第2対話処理を行う。処理部115は、例えば、ユーザUとサッカーについて対話をしていた場合、今日のランチについての対話に変更する。この際、処理部115は、対話データに含まれる識別子「ID002」に対応付けられた入力データ及び出力データに基づいて、第2対話処理を行う。
On the other hand, if the evaluation value is less than the threshold, it can be inferred that the user U has a low degree of interest in communication with the
以上のとおり、処理部115は、対話装置10の瞬き動作のタイミングとユーザUの瞬きのタイミングとの差異に基づく指標値(本実施形態では、評価値)に応じた処理を行う。ただし、上述した第1対話処理及び第2対話処理は一例であり、種々の変形が可能である。処理部115は、評価値が閾値未満になると直ちに対話の話題を変更した第2対話処理を行うのではなく、第1対話処理を継続してもよい。この場合、処理部115は、評価値が閾値未満である期間が所定期間継続した場合、又は評価値が閾値未満となった回数が所定回数以上となった場合に、第1対話処理から第2対話処理に変更してもよい。そして、対話装置10の処理はステップS3に進む。
As described above, the
ステップS3において、処理部115は、対話処理を終了するかどうかを判断する。処理部115は、例えば、撮像部15から供給された撮像データに基づいて、ユーザUの存在を認識しなくなった場合には、対話処理を終了すると判断する。処理部115は、音声入力部12を介して入力された音声から所定の音声(例えば、別れのあいさつを示す音声)を認識した場合、又は所定の操作を受け付けた場合に、対話処理を終了すると判断してもよい。
At step S3, the
対話処理を継続すると判断した場合(ステップS3;NO)、対話装置10の処理は、ステップS11,S21,S31に戻される。対話処理を終了すると判断した場合(ステップS3;YES)、処理部115は対話処理を終了する。
If it is determined to continue the dialogue processing (step S3; NO), the processing of the
対話装置10によれば、ユーザUの瞬きのタイミングと、対話装置10の瞬き動作のタイミングとの差異に応じて、ユーザUの対話装置10とのコミュニケーションに対する関心度合いを定量的に評価することができる。さらに、対話装置10は、この評価を対話処理に反映させることにより、対話装置10とユーザUとのコミュニケーションを支援することができる。また、対話装置10は、ユーザUの瞬きという自然な動作に基づいて、コミュニケーションの質を評価することができる。よって、対話装置10によれば、ユーザUに評価のために必要な動作を要求しなくとも、当該評価を行うことができる。
According to the
ここで、ユーザUの瞬きのタイミングと、対話装置10の瞬き動作のタイミングとの差異を、コミュニケーションの質の評価に用いることができる根拠を説明する。発明者らは、以下で説明する方法で、話し手及び聞き手の瞬きのタイミング差が、話し手と聞き手とのコミュニケーションに対する関心度合いの指標になることを確認する検証を行った。
Here, the reason why the difference between the blinking timing of the user U and the blinking motion of the
話し手は、商品の実演販売を業とする実演販売士である。実演販売士は、「女性向けのドライヤー」、「女性向けの化粧品」、「男性向けの腕時計」、及び「男性向けの電気シェーバー」の4つの商品について、それぞれ商品紹介を行った。各商品の紹介時間は約3分である。聞き手は、男性が18人、女性が20人の計38人の大学生である。38人の聞き手は、話し手が行った商品紹介の様子を撮像した動画を視聴した後、各商品紹介を面白く感じたかどうかを回答した。話し手と聞き手との瞬きのタイミング差については、話し手及び聞き手をそれぞれ撮像した動画から検出し、話し手の瞬きのタイミングの前後における、聞き手の瞬きのタイミングを解析した。 The speaker is a demonstrator whose business is demonstrating sales of goods. The demonstrating sales person introduced four products, namely, "dryer for women", "cosmetics for women", "watch for men", and "electric shaver for men". The introduction time for each product is about 3 minutes. The interviewees were a total of 38 university students, 18 men and 20 women. Thirty-eight listeners, after watching the video of the product introduction by the speaker, answered whether they found each product introduction interesting. The difference in blink timing between the speaker and the listener was detected from moving images of the speaker and the listener, and the listener's blink timing before and after the speaker's blink timing was analyzed.
図11は、38人の聞き手の瞬きの頻度の分布を示すグラフである。図11に示すグラフにおいて、横軸は時刻に対応し、縦軸は評価値(Z値)に対応する。時刻は、話し手の瞬きのタイミングを「0」とし、それよりも早い聞き手の瞬きのタイミングを負の値で、それよりも遅い聞き手の瞬きのタイミングを正の値で示す。すなわち、図11のグラフの横軸はタイミング差を示す。図11においても、図10と同様、タイミング差を250秒刻みで表す。この検証においては、評価値の算出にあたり、話し手の瞬きの間隔の順番を変更し、聞き手の瞬きの間隔の順番を変更しない方法によりランダムデータが用いられている。図11に示すように、話し手の瞬きから+250ミリ秒以上+500ミリ秒未満の時間範囲内で遅れて聞き手の瞬きが増大し、評価値が高くなった。なお、p値は、0.000001である。 FIG. 11 is a graph showing the frequency distribution of blinks of 38 listeners. In the graph shown in FIG. 11, the horizontal axis corresponds to time and the vertical axis corresponds to evaluation value (Z value). For time, the timing of the blink of the speaker is set to "0", the timing of the blink of the listener earlier than that is indicated by a negative value, and the timing of the listener's blink later is indicated by a positive value. That is, the horizontal axis of the graph in FIG. 11 indicates the timing difference. In FIG. 11 as well, the timing difference is expressed in increments of 250 seconds as in FIG. In this verification, in calculating the evaluation value, random data is used by a method in which the order of blink intervals of the speaker is changed and the order of blink intervals of the listener is not changed. As shown in FIG. 11, the listener's blink increased with a delay of +250 milliseconds or more and less than +500 milliseconds from the speaker's blink, and the evaluation value increased. Note that the p-value is 0.000001.
図12は、回答結果毎の聞き手の瞬きの頻度の分布を示すグラフである。図12に示すグラフにおいても、図11と同様、横軸は時刻に対応し、縦軸は評価値に対応する。実線のグラフは、商品紹介を面白いと回答した聞き手についての評価値である。破線のグラフは、商品紹介をつまらないと回答した聞き手についての評価値である。 FIG. 12 is a graph showing the distribution of listener blink frequency for each answer result. In the graph shown in FIG. 12, as in FIG. 11, the horizontal axis corresponds to the time and the vertical axis corresponds to the evaluation value. The solid line graph is the evaluation value of listeners who answered that the product introduction was interesting. The dashed line graph is the evaluation value for listeners who answered that the product introduction was boring.
図12に示すように、商品紹介を面白いと回答した聞き手については、話者の瞬きから+250ミリ秒以上+500ミリ秒未満の時間範囲内で遅れて瞬きが増大し、評価値が高くなった。一方、商品紹介をつまらないと回答した聞き手については、このような瞬きの増大、及び評価値の高まりは確認できなかった。なお、p値は、0.004である。 As shown in FIG. 12, the listeners who answered that the product introduction was interesting had a delay of +250 milliseconds or more and less than +500 milliseconds from the speaker's blinks, and their blinks increased and the evaluation value increased. On the other hand, for the listeners who answered that the product introduction was boring, such an increase in blinking and an increase in the evaluation value could not be confirmed. Note that the p-value is 0.004.
図13は、評価値を聞き手の性別及び商品別に示したグラフである。図13に示すように、「女性向けの化粧品」については、女性の聞き手については評価値が高い値を示す一方、男性の聞き手については評価値が低い値を示した。「男性向けの腕時計」及び「男性向けの電気シェーバー」については、男性の聞き手については評価値が高い値を示す一方、女性の聞き手については評価値が低い値を示した。 FIG. 13 is a graph showing evaluation values according to listener's gender and product. As shown in FIG. 13, regarding "cosmetics for women", female listeners showed high evaluation values, while male listeners showed low evaluation values. Regarding "watches for men" and "electric shavers for men", male listeners showed high evaluation values, while female listeners showed low evaluation values.
図14は、商品への関心度を聞き手の性別及び商品別に示したグラフである。図14に示す商品に対する関心度は、各被験者が「非常に退屈」と回答した場合の関心度を「1」、「少し退屈」と回答した場合の関心度を「2」、「少し面白い」と回答した場合の関心度を「3」、「非常に面白い」と回答した場合の関心度を「4」とし、男女それぞれについてその関心度の平均をとった値を示す。関心度の値が大きいほど、聞き手が商品紹介に高い関心を示したことを意味する。図13と図14とを対比すると、各商品について、評価値と商品紹介への関心度とが相関することが確認できた。 FIG. 14 is a graph showing the degree of interest in products according to the sex of listeners and products. The degree of interest in the product shown in FIG. 14 is "1" when each subject answers "extremely bored", "2" when "slightly bored", and "a little interesting". The level of interest is "3" when the answer is yes, and the level of interest is "4" when the answer is "very interesting". A larger value of the degree of interest means that the listener showed a higher interest in the product introduction. By comparing FIG. 13 and FIG. 14, it was confirmed that there is a correlation between the evaluation value and the degree of interest in product introduction for each product.
以上の検証により、発明者らは、話し手と聞き手との瞬きのタイミング差が、聞き手の話し手の対話への関心度合いと相関する、という知見を得られた。 From the above verification, the inventors have obtained the knowledge that the difference in blink timing between the speaker and the listener correlates with the listener's degree of interest in the speaker's dialogue.
[第2実施形態]
第2実施形態は、対話装置10の周辺の環境に基づいて、対話装置10の瞬き動作のタイミングを制御する。以下の説明において、上述した第1実施形態の要素と同一の要素は同じ符号を付して表す。本実施形態の対話装置10のハードウェア構成は、上述した第1実施形態と同じでよい。
[Second embodiment]
The second embodiment controls the timing of the blinking action of the
図15は、本実施形態の対話装置10の機能構成を示すブロック図である。対話装置10の制御部11は、プログラム141を実行することにより、瞬き動作制御部111と、第1取得部112と、瞬き検出部113と、第2取得部114と、処理部115と、環境情報取得部116と、記憶制御部117とに相当する機能を実現する。
FIG. 15 is a block diagram showing the functional configuration of the
環境情報取得部116は、対話装置10の周辺の環境を示す環境情報を取得する。環境情報は、ここでは、対話装置10がユーザUによって使用されているときの環境、換言すると、対話装置10がユーザUと対話しているときの環境を示す。環境情報は、例えば、音声情報、音圧情報、プロソディ、動き情報、及び周辺情報のうちの1つ以上を含む。音声情報は、音声入力部12を介して入力された音声を示す情報、音声出力部13を介して出力される音声を示す情報、又はこれらの両方を含む。音圧情報は、当該音声情報の所定の周波数帯域(例えば、可聴域)における音圧を示す。プロソディは、発話において現れる音声学的性質を示し、例えば抑揚である。動き情報は、ユーザUの体動(例えば、顔、体又は表情の動き)を示す。周辺情報は、ユーザUの周辺の環境を示す(例えば、ユーザUが居る空間の明るさ)。音声情報、音圧情報、及びプロソディは、音声入力部12を介して入力された音声、及び音声出力部13に供給される音声信号に基づいて特定される。動き情報、及び周辺情報は、撮像部15を用いて特定される。環境情報は、別の計測装置を用いて取得されてもよい。また、環境情報は、さらに、対話装置10の想定年齢、性別、職業、及びユーザUに関する情報を含んでもよい。
The environment
記憶制御部117は、ユーザUが瞬きをしたタイミングと対話装置10が使用されている環境とを対応付けたを示すデータを、学習データ143として記憶部14に蓄積させる。すなわち、学習データ143は、対話装置10の周辺の環境と、ユーザUが実際にした瞬きをするタイミングとの関係を学習した結果を示すデータである。なお、記憶制御部117は、記憶部14以外の記憶装置、例えばクラウトストレージサービスに係る記憶装置に、学習データ143を蓄積してもよい。
The
瞬き動作制御部111は、環境情報取得部116が取得した環境情報に応じたタイミング(第1タイミング)に、対話装置10に瞬き動作をさせる。具体的には、瞬き動作制御部111は、記憶部14に記憶された学習データ143と、環境情報取得部116が取得した環境情報とに応じたタイミングに、対話装置10に瞬き動作をさせる。瞬き動作制御部111は、例えば、対話装置10に瞬き動作をさせるタイミング、瞬き動作の頻度、及びこれらの両方を制御する。
The blinking
次に、対話装置10の動作を説明する。図16は、対話装置10が実行する学習処理を示すフローチャートである。学習処理は、対話処理と並行して行われる。
Next, the operation of the
環境情報取得部116は、環境情報を取得する(ステップS41)。次に、第2取得部114は、ユーザUの瞬きのタイミングを取得する(ステップS42)。次に、記憶制御部117は、ステップS41で取得した環境情報が示す環境と、ステップS42で取得した瞬きのタイミングとを対応付けた示すデータを、学習データ143として記憶部14に蓄積させる(ステップS43)。以上が、学習処理の説明である。
The environment
図17は、対話装置10が実行する瞬き動作に関する処理を示すフローチャートである。図17の処理は、図5で説明したステップS11,S12の処理に代えて実行される。
FIG. 17 is a flow chart showing a process related to a blinking action executed by the
環境情報取得部116は、環境情報を取得する(ステップS51)。次に、瞬き動作制御部111は、瞬き動作をするかどうかを判断する(ステップS52)。ここでは、瞬き動作制御部111は、ステップS51で取得された環境情報と学習データ143とに基づいて、瞬き動作をするかどうかを判断する。動作制御部111は、例えば、機械学習により瞬き動作の有無、および瞬き動作をするタイミングを判断する。機械学習のアルゴリズムは、例えばニューラルネットワークであるが、これ以外のアルゴリズムでもよい。なお、学習データ143が所定の量だけ蓄積されるまでは、瞬き動作制御部111は、上述した第1実施形態のステップS11と同じ方法で、瞬き動作をするかどうかを判断してもよい。
The environment
瞬き動作制御部111は、瞬き動作をすると判断した場合は(ステップS52;YES)、対話装置10に瞬き動作をさせる(ステップS53)。瞬き動作制御部111は、瞬き動作をしないと判断した場合は(ステップS52;NO)、対話装置10に瞬き動作をさせない。瞬き処理部115は、対話装置10の周辺の環境と、その環境下で人間が行う瞬きとの関係を学習し、その関係に従って対話装置10に瞬き動作をさせる。瞬き動作制御部111は、例えば、意外性の高い話題になったと判断したときは、瞬き動作の頻度を高くしてもよい。以上が、瞬き動作に関する処理の説明である。
When the blinking
本実施形態の対話装置10によれば、上述した第1実施形態と同等の効果に加え、学習データ143を用いてより自然なタイミングで瞬き動作をすることができる。これにより、対話装置10とユーザUとのコミュニケーションの質の向上を期待することができる。
According to the
瞬き動作制御部111は、環境情報に応じたタイミングに加えて、さらに別のタイミング(第2タイミング)に、対話装置10に瞬き動作をさせてもよい。瞬き動作制御部111は、例えば、ランダムなタイミングに、対話装置10に所定期間内に所定回数(例えば、1分間に20回)の瞬き動作をさせる。瞬き動作制御部111は、所定の規則に従ったタイミングに、対話装置10に瞬き動作をさせてもよい。これにより、対話装置10は、より自然なタイミングで瞬き動作をする効果が期待できる。
The blinking
記憶制御部117は、評価値が閾値以上である期間において、学習データ143を蓄積してもよい。これにより、対話装置10は、質の良いコミュニケーションが行われているときに人間が行う瞬きに従って瞬き動作をすることができる。
The
なお、学習データ143があらかじめ記憶部14に記憶されている場合、対話装置10は学習データを蓄積する機能(すなわち、記憶制御部117)を有しなくてもよい。
Note that if the learning
[第3実施形態]
第3実施形態は、対話装置が表示装置として機能する点で、上述した第1実施形態の対話装置と相違する。以下の説明において、上述した第1実施形態の要素と同一の要素は同じ符号を付して表し、上述した第1実施形態の要素に対応する要素については同じ符号の末尾に「A」を付して表す。
[Third Embodiment]
The third embodiment differs from the first embodiment described above in that the dialogue device functions as a display device. In the following description, elements that are the same as the elements of the first embodiment described above are denoted by the same reference numerals, and elements that correspond to the elements of the first embodiment described above are denoted by the same reference numerals with an "A" at the end. to represent
図18は、本発明の第3実施形態である対話装置10Aの外観構成の一例を示す図である。対話装置10Aは、表示領域161を有する。表示領域161は、画像が表示される領域である。表示領域161はオブジェクト20を表示する。オブジェクト20は、上述した第1実施形態で説明した対話装置10の外観と同様の画像である。オブジェクト20は、顔部201と、瞼部202とを有する。顔部201は、顔に相当する部位である。瞼部202は、顔部201に配置され、目の瞼に相当する部位である。瞼部202は、開閉することにより瞬き動作をする。本実施形態の瞬き動作は、表示領域161への画像の表示により行われる点で、上述した第1実施形態と相違する。なお、図18に示すオブジェクト20は一例に過ぎず、少なくとも瞬き動作を表現する画像を含んでいればよい。例えば、オブジェクト20は、少なくとも一つの瞼部を含む。図1に示す外観の対話装置10の瞼部102に代えて表示部が設けられ、該表示部に瞼部202に相当するオブジェクトが表示されてもよい。
FIG. 18 is a diagram showing an example of the external configuration of a
ユーザUは、対話装置10Aとコミュニケーションをとる人である。ユーザUは、対話装置10Aと対面し、表示領域161に表示されたオブジェクト20を観察して対話を行う。
A user U is a person who communicates with the
図19は、対話装置10Aのハードウェア構成を示すブロック図である。対話装置10は、制御部11と、音声入力部12と、音声出力部13と、記憶部14と、撮像部15と、表示部16とを有する。記憶部14は、制御部11に所定の機能を実現させるためのプログラム141Aを記憶する。表示部16は、画像を表示する表示領域161を有する。表示部16は、例えば液晶ディスプレイ、有機ELディスプレイ又はその他の表示装置である。
FIG. 19 is a block diagram showing the hardware configuration of the
図20は、対話装置10Aの機能構成を示すブロック図である。対話装置10の制御部11は、プログラム141Aを実行することにより、瞬き動作制御部111Aと、第1取得部112と、瞬き検出部113と、第2取得部114と、処理部115とに相当する機能を実現する。瞬き動作制御部111Aは、表示部16の表示領域161に表示されたオブジェクト20に、瞬き動作をさせる。瞬き動作制御部111Aは、例えば、瞬き動作させるための瞬き制御データを、表示部16に供給する。瞬き制御データは、表示部16の表示を制御するデータである。表示部16は、瞬き制御データに応じて、オブジェクト20に瞬き動作をさせる。第1取得部112は、オブジェクト20(瞼部202)の瞬き動作のタイミングを取得する。
FIG. 20 is a block diagram showing the functional configuration of the
対話装置10Aの動作は、瞬き動作が表示部16の制御により行われる点を除き、上述した第1実施形態と同じである。
The operation of the
なお、本実施形態の構成は、上述した第2実施形態の対話装置10に適用することもできる。
The configuration of this embodiment can also be applied to the
[変形例]
本発明は上記の実施形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。以下、第1実施形態の対話装置10の変形例として説明するが、第2実施形態の対話装置10、及び第3実施形態の対話装置10Aにも適用することができる。
[Modification]
The present invention is not limited to the above embodiments, and can be modified as appropriate without departing from the scope of the invention. A modification of the
上述した実施形態の処理部115の評価値の算出方法は、一例に過ぎない。処理部115は、例えば、時系列でユーザUの瞬きの回数及び対話装置10の瞬き動作の回数を計数し、特定の期間(場面)における瞬き及び瞬き動作の回数に基づいて、評価値を算出してもよい。この場合、処理部115は、瞬き及び瞬き動作の回数が多い期間ほど、ユーザUの対話装置10とのコミュニケーションに対する関心の度合いが高いことを示す評価値を算出する。瞬き及び瞬き動作が多い期間は、それ以外の期間よりも、ユーザUの瞬きのタイミングと対話装置10の瞬き動作のタイミングとのタイミング差が小さいと考えられるからである。また、処理部115は、評価値を算出しないで、瞬き動作のタイミングとユーザの瞬きのタイミングとの差異に応じた処理を行ってもよい。
The calculation method of the evaluation value of the
ユーザUの瞬きのタイミングと対話装置10のタイミングとの差異に応じた処理は、発話処理に限られない。処理部115は、例えば、対話装置10を評価する処理を行ってもよい。この場合、処理部115は、対話装置10の識別子と対応付けて評価データを出力する。評価データは、対話装置10の評価を示す。評価データは、評価値を示すデータであってもよいし、評価値を用いて生成されたデータであってもよい。評価データの出力は、例えば、送信、印刷、表示又はその他の方法により行われる。この変形例によれば、対話装置10が行うコミュニケーションの質を評価することができる。
The process according to the difference between the timing of blinking of the user U and the timing of the
瞬きの検出は、撮像データを用いる方法以外の方法で行われてもよい。当該方法として、電波センサ(例えば、4GHz電波センサーモジュール)、赤外線センサ、ドップラセンサなどの非接触のセンサを用いる方法がある。また、顔の筋力の動きに基づいて瞬きを検出するセンサを用いる方法がある。 Blink detection may be performed by a method other than the method using imaging data. As the method, there is a method using a non-contact sensor such as a radio wave sensor (for example, a 4 GHz radio wave sensor module), an infrared sensor, or a Doppler sensor. There is also a method using a sensor that detects a blink based on the movement of facial muscles.
上述した実施形態で説明した制御部11が実現した機能の一部又は全部を、対話装置の外部の処理装置が有してもよい。この場合、当該処理装置は、例えば、対話装置を通信(例えば、公衆通信回線を介した通信)により制御する。この制御には、瞬き動作の制御、及び対話処理の制御の一方、又は両方が含まれてもよい。当該処理装置は、複数の対話装置を制御してもよい。要するに、本開示に係る処理装置は、図21に示すように、対話装置の瞬き動作のタイミングを取得する第1取得部301と、前記対話装置のユーザの瞬きのタイミングを取得する第2取得部302と、前記瞬き動作のタイミングと前記ユーザの瞬きのタイミングとの差異に応じた処理を行う処理部303と、を有する。
Some or all of the functions realized by the
上述した実施形態の構成及び動作の一部が省略されてもよい。上述した実施形態で説明したかった構成及び動作が追加されてもよい。また、上述した実施形態で説明した処理の実行順は一例に過ぎず、適宜変更されてもよい。 Some of the configurations and operations of the above-described embodiments may be omitted. Configurations and operations that were described in the above embodiments may be added. Also, the execution order of the processes described in the above embodiment is merely an example, and may be changed as appropriate.
制御部11が実現する機能は、複数のプログラムの組み合わせによって実現され、又は複数のハードウェア資源の連係によって実現され得る。制御部11の機能がプログラムを用いて実現される場合、この機能を実現するためのプログラム141,141Aが、各種の磁気記録媒体、光記録媒体、光磁気記録媒体、半導体メモリ等のコンピュータ読み取り可能な記録媒体に記憶した状態で提供されてもよい。また、このプログラムは、ネットワークを介して配信されてもよい。また、本発明は、処理方法としても把握することができる。
The functions realized by the
10,10A:対話装置、11:制御部、12:音声入力部、13:音声出力部、14:記憶部、15:撮像部、16:表示部、20:オブジェクト、101:顔部、102:瞼部、111,111A:瞬き動作制御部、112:第1取得部、113:瞬き検出部、114:第2取得部、115:処理部、116:環境情報取得部、117:記憶制御部、141,141A:プログラム、142:対話データ、143:学習データ、161:表示領域、201:顔部、202:瞼部、301:瞬き動作制御部、302:取得部、303:処理部
10, 10A: interactive device, 11: control unit, 12: voice input unit, 13: voice output unit, 14: storage unit, 15: imaging unit, 16: display unit, 20: object, 101: face part, 102:
Claims (6)
前記環境情報に基づいて前記対話装置が行う瞬き動作の頻度を制御する瞬き動作制御部と、を有し、
前記瞬き動作制御部は、前記対話装置の周辺の環境と、前記環境の下で人間が行う瞬きとの関係を学習し、当該関係に基づいて前記対話装置に瞬き動作をさせる、
処理装置。 an environment information acquisition unit that acquires environment information indicating the environment around the interactive device;
a blinking motion control unit that controls the frequency of blinking motions performed by the interactive device based on the environment information;
The blinking motion control unit learns the relationship between the surrounding environment of the interactive device and the blinking performed by a human under the environment, and causes the interactive device to perform the blinking motion based on the relationship.
processing equipment.
請求項1に記載の処理装置。 The environment information is dialogue information from a user to the dialogue device,
2. The processing apparatus of claim 1 .
請求項2に記載の処理装置。 The blinking motion control unit increases the frequency of blinking motions performed by the interactive device when the environmental information satisfies a predetermined condition.
3. A processing apparatus according to claim 2 .
請求項3に記載の処理装置。 The blinking motion control unit increases the frequency of the blinking motion when determining that the dialogue information has become a highly unexpected topic based on the learning result.
4. A processing apparatus according to claim 3 .
対話装置の周辺の環境を示す環境情報を取得し、
前記環境情報に基づいて前記対話装置が行う瞬き動作の頻度を制御し、
前記対話装置の周辺の環境と、前記環境の下で人間が行う瞬きとの関係を学習し、当該関係に基づいて前記対話装置に瞬き動作をさせる、
処理方法。 A computer-implemented processing method comprising:
Acquiring environmental information indicating the surrounding environment of the interactive device,
controlling the frequency of blinking actions performed by the interactive device based on the environmental information;
learning the relationship between the surrounding environment of the dialogue device and the blinking performed by a human under the environment, and causing the dialogue device to perform a blinking action based on the relationship;
Processing method.
対話装置の周辺の環境を示す環境情報を取得し、
前記環境情報に基づいて前記対話装置が行う瞬き動作の頻度を制御し、
前記対話装置の周辺の環境と、前記環境の下で人間が行う瞬きとの関係を学習し、当該関係に基づいて前記対話装置に瞬き動作をさせることを実現させるためのプログラム。 to the computer,
Acquiring environmental information indicating the surrounding environment of the interactive device,
controlling the frequency of blinking actions performed by the interactive device based on the environmental information;
A program for learning the relationship between the surrounding environment of the dialogue device and the blinking performed by a person under the environment, and causing the dialogue device to perform the blinking motion based on the relationship.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022014985A JP7317403B2 (en) | 2018-03-22 | 2022-02-02 | Processing device, processing method, and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018055034A JP7023504B2 (en) | 2018-03-22 | 2018-03-22 | Processing equipment, processing methods, and programs |
JP2022014985A JP7317403B2 (en) | 2018-03-22 | 2022-02-02 | Processing device, processing method, and program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018055034A Division JP7023504B2 (en) | 2018-03-22 | 2018-03-22 | Processing equipment, processing methods, and programs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022063279A JP2022063279A (en) | 2022-04-21 |
JP7317403B2 true JP7317403B2 (en) | 2023-07-31 |
Family
ID=87469786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022014985A Active JP7317403B2 (en) | 2018-03-22 | 2022-02-02 | Processing device, processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7317403B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11913262B2 (en) | 2015-03-18 | 2024-02-27 | Illinois Tool Works Inc. | Single axis adjustment feature for flush door handles |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006120134A (en) | 2004-09-27 | 2006-05-11 | Univ Of Electro-Communications | Character information processing method and device |
JP2013154458A (en) | 2012-01-31 | 2013-08-15 | Fujitsu Ltd | Device, program, and method for conversation |
-
2022
- 2022-02-02 JP JP2022014985A patent/JP7317403B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006120134A (en) | 2004-09-27 | 2006-05-11 | Univ Of Electro-Communications | Character information processing method and device |
JP2013154458A (en) | 2012-01-31 | 2013-08-15 | Fujitsu Ltd | Device, program, and method for conversation |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11913262B2 (en) | 2015-03-18 | 2024-02-27 | Illinois Tool Works Inc. | Single axis adjustment feature for flush door handles |
Also Published As
Publication number | Publication date |
---|---|
JP2022063279A (en) | 2022-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10433052B2 (en) | System and method for identifying speech prosody | |
US9691296B2 (en) | Methods and apparatus for conversation coach | |
JP7023504B2 (en) | Processing equipment, processing methods, and programs | |
CN108886532A (en) | Device and method for operating personal agent | |
JP7036046B2 (en) | Information processing equipment, information processing methods, and information processing programs | |
EP4154093B1 (en) | Speech-driven gesture synthesis | |
CN108537321A (en) | A kind of robot teaching's method, apparatus, server and storage medium | |
Ding et al. | Modeling multimodal behaviors from speech prosody | |
JP2011186521A (en) | Emotion estimation device and emotion estimation method | |
Ritschel et al. | Multimodal joke generation and paralinguistic personalization for a socially-aware robot | |
JP7123856B2 (en) | Presentation evaluation system, method, trained model and program, information processing device and terminal device | |
US12105876B2 (en) | System and method for using gestures and expressions for controlling speech applications | |
Grafsgaard et al. | Generative multimodal models of nonverbal synchrony in close relationships | |
JP7317403B2 (en) | Processing device, processing method, and program | |
Uchiyama et al. | Audio-visual model for generating eating sounds using food ASMR videos | |
US20230290505A1 (en) | Context Aware Assessment | |
US11759387B2 (en) | Voice-based control of sexual stimulation devices | |
US11983309B2 (en) | Device and method to acquire timing of blink motion performed by a dialogue device | |
CN112632262A (en) | Conversation method, conversation device, computer equipment and storage medium | |
Urbain et al. | Laugh machine | |
Karpouzis et al. | Induction, recording and recognition of natural emotions from facial expressions and speech prosody | |
Tanveer et al. | Automatic identification of non-meaningful body-movements and what it reveals about humans | |
Ritschel | Real-time generation and adaptation of social companion robot behaviors | |
CN116843805B (en) | Method, device, equipment and medium for generating virtual image containing behaviors | |
Mathur | Scaling machine learning systems using domain adaptation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220209 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230601 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230613 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230711 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7317403 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |