JP5294315B2 - Dialogue activation robot - Google Patents
Dialogue activation robot Download PDFInfo
- Publication number
- JP5294315B2 JP5294315B2 JP2008304140A JP2008304140A JP5294315B2 JP 5294315 B2 JP5294315 B2 JP 5294315B2 JP 2008304140 A JP2008304140 A JP 2008304140A JP 2008304140 A JP2008304140 A JP 2008304140A JP 5294315 B2 JP5294315 B2 JP 5294315B2
- Authority
- JP
- Japan
- Prior art keywords
- participant
- action
- utterance
- game
- activity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Abstract
Description
本発明は、対話活性化ロボットに関し、例えば司会者と参加者とにより行われる漢字の読み仮名を当てる難読ゲームに適用して好適なものである。 The present invention relates to a dialogue activated robot, and is preferably applied to the obfuscated game shed kana kanji performed by the example presenter and participants.
近年、主に高齢者が通所してくる施設において、健康チェック、入浴、食事、リハビリの提供等の日常生活上の世話を提供するデイサービス(通所介護施設)が知られている。このような施設は高齢者にとって数少ないコミュニケーションの場であり、当該施設での活発な交流が高齢者のQOL(Quality of Life)を向上させるためにも非常に重要である。 2. Description of the Related Art In recent years, day services (home care facilities) that provide care for daily life such as health check, bathing, meals, rehabilitation, etc. are known in facilities where elderly people go to. Such facilities are one of the few places of communication for the elderly, and active exchange at the facilities is very important for improving the quality of life (QOL) of the elderly.
そして、従来、高齢者ケアを目的として、様々なロボットが開発されている。例えば数万パターンにも及ぶ会話を登録しておき、1対1の会話を楽しむことができるロボットや(例えば、非特許文献1参照)、高齢者向けに脳を活性化させるコンテンツも提供されている。このようなロボットを利用した利用者からは、ロボットの存在によって、家族間の関係も変化が生じ、終末期の重くなりがちな空気も和らいだとの報告がなされている。 Conventionally, various robots have been developed for elderly care. For example, a robot that registers tens of thousands of conversations and can enjoy one-on-one conversations (for example, see Non-Patent Document 1), and content that activates the brain for elderly people are also provided. Yes. Users using such robots have reported that the presence of robots has changed the relationship between families, and the air that tends to be heavy at the end of life has been relieved.
また、このようなロボットとしては、癒しを目的としたアザラシ型ロボットも考えられている。このアザラシ型ロボットでは、利用者をリラックスさせたり、或いはコミュニケーションの動機を増加させる等の心理的効果や、バイタルサインの改善等の生理的効果に加えて、患者同士や看護者とのコミュニケーションを増加させるといった社会的効果が見られたことが報告されている(例えば、非特許文献2参照)。 Also, as such a robot, a seal-type robot for healing purposes is also considered. This seal-type robot increases communication between patients and nurses in addition to psychological effects such as relaxing users or increasing motivation for communication, and physiological effects such as improving vital signs. It has been reported that a social effect such as making it appear has been seen (for example, see Non-Patent Document 2).
そして、これらロボットは、ロボットの持つ存在感やイベント性を活かし、人とロボットとのインタラクションを通してユーザに癒し効果を与えたうえで、人と人とのコミュニケーションを間接的に改善したという観点において優れた成果を挙げている。
ところで、上述したデイサービスでは、高齢者同士のコミュニケーションや、高齢者と介護者とのコミュニケーションの機会について様々な工夫がなされており、またそのようなコミュニケーションの機会について数多く提供されており、例えば、ゲームや体操、手芸、工作、音楽等のリクリエーションに一日のうち多くの時間が割かれている。実際にデイサービスにおける継続的なフィールド調査を行ったところ、このようなケアの現場では、コミュニケーション自体が目的であること、活発なコミュニケーションは認知症やうつ病の予防でもあることが分かった。しかしながら、必ずしも、このような場が提供されただけで、活発なコミュニケーションが行われるわけではなく、また、上述した各種ロボットについては人と人との間接的なコミュニケーションを改善するものであり、人と人との直接的なコミュニケーションを活性化させ難いという問題があった。 By the way, in the day service mentioned above, various ideas are made about communication opportunities between elderly people and communication opportunities between elderly people and caregivers, and many such communication opportunities are provided. A lot of time is spent all day in the recreation of games, gymnastics, handicrafts, crafts, music, etc. In fact, we conducted continuous field surveys on day services, and found that in such care settings, communication itself was the goal, and active communication was also a prevention of dementia and depression. However, active communication is not necessarily performed just by providing such a place, and the above-mentioned various robots improve indirect communication between people. There is a problem that it is difficult to activate direct communication with people.
本発明は以上の点を考慮してなされたもので、人と人との直接的なコミュニケーションを従来よりも一段と活性化させ得る対話活性化システム及び対話活性化ロボットを提案することを目的とする。 The present invention has been made in consideration of the above points, and an object thereof is to propose a dialogue activation system and a dialogue activation robot that can further activate direct communication between people than ever before. .
かかる課題を解決するため本発明の請求項1は、司会者との間で所定の主題について対話する複数の参加者の映像を取得する撮像手段と、前記撮像手段により取得した映像に基づいて、前記参加者の主題に関する対話への参加の程度を示す活性度を推定する活性度推定手段と、複数の進行状況キーワードを予め記憶した記憶手段と、発話している前記参加者を検出する発話検出手段と、マイクロホンから得られた音声信号に所定の音声認識処理を実行することにより当該音声信号に含まれる言葉を単語単位で認識し、この認識した単語を文字列データとして送出する音声認識部と、前記音声認識部により得られた文字列データを受け取り、前記記憶手段に予め記憶しておいた前記進行状況キーワードを読み出して、前記進行状況キーワードのいずれかと前記文字列データとが一致するか否かを判断し、文字列データが進行状況キーワードのいずれかと一致すると、前記活性度推定手段により推定した活性度に応じて、前記主題に関する対話への参加を促すような発話情報を選択する選択手段と、前記選択手段によって選択した発話情報の発話内容を音声として発するスピーカと、動物形状に似した頭部とを備え、前記頭部の眼となる位置に前記撮像手段が設置され、前記発話検出手段は、前記撮像手段により得られる映像から認識した唇の動きを認識する唇動作認識処理、あるいは、各話者に指向性を向けたマイクロホンの音量に基づく話者認識処理、あるいは、前記マイクロホンにより集音した音声を基にした音源定位処理、のいずれかを用いて、発話している前記参加者を特定し、前記発話検出手段により検出した前記参加者を前記撮像手段の画角中心に配置させる制御手段を備え、前記選択手段は、一定時間、前記進行状況キーワードを認識せず、かつ複数の参加者の活性度を合算した総和活性度総和活性度が所定の閾値以下となったとき、所定の発話内容を前記記憶手段から読み出して当該発話内容を音声としてスピーカから発し、前記参加者の音声の切れ目を認識し、前記切れ目に合わせて前記頭部を動作させるうなづき動作、或いは前記切れ目に合わせて相槌音声を発する相槌発話動作の少なくともいずれかを実行することを特徴とする。 In order to solve such a problem, claim 1 of the present invention is based on an image capturing unit that acquires images of a plurality of participants who interact with a moderator on a predetermined subject, and an image acquired by the image capturing unit. and activity estimation means for estimating the activity of indicating the degree of participation in the dialogue on the subject of the participants, and storing means for storing a plurality of progress keyword in advance, speech detection for detecting the participant who is speaking A voice recognition unit that recognizes words included in the voice signal by performing predetermined voice recognition processing on the voice signal obtained from the microphone, and sends the recognized word as character string data; , Receiving the character string data obtained by the voice recognition unit, reading the progress keyword stored in advance in the storage means, Determining whether the said character string data Zureka match, the character string data matches any progress keyword, according to the estimated activity by the activity estimating means, to dialogue on the subject A selection unit that selects speech information that encourages participation, a speaker that utters speech content of the speech information selected by the selection unit, and a head resembling an animal shape, and serves as an eye of the head The imaging means is installed at a position, and the utterance detecting means is a lip motion recognition process for recognizing lip movement recognized from a video obtained by the imaging means, or a microphone volume for directing each speaker. The participant who is speaking is identified using either the speaker recognition process based on the sound source or the sound source localization process based on the sound collected by the microphone And a control means for placing the participant detected by the utterance detection means at the center of the angle of view of the imaging means, the selection means not recognizing the progress status keyword for a certain period of time, and When the sum total activity is less than a predetermined threshold value, the predetermined utterance content is read from the storage means and the utterance content is uttered from the speaker as a voice, and the participant's voice break is Recognizing and performing at least one of a nodding operation for moving the head in accordance with the cut or a colloquial speech operation for producing a companion voice in accordance with the cut .
また、本発明の請求項2は、前記スピーカから前記発話情報の発話内容を音声として発するとき、該発話内容を発する対象となる前記参加者又は関連機材を、前記撮像手段の画角中心に配置させる制御手段を備えることを特徴とする。 Further, a second aspect of the present invention, when emitting the voice utterance of the speech information from the speaker, the participants or Equipment of interest to emit emitting story contents, arranged in the center of the angle of view of the imaging means It is characterized by providing the control means to make.
また、本発明の請求項3は、前記撮像手段により得られる映像を基に、前記参加者の顔向き方向、又は視線方向を認識する認識手段を備え、前記制御手段は、前記参加者が発話し終えた後に、前記認識手段により認識した該参加者の顔向き方向又は視線方向に、前記撮像手段の画角中心を配置させることを特徴とする。 According to a third aspect of the present invention, there is provided recognition means for recognizing the participant's face direction or line-of-sight direction based on an image obtained by the imaging means, and the control means is configured such that the participant speaks. Then, the angle of view center of the imaging unit is arranged in the face direction or line-of-sight direction of the participant recognized by the recognition unit.
また、本発明の請求項4は、参加者との間で所定の主題に関して対話する司会者の音声を集音する司会者用マイクロホンと、前記司会者用マイクロホンにより前記司会者の音声を集音して得られる音声信号を基に、前記主題に関する前記参加者との対話の進行状況を認識する進行状況認識手段と、前記進行状況認識手段における前記対話の進行状況に関する理解状態を前記司会者に呈示する表示手段とを備えることを特徴とする。 Further, Claim 4 of the present invention, collected and moderator microphone that collects sound moderator to interact for a given subject with the participants, the voice of the moderator by the moderator microphone The progress status recognition means for recognizing the progress status of the dialogue with the participant on the subject based on the audio signal obtained in the above manner, and the understanding status regarding the progress status of the dialog in the progress status recognition means to the moderator And display means for presenting.
本発明によれば、複数の参加者と司会者との対話の状況に応じて、自発的にその場に最適な発話内容をスピーカから発することで、司会者と参加者との直接的な対話の切っ掛けを与えることができ、かくして司会者と複数の参加者との直接的なコミュニケーションを従来よりも一段と活性化させ得る。 According to the present invention, in accordance with the situation of dialogue between a plurality of participants and the presenter, the speaker can spontaneously utter the optimum utterance content for the occasion, thereby allowing direct dialogue between the presenter and the participant. Thus, direct communication between the presenter and a plurality of participants can be more activated than before.
以下図面に基づいて本発明の実施の形態を詳述する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
(1)本願発明の概要
図1において、1は本発明による対話活性化ロボットとしてのゲーム活性化ロボット1を示し、このゲーム活性化ロボット1は、例えばホワイトボードWBに呈示された漢字の読み仮名を当てる難読ゲームを行う際に用いられ得る。そして、このゲーム活性化ロボット1は、問題となる漢字を選定して難読ゲームを進行する司会者MCと、当該難読ゲームに参加して呈示された漢字の読み仮名を解答する複数の参加者A、B及びCとの間で行われる直接的な対話を活性化し得るようになされている。因みに、この実施の形態の場合においては、参加者A、B及びCの三人で難読ゲームを行うようにしたが、本発明はこれに限らず、2人又は4人等この他種々の人数の参加者で難読ゲームを行うようにしてもよい。
(1) Outline of the Present Invention In FIG. 1, reference numeral 1 denotes a game activation robot 1 as a dialog activation robot according to the present invention. This game activation robot 1 is, for example, a kana reading kana presented on a whiteboard WB. Can be used when playing an obfuscated game. And this game activation robot 1 selects the kanji which becomes a problem, the MC MC who advances an obfuscated game, and a plurality of participants A who answer the kana reading kana presented by participating in the obfuscated game. , B and C can be activated in a direct dialogue. Incidentally, in the case of this embodiment, the participants A, B, and C play the obfuscated game, but the present invention is not limited to this, and various other numbers such as two or four people. Participants may play an obfuscated game.
実際上、このゲーム活性化ロボット1は、モニタリングサーバ2と無線接続されており、当該モニタリングサーバ2との間で各種データを送受信し得るようになされている。また、このモニタリングサーバ2は、司会者MCが操作する携帯端末3と無線接続されている。携帯端末3は、表示部4に表示されたジャンルやレベルごとに分類された漢字の中から、司会者MCによって任意に問題が選択されると、これを問題選択命令としてモニタリングサーバ2に送信し得るようになされている。モニタリングサーバ2は、携帯端末3から問題選択命令を受信すると、予め記憶されている複数の個別行動パターン情報(後述する)の中から問題選択命令に対応した個別行動パターン情報を選択し、これをゲーム活性化ロボット1に送信し得る。これによりゲーム活性化ロボット1は、個別行動パターン情報に従って問題に応じた最適な各種行動パターンを実行することにより、司会者MCと参加者A、B及びCとの間で行われる直接的な対話を活性化し得るようになされている。 In practice, the game activation robot 1 is wirelessly connected to the monitoring server 2 so that various data can be transmitted to and received from the monitoring server 2. The monitoring server 2 is wirelessly connected to the portable terminal 3 operated by the MC MC. When a problem is arbitrarily selected by the MC MC from among kanji classified by genre and level displayed on the display unit 4, the portable terminal 3 transmits this to the monitoring server 2 as a problem selection command. Has been made to get. When the monitoring server 2 receives the problem selection command from the mobile terminal 3, the monitoring server 2 selects individual behavior pattern information corresponding to the problem selection command from a plurality of pieces of pre-stored individual behavior pattern information (described later). It can be transmitted to the game activation robot 1. As a result, the game activation robot 1 executes various kinds of optimum behavior patterns according to the problem in accordance with the individual behavior pattern information, so that the direct dialogue between the moderator MC and the participants A, B, and C is performed. Can be activated.
また、ゲーム活性化ロボット1には、司会者MCの頭部に装着されたヘッドセット型マイク5が接続されており、当該ヘッドセット型マイク5により集音した司会者MCの音声が送信され得るようになされている。これによりゲーム活性化ロボット1は、ヘッドセット型マイク5から取得した司会者MCの音声を基に、司会者MCの発話内容に進行状況を示すキーワード(以下、これを進行状況キーワードと呼ぶ)が含まれているか否かを認識し、認識した進行状況キーワードを基に難読ゲームの進行状況を把握して進行状況に応じたその場に最適な発話内容を音声としてスピーカ(図1に図示せず)から発することにより、司会者MCと参加者A、B及びCとの間で行われる直接的な対話を当該発話内容に基づいて活性化させ得る。 In addition, the game activation robot 1 is connected to a headset microphone 5 attached to the head of the MC MC, and the voice of the MC MC collected by the headset microphone 5 can be transmitted. It is made like that. As a result, the game activation robot 1 uses the voice of the MC MC acquired from the headset microphone 5 to indicate a keyword indicating the progress status in the utterance content of the MC MC (hereinafter referred to as a progress status keyword). A speaker (not shown in FIG. 1) that recognizes whether or not it is included, grasps the progress of the obfuscated game on the basis of the recognized progress status keyword, and makes the utterance content best suited to the situation according to the progress ), The direct dialogue between the MC MC and the participants A, B, and C can be activated based on the content of the utterance.
ここでゲーム活性化ロボット1は、司会者MCの発話内容を基に得られた進行状況キーワードに基づいて、難読ゲームの進行状況を、難読ゲームの問題が呈示される前(以下、これを出題前と呼ぶ)と、難読ゲームの問題が呈示されてから正解が解答されるまでの間(以下、これをゲーム進行中と呼ぶ)と、難読ゲームの正解が解答された後から解説を行っているまでの間(以下、これを解説中と呼ぶ)との3つの状況に分けて把握し、現時点で難読ゲームがどのような状況(段階)にあるかをデータベース(後述する)に記憶し得るようになされている。実際上、このゲーム活性化ロボット1は、例えば、司会者MCの発話内容を基に進行状況キーワード(「難読ゲームをはじめます」)を認識すると、出願前であると把握し、司会者MCの発話内容を基に進行状況キーワード(「問題です」)を認識すると、ゲーム進行中であると把握し、司会者MCの発話内容を基に進行状況キーワード(「正解」)を認識すると、解説中であると把握し得るようになされている。また、ゲーム活性化ロボット1は、ゲーム進行中の進行状況として、参加者A、B及びCの解答がどの程度正解に近づいているか否かの正解への近さを、司会者MCの発話内容により得られた進行状況キーワード(「おしい」)により把握し、正解への近さに応じた所定の発話内容を音声として発するようになされている。 Here, the game activation robot 1 displays the progress of the obfuscated game before the problem of the obfuscated game is presented based on the progress keyword obtained based on the contents of the utterance of the MC MC (hereinafter referred to as questions). And before the correct answer is answered after the problem of the obfuscated game is presented (hereinafter called the game in progress), and after the answer of the obfuscated game is answered It can be divided into three situations, until now (hereinafter referred to as “under explanation”), and the situation (stage) of the obfuscated game at the present time can be stored in a database (described later) It is made like that. In practice, for example, when the game activation robot 1 recognizes the progress status keyword (“starts an obfuscated game”) based on the utterance content of the MC, for example, the game activation robot 1 grasps that it is before the application, Recognizing that the progress keyword ("Is a problem") based on the utterance content, the game is in progress, and explaining the progress keyword ("correct answer") based on the utterance content of the MC MC It is made to be able to grasp that it is. In addition, the game activation robot 1 indicates how close the answer of the participants A, B, and C is to the correct answer as the progress of the game in progress, and the utterance contents of the MC MC Ascertained by the progress status keyword ("Oishi") obtained by the above, a predetermined utterance content corresponding to the proximity to the correct answer is uttered as speech.
実際上、このゲーム活性化ロボット1は、人間に似せて作製された人型ロボットであり、人間の頭部に似した頭部8及び腕部9が駆動部(図示せず)を介して胴体部10に駆動可能に設けられていると共に、発話内容を音声として発するためのスピーカが所定位置に設けられている。また、ゲーム活性化ロボット1は、首部を中心に頭部8を上下に回動させるうなづき動作や、首部を中心に頭部8を左右に回動させる否定動作、腕部9の先端を所定の方向に向ける指差し動作等の各動作を、ゲーム進行中や解説中の所定タイミングで実行し得るようになされている。 Actually, the game activation robot 1 is a humanoid robot that is made to resemble a human, and a head 8 and an arm 9 that resemble a human head have a torso via a drive unit (not shown). The unit 10 is provided so as to be drivable, and a speaker for uttering the utterance content as a voice is provided at a predetermined position. In addition, the game activation robot 1 performs a nodding operation for turning the head 8 up and down around the neck, a negative operation for turning the head 8 left and right around the neck, and the tip of the arm 9 with a predetermined tip. Each operation such as a pointing operation directed in the direction can be executed at a predetermined timing during the game or during the explanation.
ゲーム活性化ロボット1の頭部8には、人間の眼に相当する位置にカメラ11が設置されている。ゲーム活性化ロボット1は、撮像手段としてのカメラ11によって撮像された参加者の映像を映像信号として取り込むようになされている。これにより、ゲーム活性化ロボット1は、得られた映像を解析することにより、各参加者A、B及びCの顔の輪郭等から顔を向けている角度(以下、これを顔向き方向と呼ぶ)や、顔の表情を把握し、これらを基に各参加者A、B及びCが難読ゲームに積極的に参加しているか否かの程度を示す活性度(後述する)を推定し得るようになされている。またこのゲーム活性化ロボット1には、例えば胴体部10の所定位置にマイクロホン(図1に図示せず)が設置されており、当該マイクロホンによって集音した各参加者A、B及びCの音声が取り込まれ得る。これにより、ゲーム活性化ロボット1は、得られた音声を解析することにより、各参加者A、B及びCの音声の有無を把握し、これを基に各参加者A、B及びCの活性度を推定し得るようになされている。 A camera 11 is installed on the head 8 of the game activation robot 1 at a position corresponding to a human eye. The game activation robot 1 is configured to take in a video of a participant imaged by a camera 11 as an imaging means as a video signal. As a result, the game activation robot 1 analyzes the obtained video to thereby determine the angle at which the face is directed from the contours of the faces of the participants A, B, and C (hereinafter referred to as the face direction). ) And the facial expression, and based on these, it is possible to estimate the degree of activity (described later) indicating whether each participant A, B and C is actively participating in the obfuscated game. Has been made. In addition, the game activation robot 1 is provided with a microphone (not shown in FIG. 1) at a predetermined position of the body unit 10, for example, and the voices of the participants A, B, and C collected by the microphone are received. Can be incorporated. As a result, the game activation robot 1 analyzes the obtained voice to grasp the presence or absence of the voice of each participant A, B, and C, and based on this, the activity of each participant A, B, and C is determined. The degree can be estimated.
そして、ゲーム活性化ロボット1は、各参加者A、B及びCの活性度を推定すると、各参加者A、B及びCの活性度を合算して総和活性度を算出し、この総和活性度が予め設定された所定の閾値以下となったか否かについて常時監視し得るようになされている。ゲーム活性化ロボット1は、総和活性度が所定の閾値以下であると判断すると、当該総和活性度を最大化させるであろう行動パターンを予測し、その予測結果である行動パターンを実行し得るようになされている。かくして、ゲーム活性化ロボット1は、予測結果に従って最適な発話内容を発する等の行動パターンをゲーム進行中や解説中に実行することにより、各参加者A、B及びCの活性度を増加させ、司会者MCと参加者A、B及びCとの間で行われる直接的な対話を当該発話内容を切っ掛けに活性化させ得る。 And the game activation robot 1 will estimate the activity of each participant A, B, and C, will calculate the total activity by adding the activity of each participant A, B, and C, and this total activity It is possible to constantly monitor whether or not the current value is equal to or less than a predetermined threshold value set in advance. When the game activation robot 1 determines that the total activity is equal to or less than a predetermined threshold, the game activation robot 1 predicts an action pattern that will maximize the total activity and can execute an action pattern that is a prediction result thereof. Has been made. Thus, the game activation robot 1 increases the activity of each participant A, B, and C by executing an action pattern such as uttering the optimal utterance content according to the prediction result while the game is in progress or during explanation, A direct dialogue performed between the MC MC and the participants A, B, and C can be activated by using the utterance content.
(2)ゲーム活性化システムの構成
実際上、このゲーム活性化ロボット1には、図2に示すようなゲーム活性化システム15が内蔵されている。このゲーム活性化システム15は発話状況理解部16を備えており、当該発話状況理解部16においてカメラ11から与えられる各参加者A、B及びCの映像信号を常時監視し得るようになされている。実際上、この発話状況理解部16は、映像信号に所定の唇動作認識処理を実行することにより、当該映像信号に基づいて各参加者A、B及びCの口の動き特定し、発話している参加者A、B又はC(以下、これを発話者と呼ぶ)を検出して、これを発話者検出結果として状況管理部17に送出し得る。状況管理部17は、発話者検出結果を行動選択部18を経由して行動再生部19に送出し、当該行動再生部19において発話者検出結果を基に発話者がカメラ11の画角の中心位置に配置されるように頭部8を駆動させる制御命令が生成される。これにより頭部8は、制御命令に基づいて駆動されることにより、発話者がカメラ11の画角の中心位置に配置され得る。かくしてゲーム活性化ロボット1は、あたかも発話者の方向を向いているかのような印象を参加者A、B及びCに対して与えることができる。
(2) Configuration of Game Activation System In practice, the game activation robot 1 incorporates a game activation system 15 as shown in FIG. The game activation system 15 includes an utterance situation understanding unit 16, and the utterance situation understanding unit 16 can constantly monitor the video signals of the participants A, B, and C given from the camera 11. . In practice, the utterance state understanding unit 16 performs a predetermined lip motion recognition process on the video signal, identifies the mouth movements of the participants A, B, and C based on the video signal, and speaks. Participants A, B, or C (hereinafter referred to as “speakers”) can be detected and sent to the situation management unit 17 as a speaker detection result. The situation management unit 17 sends the speaker detection result to the behavior playback unit 19 via the behavior selection unit 18, and the speaker plays the center of the angle of view of the camera 11 based on the speaker detection result in the behavior playback unit 19. A control command for driving the head 8 to be arranged at the position is generated. Thus, the head 8 is driven based on the control command, so that the speaker can be placed at the center position of the angle of view of the camera 11. Thus, the game activation robot 1 can give the participants A, B, and C the impression as if they are facing the speaker.
また、発話状況理解部16は、カメラ11から与えられた映像信号を基に、発話者の顔向き方向を検出し得るようになされており、発話者の顔向き方向の先に司会者MCや他の参加者A、B又はC、或いは発話しながら凝視しているホワイトボードWB等の発話対象を、映像信号から得られた映像から特定し、これを発話対象検出結果として状況管理部17に送出する。また、発話状況理解部16は、マイクロホン20から与えられる音声信号を常時監視しており、一定時間の間、音声信号が得られなかったか否かに基づいて発話者が発話し終えたかを判断し得るようになされている。そして、発話状況理解部16は、音声信号の有無に基づいて発話者が発話し終えたと判断すると、これを発話終了検出結果として状況管理部17に送出し得るようになされている。 Further, the utterance situation understanding unit 16 can detect the face direction of the utterer based on the video signal given from the camera 11, and the MC or the MC is placed ahead of the face direction of the utterer. An utterance target such as another participant A, B, or C or a whiteboard WB staring while speaking is specified from the video obtained from the video signal, and this is detected as the utterance target detection result in the situation management unit 17. Send it out. Further, the utterance state understanding unit 16 constantly monitors the audio signal given from the microphone 20, and determines whether or not the speaker has finished speaking based on whether or not the audio signal was obtained for a certain period of time. Has been made to get. When the utterance situation understanding unit 16 determines that the utterer has finished speaking based on the presence or absence of a voice signal, the utterance situation understanding unit 16 can send this to the situation management unit 17 as a speech end detection result.
状況管理部17は、行動選択部18を経由させて、発話対象検出結果及び発話終了検出結果を行動再生部19に送出する。これにより行動再生部19は、発話対象検出結果及び発話終了検出結果を基に、発話者の顔向き方向の先にある発話対象がカメラ11の画角の中心位置に配置されるように頭部8を駆動させる制御命令を生成する。これにより頭部8は、発話者の発話終了後に制御命令に基づいて駆動されることにより、発話対象がカメラ11の画角の中心位置に配置され得る。かくしてゲーム活性化ロボット1は、あたかも発話者の発話終了後に発話対象の方向を向いて、難読ゲームに積極的に参加しているかのような印象を、参加者A、B及びCに対して与えることができる。 The situation management unit 17 sends the utterance target detection result and the utterance end detection result to the behavior reproduction unit 19 via the behavior selection unit 18. As a result, the behavior reproducing unit 19 is configured so that the utterance target ahead of the speaker's face direction is arranged at the center position of the angle of view of the camera 11 based on the utterance target detection result and the utterance end detection result. A control command for driving 8 is generated. Thereby, the head 8 is driven based on the control command after the utterance of the speaker is completed, so that the utterance target can be arranged at the center position of the angle of view of the camera 11. Thus, the game activation robot 1 gives the participants A, B, and C the impression that they are facing the direction of the utterance after the utterance of the utterer ends and actively participating in the obfuscated game. be able to.
さらに、行動再生部19は、所定時間の間、音声信号が得られなかったことを示す発話切れ目検出結果を状況管理部17から受け取ると、頭部8を上下方向に回動させるうなづき動作を行わせる制御命令を生成する。これによりゲーム活性化ロボット1は、発話者の発話の切れ目に、頭部が制御命令に基づいてうなづき動作することにより、あたかも発話者の発話を聞いてうなづいたかのような印象を参加者A、B及びCに対して与えることができる。また、このとき同時に、行動再生部19は、例えば「うんうん」等の相槌音声をスピーカ24を介して発する相槌発話動作を実行し得るようになされている。因みに、この場合、行動再生部19は、うなづき動作又は相槌発話動作のいずれか一方のみを実行するようにしてもよい。 Further, when the behavior reproduction unit 19 receives a speech break detection result indicating that an audio signal has not been obtained for a predetermined time from the situation management unit 17, the behavior reproduction unit 19 performs a nodding operation to rotate the head 8 up and down. Control instruction to be generated. As a result, the game activation robot 1 makes an impression as if it was nodded by listening to the utterer's utterance by the head's nodding action based on the control command at the break of the speaker's utterance. And C. At the same time, the behavior reproducing unit 19 can execute a companion speech operation that emits a companion voice such as “Yes” via the speaker 24. Incidentally, in this case, the behavior reproducing unit 19 may execute only one of the nodding operation and the competing speech operation.
かかる構成に加えて、このゲーム活性化システム15は、データベース21を備えており、出題される問題毎に発話内容や動作が設定されている個別行動パターン情報(後述する)をモニタリングサーバ2から受信すると、当該個別行動パターン情報をデータベース21に記憶し得る。またこのデータベース21には、全ての問題に共通する発話内容や動作が設定されている共通行動パターン情報(後述する)と、ゲーム活性化ロボット1の行動パターンによって予想される各参加者A、B及びCの行動が定義された予想効果テーブル(後述する)と、進行状況キーワード(後述する)とが予め記憶されている。 In addition to this configuration, the game activation system 15 includes a database 21 and receives from the monitoring server 2 individual action pattern information (described later) in which utterance contents and actions are set for each question to be asked. Then, the individual behavior pattern information can be stored in the database 21. Further, in this database 21, common action pattern information (described later) in which utterance contents and actions common to all problems are set, and each participant A, B predicted by the action pattern of the game activation robot 1 And an expected effect table (to be described later) in which actions of C and C are defined, and a progress status keyword (to be described later) are stored in advance.
(2−1)個別行動パターン情報について
図3に示すように、個別行動パターン情報30は、問題テーブル31と、ジャンルテーブル32と、情報テーブル33と、スクリプトテーブル34と、動作テーブル35とから構成されており、問題テーブル31のID(図中の「ID」欄)と、ジャンルテーブル32のジャンルID(図中の「Genre ID」欄)と、情報テーブル33のジャンルID(図中の「Genre ID」欄)と、スクリプトテーブル34の漢字ID(図中の「Kanji ID」欄)と、動作テーブル35のスクリプトID(図中の「Script ID」欄)とに同じID番号が付されることにより対応付けられている。例えばID番号「1」には、問題テーブル31のID「1」と、ジャンルテーブル32のジャンルID「1」と、情報テーブル33のジャンルID「1」と、スクリプトテーブル34の漢字ID「1」と、動作テーブル35のスクリプトID「1」との各情報が対応付けられている。
(2-1) Individual Action Pattern Information As shown in FIG. 3, the individual action pattern information 30 includes a problem table 31, a genre table 32, an information table 33, a script table 34, and an action table 35. The ID of the problem table 31 (“ID” column in the figure), the genre ID of the genre table 32 (“Genre ID” column in the figure), and the genre ID of the information table 33 (“Genre” in the figure) ID ”field), the Kanji ID in the script table 34 (“ Kanji ID ”field in the figure), and the script ID in the operation table 35 (“ Script ID ”field in the figure) are assigned the same ID number. Are associated with each other. For example, ID number “1” includes ID “1” of problem table 31, genre ID “1” of genre table 32, genre ID “1” of information table 33, and kanji ID “1” of script table 34. And the script ID “1” in the operation table 35 are associated with each other.
因みに、この実施の形態の場合、問題テーブル31のID「1」には、「Kanji」欄に問題となる漢字「海豚」と、「Yomi」欄にこの問題「海豚」の解答となる読み仮名「いるか」と、「Genre ID」欄にこの問題のジャンルを示すジャンルID「1」と、「Level」欄にこの問題の難易度を示すレベル「3(ふつう)」とが予め設定されている。なお、レベルは、例えば1から5まで設定し得、1が「簡単」、2が「やや簡単」、3が「ふつう」、4が「やや難しい」、5が「難しい」に分類され得る。 Incidentally, in the case of this embodiment, the ID “1” of the problem table 31 includes a kanji “kai pork” in the “Kanji” column and a reading kana as an answer to this problem “kai pork” in the “Yomi” column. A genre ID “1” indicating the genre of the problem in the “Genre ID” field and a level “3 (normal)” indicating the difficulty level of the problem in the “Level” field are preset. . The level can be set from 1 to 5, for example, where 1 is “easy”, 2 is “slightly simple”, 3 is “normal”, 4 is “somewhat difficult”, and 5 is “difficult”.
また、ジャンルテーブル32のジャンルID「1」には、問題テーブル31のID「1」のジャンルを示す「動物」が「Genre」欄に予め設定されている。情報テーブル33のジャンルID「1」には、問題テーブルのID「1」に関連する情報が「information」欄に予め設定されている。スクリプトテーブル34において問題テーブル31のID「1」に対応付けた漢字ID「1」には、参加者A、B及びCの解答がどの程度正解に近づいているか否かを示す正解度「10」(詳しくは後述する)が「Correctness」欄に設定され、スクリプトのタイプを示すスクリプトタイプ「answer」(詳しくは後述する)が「Scriot type」欄に設定され、正解度及びスクリプトタイプに対応した発話内容が「Script」欄に設定されている。 In addition, in the genre ID “1” of the genre table 32, “animal” indicating the genre of the ID “1” of the problem table 31 is set in advance in the “Genre” column. In the genre ID “1” of the information table 33, information related to the ID “1” of the problem table is preset in the “information” column. In the script table 34, the Chinese character ID “1” associated with the ID “1” in the question table 31 indicates the degree of accuracy “10” indicating whether the answers of the participants A, B, and C are close to the correct answer. (Details will be described later) is set in the “Correctness” field, and the script type “answer” (details will be described later) indicating the script type is set in the “Scriot type” field. The contents are set in the “Script” field.
また、動作テーブル35においてスクリプトテーブル34の漢字ID「1」に対応付けたスクリプトID「1」には、動作内容として凝視する行動をする「look」が「Action」欄に設定され、頭部8を回動させる左右方向を示す角度(この場合0°)が「Target x」欄に設定され、頭部8を回動させる上下方向を示す角度(この場合約30°上方に頭部を動かす)が「Target y」欄に設定されている。 In addition, in the action table 35, “look” that acts as a gaze action is set in the “Action” column for the script ID “1” associated with the Chinese character ID “1” in the script table 34, and the head 8 The angle indicating the left / right direction (in this case 0 °) for turning the head 8 is set in the “Target x” field, and the angle indicating the up / down direction for turning the head 8 (in this case, moving the head upward by about 30 °) Is set in the “Target y” field.
ここで、スクリプトタイプは、ゲーム活性化ロボット1が音声として発する発話内容を大まかに分類したものであり、図4に示すように、例えばゲーム活性化ロボット1が自主的に解答する行動「Answer」と、司会者MCに解答を促されてゲーム活性化ロボット1が解答する行動「Hesitate」と、ゲーム活性化ロボット1が独り言を発話する行動「Mutter」と、問題の感想や豆知識等の問題と関連する関連情報を発話する行動「SpeakImpression」と、出題時に問題の難易度に対して発話する行動「SpeakLevelImpression」とから構成されている。すなわち、スクリプトテーブル34には、問題毎に行動「Answer」と、行動「Hesitate」と、行動「Mutter」と、行動「SpeakImpression」と、行動「SpeakLevelImpression」がスクリプト情報(発話情報)として記憶されており、各行動「Answer」、行動「Hesitate」、行動「Mutter」、行動「SpeakImpression」及び行動「SpeakLevelImpression」毎に表題に合った所定の発話内容が設定されている。 Here, the script type roughly categorizes the utterance contents that the game activation robot 1 utters as a voice. For example, as shown in FIG. 4, for example, the action “Answer” that the game activation robot 1 autonomously answers. The action "Hesitate" that the game activation robot 1 answers when prompted by the MC MC, the action "Mutter" that the game activation robot 1 speaks, and problems such as impressions and tips It is composed of an action “SpeakImpression” that utters related information related to and an action “SpeakLevelImpression” that utters the difficulty level of the problem at the time of the question. In other words, the action “Answer”, the action “Hesitate”, the action “Mutter”, the action “SpeakImpression”, and the action “SpeakLevelImpression” are stored as script information (utterance information) in the script table 34 for each problem. For each action “Answer”, action “Hesitate”, action “Mutter”, action “SpeakImpression”, and action “SpeakLevelImpression”, predetermined utterance contents suitable for the title are set.
実際上、問題毎に設定されるスクリプトタイプは、モニタリングサーバ2において設定し得るようになされている。モニタリングサーバ2は、図5示すような設定画面40によってスクリプト情報を設定し得るようになされており、当該設定画面40を介して設定された内容がゲーム活性化ロボット1に送信され、ネットワークインターフェイス26を介し個別行動パターン情報としてデータベース21に記憶され得るようになされている。例えば、ID番号「81」の問題として漢字「鯔背」を設定した場合には、この「鯔背」に関する基本情報41と、スクリプト情報42とが設定され得る。基本情報41としては、ID番号(この場合「81」)が「ID」欄に設定され、問題となる漢字「鯔背」が「漢字」欄に設定され、その解答となる読み仮名「いなせ」が「読み」欄に設定されている。また、基本情報41としては、品詞のジャンルを示した「動詞、形容詞、副詞の名前」が「ジャンル」欄に設定され、問題となる「鯔背」の意味やその歴史等の関連する関連情報(トピックス)が「その他の情報」欄に設定されている。また、この問題のスクリプト情報42としては、正解度に応じて、3つの行動「Answer」(図中「answer」)と、3つの行動「Hesitate」(図中「hesitate」)、4つの行動「Mutter」(図中「mutter」)、3つの行動「SpeakImpression」(図中「speak#impression」)がそれぞれ設定されている。 In practice, the script type set for each problem can be set in the monitoring server 2. The monitoring server 2 can set the script information on the setting screen 40 as shown in FIG. 5, and the contents set via the setting screen 40 are transmitted to the game activation robot 1, and the network interface 26 And stored in the database 21 as individual action pattern information. For example, in the case where the Chinese character “鯔 鯔” is set as the problem of the ID number “81”, basic information 41 and script information 42 regarding this “鯔 鯔” can be set. As the basic information 41, an ID number (in this case, “81”) is set in the “ID” field, and the kanji character “Kashiwa” in question is set in the “Kanji” field, and the reading kana “Inase” is the answer. Is set in the “Reading” column. In addition, as basic information 41, “verb, adjective, adverb name” indicating the genre of the part of speech is set in the “genre” column, and the relevant information such as the meaning of the problem “sore” and its history (Topics) is set in the “Other information” column. The script information 42 of this problem includes three actions “Answer” (“answer” in the figure), three actions “Hesitate” (“hesitate” in the figure), and four actions “ “Mutter” (“mutter” in the figure) and three actions “SpeakImpression” (“speak # impression” in the figure) are set.
このようにスクリプトタイプを示す行動「Answer」、行動「Hesitate」、行動「Mutter」及び行動「SpeakImpression」の各内容は、正解度欄44に設定される正解度(「正解への近さ」を示し、例えば0〜100からなり値が大きいほど正解に近いことを示す)によってさらに分類され得る。この場合、司会者MCが「おしい」という言葉(正解に近いことを示す言葉)を発話する度にゲーム活性化システム15は、正解へ近づいていると判断し、正解へより近いことを示す正解度の大きい発話内容を出力し得るようになされている。そして、各スクリプトタイプが入力されるスクリプトタイプ欄43には、正解度欄44に加えて、最適な発話内容が設定される発言内容欄45と、ゲーム活性化ロボット1の動作内容が設定される行動欄46とが設けられている。この場合、行動「Answer」には、例えば正解度が低い「10」に「ねこぜ!」という発話内容が設定されており、正解度「20」に「せむし?」という発話内容が設定されており、正解度「30」に「ぼらせ」という発話内容が設定されている(すなわち「ねこぜ!」という言葉よりも「ぼらせ」という言葉が正解に近いことを示している)。 As described above, the contents of the action “Answer”, action “Hesitate”, action “Mutter”, and action “SpeakImpression” indicating the script type indicate the correctness (“closeness to the correct answer”) set in the correctness column 44. For example, it is 0 to 100, and a larger value indicates that the answer is closer to the correct answer). In this case, every time the MC MC utters the word “good” (a word indicating that it is close to the correct answer), the game activation system 15 determines that it is approaching the correct answer, and the correct answer indicating that it is closer to the correct answer. It is designed to output utterance contents with a high degree. In the script type field 43 in which each script type is input, in addition to the correctness degree field 44, an utterance content field 45 in which optimum utterance content is set and an operation content of the game activation robot 1 are set. An action column 46 is provided. In this case, for the action “Answer”, for example, the utterance content “Nekoze!” Is set to “10”, which has a low accuracy, and the utterance content “Semushi?” Is set to the accuracy “20”. In addition, the content of the utterance “Boraze” is set to the correct answer level “30” (ie, the word “Boraze” is closer to the correct answer than the word “Nekoze!”).
また、行動「Hesitate」には、正解度「10」に「ええ?二文字目の背、しか読めないよお」という発話内容が設定されており、正解度「20」に「んん?魚の背中に関係あるの?」という発話内容が設定されている。行動「Mutter」には、正解度「10」に「一文字目はなんて読むんだろう?」という発話内容が設定されており、正解度「20」に「一文字目は、魚の名前なんだろうな」という発話内容が設定されており、正解度「30」には「昔の言葉かな?」という発話内容が設定されている。行動「SpeakImpression」には、正解度「10」に「いなせだねえ」という発話内容が設定されており、正解度「20」に「江戸ことばって、いいね」という発話内容が設定されており、正解度「30」に「粋で、ござるなあ」という発話内容が設定されている。 In addition, the action “Hesitate” has an utterance content of “Yes? I can only read the back of the second letter” in the accuracy level “10”, and “N? The content of the utterance “Is it related to the back?” Is set. The action “Mutter” is set to the correct answer level “10” and the utterance content “What is the first letter read?” And the correct answer level “20” is “I think the first letter is the name of the fish.” The correct utterance content is set to the correct answer level “30”. In the action “SpeakImpression”, the correct answer level “10” is set with the utterance content “Inase Daenee”, and the correct answer level “20” is set with the utterance content “Edo Kotoba, Good”. , The content of the utterance “pure and miserable” is set for the correct answer “30”.
さらに、これら行動「Answer」、行動「Hesitate」、行動「Mutter」及び行動「SpeakImpression」には、ゲーム活性化ロボット1の動作内容が予め設定されており、各発話内容を発する際にゲーム活性化ロボット1が頭部8や腕部9を動かして、発話内容に適した動作を実行し得るようになされている。例えば行動「Answer」には、正解度「10」の発話内容「ねこぜ!」に対して、行動「lookP 0 0, happy」が対応付けられて設定されている。ここで「lookP」はゲーム活性化ロボット1の体全体を特定の方向に向ける動作であることを示し 「0 0」は、ターゲット(すなわち参加者A等)の方向に頭部8を回動させるための左右方向x、上下方向yを示し(この場合はxは0、yは0で頭部8は回動しない)、「happy」は、発話内容を楽しげに発するような音声トーンであることを示す。 Furthermore, the action contents of the game activation robot 1 are set in advance in these actions “Answer”, action “Hesitate”, action “Mutter”, and action “SpeakImpression”, and the game activation is performed when each utterance is issued. The robot 1 can move the head 8 and the arm 9 to perform an operation suitable for the utterance content. For example, the action “lookP 0 0, happy” is set in association with the utterance content “Nekoze!” With the correctness level “10” in the action “Answer”. Here, “lookP” indicates that the whole body of the game activation robot 1 is directed in a specific direction. “0 0” rotates the head 8 in the direction of the target (ie, participant A or the like). Left and right direction x, and up and down direction y (in this case, x is 0, y is 0 and the head 8 does not rotate), and “happy” is a sound tone that utters the utterance content happily. Indicates.
また行動「Answer」には、正解度「20」の発話内容「せむし?」に対して、動作テーブル35に設定される行動「lookP 0 0, happy,handup」が対応付けられて設定されている。ここで「handup」はゲーム活性化ロボット1の腕部9を上げることを示す。その他、この行動欄46には、発話内容を悲しげに発するような音声トーンであることを示す「sad」や、腕部9を振るような行動をさせる「shake」、腕部9を頭部8に寄せて思考中であることを表す行動をさせる「handthink」、頭部8を上下に回動させてうなづき行動をさせる「nod」等がそれぞれ設定されている。このような設定内容は、設定画面40に設けられた修正ボタン47が選択決定されることにより各スクリプトタイプ欄43毎に発話内容を自由に設定し得るようになされている。また、設定画面40では、新規追加ボタン48が選択決定されることにより、新たなスクリプト情報44としてスクリプトタイプを追加し得るようになされている。 The action in the "Answer" is, for the speech content of the correct answer of "20", "hunchback?", Operating tape b le 35 action, which is set to "lookP 0 0, happy, handup" is set in association with ing. Here, “handup” indicates that the arm portion 9 of the game activation robot 1 is raised. In addition, in this action column 46, “sad” indicating a voice tone that utters the utterance content sadly, “shake” that causes the arm part 9 to swing, and the arm part 9 on the head 8 “Handthink” for making an action indicating that the person is thinking and “nod” for turning the head 8 up and down to make a nodding action are set. Such setting contents can be freely set for each script type column 43 by selecting and determining the correction button 47 provided on the setting screen 40. In the setting screen 40, a script type can be added as new script information 44 by selecting and determining the new addition button 48.
(2−2)共通行動パターン情報について
次に、データベース21に記憶される共通行動パターン情報について説明する。図4に示すように、「発話内容が変化しない行動」である共通行動パターン情報は、例えばヒントを要求する行動「AskHint」と、司会者MCの「おしい」という発話に反応する行動「React TO Oshii」と、司会者MCの「正解」という発話に反応する行動「React TO Seikai」と、何か発話する行動「Say Something」と、誰かに解答を促す行動「Let Answer」と、誰かを見る行動「Look Someone」とから構成され、これら行動「AskHint」、行動「React TO Oshii」、行動「React TO Seikai」、行動「Say Something」、行動「Let Answer」及び行動「Look Someone」の各行動パターンが予め設定されている。
(2-2) About common action pattern information Next, the common action pattern information memorize | stored in the database 21 is demonstrated. As shown in FIG. 4, the common action pattern information that is “an action whose utterance content does not change” includes, for example, an action “AskHint” that requests a hint, and an action “React TO” that reacts to the utterance “Oishi” of the MC MC. Oshii ”, the action“ React TO Seikai ”that responds to the utterance of“ right ”by the MC, the action“ Say Something ”that speaks something, and the action“ Let Answer ”that prompts someone to answer It consists of the action “Look Someone”, these actions “AskHint”, action “React TO Oshii”, action “React TO Seikai”, action “Say Something”, action “Let Answer” and action “Look Someone” A pattern is preset.
例えば、ヒントを要求する行動「AskHint」には、司会者に対してヒントを要求する例えば「ヒントは?」を発する行動パターンが対応付けられている。また、司会者MCの「おしい」という発話に反応する行動「React TO Oshii」には、例えば「え、おしい?」等のように司会者の発話を確認して他の参加者A、B及びCに正解に近いことを認識させるための言語を発話するという行動パターンが対応付けられている。司会者MCの「正解」という発話に反応する行動「React TO Seikai」には、例えば「そうだったのか!」等のように他の参加者A、B及びCに正解を認識させるための言語を発話するという行動パターンが対応付けられている。何か発話する行動「Say Something」には、例えば「なんだろう?」といった独り言を発話するという行動パターンが対応付けられている。誰かに解答を促す行動「Let Answer」には、参加者A、B又はCに回答を促すために例えば「A(B又はC)さんどうですか」と発話しながら参加者A、B又はCの方向に頭部8を回動させるという行動パターンが対応付けられている。誰かを見る行動「Look Someone」には、発話せずに司会者、参加者A、B又はCの方向にランダムに頭部8を回動させ、あたかもゲーム活性化ロボット1が司会者、参加者A、B又はCの方向を向いているかのような行動パターンが対応付けられている。 For example, the action “AskHint” that requests a hint is associated with an action pattern that issues a hint to the presenter, for example, “What is a hint?”. In addition, in the action “React TO Oshii” that reacts to the utterance of “Oshii” by the MC MC, the utterance of the moderator is confirmed and other participants A, B and An action pattern of speaking a language for recognizing that C is close to the correct answer is associated. The action “React TO Seikai” that responds to the MC's utterance of “correct answer” is a language for allowing other participants A, B, and C to recognize the correct answer, such as “Is that so!” Is associated with an action pattern of uttering. An action pattern of uttering a single word such as “What is it?” Is associated with an action “Say Something” that speaks something. In the action “Let Answer” that prompts someone to answer, the direction of participant A, B, or C while speaking, for example, “How is A (B or C)?” To prompt participant A, B, or C to answer Is associated with an action pattern of rotating the head 8. In the action “Look Someone” to see someone, the head 8 is randomly rotated in the direction of the presenter, participant A, B or C without speaking, and the game activation robot 1 is the presenter and participant. Action patterns as if facing the direction of A, B or C are associated.
(2−3)進行状況キーワードについて
また、これに加えてデータベース21には、複数の進行状況キーワードが設定されたキーワードテーブルが記憶されている。これら進行状況キーワードは、難読ゲームの進行を制御している司会者MCの発話内容から難読ゲームのおおよその進行状況の推定を行うためのものであり、ゲーム活性化ロボット1の各種行動パターンのトリガとなり得る。ここでこの実施の形態の場合、図6に示すように、キーワードテーブル50には、進行状況キーワードとして、司会者MCが発話した「難読ゲームをはじめます」を認識するための開始キーワード「HAJIME」と、誰かの解答に対して司会者MCが発話した「正解」を認識するための正解キーワード「SEIKAI」と、誰かの解答に対して司会者MCが発話した「おしい」を認識するための判定キーワード「OSHII」と、誰かの解答に対して司会者MCが発話した「違う」を認識するための不正解キーワード「CHIGAU」と、次の問題を始めるために司会者MCが発話した「次」を認識するための問題変更キーワード「TSUGI」とが設定されている。また、このキーワードテーブル50には、図示しないが、ゲーム進行中を認識するために、司会者MCが発話した「問題です」を認識するための問題呈示キーワード「mondai」も設定されている。
(2-3) Progress Status Keywords In addition to this, the database 21 stores a keyword table in which a plurality of progress status keywords are set. These progress status keywords are used to estimate the approximate progress status of the obfuscated game from the utterance contents of the MC MC controlling the progress of the obfuscated game, and trigger various action patterns of the game activation robot 1. Can be. In this embodiment, as shown in FIG. 6, the keyword table 50 includes a start keyword “HAJIME” for recognizing “start an obfuscated game” uttered by the MC as a progress status keyword. And the correct keyword “SEIKAI” for recognizing the “correct answer” spoken by the MC in response to someone ’s answer, and the determination for recognizing “good” spoken by the MC in response to someone ’s answer. The keyword “OSHII”, the incorrect keyword “CHIGAU” for recognizing “different” spoken by MC MC in response to someone ’s answer, and the “next” spoken by MC MC to start the next question The problem change keyword “TSUGI” for recognizing In addition, although not shown in the figure, the keyword presentation keyword “mondai” for recognizing “Is a problem” spoken by the MC is also set in order to recognize that the game is in progress.
さらに、キーワードテーブル50には、進行状況キーワードとして、ヒントを提供するために司会者MCが発話した「ヒントは」を認識するための助言キーワード「HINT」と、司会者MCがゲーム活性化ロボット1に解答を促した発話を認識するためのロボット解答キーワード「KAITO ROBOTTO」と、司会者MCが参加者Aに解答を促した発話を認識するためのA解答キーワード「KAITO A」と、司会者MCが参加者Bに解答を促した発話を認識するためのB解答キーワード「KAITO B」と、司会者MCが参加者Cに解答を促した発話を認識するためのC解答キーワード「KAITO C」とが設定されている。 Further, in the keyword table 50, as a progress status keyword, an advisory keyword “HINT” for recognizing “hint is” spoken by the MC to provide a hint, and the MC MC activates the game activation robot 1. The robot answer keyword “KAITO ROBOTTO” for recognizing the utterance that prompted the answer, the A answer keyword “KAITO A” for recognizing the utterance that the MC invited the participant A to answer, and the MC MC Answer keyword “KAITO B” for recognizing the utterance that urged participant B to answer, and C answer keyword “KAITO C” for recognizing the utterance that MC invited participant C to answer Is set.
(2−4)進行状況キーワードに基づく行動パターンについて
ここで、図2に示すように、上述した進行状況キーワードを認識するための音声認識部22においては、ヘッドセット型マイク5から得られた音声信号に所定の音声認識処理を実行することにより当該音声信号に含まれる言葉を単語単位で認識する機能を有するものであり、認識したこれら単語を文字列データとして状況管理部17に送出するようになされている。行動選択部18は、音声認識部により得られた文字列データを状況管理部17から受け取り、データベース21に予め記憶しておいた進行状況キーワードを読み出して、進行状況キーワードのいずれかと文字列データとが一致するか否かを判断する。行動選択部18は、文字列データが進行状況キーワードのいずれかと一致すると、下記に示す式に基づいて予想活性度増加量ΔAを算出し、図4に示す個別行動パターン情報(「発話内容が変化する行動」)及び共通行動パターン情報(「発話内容が変化しない行動」)の中から活性度を最大化させるような行動パターンを選択し得るようになされている。
(2-4) Action Pattern Based on Progress Status Keyword Here, as shown in FIG. 2, in the voice recognition unit 22 for recognizing the progress status keyword described above, the voice obtained from the headset type microphone 5 It has a function of recognizing words contained in the speech signal in units of words by executing predetermined speech recognition processing on the signal, and sends the recognized words to the situation management unit 17 as character string data. Has been made. The action selection unit 18 receives the character string data obtained by the voice recognition unit from the situation management unit 17, reads out the progress keyword stored in advance in the database 21, and reads any of the progress keywords and the character string data. It is judged whether or not. When the character string data matches any of the progress status keywords, the action selection unit 18 calculates the expected activity increase amount ΔA based on the following formula, and displays the individual action pattern information (“the utterance content changes” shown in FIG. The behavior pattern that maximizes the activity can be selected from the common behavior pattern information (“the behavior in which the utterance content does not change”).
この場合、「Behavior i」は、図4における行動「Answer」、行動「Hesitate」、行動「Mutter」、行動「SpeakImpression」、行動「SpeakLevelImpression」、行動「AskHint」、行動「React TO Oshii」、行動「React TO Seikai」、行動「Say Something」、行動「Let Answer」、又は行動「Look Someone」のいずれかを示し、「Person j」はこれら各行動パターンによって活性度が増加する参加者A、B又はCを示す。また、「ftask」は、行動パターンと、活性度が増加する参加者A、B又はCとによる活性度の評価関数を示すものである。すなわち「ftask」は行動パターンとその起因となる対象人物(参加者A、B又はC)から活性度が計算されるということを表現したものである。「ftask」としては、例えば予想効果テーブル(後述する図7)を基に、ゲーム活性化ロボット1が所定の行動パターンを実行したことによる予想活性度増加量ΔAを予め推測しておき、これを基にゲーム活性化ロボット1が行動パターンを決定することを示すものがある。このようにしてftaskを用いて、ゲーム活性化ロボット1は下記の式のように予想活性度増加量ΔAを最大化させる行動パターンと、参加者A、B又はCとが選択される。 In this case, “Behavior i” is the behavior “Answer”, behavior “Hesitate”, behavior “Mutter”, behavior “SpeakImpression”, behavior “SpeakLevelImpression”, behavior “AskHint”, behavior “React TO Oshii”, behavior in FIG. “React TO Seikai”, action “Say Something”, action “Let Answer”, or action “Look Someone”. “Person j” is a participant A, B whose activity increases with each of these action patterns Or C. “Ftask” indicates an activity evaluation function based on the behavior pattern and the participants A, B, or C whose activity increases. That is, “ftask” expresses that the activity is calculated from the action pattern and the target person (participant A, B, or C) that is the cause. As “ftask”, for example, based on an expected effect table (FIG. 7 to be described later), an expected activity increase amount ΔA due to the game activation robot 1 executing a predetermined action pattern is estimated in advance. Some of them indicate that the game activation robot 1 determines an action pattern. In this way, using ftask, the game activation robot 1 selects an action pattern that maximizes the predicted activity increase amount ΔA and a participant A, B, or C as shown in the following equation.
すなわち、司会者MCがゲーム活性化ロボット1に解答を促したことをロボット解答キーワード「KAITO ROBOTTO」を基に音声認識部22が認識したとき(図7の「KAITO ROBOTTO」)には、上記数1の式に基づいて、図4に示すこれら各行動パターンの予想活性度増加量ΔAが算出され、このうち予想活性度増加量ΔAが相対的に増加した行動「Hesitate」(ゲーム活性化ロボット1が司会者MCに解答を促されて解答する行動)が選択候補となる。行動選択部18は、選択候補となった行動パターンに対応付けられた所定の発話内容をデータベース21から読み出して音声合成部23に送出する。音声合成部23は、行動選択部18から与えられる発話内容を音声信号に変換する機能を有し、かくして得られた音声信号をスピーカ24に送出するようになされている。これによりこの音声信号に基づく音声をスピーカ24から出力させることができるようになされている。 That is, when the speech recognition unit 22 recognizes that the MC MC has prompted the game activation robot 1 to answer based on the robot answer keyword “KAITO ROBOTTO” (“KAITO ROBOTTO” in FIG. 7), the above number Based on the equation 1, a predicted activity increase amount ΔA for each of these behavior patterns shown in FIG. 4 is calculated. Among these, an action “Hesitate” (game activation robot 1 Is an action to be answered by being prompted by the MC MC. The action selection unit 18 reads out the predetermined utterance content associated with the action pattern that is a selection candidate from the database 21 and sends it to the speech synthesis unit 23. The voice synthesizer 23 has a function of converting the utterance content given from the action selection unit 18 into a voice signal, and sends the voice signal thus obtained to the speaker 24. As a result, sound based on the sound signal can be output from the speaker 24.
また、これに対して行動選択部18は、音声認識部22において開始キーワード「HAJIME」が認識されると、これに応じて予想活性度増加量ΔAが相対的に増加した行動「Say Something」を選択候補とし、また、音声認識部22において正解キーワード「SEIKAI」が認識されると、これに応じて予想活性度増加量ΔAが相対的に増加した行動「React TO Seikai」を選択候補とし、さらに、音声認識部22において判定キーワード「OSHII」が認識されると、これに応じて予想活性度増加量ΔAが相対的に増加した行動「React TO Oshii」を選択候補とし得るようになされている。 On the other hand, when the voice recognition unit 22 recognizes the start keyword “HAJIME”, the behavior selection unit 18 performs the behavior “Say Something” in which the expected activity increase amount ΔA is relatively increased accordingly. When the correct keyword “SEIKAI” is recognized by the voice recognition unit 22 as a selection candidate, an action “React TO Seikai” in which the expected activity increase amount ΔA is relatively increased accordingly is selected as a selection candidate. When the speech recognition unit 22 recognizes the determination keyword “OSHII”, an action “React TO Oshii” having a relatively increased expected activity increase amount ΔA according to the determination keyword “OSHII” can be selected as a selection candidate.
同様にして行動選択部18は、音声認識部22において不正解キーワード「CHIGAU」が認識されると、これに応じて予想活性度増加量ΔAが相対的に増加した行動「Say Something」を選択候補とし、また、音声認識部22において問題変更キーワード「TSUGI」が認識されると、これに応じて予想活性度増加量ΔAが相対的に増加した行動「Say Something」を選択候補とし、さらに、音声認識部22において助言キーワード「HINT」が認識されると、これに応じて予想活性度増加量ΔAが相対的に増加した行動「Mutter」を選択候補とし得る。また、行動選択部18は、音声認識部22においてロボット解答キーワード「KAITO ROBOTTO」が認識されると、これに応じて予想活性度増加量ΔAが相対的に増加した行動「Hesitate」を選択候補とし、また、音声認識部22においてA解答キーワード「KAITO A」、B解答キーワード「KAITO B」又はC解答キーワード「KAITO C」が認識されると、これに応じて予想活性度増加量ΔAが増加した行動「Look Someone」を選択候補とし得る。 Similarly, when the incorrect keyword “CHIGAU” is recognized by the voice recognition unit 22, the behavior selection unit 18 selects the behavior “Say Something” whose predicted activity increase amount ΔA has increased relatively accordingly. When the problem-changing keyword “TSUGI” is recognized by the voice recognition unit 22, the action “Say Something” whose expected activity increase ΔA is relatively increased in response to this is selected as a selection candidate. When the recognition keyword “HINT” is recognized by the recognition unit 22, an action “Mutter” in which the expected activity increase amount ΔA is relatively increased in response thereto can be selected as a selection candidate. In addition, when the robot recognition keyword “KAITO ROBOTTO” is recognized by the voice recognition unit 22, the behavior selection unit 18 selects the behavior “Hesitate” in which the predicted activity increase amount ΔA is relatively increased in accordance with this as a selection candidate. In addition, when the A answer keyword “KAITO A”, the B answer keyword “KAITO B”, or the C answer keyword “KAITO C” is recognized in the voice recognition unit 22, the expected activity increase amount ΔA increases accordingly. The action “Look Someone” may be selected.
これに加えて状況管理部17は、ゲーム進行中、難読ゲームにおける司会者MCと参加者A、B及びCとの対話が正解までどの程度近い状況にあるかについて、司会者MCが発話した「おしい」との音声に基づいて判断し得るようになされている。実際上、行動選択部18は、状況管理部17から受け取った司会者MCの「おしい」との文字列データが進行状況キーワード(判定キーワード「OSHII」)に一致すると、例えば難読ゲームの開始時に「0」に設定された正解度を「10」単位毎加算してゆき、現時点での正解度を記憶する。 In addition to this, during the progress of the game, the MC MC spoke about how close the dialogue between the MC MC and the participants A, B, and C in the obfuscated game is until the correct answer. Judgment can be made on the basis of the voice of “Oh!”. In practice, when the character string data “Oshii” of the MC MC received from the situation management unit 17 matches the progress situation keyword (determination keyword “OSHII”), the action selection unit 18, for example, “ The correctness level set to “0” is incremented by “10” units, and the current correctness level is stored.
ここで正解度は、データベース21に記憶された複数の行動パターンの中から予想活性度増加量ΔAに基づいて複数の行動パターンが選択候補となったとき、これら選択候補となった複数の行動パターンの中から進行状況に適した行動パターンを選択する際に目安となり得るものである。すなわち、予想活性度増加量ΔAが相対的に増加したとして選択候補になった複数の行動「Mutter」(ゲーム活性化ロボット1が独り言を発話する行動)として、「魚かな?」(正解度:10)と、「あ、もしかして大きくて優雅に泳ぐ魚じゃない?」(正解度:50)との2つの発話内容が予め記憶されている場合には、司会者MCの「おしい」という発話により正解度が上昇して現時点で50以上になっているとき、正解度が大きい「あ、もしかして大きくて優雅に泳ぐ魚じゃない?」(正解度:50)の発話内容が選択候補となる。これに対して、現時点で正解度が50以下のときには、正解度が小さい「魚かな?」(正解度:10)の発話内容が選択候補となる。 Here, when the plurality of behavior patterns become selection candidates based on the predicted activity increase amount ΔA among the plurality of behavior patterns stored in the database 21, the plurality of behavior patterns that have become these selection candidates. It can be used as a guide when selecting an action pattern suitable for the progress situation from the list. That is, as a plurality of actions “Mutter” (behavior that the game activation robot 1 speaks to itself) as a selection candidate because the expected activity increase amount ΔA has relatively increased, “fish?” (Correctness: 10) and “Oh, isn't it a big and elegant fish?” (Accuracy level: 50), the utterance of MC “Ooi” When the degree of correctness rises to 50 or more at present, the utterance content of “Oh, isn't it a large and elegantly swimming fish?” (Correctness degree: 50) is a candidate for selection. On the other hand, when the correct answer level is 50 or less at the present time, the utterance content of “fish?” (Correct answer: 10) with a low correct answer is a selection candidate.
なお、例えば行動「Mutter」に正解度が同じ行動パターンが並列的に設定されている場合、行動選択部18は、これら行動パターンのうち1つをランダムに選択する。このようにゲーム活性化システム15では、司会者MCの「おしい」との音声を基に可変する正解度に基づいて、どの程度正解に近づいているか否かの進行状況を把握し、この正解度に予め対応付けられた発話内容を発することで、進行状況に最適な発話内容を基に司会者MCと参加者との直接的な対話を活性化させ得るようになされている。 For example, when an action pattern having the same degree of correctness is set in parallel for the action “Mutter”, the action selecting unit 18 randomly selects one of these action patterns. In this way, the game activation system 15 grasps the progress of whether or not the correct answer is approaching based on the correct answer varying based on the voice of the MC MC “Ooi”. By uttering the utterance content previously associated with the utterance content, it is possible to activate the direct dialogue between the MC and the participant based on the utterance content optimal for the progress situation.
(2−5)活性度に基づく行動パターンについて
次に活性度に応じてゲーム活性化ロボット1が自発的に行動する場合について以下説明する。図2に示すように、活性度検出部25は、カメラ11から与えられる各参加者A、B及びCの映像信号を常時監視し、当該映像信号に顔認識処理を実行することにより、当該映像信号に基づいて、参加者A、B及びCの人数と、各参加者A、B及びCの姿勢と、顔向き方向と、笑顔等の顔の表情とを検出し得るようになされている。
(2-5) Action Pattern Based on Activity Next, the case where the game activation robot 1 spontaneously acts according to the activity will be described below. As shown in FIG. 2, the activity detection unit 25 constantly monitors the video signals of the participants A, B, and C given from the camera 11 and executes face recognition processing on the video signals, so that the video Based on the signal, the number of participants A, B, and C, the postures of the participants A, B, and C, the face direction, and facial expressions such as smiles can be detected.
実際上、この活性度検出部25は、難読ゲームが開始されると、先ず始めにカメラ11から与えられた映像信号を基に、各参加者A、B及びCの顔の輪郭等から顔向き方向を検出する。そして、活性度検出部25は、これら顔向き方向から各参加者A、B及びCが問題を呈示したホワイトボードWB又は司会者MCを凝視しているか否かを判断し、各参加者A、B及びCの初期の活性度を特定し得るようになされている。 In practice, when the obfuscation game is started, the activity detection unit 25 first determines the direction of the face from the contours of the faces of the participants A, B and C based on the video signal given from the camera 11 first. Detect direction. Then, the activity detection unit 25 determines whether each participant A, B and C stares at the whiteboard WB or the MC MC presenting the problem from these face direction directions, and each participant A, The initial activity of B and C can be specified.
因みに、この実施の形態の場合、活性度検出部25は、カメラ11から与えられた映像信号を基に、検出した発話者の顔向き方向の先に予め特定したホワイトボードWBや司会者MCが表示されているか否かにより、各参加者A、B及びCがホワイトボードWB又は司会者MCを凝視しているか否かを判断し得る。なお、各参加者A、B及びCがホワイトボードWB又は司会者MCを凝視しているか否かについては、ホワイトボードWBと司会者MCと各参加者A、B及びCとの位置関係を予め位置データとして入力しておき、これら位置データを基に各参加者A、B及びCがホワイトボードWB又は司会者MCを凝視しているか否かを判断するようにしてもよい。 Incidentally, in the case of this embodiment, the activity detection unit 25 is based on the video signal given from the camera 11 and the whiteboard WB or the MC MC specified in advance in the direction of the detected speaker's face direction. It can be determined whether or not each participant A, B, and C stares at the whiteboard WB or the MC MC depending on whether or not it is displayed. As for whether each participant A, B and C stares at the whiteboard WB or the MC MC, the positional relationship between the whiteboard WB, the MC MC and each participant A, B and C is determined in advance. It may be inputted as position data, and it may be determined whether or not each participant A, B and C stares at the whiteboard WB or the MC MC based on the position data.
ここで、活性度とは、各参加者A、B及びCの状態を観察することにより推定されるもので、参加者A、B及びCが難読ゲームにどの程度積極的に参加しているか否かを数字化したものである。この実施の形態の場合、活性度検出部25は、映像信号を基に参加者A、B及びCの顔向き方向がホワイトボードWB又は司会者MCの方向であると判断すると、当該参加者A、B又はCが難読ゲームに積極的に参加していると判断し、当該参加者A、B又はCの活性度を所定の数値とし得る。これに対して活性度検出部25は、映像信号を基に参加者A、B及びCの顔向き方向がホワイトボードWB又は司会者MC以外の方向であると判断すると、当該参加者A、B又はCが難読ゲームに積極的に参加していないと判断し、当該参加者A、B又はCの活性度の数値を0とし得る。 Here, the activity is estimated by observing the states of the participants A, B, and C, and how actively the participants A, B, and C participate in the obfuscated game. This is a digitized version. In the case of this embodiment, when the activity detection unit 25 determines that the face direction of the participants A, B, and C is the direction of the whiteboard WB or the MC MC based on the video signal, the participant A , B or C can be determined to actively participate in the obfuscated game, and the activity level of the participant A, B or C can be set to a predetermined numerical value. On the other hand, when the activity detection unit 25 determines that the face orientation directions of the participants A, B, and C are directions other than the whiteboard WB or the MC MC based on the video signal, the participants A, B Alternatively, it may be determined that C is not actively participating in the obfuscated game, and the activity level of the participant A, B, or C may be set to zero.
また、この活性度検出部25は、カメラ11から与えられた映像信号を常時監視し、当該映像信号に基づいて各参加者A、B及びCの目や口等から顔の表情(笑顔)を検出し、これら顔の表情から各参加者A、B及びCの活性度を変更し得るようになされている。この実施の形態の場合、活性度検出部25は、映像信号に基づいて映像内の参加者の目や口等を、予め記憶した顔パターンと照らし合わせ、当該参加者A、B及びCが笑顔であるか否かを判断する。その結果、活性度検出部25は、参加者A、B又はCが笑顔であると判断すると、当該参加者A、B又はCが難読ゲームに積極的に参加していると判断し、当該参加者の活性度を増加させ、これに対して参加者A、B又はCの顔の表情が笑顔でないと判断すると、当該参加者A、B又はCが難読ゲームに積極的に参加していないと判断し、当該参加者A、B又はCの活性度を減少させ得る。 Further, the activity detection unit 25 constantly monitors the video signal given from the camera 11, and based on the video signal, the facial expressions (smiles) from the eyes and mouths of the participants A, B and C are obtained. It can detect and change the activity of each participant A, B, and C from these facial expressions. In this embodiment, the activity detection unit 25 compares the eyes and mouths of the participants in the video with the pre-stored face patterns based on the video signal, and the participants A, B, and C smile. It is determined whether or not. As a result, when the activity detection unit 25 determines that the participant A, B, or C is smiling, the activity detection unit 25 determines that the participant A, B, or C is actively participating in the obfuscated game, and the participation When the activity level of the participant A is increased and the facial expression of the participant A, B or C is determined not to be a smile, the participant A, B or C is not actively participating in the obfuscation game. Judging, the activity of the participant A, B or C may be reduced.
また、この活性度検出部25は、各参加者A、B及びCの音声をマイクロホン20で集音することにより得られた音声信号を常時監視し、当該音声信号に所定の音声識別処理を実行することにより、当該音声信号に基づいて各参加者A、B及びCが発話しているか否かの発話量(音声信号の有無)を推定し得る。そして、この実施の形態の場合、活性度検出部25は、音声信号を基に所定の参加者A、B又はCが発話していると判断すると、当該参加者A、B又はCが難読ゲームに積極的に参加していると判断し、当該参加者A、B又はCの活性度を増加させ得る。これに対して活性度検出部25は、音声信号を基に所定の参加者A、B又はCが発話していないと判断すると、当該参加者A、B又はCが難読ゲームに積極的に参加していないと判断し、当該参加者A、B又はCの活性度を減少させ得る。 The activity detection unit 25 constantly monitors a voice signal obtained by collecting the voices of the participants A, B, and C with the microphone 20, and executes a predetermined voice identification process on the voice signal. By doing so, it is possible to estimate the amount of speech (whether or not there is a speech signal) as to whether or not each participant A, B and C is speaking based on the speech signal. In the case of this embodiment, when the activity detection unit 25 determines that a predetermined participant A, B or C is speaking based on the audio signal, the participant A, B or C The activity of the participant A, B or C can be increased. On the other hand, when the activity detection unit 25 determines that the predetermined participant A, B, or C is not speaking based on the audio signal, the participant A, B, or C actively participates in the obfuscated game. It may be determined that the activity of the participant A, B or C is reduced.
このようにして活性度検出部25は、カメラ11からの映像信号及びマイクロホン20からの音声信号を基に、参加者A、B及びC毎に活性度を算出し、各参加者A、B及びCの活性度を状況管理部17に送出し得る。状況管理部17は、各参加者A、B及びCの活性度を合算した総和活性度を算出して、これら各活性度と総和活性度とを行動選択部18に送出し得るようになされている。行動選択部18は、状況管理部17を介して活性度検出部25から送られる総和活性度を常時監視しており、総和活性度が予め設定された所定の閾値よりも低くなるか否かを判断し得るようになされている。そして、行動選択部18は、総和活性度が所定の閾値よりも低くなったと判断すると、図7に示すような予想効果テーブル60を利用して、上述した式(1)に基づいて予想活性度増加量ΔAを算出し、図7に示す複数の行動パターンの中から活性度を最大化させるような行動パターンを選択し得るようになされている。 In this way, the activity detection unit 25 calculates the activity for each of the participants A, B, and C based on the video signal from the camera 11 and the audio signal from the microphone 20, and each participant A, B, and The activity of C can be sent to the status management unit 17. The situation management unit 17 can calculate the total activity obtained by adding up the activities of the participants A, B, and C, and send the activity and the total activity to the action selection unit 18. Yes. The action selection unit 18 constantly monitors the total activity sent from the activity detection unit 25 via the situation management unit 17, and determines whether the total activity is lower than a predetermined threshold value set in advance. It is made to be able to judge. When the action selection unit 18 determines that the total activity is lower than the predetermined threshold, the activity selection unit 18 uses the expected effect table 60 as shown in FIG. The increase amount ΔA is calculated, and a behavior pattern that maximizes the activity can be selected from the plurality of behavior patterns shown in FIG.
ここで、先ず始めに予想効果テーブル60について以下説明する。図7に示すように、予想効果テーブル60は、個別行動パターン情報及び共通行動パターン情報のうち現在選択可能な行動パターンの中から、参加者A、B及びCの活性度を増加させる効果が高いと予想される行動パターンを選択する際に用いられ得る。この予想効果テーブル60は、ゲーム活性化ロボット1が行動パターン欄61(「Behavior Pattern」)の各行動パターンを実行した結果、参加者A、B及びCがそれぞれどのような行動を起こすかを予め予想して定義している。 Here, first, the expected effect table 60 will be described below. As shown in FIG. 7, the expected effect table 60 has a high effect of increasing the activities of the participants A, B, and C from currently selectable action patterns among the individual action pattern information and the common action pattern information. Can be used in selecting the expected behavior pattern. This expected effect table 60 indicates in advance what actions the participants A, B, and C will take as a result of the game activation robot 1 executing each action pattern in the action pattern field 61 (“Behavior Pattern”). It is defined in anticipation.
実際上、この予想効果テーブル60には、難読ゲームの進行状態を示す状態欄62(図中の「State」)と、ゲーム活性化ロボット1が実行する行動パターンを示す行動パターン欄61(図中の「Behavior Pattern」)とが設けられている。行動パターン欄61は、状態欄62のゲーム進行中(図中の「GAME」)に対して、ゲーム活性化ロボット1が自ら答える行動「Answer」と、参加者Aに解答を要求する行動「Ask#A」と、参加者Bに解答を要求する行動「Ask#B」と、参加者Cに解答を要求する行動「Ask#C」と、司会者MCにヒントを要求する行動「Hint」(すなわち「AskHint」)と、ゲーム活性化ロボット1が独り言を発話する行動「Mutter」とが設けられている。また、行動パターン欄61は、状態欄62の解説中(図中の「CORRECT」)に対して、参加者Aに感想を要求する行動「AskImpression#A」と、参加者Bに感想を要求する行動「AskImpression#B」と、参加者Cに感想を要求する行動「AskImpression#C」と、ゲーム活性化ロボット1が問題の感想や豆知識等の関連する内容(関連情報)を発話する行動「SpeakImpression」とが設けられている。 Actually, the expected effect table 60 includes a state column 62 (“State” in the figure) indicating the progress state of the obfuscated game and an action pattern column 61 (in the figure) indicating the action pattern executed by the game activation robot 1. "Behavior Pattern"). The action pattern column 61 includes an action “Answer” that the game activation robot 1 answers by itself and an action “Ask that requests an answer from the participant A for the game in progress (“ GAME ”in the figure) in the state column 62. #A ”, an action“ Ask # B ”requesting an answer from the participant B, an action“ Ask # C ”requesting an answer from the participant C, and an action“ Hint ”requesting an hint from the MC MC In other words, “AskHint”) and an action “Mutter” in which the game activation robot 1 speaks to itself are provided. In addition, the behavior pattern column 61 requests the participant “AskImpression # A” for requesting an impression from the participant A and the participant B for an impression while explaining the state column 62 (“CORRECT” in the figure). The action “AskImpression # B”, the action “AskImpression # C” requesting the impression from the participant C, and the action “where the game activating robot 1 utters the related contents (related information) such as the impression of the problem and the knowledge” "SpeakImpression".
また、予想効果テーブル60には、行動パターン欄61の各行動パターンに対して、参加者Aが凝視する方向を示すA凝視方向欄63(図中の「a#looking#at」)と、参加者Bが凝視する方向を示すB凝視方向欄64(図中の「b#looking#at」)と、参加者Cが凝視する方向を示すC凝視方向欄65(図中の「c#looking#at」)と、参加者Aが発話するか否かを示すA発話欄66(図中の「a#speaking」)と、参加者Bが発話するか否かを示すB発話欄67(図中の「b#speaking」)と、参加者Cが発話するか否かを示すC発話欄68(図中の「c#speaking」)と、Aが笑うか否かを示すA表情欄69(図中の「a#laughing」)と、Bが笑うか否かを示すB表情欄70(図中の「b#laughing」)と、Cが笑うか否かを示すC表情欄71(図中の「c#laughing」)と、Aが考えているか否かを示すA思考欄72(図中の「a#thinking」)と、Bが考えているか否かを示すB思考欄73(図中の「b#thinking」)と、Cが考えているか否かを示すC思考欄74(図中の「c#thinking」)とが対応付けられている。 The expected effect table 60 also includes an A gaze direction column 63 (“a # looking # at” in the figure) indicating the direction in which the participant A gazes for each behavior pattern in the behavior pattern column 61, and participation. B staring direction column 64 (“b # looking # at” in the figure) indicating the direction in which person B stares, and C staring direction column 65 (“c # looking #” in the figure) indicating the direction in which participant C stares at "), an A utterance column 66 (" a # speaking "in the figure) indicating whether or not the participant A speaks, and a B utterance column 67 (in the figure, indicating whether or not the participant B speaks) “B # speaking”), a C utterance column 68 indicating whether or not the participant C speaks (“c # speaking” in the figure), and an A facial expression column 69 indicating whether or not A laughs (see FIG. "A # laughing"), B expression field 70 indicating whether B laughs ("b # laughing" in the figure), and C expression field 71 indicating whether C laughs (in the figure) "C # laughing") and the A thought field 72 (Figure "A # thinking"), a B thinking column 73 indicating whether B is thinking ("b # thinking" in the figure), and a C thinking column 74 indicating whether C is thinking (in the figure) "C # thinking").
実際上、この予想効果テーブル60では、行動「Answer」に対応付けたA凝視方向欄63とB凝視方向欄64とC凝視方向欄65とが「ロボット」と定義されており、ゲーム活性化ロボット1が行動「Answer」を実行すると、全ての参加者A、B及びCがゲーム活性化ロボット1を凝視するであろうことが予想されている。また、この予想効果テーブル60では、行動「Answer」に対応付けたA発話欄66とB発話欄67とC発話欄68とが「FALSE」と定義されており、ゲーム活性化ロボット1が行動「Answer」を実行すると、全ての参加者A、B及びCが発話しないであろうことが予想されている。さらに、この予想効果テーブル60では、行動「Answer」に対応付けたA表情欄69とB表情欄70とC表情欄71とが「FALSE」と定義されており、ゲーム活性化ロボット1が行動「Answer」を実行すると、全ての参加者A、B及びCが笑わないであろうことが予想されている。さらに加えて、この予想効果テーブル60では、行動「Answer」に対応付けたA思考欄72とB思考欄73とC思考欄74とが「*」と定義されており、ゲーム活性化ロボット1が行動「Answer」を実行すると、全ての参加者A、B及びCが思考中であるかどうかに関しては変化しないであろうことが予想されている。 Actually, in the expected effect table 60, the A gaze direction column 63, the B gaze direction column 64, and the C gaze direction column 65 associated with the action “Answer” are defined as “robot”, and the game activation robot If 1 performs the action “Answer”, it is expected that all participants A, B and C will stare at the game activated robot 1. In the expected effect table 60, the A utterance field 66, the B utterance field 67, and the C utterance field 68 associated with the action “Answer” are defined as “FALSE”. It is expected that when executing “Answer”, all participants A, B and C will not speak. Further, in the expected effect table 60, the A expression field 69, the B expression field 70, and the C expression field 71 associated with the action “Answer” are defined as “FALSE”, and the game activation robot 1 has the action “ It is expected that when executing “Answer”, all participants A, B and C will not laugh. In addition, in the expected effect table 60, the A thinking column 72, the B thinking column 73, and the C thinking column 74 associated with the action “Answer” are defined as “*”, and the game activation robot 1 It is expected that executing the action “Answer” will not change as to whether all participants A, B and C are thinking.
同様に、この予想効果テーブル60では、行動「Ask#A」に対応付けたA凝視方向欄63が「ホワイトボード」と定義され、B凝視方向欄64とC凝視方向欄65とが「A」と定義されており、ゲーム活性化ロボット1が行動「Ask#A」を実行すると、参加者AがホワイトボードWBを凝視し、B及びCが参加者Aを凝視するであろうことが予想されている。また、この予想効果テーブル60では、行動「Ask#A」に対応付けたA発話欄66が「TRUE」と定義され、B発話欄67とC発話欄68とが「FALSE」と定義されており、ゲーム活性化ロボット1が行動「Ask#A」を実行すると、参加者Aが発話し、B及びCが発話しないであろうことが予想されている。さらに、この予想効果テーブル60では、行動「Ask#A」に対応付けたA表情欄69とB表情欄70とC表情欄71とが「FALSE」と定義されており、ゲーム活性化ロボット1が行動「Ask#A」を実行すると、全ての参加者A、B及びCが笑わないであろうことが予想されている。さらに加えて、この予想効果テーブル60では、行動「Ask#A」に対応付けたA思考欄72が「」と定義され、B思考欄73とC思考欄74とが「*」と定義されており、ゲーム活性化ロボット1が行動「Ask#A」を実行すると、参加者Aが考え、B及びCが思考中であるかどうかに関しては変化しないであろうことが予想されている。 Similarly, in the expected effect table 60, the A gaze direction column 63 associated with the action “Ask # A” is defined as “whiteboard”, and the B gaze direction column 64 and the C gaze direction column 65 are “A”. When the game activation robot 1 executes the action “Ask # A”, it is expected that the participant A will stare at the whiteboard WB, and B and C stare at the participant A. ing. In the expected effect table 60, the A utterance column 66 associated with the action “Ask # A” is defined as “TRUE”, and the B utterance column 67 and the C utterance column 68 are defined as “FALSE”. When the game activation robot 1 executes the action “Ask # A”, it is expected that the participant A will speak and B and C will not speak. Further, in the expected effect table 60, the A expression field 69, the B expression field 70, and the C expression field 71 associated with the action “Ask # A” are defined as “FALSE”. It is expected that when the action “Ask # A” is performed, all participants A, B and C will not laugh. In addition, in the expected effect table 60, the A thinking column 72 associated with the action “Ask # A” is defined as “”, and the B thinking column 73 and the C thinking column 74 are defined as “*”. When the game activation robot 1 executes the action “Ask # A”, it is expected that the participant A will think and will not change whether B and C are thinking.
また、この予想効果テーブル60では、行動「Hint」に対応付けたA凝視方向欄63とB凝視方向欄64とC凝視方向欄65とが「mc」と定義されており、ゲーム活性化ロボット1が行動「Hint」を実行すると、参加者A、B及びCが司会者MCを凝視するであろうことが予想されている。また、この予想効果テーブル60では、行動「Hint」に対応付けたA思考欄72とB思考欄73とC思考欄74とが「TRUE」と定義されており、ゲーム活性化ロボット1が行動「Hint」を実行すると、全ての参加者A、B及びCが考えるであろうことが予想されている。 In the expected effect table 60, the A gaze direction column 63, the B gaze direction column 64, and the C gaze direction column 65 associated with the action “Hint” are defined as “mc”, and the game activation robot 1 It is expected that participants A, B and C will stare at MC MC when he performs the action “Hint”. In the expected effect table 60, the A thinking column 72, the B thinking column 73, and the C thinking column 74 associated with the action “Hint” are defined as “TRUE”. It is expected that all participants A, B, and C will think when performing “Hint”.
さらに、この予想効果テーブル60では、行動「Mutter」に対応付けたA凝視方向欄63とB凝視方向欄64とC凝視方向欄65とが「ロボット」と定義されており、ゲーム活性化ロボット1が行動「Mutter」を実行すると、全ての参加者A、B及びCがゲーム活性化ロボット1を凝視するであろうことが予想されている。また、この予想効果テーブル60では、行動「Mutter」に対応付けたA表情欄69とB表情欄70とC表情欄71とが「TRUE」と定義されており、ゲーム活性化ロボット1が行動「Mutter」を実行すると、全ての参加者A、B及びCが笑うであろうことが予想されている。 Further, in the expected effect table 60, the A gaze direction column 63, the B gaze direction column 64, and the C gaze direction column 65 associated with the action “Mutter” are defined as “robot”, and the game activation robot 1 It is expected that all participants A, B, and C will stare at the game activation robot 1 when performing the action “Mutter”. In the expected effect table 60, the A expression field 69, the B expression field 70, and the C expression field 71 associated with the action “Mutter” are defined as “TRUE”. It is expected that all participants A, B, and C will laugh when executing “Mutter”.
そして、予想効果テーブル60では、参加者Aに感想を要求する行動「AskImpression#A」に対応付けたA凝視方向欄63が「ロボット」と定義され、B凝視方向欄64とC凝視方向欄65とが「A」と定義されており、ゲーム活性化ロボット1が行動「AskImpression#A」を実行すると、参加者Aがゲーム活性化ロボット1を凝視し、B及びCが参加者Aを凝視するであろうことが予想されている。また、この予想効果テーブル60では、行動「AskImpression#A」に対応付けたA発話欄66が「TRUE」と定義され、B発話欄67とC発話欄68とが「FALSE」と定義されており、ゲーム活性化ロボット1が行動「AskImpression#A」を実行すると、参加者Aが発話し、B及びCが発話しないであろうことが予想されている。さらに、この予想効果テーブル60では、行動「AskImpression#A」に対応付けたA表情欄69が「TRUE」と定義され、B表情欄70とC表情欄71とが「*」と定義されており、ゲーム活性化ロボット1が行動「AskImpression#A」を実行すると、参加者Aのみが笑うであろうことが予想されている。さらに加えて、この予想効果テーブル60では、行動「AskImpression#A」に対応付けたA思考欄72が「TRUE」と定義され、B思考欄73とC思考欄74とが「*」と定義されており、ゲーム活性化ロボット1が行動「AskImpression#A」を実行すると、参加者Aのみが考えるであろうことが予想されている。 In the expected effect table 60, the A gaze direction column 63 associated with the action “AskImpression # A” requesting the impression from the participant A is defined as “robot”, and the B gaze direction column 64 and the C gaze direction column 65 Are defined as “A”, and when the game activation robot 1 executes the action “AskImpression # A”, the participant A stares at the game activation robot 1 and B and C stare at the participant A. It is expected to be. In the expected effect table 60, the A utterance column 66 associated with the action “AskImpression # A” is defined as “TRUE”, and the B utterance column 67 and the C utterance column 68 are defined as “FALSE”. When the game activation robot 1 executes the action “AskImpression # A”, it is expected that the participant A will speak and B and C will not speak. Further, in the expected effect table 60, the A expression field 69 associated with the action “AskImpression # A” is defined as “TRUE”, and the B expression field 70 and the C expression field 71 are defined as “*”. When the game activation robot 1 executes the action “AskImpression # A”, it is expected that only the participant A will laugh. In addition, in the expected effect table 60, the A thinking column 72 associated with the action “AskImpression # A” is defined as “TRUE”, and the B thinking column 73 and the C thinking column 74 are defined as “*”. If the game activation robot 1 executes the action “AskImpression # A”, it is expected that only the participant A will think.
また、予想効果テーブル60では、参加者Aに感想を要求する行動「SpeakImpression」に対応付けたA凝視方向欄63とB凝視方向欄64とC凝視方向欄65とが「ロボット」と定義されており、ゲーム活性化ロボット1が行動「SpeakImpression」を実行すると、全ての参加者A、B及びCがゲーム活性化ロボット1を凝視するであろうことが予想されている。また、この予想効果テーブル60では、行動「SpeakImpression」に対応付けたA発話欄66とB発話欄67とC発話欄68とが「FALSE」と定義されており、ゲーム活性化ロボット1が行動「SpeakImpression」を実行すると、参加者A、B及びCが発話しないであろうことが予想されている。さらに、この予想効果テーブル60では、行動「SpeakImpression」に対応付けたA表情欄69とB表情欄70とC表情欄71とが「TRUE」と定義されており、ゲーム活性化ロボット1が行動「SpeakImpression」を実行すると、全ての参加者A、B及びCが笑うであろうことが予想されている。 In the expected effect table 60, the A gaze direction column 63, the B gaze direction column 64, and the C gaze direction column 65 associated with the action “SpeakImpression” requesting the impression from the participant A are defined as “robot”. When the game activation robot 1 executes the action “SpeakImpression”, it is expected that all the participants A, B, and C will stare at the game activation robot 1. In the expected effect table 60, the A utterance field 66, the B utterance field 67, and the C utterance field 68 associated with the action “SpeakImpression” are defined as “FALSE”. It is expected that participants “A”, “B” and “C” will not speak when “SpeakImpression” is performed. Further, in the expected effect table 60, the A expression field 69, the B expression field 70, and the C expression field 71 associated with the action “SpeakImpression” are defined as “TRUE”, and the game activation robot 1 has the action “ It is expected that when performing “SpeakImpression”, all participants A, B and C will laugh.
行動選択部18は、総和活性度が所定の閾値よりも低くなったと判断すると、このような予想効果テーブル60を利用して、上述した式(1)に基づいて予想活性度増加量ΔAを算出し得るようになされている。ここで上記式(1)を用いてゲーム活性化ロボット1の自発的な行動パターンを選択する場合、上記の式(1)における「Behavior i」は、図7に示す行動「Answer」、行動「Ask#A」、行動「Ask#B」、行動「Ask#C」、行動「Hint」、行動「Mutter」、行動「AskImpression#A」、行動「AskImpression#B」、行動「AskImpression#C」、又は行動「SpeakImpression」のいずれかを示し、「Person j」はこれら各行動パターンによって活性度が増加する参加者A、B又はCを示す。そして、ゲーム活性化ロボット1は上記の式(2)のように予想活性度増加量ΔAを最大化させる行動パターンと、参加者A、B又はCとが選択され、自発的に所定行動を実行し得る。 When the action selection unit 18 determines that the total activity is lower than the predetermined threshold, the behavior selection unit 18 calculates the expected activity increase amount ΔA based on the above-described equation (1) using the expected effect table 60. It is made to be able to do. Here, when the spontaneous action pattern of the game activation robot 1 is selected using the above equation (1), “Behavior i” in the above equation (1) is the action “Answer”, “action“ Ask # A, action 'Ask # B', action 'Ask # C', action 'Hint', action 'Mutter', action 'AskImpression # A', action 'AskImpression # B', action 'AskImpression # C', Or “SpeakImpression”, and “Person j” indicates a participant A, B, or C whose activity increases according to each of these behavior patterns. Then, the game activation robot 1 selects a behavior pattern that maximizes the predicted activity increase amount ΔA and a participant A, B, or C as shown in the above equation (2), and performs a predetermined behavior spontaneously. Can do.
このようにして行動選択部18は、音声認識部22において進行状況キーワードが一定時間認識されず、かつ総和活性度が所定の閾値以下となったとき、予想効果テーブル60においてゲーム活性化ロボット1の各行動パターンに対応付けられた各参加者A、B及びCの予想行動を基に、選択可能な全ての行動パターンについて上記式(1)を用いて予想活性度増加量ΔAを算出する。行動選択部18は、各行動パターン毎に算出した予想活性度増加量ΔAのうち、予想活性度増加量ΔAが最も増加した活性効果の高いと予想される行動パターンが選択される。 In this way, the action selection unit 18 determines that the game activation robot 1 of the game activation robot 1 is in the expected effect table 60 when the voice recognition unit 22 does not recognize the progress status keyword for a certain period of time and the total activity becomes equal to or less than a predetermined threshold. Based on the predicted behavior of each participant A, B, and C associated with each behavior pattern, the expected activity increase amount ΔA is calculated for all selectable behavior patterns using the above equation (1). The behavior selection unit 18 selects a behavior pattern that is predicted to have the highest activity effect in which the predicted activity increase amount ΔA is the largest among the predicted activity increase amounts ΔA calculated for each behavior pattern.
これにより行動選択部18は、例えばゲーム進行中において予想活性度増加量ΔAが最も増加した行動パターンが、行動「Mutter」(ゲーム活性化ロボット1が独り言を発話する行動)であるとき、当該行動「Mutter」である所定発話内容をデータベース21から読み出して音声合成部23に送出し、音声合成部23により発話内容(例えば「魚かな?」)を音声信号に変換して、得られた音声信号をスピーカ24に送出するようになされている。このようにしてゲーム活性化ロボット1は、総和活性度に基づいて参加者A、B又はCが難読ゲームに積極的に参加していないと推定したとき、予想活性度増加量ΔAを基に選択した所定の発話内容を音声としてスピーカ24から発することで、司会者MCと参加者との間で行われる直接的な対話を当該発話内容に基づいて再び活性化させ得るようになされている。 Thereby, for example, when the behavior pattern in which the predicted activity increase amount ΔA has increased most during the game is the behavior “Mutter” (the behavior in which the game activation robot 1 speaks to itself), the behavior selection unit 18 The predetermined utterance content “Mutter” is read from the database 21 and transmitted to the speech synthesizer 23. The speech synthesizer 23 converts the utterance content (for example, “fish?”) Into an audio signal, and the obtained audio signal Is sent to the speaker 24. Thus, when the game activation robot 1 estimates that the participant A, B, or C is not actively participating in the obfuscated game based on the total activity, the game activation robot 1 selects based on the expected activity increase ΔA. By uttering the predetermined utterance content as sound from the speaker 24, the direct dialogue performed between the MC MC and the participant can be activated again based on the utterance content.
ところで、このゲーム活性化システム15では、例えば参加者Aに対して感想を要求する行動「AskImpression#A」や、参加者Aに解答を要求する行動「Ask#A」を実行する場合、カメラ11の画角の中心に参加者Aが配置されるように頭部8を回動させ得るようになされている。実際上、この実施の形態の場合では、難読ゲームの開始前に、ゲーム活性化ロボット1の位置において頭部8を回動させて参加者Aへ頭部8の正面を向けるための位置データ(回動方向や角度等)が、行動「Ask#A」と行動「AskImpression#A」とに対して予め設定されており、当該行動「Ask#A」又は行動「AskImpression#A」を実行して参加者Aに発話内容を発する際に、設定した位置データに基づいて頭部8を回動させることにより、あたかもゲーム活性化ロボット1が参加者Aを目視して発話しているかのような印象を与えるようになされている。 By the way, in this game activation system 15, for example, when executing an action “AskImpression # A” that requests an impression from the participant A or an action “Ask # A” that requests an answer from the participant A, the camera 11 The head 8 can be rotated so that the participant A is arranged at the center of the angle of view. Actually, in the case of this embodiment, before starting the obfuscated game, position data (for turning the head 8 at the position of the game activation robot 1 and directing the front of the head 8 toward the participant A ( Rotation direction, angle, etc.) are set in advance for the action “Ask # A” and the action “AskImpression # A”, and the action “Ask # A” or action “AskImpression # A” is executed. When uttering the utterance content to the participant A, the impression is as if the game activating robot 1 is uttering by visually observing the participant A by rotating the head 8 based on the set position data. Has been made to give.
また、行動「Ask#B」及び行動「AskImpression#B」には、ゲーム活性化ロボット1の位置において頭部8を回動させて参加者Bへ頭部8の正面を向けるための位置データが予め設定されており、当該行動「Ask#B」又は行動「AskImpression#B」を実行して参加者Bに発話内容を発する際に、設定した位置データに基づいて頭部8を回動させることにより、あたかもゲーム活性化ロボット1が参加者Bを目視して発話しているかのような印象を与えるようになされている。 In addition, the action “Ask # B” and the action “AskImpression # B” include position data for turning the head 8 at the position of the game activation robot 1 and directing the front of the head 8 toward the participant B. When the action “Ask # B” or the action “AskImpression # B” is executed and the utterance content is uttered to the participant B, the head 8 is rotated based on the set position data. Thus, an impression is given as if the game activation robot 1 is speaking while visually observing the participant B.
さらに、行動「Ask#C」及び行動「AskImpression#C」にも、ゲーム活性化ロボット1の位置において頭部8を回動させて参加者Cへ頭部8の正面を向けるための位置データが予め設定されており、当該行動「Ask#C」又は行動「AskImpression#C」を実行して参加者Cに発話内容を発する際に、設定した位置データに基づいて頭部8を回動させることにより、あたかもゲーム活性化ロボット1が参加者Cを目視して発話しているかのような印象を与えるようになされている。 Further, the action “Ask # C” and the action “AskImpression # C” also have position data for turning the head 8 at the position of the game activation robot 1 and directing the front of the head 8 toward the participant C. When the action “Ask # C” or the action “AskImpression # C” is executed and the utterance content is uttered to the participant C, the head 8 is rotated based on the set position data. Thus, an impression is given as if the game activation robot 1 is speaking while visually observing the participant C.
なお、司会者MCに向けて発話する発話内容や、ホワイトボードWBに呈示された漢字についての発話内容を発する場合にも、これら行動パターンに対して司会者MC及びホワイトボードWBの位置データが予め設定され、発話内容を発する際にこれら位置データに基づいて頭部8を回動させることにより、あたかもゲーム活性化ロボット1が司会者MCやホワイトボードWBを目視して発話しているかのような印象を与えるようになされている。 In addition, even when the utterance contents uttered toward the MC and the utterance contents about the kanji presented on the whiteboard WB are issued, the position data of the MC and the whiteboard WB are previously stored for these behavior patterns. When the utterance content is set and the head 8 is rotated based on the position data, it is as if the game activating robot 1 is speaking by visually observing the MC MC and the whiteboard WB. It is made to give an impression.
また、これに加えて、状況管理部17は、データベース21に記憶された現状の進行状況を示す出題前、ゲーム進行中又は解説中を理解状態データとして読み出し、この理解状態データをネットワークインターフェイス26を介してモニタリングサーバ2に送信し得るようになされている。モニタリングサーバ2は、ゲーム活性化ロボット1から受け取った理解状態データを携帯端末3へ送信し得るようになされている。これにより携帯端末3は、ゲーム活性化システム15からモニタリングサーバ2を経由して受信した理解状態データを基に、ゲーム活性化ロボット1が現時点で難読ゲームの進行状況として、出題前、ゲーム進行中又は解説中のうちいずれであると認識しているかを、表示部4に表示させる。これにより携帯端末3は、現時点でゲーム活性化ロボット1自身が現時点で把握している進行状況を司会者MCに対して呈示し得るようになされている。かくして司会者MCは、理解状態データを基に現時点でゲーム活性化ロボット1が把握している進行状況を確認できると共に、当該ゲーム活性化ロボット1が把握している進行状況が、実際の難読ゲームの進行状況に一致しているか否かを確認しつつ難読ゲームを進行させることができる。 In addition to this, the situation management unit 17 reads the current state of progress stored in the database 21 before the question, in progress of the game or during the explanation as the understanding state data, and reads this understanding state data through the network interface 26. It can be transmitted to the monitoring server 2 via the network. The monitoring server 2 can transmit the understanding state data received from the game activation robot 1 to the portable terminal 3. As a result, the mobile terminal 3 uses the understanding state data received from the game activation system 15 via the monitoring server 2 to indicate that the game activation robot 1 is currently in progress as the obfuscated game progress before the question is being played and the game is in progress. Alternatively, the display unit 4 displays which one of the explanations is recognized. As a result, the mobile terminal 3 can present to the MC MC the progress that the game activation robot 1 is currently grasping at the present time. Thus, the MC MC can confirm the progress status currently understood by the game activation robot 1 based on the understanding state data, and the progress status grasped by the game activation robot 1 can be determined based on the actual obfuscated game. It is possible to advance the obfuscated game while confirming whether or not it is consistent with the progress status.
(3)動作及び効果
以上の構成において、ゲーム活性化システム15では、司会者MCとの間で難読ゲームの問題解答について対話する参加者A、B及びCの音声を、マイクロホン20で集音することにより各参加者A、B及びCの音声信号を取得すると共に、当該参加者A、B及びCをカメラ11により撮像することにより各参加者A、B及びCの映像信号を取得し、これら音声信号及び映像信号に基づいて、全ての参加者A、B及びCの難読ゲームへの参加の程度を示す総和活性度を算出する。
(3) Operation and Effect In the above configuration, the game activation system 15 collects the voices of the participants A, B, and C who talk about the problem answer of the obfuscated game with the MC by the microphone 20. By acquiring the audio signals of the participants A, B, and C, the video signals of the participants A, B, and C are acquired by capturing the participants A, B, and C with the camera 11. Based on the audio signal and the video signal, the total activity indicating the degree of participation of all the participants A, B and C in the obfuscated game is calculated.
ゲーム活性化システム15では、一定時間、進行状況キーワードを認識せず、かつ総和活性度が所定の閾値以下となったとき、選択可能な全ての行動パターンの予想活性度増加量ΔAをそれぞれ算出し、これら複数の予想活性度増加量ΔAのうち最も増加した予想活性度増加量ΔAの行動パターンを選択候補とする。ゲーム活性化システム15では、選択候補とした行動パターンである所定の発話内容をデータベース21から読み出して当該発話内容を音声としてスピーカ24から発する。 The game activation system 15 calculates the predicted activity increase ΔA for all selectable behavior patterns when the progress status keyword is not recognized for a certain period of time and the total activity is below a predetermined threshold. The action pattern of the predicted activity increase amount ΔA that has increased most among the plurality of predicted activity increase amounts ΔA is selected as a candidate for selection. In the game activation system 15, predetermined utterance content that is an action pattern selected as a selection candidate is read from the database 21, and the utterance content is uttered from the speaker 24 as sound.
このようにゲーム活性化システム15では、参加者A、B及びCの状態を総和活性度を基に常時観察し、当該総和活性度が所定の閾値以下のときに、参加者が難読ゲームに参加してない虞があると推定し、自発的にその場に最適な発話内容をスピーカ24から発することで、司会者MCと参加者A、B及びCとの直接的な対話の切っ掛けを与えることができ、かくして司会者MCと参加者A、B及びCとの直接的なコミュニケーションを従来よりも一段と活性化させ得る。 Thus, in the game activation system 15, the states of the participants A, B, and C are constantly observed based on the total activity, and when the total activity is equal to or less than a predetermined threshold, the participant participates in the obfuscated game. Estimate that there is a possibility that the speaker has not been informed, and spontaneously utter the optimum utterance content from the speaker 24, to give a direct dialogue between the MC MC and the participants A, B and C Thus, direct communication between the MC MC and the participants A, B, and C can be further activated than before.
また、このゲーム活性化システム15では、ヘッドセット型マイク5により司会者MCの音声を集音して得られる音声信号を基に、難読ゲームの進行状況を認識し、データベース21に記憶された発話内容の中から当該進行状況に応じた発話内容を選択して当該発話内容をスピーカ24から発する。 In addition, the game activation system 15 recognizes the progress of the obfuscated game based on the audio signal obtained by collecting the voice of the MC MC by the headset type microphone 5, and the utterance stored in the database 21. The utterance content corresponding to the progress is selected from the contents, and the utterance content is uttered from the speaker 24.
このようにゲーム活性化システム15では、例えば司会者MCが問題を出題して参加者A、B又はCが解答してゆくゲーム進行中や、正解後に解答について解説する解説中にそれぞれ適合した発話内容を発することができ、かくして司会者MCと参加者との直接的な対話の切っ掛けを与え、司会者MCと参加者A、B及びCとの直接的なコミュニケーションを従来よりも一段と活性化させ得る。また、ゲーム活性化システム15では、ゲーム進行中においては正解度を基に現時点でどの程度正解に近づいているかの進行状況をも把握して難読ゲームの進行状況に応じた最適な発話内容を発することができ、かくして司会者MCと参加者との直接的な対話の切っ掛けを与え、司会者MCと参加者A、B及びCとの直接的なコミュニケーションを従来よりも一段と活性化させ得る。 In this way, in the game activation system 15, for example, the moderator MC questions the problem and the participant A, B, or C answers the game, and the utterances that are suitable for the commentary explaining the answer after the correct answer are given. The content can be issued, thus giving a chance for direct dialogue between the MC and the participants, and more direct communication between the MC and the participants A, B and C than before. obtain. Also, in the game activation system 15, while the game is in progress, based on the degree of accuracy, the progress of how much the correct answer is approaching is also grasped, and the optimal utterance content according to the progress of the obfuscated game is issued Thus, it is possible to provide an opportunity for direct dialogue between the MC MC and the participant, and to further activate direct communication between the MC MC and the participants A, B, and C than before.
また、ゲーム活性化システム15では、問題毎に当該問題となる漢字の歴史や由来、漢字の意味等の問題やその読み仮名(解答)に関連する関連情報が予めデータベース21に記憶されており、総和活性度や難読ゲームの進行状況に応じて適宜これら関連情報の発話内容を発する。これによりゲーム活性化システム15では、問題の解答だけでなく、解答とは異なる種々の発話内容を発することで、問題や解答に関連する話題を提供し、司会者MCと参加者との直接的な対話の切っ掛けを与えて、司会者MCと参加者A、B及びCとの直接的なコミュニケーションを従来よりも一段と活性化させ得る。 In addition, in the game activation system 15, for each problem, the history and origin of the kanji that are the problem, the meaning of the kanji, and related information related to the reading kana (answer) are stored in the database 21 in advance. Depending on the total activity and the progress of the obfuscated game, the utterance content of the related information is appropriately issued. As a result, the game activation system 15 provides not only the answer to the problem but also various utterances that are different from the answer, thereby providing a topic related to the problem and the answer. It is possible to activate the direct communication between the MC MC and the participants A, B, and C more than before by providing an appropriate dialogue opportunity.
さらに、ゲーム活性化システム15では、カメラ11から与えられる映像信号に基づいて各参加者A、B及びCの顔向き方向や、各参加者A、B及びCの顔の表情、各参加者A、B及びCの音声の有無(発話量)に基づいて総和活性度を算出するようにしたことにより、各参加者A、B及びCが難読ゲームに積極的に参加しているか否かの程度について一段と正確に認識することができる。 Further, in the game activation system 15, the face direction of each participant A, B and C, the facial expression of each participant A, B and C, each participant A based on the video signal given from the camera 11. The degree of whether each participant A, B, and C is actively participating in the obfuscated game by calculating the total activity based on the presence or absence (speech volume) of B, C, and C Can be recognized more accurately.
これに加えてゲーム活性化システム15を内蔵したゲーム活性化ロボット1では、人間の頭部に似した頭部8を設け、この頭部8の人間の眼となる位置にカメラ11を設けることにより、参加者A、B及びCがゲーム活性化ロボット1を視認する際にゲーム活性化ロボット1の眼に注目を集めさせて、当該眼に設けたカメラ11によって参加者A、B及びCを確実に撮像し得、この映像信号を利用して各参加者A、B及びCの難読ゲームへの参加の程度を示す総和活性度を算出できる。 In addition to this, in the game activation robot 1 incorporating the game activation system 15, a head 8 similar to a human head is provided, and a camera 11 is provided at a position of the head 8 that becomes a human eye. When the participants A, B, and C visually recognize the game activation robot 1, the eyes of the game activation robot 1 are attracted attention, and the participants A, B, and C are surely secured by the camera 11 provided on the eyes. The total activity indicating the degree of participation of each participant A, B, and C in the obfuscated game can be calculated using this video signal.
かくして、このようにゲーム活性化ロボット1では、参加者A、B及びCの状態を総和活性度を基に常時観察し、当該総和活性度が所定の閾値以下のときに、参加者が難読ゲームに参加してない虞があると推定し、自発的にその場に最適な発話内容をスピーカ24から発することで、司会者MCと参加者A、B及びCとの直接的な対話の切っ掛けを与えることができ、かくして司会者MCと参加者A、B及びCとの直接的なコミュニケーションを従来よりも一段と活性化させ得る。 Thus, in this way, the game activation robot 1 constantly observes the states of the participants A, B, and C based on the total activity, and when the total activity is equal to or less than the predetermined threshold, It is estimated that there is a possibility of not participating in the event, and by spontaneously uttering the content of the utterance best suited to the situation from the speaker 24, a direct dialogue between the MC MC and the participants A, B and C Thus, direct communication between the MC MC and the participants A, B, and C can be activated more than before.
また、ゲーム活性化ロボット1では、総和活性度に基づいて所定の発話内容を発する際に、当該発話内容を発する対象となる司会者MC、ホワイトボードWB、参加者A、B又はCが、カメラ11の画角の中心位置に配置されるように、頭部8を回動させるようにしたことにより、あたかもゲーム活性化ロボット1が司会者MC、ホワイトボードWB、参加者A、B又はCを目視して発話しているかのような印象を与えることができる。 Further, in the game activation robot 1, when a predetermined utterance content is uttered based on the total activity, the MC MC, the whiteboard WB, and the participants A, B, or C to be uttered utterance content are By turning the head 8 so as to be arranged at the center position of the angle of view of 11, the game activating robot 1 is as if the MC MC, the whiteboard WB, the participants A, B or C You can give the impression that you are speaking.
また、このゲーム活性化ロボット1では、発話状況理解部16によって参加者A、B及びCの中から発話者を認識し、行動再生部19によって発話者がカメラ11の画角中心に配置されるように、当該カメラ11が設けられた頭部8の角度を調整することにより、あたかも発話者の方向を向いて当該発話者の発話を聞いているかのような印象を参加者に対して与えることができる。 In the game activation robot 1, the utterance situation understanding unit 16 recognizes the utterer from the participants A, B, and C, and the action reproducing unit 19 places the utterer at the center of the angle of view of the camera 11. As described above, by adjusting the angle of the head 8 provided with the camera 11, an impression is given to the participant as if he or she is facing the speaker and listening to the speaker's speech. Can do.
さらに、ゲーム活性化ロボット1では、顔向き方向から発話者が話しかけている発話対象を示す発話対象検出結果と、発話者が発話し終えたことを示す発話終了検出結果とを発話状況理解部16により生成し、これら発話対象検出結果及び発話終了検出結果に基づいて、発話者が向いている方向にある発話対象が、発話終了後にカメラ11の画角の中心位置に配置されるように頭部8を駆動させるようにしたことにより、あたかも発話者の発話終了後に発話対象の方向を向いて、ゲーム活性化ロボット1自身が難読ゲームに積極的に参加しているかのような印象を、参加者A、B及びCに対して与えることができる。 Furthermore, in the game activation robot 1, the utterance state understanding unit 16 shows the utterance target detection result indicating the utterance target spoken by the speaker from the face direction and the utterance end detection result indicating that the speaker has finished speaking. Based on these utterance target detection results and utterance end detection results, the utterance target in the direction that the speaker is facing is placed at the center of the angle of view of the camera 11 after the utterance ends. As a result, the impression that the game activation robot 1 is actively participating in an obfuscated game is directed to the direction of the utterance target after the utterance of the speaker ends. Can be given for A, B and C.
さらに、ゲーム活性化ロボット1では、発話終了検出結果に基づいて発話者の発話の切れ目を認識し、そのタイミングで頭部8を上下方向に回動させるうなづき動作を行わせることにより、あたかも発話者の発話を聞いていたかのような印象を参加者A、B及びCに対して与えることができる。 Further, the game activation robot 1 recognizes the break of the speaker based on the detection result of the end of the speech, and performs a nodding operation for rotating the head 8 in the vertical direction at that timing, so that it is as if the speaker is speaking. The participants A, B, and C can be given an impression as if they were listening to
さらに、ゲーム活性化ロボット1では、活性度検出部25において算出した各参加者A、B及びCの活性度及び総和活性度を活性度情報としてネットワークインターフェイス26を介してモニタリングサーバ2に送信し、当該モニタリングサーバ2から携帯端末3に当該活性度情報を送信する。これによりゲーム活性化ロボット1は、携帯端末3の表示部4を介して活性度情報を司会者MCに呈示することにより、現時点で各参加者A、B及びCが難読ゲームへどの程度積極的に参加しているか否かを活性度情報を基に客観的に判断させることができる。 Further, the game activation robot 1 transmits the activity and total activity of each participant A, B, and C calculated by the activity detection unit 25 to the monitoring server 2 through the network interface 26 as activity information, The activity information is transmitted from the monitoring server 2 to the mobile terminal 3. Thereby, the game activation robot 1 presents the activity level information to the presenter MC via the display unit 4 of the mobile terminal 3, so that how actively each participant A, B, and C participates in the obfuscated game at the present time. It is possible to objectively determine whether or not he / she is participating in the activity based on the activity information.
(4)他の実施の形態
なお、本発明は、本実施形態に限定されるものではなく、本発明の要旨の範囲内で種々の変形実施が可能であり、例えば犬等の動物に似せたゲーム活性化ロボットを適用してもよい。また、上述した実施の形態においては、対話活性化ロボットとして、漢字の読み仮名を解答する難読ゲームを行う際にゲーム活性化ロボット1を適用する場合について述べたが、本発明はこれに限らず、和英や英和等の言語に関し翻訳言語を当てるゲーム等の他のゲームに適用したり、さらにはゲームに限らず、所定の主題について司会者MCと参加者A、B及びCとの間で行う単なる対話に対話活性化ロボットを適用してもよい。この場合、他のゲームや、当該主題に対応した個別行動パターン情報、共通行動パターン情報及び予想効果テーブル60を予め作製してデータベース21に記憶するようにすればよい。
(4) Other Embodiments The present invention is not limited to this embodiment, and various modifications can be made within the scope of the gist of the present invention. For example, the present invention resembles an animal such as a dog. A game activation robot may be applied. In the above-described embodiment, the case where the game activating robot 1 is applied when performing an obfuscated game that answers a kana reading kana as the dialogue activating robot has been described. However, the present invention is not limited to this. Applied to other games, such as games that apply translation languages to Japanese and English and English-Japanese languages, etc., and not only games, but also between a MC and participants A, B, and C on a predetermined subject A dialog activation robot may be applied to a simple dialog. In this case, the individual action pattern information, the common action pattern information, and the expected effect table 60 corresponding to the other game and the subject may be prepared in advance and stored in the database 21.
なお、上述した実施の形態においては、総和活性度に所定の閾値を設け、当該総和活性度が閾値以下になったとき、ゲーム活性化ロボット1が総和活性度を増加させる最適な行動パターンを実行するようにした場合について述べたが、本発明はこれに限らず、各参加者A、B及びC毎に算出した活性度毎に所定の閾値を設け、いずれかの活性度が所定の閾値以下になったとき、ゲーム活性化ロボット1が当該活性度を増加させる最適な行動パターンを実行するようにしてもよい。 In the above-described embodiment, a predetermined threshold is set for the total activity, and when the total activity falls below the threshold, the game activation robot 1 executes an optimal action pattern that increases the total activity. However, the present invention is not limited to this, and a predetermined threshold is provided for each activity calculated for each participant A, B, and C, and any one of the activities is equal to or lower than the predetermined threshold. When it becomes, you may make it the game activation robot 1 perform the optimal action pattern which increases the said activity.
また、上述した実施の形態においては、進行状況キーワードを認識した際に、予想活性度増加量ΔAが最も増加した行動パターンを選択候補とし、この選択候補となった行動パターンを実行するようにした場合について述べたが、本発明はこれに限らず、進行状況キーワードを認識した際、当該進行状況キーワードと予め対応付けられた行動パターンを実行するようにしてもよい。 Further, in the above-described embodiment, when the progress status keyword is recognized, an action pattern having the highest expected activity increase amount ΔA is selected as a selection candidate, and the action pattern that is the selection candidate is executed. Although the case has been described, the present invention is not limited to this, and when a progress situation keyword is recognized, an action pattern previously associated with the progress situation keyword may be executed.
さらに、上述した実施の形態においては、発話状況理解部16における発話者の検出について、映像信号に基づき各参加者A、B及びCの口の動き特定して発話者を検出する唇動作認識処理を適用した場合について述べたが、本発明はこれに限らず、例えば、マイクロホン20により集音した音声を基に発話している参加者A、B及びCを検出する話者認識処理や、予め各参加者A、B及びCの声紋を登録しておきこれに基づき各参加者A、B及びCの発話を検出する音声識別処理、各参加者A、B及びCにそれぞれ個別にマイクロホンを設け、各参加者に割り当てられたマイクロホンを基に参加者の発話を識別する音声分別処理、或いは指向性のあるマイクロホンを参加者に向けて固定し、各参加者の方位を登録しておくことにより音源の方位から参加者の発話を識別する音源定位処理等この他種々の発話者特定処理を用いるようにしてもよい。 Further, in the above-described embodiment, the lip motion recognition process for detecting the speaker by identifying the movements of the mouths of the participants A, B, and C based on the video signal for the detection of the speaker in the utterance state understanding unit 16 However, the present invention is not limited to this. For example, speaker recognition processing for detecting participants A, B, and C speaking based on the sound collected by the microphone 20, Voice recognition processing for registering voice prints of each participant A, B, and C and detecting the utterances of each participant A, B, and C based on this, and providing microphones for each participant A, B, and C individually , By voice classification processing that identifies participants' utterances based on the microphones assigned to each participant, or by directional microphones fixed to the participants and registering the orientation of each participant The direction of the sound source Various other speaker specifying processes such as a sound source localization process for identifying a participant's utterance may be used.
さらに、上述した実施の形態においては、前記取得手段により取得した音声及び又は映像に基づいて、前記参加者の主題に関する対話への参加の程度を示す活性度を特定する活性度特定手段として、マイクロホン20により取得した音声と、カメラ11により取得した映像とに基づいて、参加者A、B及びCの難読ゲームへの参加の程度を示す活性度を検出する活性度検出部25を適用した場合について述べたが、本発明はこれに限らず、マイクロホン20により取得した音声のみに基づいて、参加者A、B及びCの難読ゲームへの参加の程度を示す活性度を検出したり、或いはカメラ11により取得した映像のみに基づいて、参加者A、B及びCの難読ゲームへの参加の程度を示す活性度を検出する活性度検出部を適用してもよい。 Furthermore, in the above-described embodiment, the microphone is used as the activity level specifying unit that specifies the activity level indicating the degree of participation in the conversation related to the subject of the participant based on the audio and / or video acquired by the acquiring unit. In the case of applying the activity detection unit 25 that detects the activity indicating the degree of participation of the participants A, B, and C in the obfuscated game based on the audio acquired by 20 and the video acquired by the camera 11 As described above, the present invention is not limited to this. Based on only the sound acquired by the microphone 20, the activity indicating the degree of participation of the participants A, B, and C in the obfuscated game is detected, or the camera 11 Based on only the video acquired by the above, an activity detection unit that detects the activity indicating the degree of participation of the participants A, B, and C in the obfuscated game may be applied.
さらに、上述した実施の形態においては、参加者A、B及びCの映像から得られる顔の表情と、参加者A、B及びCの映像から得られる顔の向き方向と、参加者A、B及びCの音声の有無(発話量)とに基づいて活性度を検出するようにした場合について述べたが、本発明はこれに限らず、参加者A、B及びCの映像から得られる顔の表情と、参加者A、B及びCの映像から得られる顔の向き方向と、参加者A、B及びCの音声の有無(発話量)とのうち、いずれか1つに基づいて活性度を検出するようにしてもよい。 Furthermore, in the above-described embodiment, facial expressions obtained from the images of the participants A, B, and C, the orientation directions of the faces obtained from the images of the participants A, B, and C, and the participants A, B Although the case where the activity level is detected based on the presence or absence (utterance amount) of the voices of C and C is described, the present invention is not limited to this, and the face obtained from the images of the participants A, B, and C is not limited thereto. The activity is determined based on any one of the expression, the direction of the face obtained from the images of the participants A, B, and C, and the presence or absence (utterance amount) of the voices of the participants A, B, and C. You may make it detect.
さらに、上述した実施の形態においては、カメラ11により得られた映像を基に発話者A、B又はCの顔向き方向を認識し、発話終了後に発話者A、B又はCの顔向き方向にゲーム活性化ロボット1の頭部を回動させるようにした場合について述べたが、本発明はこれに限らず、発話者A、B又はCの視線方向を認識し、発話終了後に発話者A、B又はCの視線方向にゲーム活性化ロボット1の頭部を回動させるようにしてもよい。この場合、視線方向を認識する技術としては、目領域の部分画像を用いた外観情報に基づく視線認識技術を適用すればよい。 Further, in the above-described embodiment, the face direction of the speaker A, B, or C is recognized based on the video obtained by the camera 11, and the face direction of the speaker A, B, or C is determined after the end of the utterance. Although the case where the head of the game activation robot 1 is rotated has been described, the present invention is not limited to this, and recognizes the line-of-sight direction of the speaker A, B, or C, and the speaker A, The head of the game activation robot 1 may be rotated in the B or C line-of-sight direction. In this case, as a technique for recognizing the line-of-sight direction, a line-of-sight recognition technique based on appearance information using a partial image of the eye region may be applied.
さらに、上述した実施の形態において、正解度を増加させる進行状況キーワードとして、司会者の「おしい」との発話内容を認識する判定キーワード「OSHII」を適用する場合について述べたが、本発明はこれに限らず、正解度を増加させる進行状況キーワードとして、司会者の「近い」等の助言となる種々の発話内容を認識する判定キーワードを適用するようにしてもよく、また、司会者の「違う」との発話内容を認識する不正解キーワード「CHIGAU」の認識に基づいて正解度を低減させるようにして、進行状況に応じて正解度を変動させるようにしてもよい。 Furthermore, in the above-described embodiment, the case where the determination keyword “OSHII” for recognizing the utterance content of “Oshii” of the presenter is applied as the progress status keyword for increasing the correctness degree is described. However, as a progress status keyword that increases the degree of accuracy, a determination keyword that recognizes various utterance contents that provide advice such as “close” to the presenter may be applied. The correct answer may be reduced based on the recognition of the incorrect keyword “CHIGAU” that recognizes the content of the utterance “,” and the correct answer may be varied according to the progress.
さらに、上述した実施の形態においては、司会者の音声を集音するマイクロホンとして、司会者MCが専用に使用するヘッドセット型マイク5を適用したが、本発明はこれに限らず、司会者MCが専用に使用しない参加者用のマイクロホン等この種々のマイクロホンを適用してもよい。 Furthermore, in the above-described embodiment, the headset microphone 5 used exclusively by the MC is used as a microphone for collecting the voice of the MC, but the present invention is not limited to this, and the MC However, various microphones such as a microphone for a participant who is not used exclusively may be applied.
さらに、上述した実施の形態においては、総和活性度に基づいて状況に応じた発話内容をスピーカ24から発する行動と、司会者MCの音声を集音して得られる音声信号を基に、難読ゲームの進行状況を認識し、進行状況に応じた発話内容をスピーカ24から発する行動とを実行する場合について述べたが、本発明はこれに限らず、総和活性度に基づいて状況に応じた発話内容をスピーカ24から発する行動のみを実行したり、或いは、司会者MCの音声を集音して得られる音声信号を基に、難読ゲームの進行状況を認識し、進行状況に応じた発話内容をスピーカ24から発する行動のみを実行するようにしてもよい。 Further, in the above-described embodiment, the obfuscated game is based on the action of uttering the utterance content according to the situation from the speaker 24 based on the total activity and the sound signal obtained by collecting the sound of the MC MC. However, the present invention is not limited to this, and the utterance content according to the situation based on the total activity is described. Executes only the action uttered from the speaker 24, or recognizes the progress of the obfuscated game based on the audio signal obtained by collecting the voice of the MC MC, and the utterance content corresponding to the progress Only actions originating from 24 may be executed.
さらに、上述した実施の形態においては、発話者検出結果を基に発話者がカメラ11の画角の中心位置に配置されるように頭部8を駆動させたり、或いは発話対象検出結果及び発話終了検出結果を基に、発話者の顔向き方向の先にある発話対象がカメラ11の画角の中心位置に配置されるように頭部8を駆動させるようにした場合について述べたが、本発明はこれに限らず、発話者や発話対象をカメラ11の画角の中心位置に配置されるように頭部8を駆動させなくとてもよく、対話の状況に応じた最適な発話内容を単に発するだけでもよい。 Furthermore, in the above-described embodiment, the head 8 is driven so that the speaker is placed at the center position of the angle of view of the camera 11 based on the speaker detection result, or the utterance target detection result and the utterance end Based on the detection result, the case where the head 8 is driven so that the utterance target ahead in the direction of the face of the speaker is arranged at the center of the angle of view of the camera 11 has been described. Is not limited to this, it is very good not to drive the head 8 so that the speaker and the utterance target are arranged at the center of the angle of view of the camera 11, and only the optimum utterance content according to the situation of the conversation is uttered. But you can.
1 ゲーム活性化ロボット(対話活性化ロボット)
4 表示部(表示手段)
5 ヘッドセット型マイク(司会者用マイクロホン)
8 頭部
11 カメラ(撮像手段、取得手段)
15 ゲーム活性化システム(対話活性化システム)
16 発話状況理解部(発話検出手段)
20 マイクロホン(取得手段)
21 データベース(記憶手段)
24 スピーカ
25 活性度検出部(活性度推定手段)
1 Game activation robot (dialog activation robot)
4 Display section (display means)
5 Headset microphone ( moderator microphone)
8 head
11 Camera (imaging means, acquisition means)
15 Game activation system (dialog activation system)
16 Utterance situation understanding department
20 Microphone (Acquisition means)
21 Database (storage means)
24 Speaker
25 Activity detector (activity estimation means)
Claims (4)
前記撮像手段により取得した映像に基づいて、前記参加者の主題に関する対話への参加の程度を示す活性度を推定する活性度推定手段と、
複数の進行状況キーワードを予め記憶した記憶手段と、
発話している前記参加者を検出する発話検出手段と、
マイクロホンから得られた音声信号に所定の音声認識処理を実行することにより当該音声信号に含まれる言葉を単語単位で認識し、この認識した単語を文字列データとして送出する音声認識部と、
前記音声認識部により得られた文字列データを受け取り、前記記憶手段に予め記憶しておいた前記進行状況キーワードを読み出して、前記進行状況キーワードのいずれかと前記文字列データとが一致するか否かを判断し、文字列データが進行状況キーワードのいずれかと一致すると、前記活性度推定手段により推定した活性度に応じて、前記主題に関する対話への参加を促すような発話情報を選択する選択手段と、
前記選択手段によって選択した発話情報の発話内容を音声として発するスピーカと、
動物形状に似した頭部とを備え、
前記頭部の眼となる位置に前記撮像手段が設置され、
前記発話検出手段は、前記撮像手段により得られる映像から認識した唇の動きを認識する唇動作認識処理、あるいは、各話者に指向性を向けたマイクロホンの音量に基づく話者認識処理、あるいは、前記マイクロホンにより集音した音声を基にした音源定位処理、のいずれかを用いて、発話している前記参加者を特定し、
前記発話検出手段により検出した前記参加者を前記撮像手段の画角中心に配置させる制御手段を備え、
前記選択手段は、一定時間、前記進行状況キーワードを認識せず、かつ複数の参加者の活性度を合算した総和活性度総和活性度が所定の閾値以下となったとき、所定の発話内容を前記記憶手段から読み出して当該発話内容を音声としてスピーカから発し、
前記参加者の音声の切れ目を認識し、前記切れ目に合わせて前記頭部を動作させるうなづき動作、或いは前記切れ目に合わせて相槌音声を発する相槌発話動作の少なくともいずれかを実行することを特徴とする対話活性化ロボット。 Imaging means for acquiring images of a plurality of participants interacting with a moderator on a predetermined subject;
An activity estimation means for estimating an activity indicating a degree of participation in the dialogue on the subject of the participant based on the video acquired by the imaging means;
A pre-stored memory means a plurality of progress keyword,
Utterance detection means for detecting the participant who is speaking;
A speech recognition unit that recognizes words included in the speech signal by performing predetermined speech recognition processing on the speech signal obtained from the microphone, and sends the recognized word as character string data;
The character string data obtained by the voice recognition unit is received, the progress keyword stored in the storage means is read out, and whether any of the progress keywords matches the character string data And selecting means for selecting utterance information that prompts participation in the dialogue on the subject according to the activity estimated by the activity estimation means when the character string data matches any of the progress status keywords ; ,
A speaker that utters the utterance content of the utterance information selected by the selection means;
With a head resembling an animal shape,
The imaging means is installed at a position to be the eye of the head ,
The utterance detection means is a lip motion recognition process for recognizing lip movement recognized from the video obtained by the imaging means, or a speaker recognition process based on the volume of a microphone that directs directivity to each speaker, or Using any of sound source localization processing based on the sound collected by the microphone, the participant who is speaking is identified,
Control means for placing the participant detected by the utterance detection means at the center of the angle of view of the imaging means;
The selection means does not recognize the progress status keyword for a certain period of time, and when the total activity total activity obtained by adding up the activities of a plurality of participants falls below a predetermined threshold, the predetermined utterance content is Read from the storage means and utter the utterance content as a voice from the speaker,
Recognizing a break in the participant's voice and performing at least one of a nodding operation for moving the head in accordance with the break or a collaborative speech operation in which a conflicting voice is generated in accordance with the break. Dialogue activation robot.
ことを特徴とする請求項1記載の対話活性化ロボット。 When the utterance content of the utterance information is uttered from the speaker as speech, the control unit is configured to arrange the participant or related equipment to be the utterance content at the center of the angle of view of the imaging unit. The dialog activation robot according to claim 1 .
前記制御手段は、
前記参加者が発話し終えた後に、前記認識手段により認識した該参加者の顔向き方向又は視線方向に、前記撮像手段の画角中心を配置させる
ことを特徴とする請求項1記載の対話活性化ロボット。 Recognizing means for recognizing the participant's face direction or line-of-sight direction based on the video obtained by the imaging means,
The control means includes
Wherein after the participant has finished speaking, the face orientation direction or line-of-sight direction of the participants recognized by the recognition means, interactive activity according to claim 1, wherein the placement of the center of the angle of view of the imaging means Robot.
前記司会者用マイクロホンにより前記司会者の音声を集音して得られる音声信号を基に、前記主題に関する前記参加者との対話の進行状況を認識する進行状況認識手段と、
前記進行状況認識手段における前記対話の進行状況に関する理解状態を前記司会者に呈示する表示手段と
を備えることを特徴とする請求項1記載の対話活性化ロボット。 A microphone for the moderator who collects the voice of the moderator who talks with the participants about a predetermined subject,
Progress status recognition means for recognizing the progress status of the dialogue with the participant on the subject based on an audio signal obtained by collecting the voice of the moderator by the microphone for the moderator ;
2. The dialog activation robot according to claim 1 , further comprising display means for presenting an understanding state regarding the progress status of the dialog in the progress status recognition means to the presenter.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008304140A JP5294315B2 (en) | 2008-11-28 | 2008-11-28 | Dialogue activation robot |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008304140A JP5294315B2 (en) | 2008-11-28 | 2008-11-28 | Dialogue activation robot |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010128281A JP2010128281A (en) | 2010-06-10 |
JP5294315B2 true JP5294315B2 (en) | 2013-09-18 |
Family
ID=42328709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008304140A Expired - Fee Related JP5294315B2 (en) | 2008-11-28 | 2008-11-28 | Dialogue activation robot |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5294315B2 (en) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2962048A1 (en) * | 2010-07-02 | 2012-01-06 | Aldebaran Robotics S A | HUMANOID ROBOT PLAYER, METHOD AND SYSTEM FOR USING THE SAME |
KR102558873B1 (en) * | 2016-03-23 | 2023-07-25 | 한국전자통신연구원 | Inter-action device and inter-action method thereof |
JP6730843B2 (en) * | 2016-05-06 | 2020-07-29 | 日本ユニシス株式会社 | Communication support system |
JP7070546B2 (en) * | 2017-03-24 | 2022-05-18 | ソニーグループ株式会社 | Information processing equipment and information processing method |
JP6864831B2 (en) * | 2017-04-24 | 2021-04-28 | 富士フイルムビジネスイノベーション株式会社 | Robot devices and programs |
BR112020010376A2 (en) * | 2017-12-22 | 2020-11-24 | Telefonaktiebolaget Lm Ericsson (Publ) | method for initiating voice control by looking at detection, device for initiating voice control by looking at detection, and, computer-readable media |
JP7015711B2 (en) * | 2018-03-08 | 2022-02-03 | パナソニック株式会社 | Equipment, robots, methods, and programs |
JP7044167B2 (en) | 2018-09-28 | 2022-03-30 | 富士通株式会社 | Dialogue device, dialogue method and dialogue program |
CN111939559A (en) * | 2019-05-16 | 2020-11-17 | 北京车和家信息技术有限公司 | Control method and device for vehicle-mounted voice game |
WO2024154626A1 (en) * | 2023-01-16 | 2024-07-25 | 京セラ株式会社 | Electronic apparatus and program |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2849342B2 (en) * | 1994-11-14 | 1999-01-20 | 株式会社エイ・ティ・アール通信システム研究所 | Dialogue activation device |
JP2006208482A (en) * | 2005-01-25 | 2006-08-10 | Sony Corp | Device, method, and program for assisting activation of conference, and recording medium |
-
2008
- 2008-11-28 JP JP2008304140A patent/JP5294315B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010128281A (en) | 2010-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5294315B2 (en) | Dialogue activation robot | |
US11151997B2 (en) | Dialog system, dialog method, dialog apparatus and program | |
Bailly et al. | Gaze, conversational agents and face-to-face communication | |
US10702991B2 (en) | Apparatus, robot, method and recording medium having program recorded thereon | |
JP2006071936A (en) | Dialogue agent | |
JPWO2018174088A1 (en) | Communication analysis device, measurement / feedback device, and interaction device used for it | |
US10580434B2 (en) | Information presentation apparatus, information presentation method, and non-transitory computer readable medium | |
US11163965B2 (en) | Internet of things group discussion coach | |
Tanaka et al. | Teleoperated or autonomous?: How to produce a robot operator's pseudo presence in HRI | |
JP2023055910A (en) | Robot, dialogue system, information processing method, and program | |
JP7120060B2 (en) | VOICE DIALOGUE DEVICE, CONTROL DEVICE AND CONTROL PROGRAM FOR VOICE DIALOGUE DEVICE | |
Tahon et al. | Real-life emotion detection from speech in human-robot interaction: Experiments across diverse corpora with child and adult voices | |
Bee et al. | Discovering eye gaze behavior during human-agent conversation in an interactive storytelling application | |
US11386920B2 (en) | Interactive group session computing systems and related methods | |
Huang et al. | Can a Virtual Listener Replace a Human Listener in Active Listening Conversation? | |
US20240203279A1 (en) | Content-driven virtual agent facilitator for online group activity | |
JP2021114004A (en) | Information processing device and information processing method | |
Al Moubayed et al. | Tutoring Robots: Multiparty multimodal social dialogue with an embodied tutor | |
JP2007030050A (en) | Robot control device, robot control system, robot device and robot control method | |
WO2023228433A1 (en) | Line-of-sight control device and method, non-temporary storage medium, and computer program | |
WO2023062512A1 (en) | Real time evaluating a mechanical movement associated with a pronunciation of a phenome by a patient | |
de Oliveira | A multiplayer voice-enabled game platform | |
Rumpelnik | Embodied conversational agents with situation awareness | |
JP2024001520A (en) | Information processing device, information processing method and game system | |
Huang et al. | Evaluating a virtual agent who responses attentively to multiple players in a quiz game |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110916 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120827 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120903 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130528 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130606 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |