[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2019060921A - Information processor and program - Google Patents

Information processor and program Download PDF

Info

Publication number
JP2019060921A
JP2019060921A JP2017183342A JP2017183342A JP2019060921A JP 2019060921 A JP2019060921 A JP 2019060921A JP 2017183342 A JP2017183342 A JP 2017183342A JP 2017183342 A JP2017183342 A JP 2017183342A JP 2019060921 A JP2019060921 A JP 2019060921A
Authority
JP
Japan
Prior art keywords
speaker
unit
data
emotion
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017183342A
Other languages
Japanese (ja)
Other versions
JP7021488B2 (en
Inventor
佑樹 清水
Yuki Shimizu
佑樹 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2017183342A priority Critical patent/JP7021488B2/en
Publication of JP2019060921A publication Critical patent/JP2019060921A/en
Application granted granted Critical
Publication of JP7021488B2 publication Critical patent/JP7021488B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)
  • Image Analysis (AREA)

Abstract

To express data corresponding to utterance of a speaker in a mode along feeling of the speaker when the data corresponding to the utterance of the speaker is generated from lip movement of the speaker and is expressed.SOLUTION: A first acquisition section 117 acquires images obtained by allowing an imaging section 18 to take a face of a speaker for a plurality of times. A specification section 111 extracts a change of a shape of speaker's lips from the images and specifies utterance of the speaker. A second acquisition section 118 acquires biological information of the speaker mounting a measuring device 2 from the measuring device. An estimation section 112 extracts expression of the speaker from the image of the speaker, which the first acquisition section 117 acquires, collates the expression and the biological information which the second acquisition section 118 acquires with an expression condition determined in feeling DB 121 and a biological condition, and estimates the feeling of the speaker. A selection section 113 selects phoneme data corresponding to utterance information indicating the specified utterance of the speaker. A generation section 114 generates voice data corresponding to the specified utterance of the speaker and the estimated feeling of the speaker.SELECTED DRAWING: Figure 5

Description

本発明は、情報処理装置、及びプログラムに関する。   The present invention relates to an information processing apparatus and a program.

特許文献1には、取得した口の動きの画像に基づいて、その動きに対応する文字を抽出し、その文字を用いて音声を生成して通信先に送信する携帯端末装置が開示されている。
特許文献2には、マイクロフォンに入力される音の大きさがあらかじめ定められた閾値以上である場合には、着信時に読唇通話モードを選択する画面を表示部に表示させ、読唇通話モードが選択されると通話モードを読唇通話モードに切り替え、読唇通話モードに切り替えられると、撮像装置で撮像して得られた画像から話者の唇の形状を検出して言葉の音声データ及びテキストデータの少なくとも一方に変換し、外部に送信する携帯端末装置が開示されている。
Patent Document 1 discloses a portable terminal device which extracts a character corresponding to the movement of the mouth based on the acquired image of the movement of the mouth, generates a voice using the character, and transmits it to a communication destination. .
According to Patent Document 2, when the loudness of the sound input to the microphone is equal to or greater than a predetermined threshold, a screen for selecting a lip reading call mode is displayed on the display unit when a call is received, and a lip reading call mode is selected. If the call mode is switched to the lip reading call mode and switched to the lip reading call mode, the shape of the lip of the speaker is detected from the image obtained by imaging with the imaging device, and at least one of speech data of speech and text data Is disclosed and transmitted to the outside.

特開2015−115926公報JP, 2015-115926, A 特開2015−220684公報JP, 2015-220684, A

本発明は、話者の口の動きからその話者の発言に対応するデータを生成して表現する際に、そのデータをその話者の感情に沿った態様で表現することを目的とする。   An object of the present invention is, when generating and expressing data corresponding to a speaker's utterance from the movement of the speaker's mouth, to express the data in a mode in accordance with the speaker's emotion.

本発明の請求項1に係る情報処理装置は、話者の顔を複数回にわたって撮像した画像を取得する第1取得部と、前記画像から前記話者の口の形状の変化を抽出して、特定される前記話者の発言と、推定される前記話者の感情と、に対応するデータを生成する生成部と、を有する情報処理装置である。   The information processing apparatus according to claim 1 of the present invention extracts a change in the shape of the speaker's mouth from the image, a first acquisition unit that acquires an image of the speaker's face taken a plurality of times, It is an information processing device which has a generation part which generates data corresponding to a talk of the speaker specified, and an emotion of the speaker presumed.

本発明の請求項2に係る情報処理装置は、請求項1に記載の態様において、抽出された前記変化から前記発言を特定する特定部と、前記感情を推定する推定部と、を有し、前記生成部は、前記特定部により特定された前記発言と、前記推定部により推定された前記感情と、に対応する前記データを生成することを特徴とする情報処理装置である。   An information processing apparatus according to a second aspect of the present invention, in the aspect according to the first aspect, includes an identifying unit that identifies the utterance from the extracted change, and an estimating unit that estimates the emotion. The generation unit is an information processing apparatus characterized by generating the data corresponding to the utterance specified by the specification unit and the emotion estimated by the estimation unit.

本発明の請求項3に係る情報処理装置は、請求項2に記載の態様において、前記話者の生体情報を取得する第2取得部、を有し、前記推定部は、取得した前記生体情報に応じて前記感情を推定することを特徴とする情報処理装置である。   An information processing apparatus according to a third aspect of the present invention, in the aspect according to the second aspect, further includes a second acquisition unit that acquires biological information of the speaker, and the estimation unit acquires the biological information acquired. The information processing apparatus is characterized in that the emotion is estimated according to.

本発明の請求項4に係る情報処理装置は、請求項2又は3に記載の態様において、前記推定部は、前記画像から前記話者の表情を抽出して、該表情に応じて前記感情を推定することを特徴とする情報処理装置である。   In the information processing apparatus according to a fourth aspect of the present invention, in the aspect according to the second or third aspect, the estimation unit extracts the expression of the speaker from the image, and the emotion is calculated according to the expression. It is an information processing apparatus characterized by estimating.

本発明の請求項5に係る情報処理装置は、請求項1から4のいずれか1項に記載の態様において、前記生成部は、前記発言から音素を選択し、該音素から前記感情に対応する表現の音声を示す前記データを生成することを特徴とする情報処理装置である。   In the information processing apparatus according to a fifth aspect of the present invention, in the aspect according to any one of the first to fourth aspects, the generation unit selects a phoneme from the utterance, and corresponds to the emotion from the phoneme. It is an information processor characterized by generating the data which show the voice of expression.

本発明の請求項6に係る情報処理装置は、請求項2から4のいずれか1項に記載の態様において、前記特定部は、前記話者の発言の速度及び音量の少なくとも一方を特定し、前記生成部は、前記発言から音素を選択し、該音素から前記感情に対応する表現であって、前記特定部により特定された前記速度又は音量の前記データを生成することを特徴とする情報処理装置である。   In the information processing apparatus according to a sixth aspect of the present invention, in the aspect according to any one of the second to fourth aspects, the identification unit identifies at least one of the speed and volume of the speaker's speech; The generation unit is configured to select a phoneme from the utterance, and to generate the data of the velocity or volume specified by the specification unit, which is an expression corresponding to the emotion from the phoneme. It is an apparatus.

本発明の請求項7に係る情報処理装置は、請求項1から6のいずれか1項に記載の態様において、前記生成部は、前記話者の音声を示す話者データを用いて前記データを生成することを特徴とする情報処理装置である。   An information processing apparatus according to a seventh aspect of the present invention is the information processing apparatus according to any one of the first to sixth aspects, wherein the generation unit uses the speaker data indicating the voice of the speaker. An information processing apparatus characterized by generating.

本発明の請求項8に係る情報処理装置は、請求項7に記載の態様において、前記生成部は、前記話者の音声のうち、推定された前記感情に対応する音声を示す前記話者データを用いて前記データを生成することを特徴とする情報処理装置である。   In the information processing apparatus according to an eighth aspect of the present invention, in the aspect according to the seventh aspect, the generation unit transmits the speaker data indicating a voice corresponding to the estimated emotion among the voices of the speaker An information processing apparatus characterized by generating the data using

本発明の請求項9に係る情報処理装置は、請求項3に記載の態様において、前記生成部は、前記話者の音声のうち、前記話者の生体情報に対応する音声を示す話者データを用いて前記データを生成することを特徴とする情報処理装置である。   An information processing apparatus according to a ninth aspect of the present invention is the information processing apparatus according to the third aspect, wherein the generation unit is speaker data indicating a voice corresponding to biological information of the speaker among voices of the speaker An information processing apparatus characterized by generating the data using

本発明の請求項10に係る情報処理装置は、請求項1から9のいずれか1項に記載の態様において、前記生成部は、前記話者から決められた操作を受付けた場合に、前記データを生成することを特徴とする情報処理装置である。   An information processing apparatus according to a tenth aspect of the present invention is the information processing apparatus according to any one of the first to ninth aspects, wherein the generation unit receives the operation determined from the speaker. An information processing apparatus characterized by generating

本発明の請求項11に係る情報処理装置は、請求項1から10のいずれか1項に記載の態様において、前記話者の発した声の音量を計測する計測部、を有し、前記生成部は、前記音量が決められた閾値未満である場合に、前記データを生成することを特徴とする情報処理装置である。   An information processing apparatus according to an eleventh aspect of the present invention, in the aspect according to any one of the first to tenth aspects, further comprising: a measurement unit that measures the volume of the voice uttered by the speaker; The information processing apparatus is characterized in that the unit generates the data when the volume is less than a predetermined threshold.

本発明の請求項12に係る情報処理装置は、請求項1から10のいずれか1項に記載の態様において、前記話者の周囲の光量を計測する計測部、を有し、前記生成部は、前記光量が決められた閾値未満である場合に、前記データの生成を停止することを特徴とする情報処理装置である。   An information processing apparatus according to a twelfth aspect of the present invention, in the aspect according to any one of the first to tenth aspects, further comprising: a measurement unit that measures a light amount around the speaker; The information processing apparatus is characterized in that generation of the data is stopped when the light amount is less than a determined threshold.

本発明の請求項13に係る情報処理装置は、請求項1から12のいずれか1項に記載の態様において、前記生成部が前記データを生成するか否かを通知する、ことを特徴とする情報処理装置である。   The information processing apparatus according to claim 13 of the present invention is characterized in that, in the aspect according to any one of claims 1 to 12, the generation unit notifies whether or not the data is generated. It is an information processing apparatus.

本発明の請求項14に係るプログラムは、コンピュータを、話者の顔を複数回にわたって撮像した画像を取得する第1取得部と、前記画像から前記話者の口の形状の変化を抽出して、特定される前記話者の発言と、推定される前記話者の感情と、に対応するデータを生成する生成部、として機能させるためのプログラムである。   A program according to a fourteenth aspect of the present invention is a computer comprising: a first acquisition unit for acquiring an image obtained by imaging a speaker's face a plurality of times; and a change in the shape of the speaker's mouth from the image. It is a program for functioning as a generation part which generates data corresponding to a talk of the speaker specified, and an emotion of the speaker presumed.

請求項1、2、14に係る発明によれば、話者の口の動きからその話者の発言に対応するデータを生成して表現する際に、そのデータをその話者の感情に沿った態様で表現することができる。
請求項3に係る発明によれば、表現に用いられる話者の感情は、その話者の生体情報に応じて推定される。
請求項4に係る発明によれば、話者の表情から話者の感情が推定される。
請求項5に係る発明によれば、音素を合成して音声を示すデータが合成される。
請求項6に係る発明によれば、発言の速度及び音量の少なくとも一方が合成されるデータに反映される。
請求項7に係る発明によれば、話者の音声に応じたデータが合成される。
請求項8に係る発明によれば、話者の感情に対応する音声を用いてデータが合成される。
請求項9に係る発明によれば、話者の生体情報に対応する音声を用いてデータが合成される。
請求項10に係る発明によれば、話者が決められた操作を行うことでデータが合成される。
請求項11に係る発明によれば、話者の発した声の音量が閾値未満である場合にデータが合成される。
請求項12に係る発明によれば、話者の周囲の光量が閾値未満である場合にデータの合成が停止される。
請求項13に係る発明によれば、話者の発言及び感情に応じたデータが合成されるか否かを知ることができる。
According to the inventions of claims 1, 2 and 14, when generating and expressing data corresponding to the speech of the speaker from the movement of the mouth of the speaker, the data is in line with the emotion of the speaker It can be expressed in an aspect.
According to the third aspect of the present invention, the emotion of the speaker used for expression is estimated according to the biological information of the speaker.
According to the invention of claim 4, the emotion of the speaker is estimated from the expression of the speaker.
According to the fifth aspect of the present invention, data indicative of speech is synthesized by synthesizing phonemes.
According to the invention of claim 6, at least one of the speech speed and the volume is reflected in the data to be synthesized.
According to the seventh aspect of the invention, data corresponding to the voice of the speaker is synthesized.
According to the invention of claim 8, the data is synthesized using the voice corresponding to the emotion of the speaker.
According to the invention of claim 9, the data is synthesized by using the voice corresponding to the biometric information of the speaker.
According to the invention of claim 10, the data is synthesized by the speaker performing the determined operation.
According to the invention of claim 11, the data is synthesized when the volume of the voice uttered by the speaker is less than the threshold.
According to the invention of claim 12, the data synthesis is stopped when the amount of light around the speaker is less than the threshold.
According to the invention as set forth in claim 13, it can be known whether or not data according to the speech and emotion of the speaker are synthesized.

本実施形態に係る通話システム9の構成の例を示す図。FIG. 1 is a view showing an example of the configuration of a call system 9 according to the present embodiment. 測定装置2の構成の例を示す図。FIG. 2 is a view showing an example of the configuration of a measurement apparatus 2; 端末1の構成の例を示す図。The figure which shows the example of a structure of the terminal 1. FIG. 記憶部12に記憶される各種のデータベースを示す図。FIG. 2 is a view showing various databases stored in a storage unit 12; 端末1の機能的構成を示す図。FIG. 2 is a diagram showing a functional configuration of a terminal 1; 端末1の代表色及び配色候補を抽出する動作の流れを示すフロー図。FIG. 7 is a flow diagram showing a flow of an operation of extracting a representative color and a color arrangement candidate of the terminal 1; 話者の感情ごとに変化する音声の表現を説明するための図。The figure for demonstrating the expression of the audio | voice which changes for every speaker's emotion. 図1において破線で示したサーバ装置4の構成を示す図。The figure which shows the structure of the server apparatus 4 shown with the broken line in FIG. サーバ装置4の機能的構成を示す図。FIG. 2 is a diagram showing a functional configuration of a server device 4; 端末1a及び端末1bが機能を分担する例を示す図。The figure which shows the example which the terminal 1a and the terminal 1b share a function. 端末1a及び端末1bが機能を分担する例を示す図。The figure which shows the example which the terminal 1a and the terminal 1b share a function. 変形例における音素DB124の一例を示す図。The figure which shows an example of phoneme DB124 in a modification.

1.実施形態
1−1.通話システムの全体構成
図1は、本実施形態に係る通話システム9の構成の例を示す図である。通話システム9は、話者が利用する端末1a、話者の通話の相手が利用する端末1b(以下、端末1a、1bを区別しない場合に、単に「端末1」と表記する)、及び、これらの端末1を互いに接続する通信回線3を有する。また、図1に示す通話システム9は、話者の手首等、身体のいずれかの部位に装着され、話者の生体の情報(以下、「生体情報」という)を測定する測定装置2を有している。生体情報とは、例えば、血圧、体温、発汗量、脈拍数、心拍のパターン等で示される情報である。
1. Embodiment 1-1. Overall Configuration of Call System FIG. 1 is a diagram showing an example of a configuration of a call system 9 according to the present embodiment. The call system 9 includes a terminal 1a used by the speaker, a terminal 1b used by the other party of the talk of the speaker (hereinafter simply referred to as "terminal 1" when the terminals 1a and 1b are not distinguished), and The communication line 3 which connects the terminals 1 of Further, the communication system 9 shown in FIG. 1 includes the measuring device 2 which is attached to any part of the body, such as the speaker's wrist, and measures information on the speaker's living body (hereinafter referred to as "biological information"). doing. The biological information is, for example, information represented by blood pressure, body temperature, sweat rate, pulse rate, heart rate pattern and the like.

1−2.測定装置の構成
図2は、測定装置2の構成の例を示す図である。測定装置2は、制御部21、記憶部22、通信部23、及び測定部28を有する。
1-2. Configuration of Measuring Device FIG. 2 is a view showing an example of the configuration of the measuring device 2. The measuring device 2 includes a control unit 21, a storage unit 22, a communication unit 23, and a measuring unit 28.

制御部21は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)を有し、CPUがROM及び記憶部22に記憶されているコンピュータプログラム(以下、単にプログラムという)を読み出して実行することにより測定装置2の各部を制御する。   The control unit 21 includes a central processing unit (CPU), a read only memory (ROM), and a random access memory (RAM), and a computer program (hereinafter, simply referred to as a program) stored in the ROM and the storage unit 22 by the CPU. Are read out and executed to control each part of the measuring apparatus 2.

記憶部22は、ソリッドステートドライブ等の記憶手段であり、制御部21のCPUに読み込まれる各種のプログラムを記憶する。   The storage unit 22 is storage means such as a solid state drive, and stores various programs read by the CPU of the control unit 21.

測定部28は、端末1を利用する話者の生体情報を測定するデバイスである。測定部28は、例えば、LED(Light Emitting Diode)等、照射装置により、決められた波長の光を話者の手首の組織へ照射し、血管中を流れる血液に含まれるヘモグロビンに吸収されずに反射された反射光を受光素子によって受光して、その反射光の経時変化の周期から脈拍数を測定する脈拍計である。また、測定部28は、話者の血圧、体温、発汗量、心拍のパターン等を測定してもよい。   The measurement unit 28 is a device that measures biological information of a speaker who uses the terminal 1. The measuring unit 28 irradiates light of a determined wavelength to the tissue of the speaker's wrist by an irradiation device such as a light emitting diode (LED), for example, and is not absorbed by the hemoglobin contained in the blood flowing in the blood vessel. It is a pulsimeter that receives the reflected light reflected by the light receiving element and measures the pulse rate from the period of time-dependent change of the reflected light. In addition, the measurement unit 28 may measure the blood pressure, the temperature, the amount of sweating, the heartbeat pattern, and the like of the speaker.

通信部23は、無線又は有線により端末1に接続する通信回路である。測定装置2は、通信部23により端末1に測定部28が測定した結果を示す生体情報を供給する。   The communication unit 23 is a communication circuit connected to the terminal 1 wirelessly or by wire. The measuring device 2 supplies biological information indicating the result of measurement by the measuring unit 28 to the terminal 1 through the communication unit 23.

1−3.端末の構成
図3は、端末1の構成の例を示す図である。端末1は、制御部11、記憶部12、通信部13、表示部14、操作部15、収音部16、放音部17、及び撮像部18を有する。
1-3. Terminal Configuration FIG. 3 is a diagram showing an example of the configuration of the terminal 1. The terminal 1 includes a control unit 11, a storage unit 12, a communication unit 13, a display unit 14, an operation unit 15, a sound collection unit 16, a sound emission unit 17, and an imaging unit 18.

制御部11は、CPU、ROM、RAMを有し、CPUがROM及び記憶部12に記憶されているプログラムを読み出して実行することにより端末1の各部を制御する。   The control unit 11 includes a CPU, a ROM, and a RAM, and controls the units of the terminal 1 by the CPU reading and executing programs stored in the ROM and the storage unit 12.

操作部15は、各種の指示をするための操作ボタン、キーボード等の操作子を備えており、利用者による操作を受付けてその操作内容に応じた信号を制御部11に供給する。操作部15は、利用者の指又はスタイラスペン等の操作体を検知するタッチパネルを有してもよい。   The operation unit 15 includes operation buttons for giving various instructions and operation elements such as a keyboard, receives an operation by the user, and supplies a signal corresponding to the content of the operation to the control unit 11. The operation unit 15 may have a touch panel that detects an operation object such as a user's finger or a stylus pen.

表示部14は、液晶ディスプレイ等の表示画面を有しており、制御部11の制御の下、画像を表示する。表示画面の上には、操作部15の透明のタッチパネルが重ねて配置されてもよい。   The display unit 14 has a display screen such as a liquid crystal display, and displays an image under the control of the control unit 11. The transparent touch panel of the operation unit 15 may be overlapped on the display screen.

収音部16は、話者の音声を収録して音声信号に変換するマイクロフォン等である。
放音部17は、制御部11から供給される音声信号を音に変換して放出するスピーカ等である。
撮像部18は、CMOS(Complementary Metal Oxide Semiconductor)又はCCD(Charge Coupled Device)等の撮像素子と、これら撮像素子に像を結像する光学系を備える。撮像部18は、いわゆるインカメラであり、撮像素子で得られた画像を示す画像データを生成する。端末1を話者が利用するとき、撮像部18は、話者の顔を複数回にわたって撮像する。
The sound collection unit 16 is a microphone or the like that records the voice of the speaker and converts it into a voice signal.
The sound emitting unit 17 is a speaker or the like that converts an audio signal supplied from the control unit 11 into sound and emits the sound.
The imaging unit 18 includes an imaging element such as a complementary metal oxide semiconductor (CMOS) or a charge coupled device (CCD), and an optical system that forms an image on the imaging element. The imaging unit 18 is a so-called in-camera, and generates image data indicating an image obtained by the imaging device. When the speaker uses the terminal 1, the imaging unit 18 images the face of the speaker a plurality of times.

なお、この撮像部18は、話者の顔を複数回にわたって撮像することに代えて、その話者の顔を示す動画像を1回撮影することで、複数の静止画像を示す画像データを得てもよい。   In addition, this imaging unit 18 obtains image data showing a plurality of still images by photographing a moving image showing the face of the speaker once instead of imaging the face of the speaker a plurality of times. May be

通信部13は、第1通信部131及び第2通信部132を有する。第1通信部131は、無線又は有線により通信回線3と接続する通信回路である。第2通信部132は、無線又は有線により測定装置2と接続する通信回路である。第2通信部132による通信には、例えば、IEEE802.15に準拠した近接無線通信方式等が適用される。   The communication unit 13 has a first communication unit 131 and a second communication unit 132. The first communication unit 131 is a communication circuit connected to the communication line 3 wirelessly or by wire. The second communication unit 132 is a communication circuit connected to the measurement device 2 wirelessly or by wire. For communication by the second communication unit 132, for example, a close proximity wireless communication method or the like conforming to IEEE 802.15 is applied.

記憶部12は、ソリッドステートドライブ、ハードディスクドライブ等の大容量の記憶手段であり、制御部11のCPUに読み込まれる各種のプログラムを記憶する。また、記憶部12は、感情DB121、発言DB122、表現DB123、及び音素DB124を記憶する。   The storage unit 12 is a large-capacity storage unit such as a solid state drive or a hard disk drive, and stores various programs read by the CPU of the control unit 11. In addition, the storage unit 12 stores an emotion DB 121, an utterance DB 122, an expression DB 123, and a phoneme DB 124.

図4は、記憶部12に記憶される各種のデータベースを示す図である。図4(a)に示す感情DB121は、話者の表情に関する条件(「表情条件」という)と、話者の生体情報に関する条件(「生体条件」という)と、これら表情条件及び生体条件の少なくとも一方を満たすときの話者の感情を識別するための識別情報(「感情ID」という)とを対応付けて記憶する。感情とは、例えば「喜び」「怒り」「悲しみ」「驚き」「興奮」「困惑」「疑問」「焦り」等である。   FIG. 4 is a diagram showing various databases stored in the storage unit 12. The emotion DB 121 shown in FIG. 4A is a condition related to the expression of the speaker (referred to as “expression condition”), a condition related to the biological information of the speaker (referred to as “biological condition”), and at least the expression condition and the biological condition. It is stored in association with identification information (referred to as "emotional ID") for identifying the speaker's emotion when one is satisfied. The emotions are, for example, "joy", "anger", "sadness", "surprise", "excitation", "puzzle", "question", "irritability", and the like.

表情条件は、例えば、話者の顔を撮像した画像から、その話者の口角、眉、瞳等、表情を構成する各部位の位置や動きの範囲を定めた条件である。生体条件は、第2通信部132を介して測定装置2から取得した話者の生体情報から、その話者の血圧、体温、発汗量、脈拍数、心拍のパターン等の範囲を定めた条件である。   The expression condition is, for example, a condition in which the position and the range of movement of each part constituting the expression, such as the mouth angle, eyebrow and pupil of the speaker, are defined from the image obtained by imaging the speaker's face. The living condition is a condition that defines the range of the speaker's blood pressure, body temperature, amount of sweating, pulse rate, heart rate pattern, etc. from the speaker's biological information acquired from the measuring device 2 via the second communication unit 132. is there.

この感情DB121を参照することにより、制御部11は、例えば、話者の口角が決められた基準を超えて上がっているという表情条件を満たしていると判定し、かつ、脈拍数が決められた範囲にあるという生体条件を満たしていると判定するとき、この話者がこの表情条件及び生体条件に対応付けられた「喜び」の感情を有している、と特定する。なお、制御部11は、表情条件及び生体条件のいずれか一方を満たしていると判定するときに、その条件に対応付けられた感情を有していると特定してもよい。   By referring to the emotion DB 121, for example, the control unit 11 determines that the expression condition that the speaker's mouth angle rises above the determined reference condition is satisfied, and the pulse rate is determined. When it is determined that the living condition of being in the range is satisfied, it is specified that this speaker has the emotion of “joy” associated with the expression condition and the living condition. When it is determined that one of the expression condition and the biological condition is satisfied, the control unit 11 may specify that the emotion associated with the condition is included.

図4(b)に示す発言DB122は、話者の口又は唇の形状に関する条件(「口唇条件」という)と、その口唇条件を満たすときに話者の発言を示す情報(「発言情報」という)とを対応付けて記憶する。この発言DB122を参照することにより、制御部11は、話者の口又は唇の形状から話者の発言を特定する。   The speech DB 122 shown in FIG. 4 (b) is a condition related to the shape of the speaker's mouth or lip (referred to as "lip condition"), and information indicating the speaker's speech when the lip condition is satisfied (referred to as "message information" And are stored in association with each other. By referring to the speech DB 122, the control unit 11 specifies the speech of the speaker from the shape of the speaker's mouth or lip.

発言情報により示される発言は、話者が用いる言語において区別される音の単位である音声素片(「音素」という)であってもよいが、いくつかの音素の組合せで構成される単語であってもよい。   The utterance indicated by the utterance information may be a speech segment (referred to as a "phoneme") which is a unit of sound distinguished in the language used by the speaker, but is a word composed of a combination of several phonemes. It may be.

図4(c)に示す表現DB123は、感情IDと、音声の表現の態様を示す情報(「表現情報」という)とを対応付けて記憶する。表現DB123を参照することにより、制御部11は、指定された感情IDで示される感情を話者が有しているときに、その話者の音声が表現される態様を特定する。   The expression DB 123 illustrated in FIG. 4C associates and stores the emotion ID and information (referred to as “expression information”) indicating an aspect of expression of speech. By referring to the expression DB 123, the control unit 11 specifies an aspect in which the voice of the speaker is expressed when the speaker has the emotion indicated by the designated emotion ID.

音声が表現される態様とは、具体的には、例えば、音声の強勢、抑揚、音程、リズム等の韻律で示される態様である。表現DB123には、例えば、「喜び」の感情に対して、「全体的に高めの音程で、語頭と語尾とが閾値以上の高い音程になる抑揚」が、「怒り」の感情に対して、「全体的に低めの音程で、音程の変化が閾値未満になる抑揚」が、それぞれ表現情報として対応付けられている。   Specifically, the aspect in which the speech is expressed is, for example, an aspect indicated by prosody such as stress, intonation, pitch, or rhythm of speech. In the expression DB 123, for example, “the tonality in which the beginning and the end become pitches higher than the threshold at a high pitch overall,” for the emotion of “joy”, for the emotion of “rage”, Each of “the intonation in which the change of the pitch is less than the threshold at a lower pitch overall” is associated with each as the expression information.

感情と、音声が表現される態様との対応関係は、複数の人の標本を統計的に処理して決定されてもよいし、端末1を利用する話者の標本を統計的に処理して決定されてもよい。なお、統計的に処理するとは、例えば、閾値との比較による異常値の除去や、相加平均・相乗平均の算出、最頻値・中央値等の代表値の特定等である。   The correspondence between the emotion and the manner in which the voice is expressed may be determined by statistically processing a plurality of human samples, or by statistically processing a sample of a speaker using the terminal 1 It may be determined. Note that processing statistically includes, for example, removal of an abnormal value by comparison with a threshold value, calculation of arithmetic mean and geometric mean, and identification of representative values such as mode value and median value.

図4(d)に示す音素DB124は、発言情報と、その発言情報により示される発言を人が発声したときの音素を示す音素データとを対応付けて記憶する。   The phoneme DB 124 illustrated in FIG. 4D stores speech information and phoneme data indicating a phoneme when a person speaks a speech indicated by the speech information, in association with each other.

音素データは、複数の人が音素を発声したときの波形データを統計的に処理して生成された音声信号であってもよいし、端末1を利用する話者が過去に録音した音声を示すデータ(「話者データ」という)を統計的に処理して生成された音声信号であってもよい。   The phoneme data may be a voice signal generated by statistically processing waveform data when a plurality of persons utter a phoneme, or indicates a voice recorded by a speaker using the terminal 1 in the past It may be an audio signal generated by statistically processing data (referred to as "speaker data").

1−4.端末の機能的構成
図5は、端末1の機能的構成を示す図である。図5に示す端末1の制御部11は、図1に示す記憶部12に記憶されたプログラムを実行することにより、特定部111、推定部112、選択部113、生成部114、第1取得部117、及び第2取得部118として機能する。また、図5に示す制御部11は、上述したプログラムを実行することにより、計測部119、及び受付部110として機能する。
1-4. Functional Configuration of Terminal FIG. 5 is a diagram showing a functional configuration of the terminal 1. The control unit 11 of the terminal 1 shown in FIG. 5 executes the program stored in the storage unit 12 shown in FIG. 1 to obtain the identification unit 111, the estimation unit 112, the selection unit 113, the generation unit 114, and the first acquisition unit. The function 117 functions as the second acquisition unit 118. The control unit 11 illustrated in FIG. 5 functions as the measurement unit 119 and the reception unit 110 by executing the above-described program.

第1取得部117は、撮像部18が話者の顔を複数回にわたって撮像した画像を取得する。特定部111は、画像から話者の口の形状の変化を抽出して、話者の発言を特定する。   The first acquisition unit 117 acquires an image obtained by imaging the face of the speaker a plurality of times by the imaging unit 18. The identifying unit 111 extracts a change in the shape of the speaker's mouth from the image to specify the speaker's utterance.

また、特定部111は、取得した画像から抽出された話者の口唇情報を用いて、例えば、開いた口の大きさや形状、それらの変化の速度を解析することにより、話者の発言の速度及び音量の少なくとも一方を特定してもよい。   In addition, the identification unit 111 uses the lip information of the speaker extracted from the acquired image, for example, the size and shape of the open mouth, and the speed of the change of the opening speed of the speaker's speech. And / or the volume may be specified.

第2取得部118は、第2通信部132を介して測定装置2と通信し、測定装置2を装着した話者の生体情報を取得する。推定部112は、第1取得部117が取得した話者の画像からその話者の表情を抽出する。そして推定部112は、抽出したその表情と第2取得部118が取得した生体情報とをそれぞれ感情DB121に定められた表情条件及び生体条件に照合してこの話者の感情を推定する。   The second acquisition unit 118 communicates with the measurement apparatus 2 via the second communication unit 132, and acquires biological information of the speaker wearing the measurement apparatus 2. The estimation unit 112 extracts the expression of the speaker from the image of the speaker acquired by the first acquisition unit 117. Then, the estimation unit 112 collates the extracted expression with the biological information acquired by the second acquisition unit 118 with the expression condition and the living condition defined in the emotion DB 121 to estimate the emotion of the speaker.

選択部113は、特定された話者の発言を示す発言情報に基づいて音素DB124を検索し、この発言情報に対応する音素データを選択する。選択部113が選択する音素データは、1つの発言情報に対して1つであってもよいし、複数であってもよい。   The selection unit 113 searches the phoneme DB 124 based on the speech information indicating the speech of the specified speaker, and selects phoneme data corresponding to the speech information. The phoneme data selected by the selection unit 113 may be one or more for one piece of speech information.

生成部114は、特定された話者の発言、及び推定された話者の感情に応じた音声データを生成する。生成部114は、例えば、選択された音素データを、推定された感情に応じて変形し、発言に沿った配列に並べて互いに接続することで音声データを生成する。つまり、選択部113及び生成部114の機能を合わせると、特定部111で特定された話者の発言から音素を選択し、選択されたその音素から話者の感情に対応する表現の音声を示す音声データを生成する機能となる。   The generation unit 114 generates voice data according to the identified speaker's utterance and the estimated speaker's emotion. For example, the generation unit 114 generates voice data by deforming the selected phoneme data according to the estimated emotion, arranging the selected phoneme data in an arrangement along the utterance, and connecting them to each other. That is, when the functions of the selection unit 113 and the generation unit 114 are combined, a phoneme is selected from the utterance of the speaker identified by the identification unit 111, and a voice of an expression corresponding to the speaker's emotion is indicated from the selected phoneme. It becomes a function to generate voice data.

生成部114は、音声データを生成すると、通信部13の第1通信部131を介して、通話の相手が利用する端末1にこの音声データを送信する。なお、送信先の端末1bは、音声データを生成した端末1aの機能を全て有していなくてもよく、端末1aから受信した音声データを例えば放音部17から出力する機能を有していればよい。   After generating the voice data, the generation unit 114 transmits the voice data to the terminal 1 used by the other party of the call via the first communication unit 131 of the communication unit 13. Note that the destination terminal 1b does not have to have all the functions of the terminal 1a that has generated the audio data, and has a function of outputting the audio data received from the terminal 1a from the sound emitting unit 17, for example. Just do it.

上述した機能を制御部11が実現することで、端末1は、話者の顔を複数回にわたって撮像した画像を取得する第1取得部と、画像から話者の口の形状の変化を抽出して、話者の発言を特定する特定部と、話者の感情を推定する推定部と、発言、及び感情に応じたデータを生成する生成部と、を有する情報処理装置として機能する。   By the control unit 11 realizing the above-described function, the terminal 1 extracts a change in the shape of the speaker's mouth from the image, and a first acquisition unit that acquires an image of the speaker's face taken a plurality of times. The information processing apparatus functions as an information processing apparatus including a specification unit that specifies a speaker's utterance, an estimation unit that estimates a speaker's emotion, and a generator that generates data according to the utterance and the emotion.

なお、音素DB124に記憶されている音素データが、話者データに基づいて生成された音声信号である場合、生成部114は、話者データに基づいて生成された音声信号を用いて上述した音声データを生成する。この場合、生成された音声データには、端末1を利用する話者の音声に固有の特徴が含まれる可能性が高い。   When the phoneme data stored in the phoneme DB 124 is a voice signal generated based on the speaker data, the generation unit 114 generates the above-described voice using the voice signal generated based on the speaker data. Generate data. In this case, the generated voice data is likely to include features specific to the voice of the speaker using the terminal 1.

計測部119は、話者の発した声の音量を計測する。生成部114は、計測された音量が決められた閾値未満である場合に、音声データを生成する。この構成によれば、話者の発した声の音量が決められた程度に満たないときに、端末1は、話者の口唇の形状と動きから発言の内容(「発言内容」という)を特定して、その発言内容に応じた音声データを生成して相手の端末1に送信する。したがって、声が小さくて聞き取れない場合に、端末1は、発言内容に応じた音声データを生成して相手に送信する。   The measuring unit 119 measures the volume of the voice of the speaker. The generation unit 114 generates audio data when the measured volume is less than the determined threshold. According to this configuration, when the volume of the voice of the speaker is less than the determined level, the terminal 1 identifies the content of the speech (referred to as the "content of speech") from the shape and movement of the lip of the speaker Then, voice data corresponding to the content of the message is generated and transmitted to the terminal 1 of the other party. Therefore, when the voice is small and can not be heard, the terminal 1 generates voice data according to the content of the statement and transmits it to the other party.

また、計測部119は、話者の周囲の光量を計測する。例えば、計測部119は、第1取得部が取得した画像から上述した光量を計測してもよい。また、端末1は、話者の周囲の光量を測定する照度計等を有していてもよい。この場合、計測部119は、この照度計から上述した光量の情報を取得すればよい。   The measuring unit 119 also measures the amount of light around the speaker. For example, the measurement unit 119 may measure the above-described light amount from the image acquired by the first acquisition unit. Further, the terminal 1 may have an illuminance meter or the like that measures the amount of light around the speaker. In this case, the measuring unit 119 may obtain the information of the light amount described above from the luminometer.

生成部114は、計測された光量が決められた閾値未満である場合に、音声データの生成を停止する。この構成によれば、話者の周囲に決められた程度の明るさがないときに、話者の口唇の形状と動きから特定される発言内容に応じた音声データは生成されない。したがって、撮像した画像が暗すぎて話者の口唇の動きを特定することが困難になり、特定される発言内容が不正確になる可能性がある場合に、端末1は音声データを生成せず、相手に送信しない。   The generation unit 114 stops the generation of audio data when the measured light amount is less than the determined threshold. According to this configuration, when the brightness around the speaker is not determined, voice data according to the content of the utterance specified from the shape and movement of the lip of the speaker is not generated. Therefore, the terminal 1 does not generate voice data when there is a possibility that the captured image is too dark and it is difficult to identify the movement of the speaker's lips, and the identified utterance content may be inaccurate. , Do not send to the other party.

受付部110は、操作部15を介して話者の操作を受付ける。生成部114は、受付部110が話者から決められた操作を受付けた場合に、上述した音声データを生成する。例えば、生成部114は、受付部110が操作部15の決められたボタンを押してから離すまでの期間、すなわち、そのボタンを押下し続けている期間に、上述した音声データを生成する。   The reception unit 110 receives the operation of the speaker via the operation unit 15. When the receiving unit 110 receives an operation determined by the speaker, the generating unit 114 generates the above-described voice data. For example, the generation unit 114 generates the above-described voice data during a period from when the reception unit 110 presses the determined button of the operation unit 15 until the button is released, that is, during a period when the button is kept pressed.

1−5.端末の動作
図6は、端末1の代表色及び配色候補を抽出する動作の流れを示すフロー図である。図6(a)に示すフロー図に沿って、端末1の制御部11は、第1通信部131を監視して他の端末1から着信があるか否かを判断する(ステップS101)。着信がないと判断する間(ステップS101;NO)、制御部11は、この判断を続ける。着信があると判断した場合(ステップS101;YES)、制御部11は、話者が着信を受けるモードを選択するための操作を受付けて、話者がモードを選択したか否かを判断する(ステップS102)。
1-5. Operation of Terminal FIG. 6 is a flowchart showing a flow of an operation of extracting a representative color and color arrangement candidate of the terminal 1. According to the flowchart shown in FIG. 6A, the control unit 11 of the terminal 1 monitors the first communication unit 131 and determines whether there is an incoming call from another terminal 1 (step S101). While determining that there is no incoming call (step S101; NO), the control unit 11 continues this determination. When it is determined that there is an incoming call (step S101; YES), the control unit 11 receives an operation for selecting a mode for receiving an incoming call, and determines whether or not the speaker has selected a mode ( Step S102).

話者が選択をしていないと判断する場合(ステップS102;NO)、制御部11は、この判断を続ける。話者が選択をしたと判断する場合(ステップS102;YES)、制御部11は、その選択したモードが、音声無しで通話を行うモード(「無音声モード」という)であるか否かを判断する(ステップS103)。   If it is determined that the speaker has not made a selection (step S102; NO), the control unit 11 continues this determination. If it is determined that the speaker has made a selection (step S102; YES), the control unit 11 determines whether the selected mode is a mode for making a call without voice (referred to as "non-voice mode"). (Step S103).

無音声モードが選択されていないと判断する場合(ステップS103;NO)、制御部11は、音声を介した通常の通話を行う(ステップS104)。無音声モードが選択されたと判断する場合(ステップS103;YES)、制御部11は、撮像部18を駆動して話者の顔を撮像させ(ステップS105)、撮像部18からそれらの画像を取得し、また、測定装置2から生体情報を取得する(ステップS106)。   When it is determined that the silent mode is not selected (step S103; NO), the control unit 11 performs a normal call via voice (step S104). When it is determined that the silent mode is selected (step S103; YES), the control unit 11 drives the imaging unit 18 to capture the face of the speaker (step S105), and acquires those images from the imaging unit 18 Also, biological information is acquired from the measuring device 2 (step S106).

制御部11は、話者から発言するための操作(「発言操作」という)があったか否かを判断する(ステップS107)。発言操作は、例えば、操作部15の決められたボタンを押下し続けるといった操作である。発言操作がないと判断する間(ステップS107;NO)、制御部11は、この判断を続ける。   The control unit 11 determines whether or not there has been an operation (referred to as a "speech operation") for the speaker to make a speech (step S107). The speech operation is, for example, an operation of continuing to press the determined button of the operation unit 15. While judging that there is no speech operation (step S107; NO), the control unit 11 continues this judgment.

発言操作があると判断した場合(ステップS107;YES)、制御部11は、取得した画像から話者の口唇情報を抽出して話者の発言を特定する(ステップS108)。   If it is determined that there is a speaking operation (step S107; YES), the control unit 11 extracts lip information of the speaker from the acquired image and specifies the speaker's speech (step S108).

また、制御部11は、取得した画像から抽出された話者の口唇情報を用いて、話者のしゃべり方の速度や、発しているはずの声の大きさ等を特定してもよい(ステップS109)。   In addition, the control unit 11 may specify the speed of the speaking manner of the speaker, the size of the voice that should have been emitted, etc., using the lip information of the speaker extracted from the acquired image (step S109).

制御部11は、取得した生体情報又は話者の顔の画像から、話者の感情を推定する(ステップS110)。制御部11は、特定した話者の発言に対応付けられた1つ又は複数の音素を示す音素データを選択し(ステップS111)、それらの音素データを推定した感情に沿って変形、接続して、その感情に応じた表現の音声データを生成する(ステップS112)。ステップS109で話者の発言の速度や音量を特定した場合に、これらの情報がこの音声データの生成に反映されてもよい。制御部11は、生成したこの音声を相手の端末1に送信する(ステップS113)。   The control unit 11 estimates the emotion of the speaker from the acquired biological information or the image of the speaker's face (step S110). The control unit 11 selects phoneme data indicating one or more phonemes associated with the identified speaker's utterance (step S111), and transforms and connects those phoneme data along the estimated emotion. , And generates voice data of an expression according to the emotion (step S112). When the speech speed and volume of the speaker are specified in step S109, such information may be reflected in the generation of the voice data. The control unit 11 transmits the generated voice to the other party's terminal 1 (step S113).

以上の動作により、端末1は、話者の顔を複数回にわたって撮像した画像を取得して、その画像から話者の口の形状の変化を抽出してその発言を特定する。そして、端末1は、話者の感情を上述した画像又は生体情報から推定し、特定した発言と推定した感情とに応じた音声データを生成する。   By the above-described operation, the terminal 1 acquires an image obtained by imaging the face of the speaker a plurality of times, extracts the change in the shape of the speaker's mouth from the image, and specifies the utterance. Then, the terminal 1 estimates the speaker's emotion from the above-described image or biological information, and generates voice data according to the identified utterance and the estimated emotion.

図7は、話者の感情ごとに変化する音声の表現を説明するための図である。図7に示す表には左から右に向かって順に発音される音素が並んでおり、縦にはそれぞれ「喜び」「怒り」「悲しみ」等の話者の感情が並んでいる。そして図7には、それぞれの感情ごとに、各音素が発音されるときの音程が、対応する位置の棒グラフの高さで表されている。   FIG. 7 is a diagram for explaining the expression of voice that changes for each speaker's emotion. In the table shown in FIG. 7, the phonemes pronounced in order from left to right are arranged, and the emotions of the speaker such as "joy", "anger", "sadness" are arranged vertically. And in FIG. 7, the pitch when each phoneme is pronounced is represented by the height of the bar graph of the corresponding position for each emotion.

図7に示す通り、例えば、「ありがとうございました」という発言は11個の音素の並びで表される。話者が「喜び」の感情を抱いているときに、この発言は、話者が他の感情を抱いているときと比較して全体的に高めな音程になり、語頭と語尾とが閾値以上の高い音程になる。   As shown in FIG. 7, for example, the statement "thank you" is represented by a sequence of 11 phonemes. When the speaker has a feeling of "joy", this statement has an overall higher pitch compared to when the speaker has another feeling, and the beginning and end are above the threshold It becomes a high pitch.

一方、話者が「怒り」の感情を抱いているときに、この発言は、「喜び」の感情を抱いているときと比べて全体的に低めな音程になり、抑揚が比較的少ない。また、話者が「悲しみ」の感情を抱いているときには、この発言は、他の感情を抱いているときと比較して全体的に低めな音程になり、3つ目の音素から音程が下がり続ける。   On the other hand, when the speaker is feeling anger, this statement has an overall lower pitch than when feeling the joy, and there is relatively little intonation. In addition, when the speaker is feeling "sorrow", this statement has a pitch that is generally lower compared to when feeling the other feeling, and the pitch drops from the third phoneme. to continue.

この端末1の上述した動作によれば、話者の口の形状の変化から発言を特定し、特定した発言だけに基づいて生成された音声データを送信する端末に比べて、話者の感情に応じた表現で音声データが相手の端末に伝わる。   According to the above-described operation of the terminal 1, the utterance is specified from the change in the shape of the speaker's mouth, and the speaker's emotion is compared to the terminal transmitting the voice data generated based only on the specified utterance. The voice data is transmitted to the other party's terminal in a corresponding expression.

2.変形例
以上が実施形態の説明であるが、この実施形態の内容は以下のように変形し得る。また、以下の変形例を組合せてもよい。
2. Although the embodiment has been described above, the contents of this embodiment can be modified as follows. Also, the following modifications may be combined.

2−1.変形例1
上述した実施形態において、推定部112は、第1取得部117が取得した画像から抽出した話者の表情と第2取得部118が取得した生体情報とを用いてこの話者の感情を推定していたが、表情及び生体情報のいずれか一方に基づいて推定してもよい。
2-1. Modification 1
In the embodiment described above, the estimation unit 112 estimates the emotion of the speaker using the facial expression of the speaker extracted from the image acquired by the first acquisition unit 117 and the biological information acquired by the second acquisition unit 118. However, it may be estimated based on either expression or biological information.

例えば、推定部112は、第1取得部117が取得した画像から抽出した話者の表情からその話者の感情を推定してもよい。この場合、図4(a)に示した感情DB121に、生体条件の欄はなくてもよい。また、この場合、話者は測定装置2を自分の身体の部位に装着しなくてもよく、制御部11は、第2取得部118として機能しなくてもよい。   For example, the estimation unit 112 may estimate the emotion of the speaker from the expression of the speaker extracted from the image acquired by the first acquisition unit 117. In this case, the field of the living condition may not be included in the emotion DB 121 shown in FIG. 4A. Further, in this case, the speaker may not wear the measurement device 2 to the region of his or her body, and the control unit 11 may not function as the second acquisition unit 118.

2−2.変形例2
また、推定部112は、第2取得部118が取得した生体情報からその話者の感情を推定してもよい。この場合、図4(a)に示した感情DB121に、表情条件の欄はなくてもよい。また、この場合、推定部112は、第1取得部117が取得した画像から話者の表情を抽出しなくてもよい。
2-2. Modification 2
Further, the estimation unit 112 may estimate the emotion of the speaker from the biological information acquired by the second acquisition unit 118. In this case, the field of the expression condition may not be included in the emotion DB 121 shown in FIG. Also, in this case, the estimation unit 112 may not extract the expression of the speaker from the image acquired by the first acquisition unit 117.

また、推定部112は、表情及び生体情報のそれぞれの条件のいずれか一方が満たされるときに、話者の感情を推定してもよい。
また、推定部112は、表情及び生体情報とは異なる条件に基づいて話者の感情を推定してもよい。例えば、推定部112は、収音部16により収録された話者の音声の特徴、韻律を特定して、これらに基づいて話者の感情を推定してもよい。
In addition, the estimation unit 112 may estimate the emotion of the speaker when any one of the conditions of the expression and the biological information is satisfied.
Further, the estimation unit 112 may estimate the speaker's emotion based on conditions different from the expression and the biological information. For example, the estimation unit 112 may specify the features and prosody of the speaker's voice recorded by the sound collection unit 16 and estimate the speaker's emotion based on these.

2−3.変形例3
上述した実施形態において、生成部114及び選択部113は、特定部111で特定された話者の発言から音素を選択し、選択されたその音素から話者の感情に対応する表現の音声を示す音声データを生成する機能を有していたが、生成部114は、話者の発言の内容を示すデータを生成してもよい。
2-3. Modification 3
In the embodiment described above, the generation unit 114 and the selection unit 113 select a phoneme from the utterance of the speaker identified by the identification unit 111, and indicate the speech of the expression corresponding to the speaker's emotion from the selected phoneme. Although the voice data is generated, the generation unit 114 may generate data indicating the content of the speech of the speaker.

生成部114は、例えば、話者の発言の内容を文字で表したテキストデータを生成してもよい。この場合、生成部114は、推定部112によって推定された話者の感情を、注釈や、文字色、書体、下線付与等の文字修飾、フォントの選択等、テキストやテキストの表示態様を用いて表現してもよい。要するに、生成部114は、特定した発言、及び推定した感情に応じたデータを生成すればよい。   The generation unit 114 may generate, for example, text data representing the content of the speaker's speech in characters. In this case, the generation unit 114 uses the text or the display mode of the text, such as an annotation, character color, font modification, character modification such as underlining, font selection, etc., of the speaker's emotion estimated by the estimation unit 112. It may be expressed. In short, the generation unit 114 may generate data according to the identified utterance and the estimated emotion.

2−4.変形例4
上述した実施形態において、特定部111は、口唇情報を用いて、話者の発言の速度又は音量を特定していたが、これらを特定しなくてもよい。この場合にも、特定部111は口唇情報から話者の発言を特定し、生成部114がこの発言に応じたデータを生成する。
2-4. Modification 4
In the embodiment described above, the identification unit 111 identifies the speed or volume of the speaker's speech using lip information, but may not identify them. Also in this case, the identification unit 111 identifies the speech of the speaker from the lip information, and the generation unit 114 generates data corresponding to the speech.

2−5.変形例5
上述した実施形態において、音素DB124は、発言情報と、その発言情報により示される発言を人が発声したときの音素を示す音素データとを対応付けて記憶していたが、この発言情報及び話者の発した音素を示す音素データの組を、話者の感情ごとに記憶してもよい。
2-5. Modification 5
In the embodiment described above, the phoneme DB 124 stores speech information and phoneme data indicating a phoneme when a person speaks a speech indicated by the speech information in association with each other. A set of phoneme data indicating phonemes generated may be stored for each speaker's emotions.

例えば、同じ「あ」という発言を話者が発声するときであっても、話者が「喜び」の感情を有しているときと、「怒り」の感情を有しているときとでは、韻律が異なる場合がある。この変形例において音素DB124は、話者の感情ごとに、発言情報とこれに対応する音素データとの組を記憶する。   For example, even when the speaker utters the same utterance "A", when the speaker has an emotion of "joy" and an emotion of "anger", The prosody may be different. In this modification, the phoneme DB 124 stores, for each feeling of the speaker, a set of speech information and phoneme data corresponding thereto.

この構成において、選択部113は、例えば、特定された話者の発言を示す発言情報と、推定された話者の感情を示す感情IDとに基づいて音素DB124を検索し、これらに対応する音素データを選択する。生成部114は、選択された音素データを接続して、上述した音声データを生成する。   In this configuration, the selection unit 113 searches the phoneme DB 124 based on, for example, utterance information indicating the identified speaker's utterance and the emotion ID indicating the estimated speaker emotion, and the corresponding phoneme Select data The generation unit 114 connects the selected phoneme data to generate the above-described voice data.

2−6.変形例6
また、音素DB124は、発言情報及び話者の音素データの組を、話者の生体情報ごとに記憶してもよい。例えば、同じ「あ」という発言を話者が発声するときであっても、話者の血圧、体温、発汗量、脈拍数、心拍のパターン等の生体の状態が話者の音声に影響する場合がある。この変形例において音素DB124は、話者の生体情報ごとに、発言情報とこれに対応する音素データとの組を記憶する。
2-6. Modification 6
Further, the phoneme DB 124 may store a set of speech information and phoneme data of the speaker for each of the speaker's biometric information. For example, even when the speaker utters the same utterance "A", the condition of the living body such as the speaker's blood pressure, body temperature, amount of sweating, pulse rate, heart rate pattern, etc. affects the speaker's voice There is. In this modification, the phoneme DB 124 stores, for each living body information of the speaker, a set of speech information and phoneme data corresponding to the speech information.

この構成において、選択部113は、例えば、特定された話者の発言を示す発言情報と、測定装置2において測定された話者の生体情報とに基づいて音素DB124を検索し、これら発言情報及び生体情報のそれぞれに対応する音素データを選択する。生成部114は、選択された音素データを接続して、上述した音声データを生成する。   In this configuration, the selection unit 113 searches the phoneme DB 124 based on, for example, speech information indicating the speech of the specified speaker and the biological information of the speaker measured in the measuring device 2, and the speech information and the speech information The phoneme data corresponding to each of the biological information is selected. The generation unit 114 connects the selected phoneme data to generate the above-described voice data.

2−7.変形例7
上述した実施形態において、受付部110は、操作部15を介して話者の操作を受付け、生成部114は、受付部110が話者から決められた操作を受付けた場合に、上述した音声データを生成していたが、生成部114は、話者からの操作に依らずに音声データを生成してもよい。
2-7. Modification 7
In the embodiment described above, the reception unit 110 receives the operation of the speaker via the operation unit 15, and the generation unit 114 receives the voice data described above when the reception unit 110 receives the operation determined from the speaker. The generation unit 114 may generate voice data without depending on the operation from the speaker.

2−8.変形例8
上述した実施形態において、生成部114は、計測された音量が決められた閾値未満である場合に、音声データを生成していたが、この音量が決められた条件を満たす場合に、音声データの生成を開始又は停止してもよい。また、生成部114は、話者の発した声の音量と関係なく、例えば決められた操作を受付けたとき等に、音声データの生成を開始又は停止してもよい。この場合、計測部119は、話者の発した声の音量を計測しなくてもよく、端末1に設けられなくてもよい。
2-8. Modification 8
In the embodiment described above, the generation unit 114 generates voice data when the measured volume is less than the determined threshold, but when the volume satisfies the determined condition, the generation unit 114 generates the voice data. The generation may be started or stopped. In addition, the generation unit 114 may start or stop generation of voice data, for example, when receiving a determined operation, regardless of the volume of the voice of the speaker. In this case, the measuring unit 119 may not measure the volume of the voice of the speaker and may not be provided in the terminal 1.

また、端末1は、例えば赤外線センサ等の人感センサを備え、この人感センサにより端末1の決められた部位から決められた距離内に話者が存在しているか否かを検知してもよい。   Also, the terminal 1 is provided with a human sensor such as an infrared sensor, for example, and it is detected by this human sensor whether a speaker is present within a determined distance from a determined part of the terminal 1 Good.

例えば無音声モードが選択されているときに、この人感センサが、撮像部18により撮像し得ない範囲等を示す決められた距離内に話者の顔の一部等が存在していることを検知すると、生成部114による音声データの生成を止めてもよい。また、このとき制御部11は放音部17を用いて話者に対し「無音声モードによる音声データの生成を行いますので、端末を顔から離し、インカメラに顔を写しながら話をして下さい」というアナウンスをしてもよい。   For example, when the voiceless mode is selected, a part of the speaker's face or the like is present within a determined distance that indicates the range in which the human sensor can not perform imaging by the imaging unit 18 or the like. May be stopped, the generation of the audio data by the generation unit 114 may be stopped. Also, at this time, the control unit 11 uses the sound emitting unit 17 to “generate voice data in the voiceless mode for the speaker, so keep the terminal away from the face and talk while taking a face to the in-camera. You may make an announcement.

2−9.変形例9
また、生成部114は、計測された光量が決められた閾値未満である場合に、音声データの生成を停止していたが、この光量が決められた条件を満たす場合に、音声データの生成を開始又は停止してもよい。また、生成部114は、話者の周囲の光量と関係なく、例えば、決められた操作を受付けた場合に、音声データの生成を開始又は停止してもよい。この場合、計測部119は、話者の周囲の光量を計測しなくてもよく、端末1に設けられなくてもよい。
2-9. Modification 9
In addition, although the generation unit 114 stops the generation of audio data when the measured light amount is less than the determined threshold, the generation unit 114 generates the audio data when the light amount satisfies the determined condition. It may be started or stopped. In addition, the generation unit 114 may start or stop generation of voice data, for example, when receiving a determined operation, regardless of the amount of light around the speaker. In this case, the measuring unit 119 may not measure the amount of light around the speaker, and may not be provided in the terminal 1.

なお、計測部119は、話者の発した声の音量や話者の周囲の光量の他に、物理量を計測してもよい。生成部114は、計測された物理量が決められた条件を満たす場合に、音声データの生成を開始又は停止してもよい。   The measuring unit 119 may measure a physical quantity in addition to the volume of the voice of the speaker and the light intensity around the speaker. The generation unit 114 may start or stop the generation of audio data when the measured physical quantity satisfies the determined condition.

2−10.変形例10
端末1は、相手の端末1と通信をする際に、生成部114が上述した音声データを生成するか否かを通知してもよい。これにより、通信先の端末1bの利用者は、送られてくる音声データが無音声モードにおいて生成されたものであるか否かを把握する。
2-10. Modification 10
When communicating with the terminal 1 of the other party, the terminal 1 may notify whether the generation unit 114 generates the above-described voice data. Thereby, the user of the terminal 1b of the communication destination grasps whether or not the transmitted voice data is generated in the silent mode.

2−11.変形例11
上述した端末1の制御部11は、特定部111、推定部112、選択部113、生成部114、第1取得部117、及び第2取得部118として機能したが、これらの機能を、通信回線3に接続されたサーバ装置4が行ってもよい。
2-11. Modification 11
The control unit 11 of the terminal 1 described above functions as the specification unit 111, the estimation unit 112, the selection unit 113, the generation unit 114, the first acquisition unit 117, and the second acquisition unit 118. The server apparatus 4 connected to 3 may perform.

図8は、図1において破線で示したサーバ装置4の構成を示す図である。サーバ装置4は、通信回線3に接続しており、端末1a及び端末1bの通話を仲介する。   FIG. 8 is a diagram showing the configuration of the server device 4 indicated by a broken line in FIG. The server device 4 is connected to the communication line 3 and mediates the calls of the terminal 1a and the terminal 1b.

図8に示す通り、サーバ装置4は、制御部41、記憶部42、及び通信部43を有する。   As illustrated in FIG. 8, the server device 4 includes a control unit 41, a storage unit 42, and a communication unit 43.

制御部41は、CPU、ROM、RAMを有し、CPUがROM及び記憶部42に記憶されているプログラムを読み出して実行することによりサーバ装置4の各部を制御する。
通信部43は、無線又は有線により通信回線3と接続する通信回路である。
The control unit 41 includes a CPU, a ROM, and a RAM, and controls the units of the server device 4 by the CPU reading and executing programs stored in the ROM and the storage unit 42.
The communication unit 43 is a communication circuit connected to the communication line 3 wirelessly or by wire.

記憶部42は、ソリッドステートドライブ、ハードディスクドライブ等の大容量の記憶手段であり、制御部41のCPUに読み込まれる各種のプログラムを記憶する。また、記憶部42は、感情DB421、発言DB422、表現DB423、及び音素DB424を記憶する。これらのデータベースは、記憶部12に記憶された感情DB121、発言DB122、表現DB123、及び音素DB124に相当するものである。   The storage unit 42 is a large-capacity storage unit such as a solid state drive or a hard disk drive, and stores various programs read by the CPU of the control unit 41. In addition, the storage unit 42 stores an emotion DB 421, a statement DB 422, an expression DB 423, and a phoneme DB 424. These databases correspond to the emotion DB 121, the speech DB 122, the expression DB 123, and the phoneme DB 124 stored in the storage unit 12.

図9は、サーバ装置4の機能的構成を示す図である。図9に示す端末1の制御部41は、記憶部42に記憶されたプログラムを実行することにより、特定部411、推定部412、選択部413、生成部414、及び取得部417として機能する。   FIG. 9 is a diagram showing a functional configuration of the server device 4. The control unit 41 of the terminal 1 illustrated in FIG. 9 functions as an identification unit 411, an estimation unit 412, a selection unit 413, a generation unit 414, and an acquisition unit 417 by executing the program stored in the storage unit 42.

端末1aの制御部11は、撮像部18が話者の顔を複数回にわたって撮像した画像を取得すると、通信部13及び通信回線3を介してこの画像をサーバ装置4に送信する。また、端末1aの制御部11は、測定装置2から話者の生体情報を取得すると、通信部13及び通信回線3を介してこの生体情報をサーバ装置4に送信する。   The control unit 11 of the terminal 1a transmits the image to the server device 4 via the communication unit 13 and the communication line 3 when the imaging unit 18 acquires an image obtained by imaging the face of the speaker a plurality of times. Further, when the control unit 11 of the terminal 1 a acquires the biological information of the speaker from the measurement device 2, the control unit 11 transmits the biological information to the server device 4 via the communication unit 13 and the communication line 3.

取得部417は、端末1aから画像及び生体情報を取得する。特定部411は、画像から話者の口の形状の変化を抽出して、話者の発言を特定する。推定部412は、画像から抽出したその表情と生体情報とを用いて話者の感情を推定する。   The acquisition unit 417 acquires an image and biological information from the terminal 1a. The identifying unit 411 extracts a change in the shape of the speaker's mouth from the image to specify the speaker's utterance. The estimation unit 412 estimates the emotion of the speaker using the facial expression and the biological information extracted from the image.

選択部413は、特定された話者の発言を示す発言情報に対応する音素データを選択する。生成部414は、特定された話者の発言、及び推定された話者の感情に応じた音声データを生成する。そして、生成部414は、音声データを生成すると、通信部43を介して、通話の相手が利用する端末1bにこの音声データを送信する。   The selection unit 413 selects phoneme data corresponding to the speech information indicating the speech of the specified speaker. The generation unit 414 generates voice data in accordance with the identified speaker's utterance and the estimated speaker's emotion. Then, when the voice data is generated, the generation unit 414 transmits the voice data to the terminal 1 b used by the other party of the call via the communication unit 43.

上述した機能を制御部41が実現することで、サーバ装置4は、話者の顔を複数回にわたって撮像した画像を取得する取得部と、画像から話者の口の形状の変化を抽出して、話者の発言を特定する特定部と、話者の感情を推定する推定部と、発言、及び感情に応じたデータを生成する生成部と、を有する情報処理装置として機能する。   When the control unit 41 realizes the above-described function, the server device 4 extracts a change in the shape of the speaker's mouth from the image, an acquisition unit that acquires an image of the speaker's face taken a plurality of times, and an image. The information processing apparatus functions as an information processing apparatus including: a specification unit that specifies a speaker's utterance; an estimation unit that estimates a speaker's emotion; and a generator that generates data according to the utterance and the emotion.

2−12.変形例12
上述した端末1の制御部11は、特定部111、推定部112、選択部113、生成部114、第1取得部117、及び第2取得部118として機能したが、音声データの送信元である端末1aと、送信先である端末1bとで、これらの機能を分担してもよい。
2-12. Modification 12
The control unit 11 of the terminal 1 described above functions as the identification unit 111, the estimation unit 112, the selection unit 113, the generation unit 114, the first acquisition unit 117, and the second acquisition unit 118, but is a transmission source of audio data. These functions may be shared between the terminal 1a and the terminal 1b which is the transmission destination.

図10は、端末1a及び端末1bが機能を分担する例を示す図である。図10に示す端末1aの制御部11は、特定部111、推定部112、第1取得部117、及び第2取得部118として機能する。図10に示す特定部111、推定部112、第1取得部117及び第2取得部118の機能は図5に示す機能と共通である。   FIG. 10 is a diagram showing an example in which the terminal 1a and the terminal 1b share functions. The control unit 11 of the terminal 1a illustrated in FIG. 10 functions as a specification unit 111, an estimation unit 112, a first acquisition unit 117, and a second acquisition unit 118. The functions of the identifying unit 111, the estimating unit 112, the first acquiring unit 117, and the second acquiring unit 118 illustrated in FIG. 10 are the same as the functions illustrated in FIG.

端末1aの制御部11は、特定部111で特定した話者の発言情報と、推定部112で推定した話者の感情を示す情報を、通信部13の第1通信部131、及び通信回線3を介して、端末1bに送信する。   The control unit 11 of the terminal 1 a includes the first communication unit 131 of the communication unit 13 and the communication line 3 of the utterance information of the speaker identified by the identification unit 111 and the information indicating the speaker's emotion estimated by the estimation unit 112. To the terminal 1b.

図10に示す端末1bの制御部11は、選択部113、生成部114、及び放音制御部115として機能する。また、図10に示す端末1bの制御部11は、表示制御部116として機能してもよい。   The control unit 11 of the terminal 1 b illustrated in FIG. 10 functions as a selection unit 113, a generation unit 114, and a sound emission control unit 115. Also, the control unit 11 of the terminal 1 b shown in FIG. 10 may function as the display control unit 116.

選択部113は、端末1aから送信された発言情報に基づいて、話者の発言を示す発言情報のそれぞれに対応する音素データを選択する。生成部114は、端末1aから送信された話者の感情を示す情報を受取り、選択部113で選択された音素データを、話者の感情に応じて変形・接続して音声データを生成する。   The selection unit 113 selects phoneme data corresponding to each of the speech information indicating the speech of the speaker based on the speech information transmitted from the terminal 1a. The generation unit 114 receives the information indicating the emotion of the speaker transmitted from the terminal 1a, and transforms / connects the phoneme data selected by the selection unit 113 according to the emotion of the speaker to generate voice data.

放音制御部115は、生成部114で生成された音声データを放音部17に出力(放音)させる。表示制御部116は、生成部114において、例えば変形例3で示したテキストデータが生成される場合に、生成されたそのテキストデータを表示部14に表示させる。   The sound emission control unit 115 causes the sound emission unit 17 to output (sound emission) the audio data generated by the generation unit 114. The display control unit 116 causes the display unit 14 to display the generated text data when the generation unit 114 generates the text data described in the third modification, for example.

図10に示す構成では、話者の発言情報と、話者の感情を示す情報とが通信回線3を介してやり取りされるので、音声データをやり取りする場合に比べて通信負荷が抑制される可能性がある。   In the configuration shown in FIG. 10, since the speech information of the speaker and the information indicating the emotion of the speaker are exchanged via the communication line 3, the communication load can be reduced as compared with the case of exchanging voice data. There is sex.

図11は、端末1a及び端末1bが機能を分担する例を示す図である。図11に示す端末1aの制御部11は、第1取得部117、及び第2取得部118として機能する。
端末1aの制御部11は、第1取得部117が取得した画像と、第2取得部118が取得した生体情報とを、それぞれ通信部13の第1通信部131、及び通信回線3を介して、端末1bに送信する。
FIG. 11 is a diagram showing an example in which the terminal 1a and the terminal 1b share functions. The control unit 11 of the terminal 1a illustrated in FIG. 11 functions as a first acquisition unit 117 and a second acquisition unit 118.
The control unit 11 of the terminal 1a transmits the image acquired by the first acquisition unit 117 and the biological information acquired by the second acquisition unit 118 via the first communication unit 131 of the communication unit 13 and the communication line 3, respectively. , To the terminal 1b.

図11に示す端末1bの制御部11は、特定部111、推定部112、選択部113、生成部114、及び放音制御部115として機能する。また、図11に示す端末1bの制御部11は、表示制御部116として機能してもよい。特定部111は、端末1aから送信された画像を解析して話者の口の形状の変化を抽出し、話者の発言を特定する。推定部112は、端末1aから送信された画像を解析して抽出した話者の表情と、端末1aから送信された生体情報とをそれぞれ感情DB121に定められた表情条件及び生体条件に照合してこの話者の感情を推定する。   The control unit 11 of the terminal 1 b illustrated in FIG. 11 functions as a specification unit 111, an estimation unit 112, a selection unit 113, a generation unit 114, and a sound emission control unit 115. Further, the control unit 11 of the terminal 1 b shown in FIG. 11 may function as the display control unit 116. The identifying unit 111 analyzes the image transmitted from the terminal 1a, extracts a change in the shape of the speaker's mouth, and specifies the speaker's utterance. The estimation unit 112 analyzes the image sent from the terminal 1a and compares the expression of the speaker extracted and the biological information sent from the terminal 1a with the expression condition and the living condition defined in the emotion DB 121. Estimate the emotion of this speaker.

選択部113は、特定された話者の発言を示す発言情報に基づいて音素DB124を検索し、この発言情報に対応する音素データを選択する。生成部114は、特定された話者の発言、及び推定された話者の感情に応じた音声データを生成する。放音制御部115は、生成された音声データを放音部17に出力させ、表示制御部116は、生成されたそのテキストデータを表示部14に表示させる。   The selection unit 113 searches the phoneme DB 124 based on the speech information indicating the speech of the specified speaker, and selects phoneme data corresponding to the speech information. The generation unit 114 generates voice data according to the identified speaker's utterance and the estimated speaker's emotion. The sound emission control unit 115 causes the sound emission unit 17 to output the generated sound data, and the display control unit 116 causes the display unit 14 to display the generated text data.

図11に示す構成では、第1取得部117が取得した画像と、第2取得部118が取得した生体情報とが通信回線3を介してやり取りされるので、音声データをやり取りする場合に比べて通信負荷が抑制される可能性がある。   In the configuration shown in FIG. 11, the image acquired by the first acquisition unit 117 and the biological information acquired by the second acquisition unit 118 are exchanged via the communication line 3, so this is compared to the case of exchanging audio data. Communication load may be reduced.

なお、端末1a及び端末1bは、上述した通りに機能を分担してもよいが、端末1の制御部11は、特定部111及び推定部112の機能を他の装置に委託して実行させてもよい。要するに、端末1の制御部11は、話者の顔を複数回にわたって撮像した画像を取得する第1取得部117と、取得したその画像から話者の口の形状の変化を抽出して、いずれかの装置に委託して特定される話者の発言と、いずれかの装置に委託して推定される話者の感情と、に対応するデータを生成する生成部114として機能すればよい。   The terminal 1a and the terminal 1b may share the functions as described above, but the control unit 11 of the terminal 1 consigns the functions of the identification unit 111 and the estimation unit 112 to other devices and executes them. It is also good. In short, the control unit 11 of the terminal 1 extracts a change in the shape of the speaker's mouth from the acquired first image acquisition unit 117 which acquires an image of the speaker's face taken a plurality of times, It suffices to function as the generation unit 114 that generates data corresponding to the utterance of the speaker identified to be entrusted to such a device and the emotion of the speaker estimated to be entrusted to any of the devices.

2−13.変形例13
上述した音素DB124は、発言情報と、その発言情報により示される発言を人が発声したときの音素を示す音素データとを対応付けて記憶していたが、1つの音素ごとに1つの音素データを記憶しなくてもよい。例えば、音素DB124は、ひとまとまりの音素(音素群)に対して、その音素群を構成する音素を示す音素データが順に並べられたデータ列(音素データ列という)を記憶してもよい。
2-13. Modification 13
Although the phoneme DB 124 described above stores speech information and phoneme data indicating a phoneme when a person speaks a speech indicated by the speech information in association with each other, one phoneme data is stored for each phoneme. It is not necessary to memorize. For example, the phoneme DB 124 may store, for a group of phonemes (phoneme group), a data string (referred to as a phoneme data string) in which phoneme data indicating phonemes that constitute the phoneme group are arranged in order.

図12は、変形例における音素DB124の一例を示す図である。図12に示す音素DB124は、複数の音素をひとまとまりとした音素群を、ひとまとまりの発言情報と予め対応付けた音素群表1241と、その音素群をそれぞれ示す音素データ列1242とを有する。例えば、図12に示す音素群表1241には、「ありがとう」という音素群や、「ございました」という音素群等が発言情報に対応付けられている。そしてそれぞれの音素群には、音素データ列1242が対応付けられている。   FIG. 12 is a diagram showing an example of the phoneme DB 124 in the modification. The phoneme DB 124 shown in FIG. 12 has a phoneme group table 1241 in which phoneme groups in which a plurality of phonemes are grouped together are associated in advance with a group of speech information, and a phoneme data string 1242 respectively indicating the phoneme groups. For example, in the phoneme group table 1241 shown in FIG. 12, a phoneme group "thank you", a phoneme group "there was", etc. are associated with the speech information. A phoneme data string 1242 is associated with each phoneme group.

この場合、制御部11により実現される選択部113は、特定された話者の発言を示す発言情報に基づいて音素DB124を検索し、この発言情報に対応する音素データ列1242を選択すればよい。   In this case, the selection unit 113 realized by the control unit 11 may search the phoneme DB 124 based on the speech information indicating the speech of the specified speaker, and select the phoneme data string 1242 corresponding to the speech information. .

例えば、特定部111で特定された発言を示す発言情報が、音素DB124の音素群表1241に記述されているいずれかの発言情報と、決められた誤差の範囲で一致する場合、選択部113は、音素群表1241において、その発言情報に対応付けられている音素群を特定し、特定した音素群に対応付けられている音素データ列1242を選択する。このとき、選択部113は、発言情報に応じた音素データ列1242を選択するため、音素ごとに音素データを選択する必要はない。   For example, when the utterance information indicating the utterance identified by the identifying unit 111 matches any of the utterance information described in the phoneme group table 1241 of the phoneme DB 124 within the determined error range, the selecting unit 113 In the phoneme group table 1241, the phoneme group associated with the utterance information is specified, and the phoneme data string 1242 associated with the specified phoneme group is selected. At this time, the selection unit 113 does not have to select phoneme data for each phoneme because it selects the phoneme data string 1242 according to the speech information.

そして、この場合、制御部11により実現される生成部114は、選択された音素データ列1242を、推定された感情に応じて変形することで音声データを生成すればよい。この生成部114は、選択部113が音素データ列1242を選択しているため、1つの音素をそれぞれ示す複数の音素データを接続して音声データを生成する必要がない。   Then, in this case, the generation unit 114 realized by the control unit 11 may generate voice data by deforming the selected phoneme data sequence 1242 according to the estimated emotion. In the generation unit 114, since the selection unit 113 selects the phoneme data string 1242, it is not necessary to connect a plurality of phoneme data respectively indicating one phoneme to generate voice data.

つまり、この変形例に示す選択部113及び生成部114の機能を合わせると、特定部111で特定された話者の発言から音素群を選択し、選択されたその音素群から話者の感情に対応する表現の音声を示す音声データを生成する機能となる。   That is, when the functions of the selection unit 113 and the generation unit 114 shown in this modification are combined, a phoneme group is selected from the speech of the speaker identified by the identification unit 111, and from the selected phoneme group to the speaker's emotion. The function is to generate voice data indicating the voice of the corresponding expression.

2−14.変形例14
端末1の制御部11によって実行されるプログラムは、磁気テープ及び磁気ディスク等の磁気記録媒体、光ディスク等の光記録媒体、光磁気記録媒体、半導体メモリ等の、コンピュータ装置が読取り可能な記録媒体に記憶された状態で提供し得る。また、このプログラムを、インターネット等の通信回線経由でダウンロードさせることも可能である。なお、上述した制御部11によって例示した制御手段としてはCPU以外にも種々の装置が適用される場合があり、例えば、専用のプロセッサ等が用いられる。
2-14. Modification 14
The program executed by the control unit 11 of the terminal 1 is a recording medium readable by a computer device such as a magnetic recording medium such as a magnetic tape and a magnetic disk, an optical recording medium such as an optical disc, a magnetooptical recording medium, and a semiconductor memory It can be provided in a stored state. It is also possible to download this program via a communication line such as the Internet. In addition, as a control means illustrated by the control part 11 mentioned above, various apparatuses other than CPU may be applied, for example, a processor for exclusive use etc. are used.

1,1a,1b…端末、11…制御部、110…受付部、111…特定部、112…推定部、113…選択部、114…生成部、117…第1取得部、118…第2取得部、119…計測部、12…記憶部、121…感情DB、122…発言DB、123…表現DB、124…音素DB、13…通信部、131…第1通信部、132…第2通信部、14…表示部、15…操作部、16…収音部、17…放音部、18…撮像部、2…測定装置、21…制御部、22…記憶部、23…通信部、28…測定部、3…通信回線、9…通話システム。 1, 1a, 1b: terminal, 11: control unit, 110: reception unit, 111: identification unit, 112: estimation unit, 113: selection unit, 114: generation unit, 117: first acquisition unit, 118: second acquisition Unit 119 Measurement unit 12 Storage unit 121 Emotion DB 122 Speech DB 123 Expression DB 124 Phoneme DB 13 Communication unit 131 First communication unit 132 Second communication unit , 14: display unit, 15: operation unit, 16: sound collection unit, 17: sound emission unit, 18: imaging unit, 2: measuring device, 21: control unit, 22: storage unit, 23: communication unit, 28: ... Measurement unit, 3 ... communication line, 9 ... call system.

Claims (14)

話者の顔を複数回にわたって撮像した画像を取得する第1取得部と、
前記画像から前記話者の口の形状の変化を抽出して、特定される前記話者の発言と、推定される前記話者の感情と、に対応するデータを生成する生成部と、
を有する情報処理装置。
A first acquisition unit that acquires an image obtained by imaging the face of the speaker a plurality of times;
A generation unit that extracts a change in the shape of the speaker's mouth from the image and generates data corresponding to the identified speaker's utterance and the speaker's estimated emotion;
An information processing apparatus having
抽出された前記変化から前記発言を特定する特定部と、
前記感情を推定する推定部と、を有し、
前記生成部は、前記特定部により特定された前記発言と、前記推定部により推定された前記感情と、に対応する前記データを生成する
ことを特徴とする請求項1に記載の情報処理装置。
An identifying unit that identifies the utterance from the extracted change;
And an estimation unit for estimating the emotion.
The information processing apparatus according to claim 1, wherein the generation unit generates the data corresponding to the utterance specified by the identification unit and the emotion estimated by the estimation unit.
前記話者の生体情報を取得する第2取得部、を有し、
前記推定部は、取得した前記生体情報に応じて前記感情を推定する
ことを特徴とする請求項2に記載の情報処理装置。
A second acquisition unit configured to acquire biological information of the speaker;
The information processing apparatus according to claim 2, wherein the estimation unit estimates the emotion according to the acquired biological information.
前記推定部は、前記画像から前記話者の表情を抽出して、該表情に応じて前記感情を推定する
ことを特徴とする請求項2又は3に記載の情報処理装置。
The information processing apparatus according to claim 2, wherein the estimation unit extracts an expression of the speaker from the image, and estimates the emotion according to the expression.
前記生成部は、前記発言から音素を選択し、該音素から前記感情に対応する表現の音声を示す前記データを生成する
ことを特徴とする請求項1から4のいずれか1項に記載の情報処理装置。
The information according to any one of claims 1 to 4, wherein the generation unit selects a phoneme from the utterance, and generates the data indicating a voice of an expression corresponding to the emotion from the phoneme. Processing unit.
前記特定部は、前記話者の発言の速度及び音量の少なくとも一方を特定し、
前記生成部は、前記発言から音素を選択し、該音素から前記感情に対応する表現であって、前記特定部により特定された前記速度又は音量の前記データを生成する
ことを特徴とする請求項2から4のいずれか1項に記載の情報処理装置。
The identification unit identifies at least one of the speaking speed and volume of the speaker,
The generation unit is configured to select a phoneme from the speech, and to generate the data of the velocity or volume specified by the specification unit, which is an expression corresponding to the emotion from the phoneme. The information processing apparatus according to any one of 2 to 4.
前記生成部は、前記話者の音声を示す話者データを用いて前記データを生成する
ことを特徴とする請求項1から6のいずれか1項に記載の情報処理装置。
The information processing apparatus according to any one of claims 1 to 6, wherein the generation unit generates the data using speaker data indicating a voice of the speaker.
前記生成部は、前記話者の音声のうち、推定された前記感情に対応する音声を示す前記話者データを用いて前記データを生成する
ことを特徴とする請求項7に記載の情報処理装置。
The information processing apparatus according to claim 7, wherein the generation unit generates the data using the speaker data indicating a voice corresponding to the estimated emotion among the voices of the speaker. .
前記生成部は、前記話者の音声のうち、前記話者の生体情報に対応する音声を示す話者データを用いて前記データを生成する
ことを特徴とする請求項3に記載の情報処理装置。
The information processing apparatus according to claim 3, wherein the generation unit generates the data using speaker data indicating a voice corresponding to biological information of the speaker among voices of the speaker. .
前記生成部は、前記話者から決められた操作を受付けた場合に、前記データを生成する
ことを特徴とする請求項1から9のいずれか1項に記載の情報処理装置。
The information processing apparatus according to any one of claims 1 to 9, wherein the generation unit generates the data when receiving a predetermined operation from the speaker.
前記話者の発した声の音量を計測する計測部、を有し、
前記生成部は、前記音量が決められた閾値未満である場合に、前記データを生成する
ことを特徴とする請求項1から10のいずれか1項に記載の情報処理装置。
A measurement unit that measures the volume of the voice of the speaker;
The information processing apparatus according to any one of claims 1 to 10, wherein the generation unit generates the data when the volume is less than a determined threshold.
前記話者の周囲の光量を計測する計測部、を有し、
前記生成部は、前記光量が決められた閾値未満である場合に、前記データの生成を停止する
ことを特徴とする請求項1から10のいずれか1項に記載の情報処理装置。
A measurement unit that measures the amount of light around the speaker;
The information processing apparatus according to any one of claims 1 to 10, wherein the generation unit stops generation of the data when the light amount is less than a determined threshold.
前記生成部が前記データを生成するか否かを通知する、
ことを特徴とする請求項1から12のいずれか1項に記載の情報処理装置。
Notifying whether the generation unit generates the data;
The information processing apparatus according to any one of claims 1 to 12, characterized in that:
コンピュータを、
話者の顔を複数回にわたって撮像した画像を取得する第1取得部と、
前記画像から前記話者の口の形状の変化を抽出して、特定される前記話者の発言と、推定される前記話者の感情と、に対応するデータを生成する生成部、
として機能させるためのプログラム。
Computer,
A first acquisition unit that acquires an image obtained by imaging the face of the speaker a plurality of times;
A generation unit that extracts a change in the shape of the speaker's mouth from the image, and generates data corresponding to the identified speaker's utterance and the speaker's estimated emotion;
Program to function as.
JP2017183342A 2017-09-25 2017-09-25 Information processing equipment and programs Active JP7021488B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017183342A JP7021488B2 (en) 2017-09-25 2017-09-25 Information processing equipment and programs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017183342A JP7021488B2 (en) 2017-09-25 2017-09-25 Information processing equipment and programs

Publications (2)

Publication Number Publication Date
JP2019060921A true JP2019060921A (en) 2019-04-18
JP7021488B2 JP7021488B2 (en) 2022-02-17

Family

ID=66177277

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017183342A Active JP7021488B2 (en) 2017-09-25 2017-09-25 Information processing equipment and programs

Country Status (1)

Country Link
JP (1) JP7021488B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019208138A (en) * 2018-05-29 2019-12-05 住友電気工業株式会社 Utterance recognition device and computer program
JP2021107873A (en) * 2019-12-27 2021-07-29 パナソニックIpマネジメント株式会社 Voice characteristic change system and voice characteristic change method
JP2021149664A (en) * 2020-03-19 2021-09-27 ヤフー株式会社 Output apparatus, output method, and output program

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11219421A (en) * 1998-01-30 1999-08-10 Toshiba Corp Image recognizing device and method therefor
JPH11353468A (en) * 1998-06-11 1999-12-24 Nippon Hoso Kyokai <Nhk> System, method, and recording medium for speaking speed measurement
JP2000057325A (en) * 1998-08-17 2000-02-25 Fuji Xerox Co Ltd Voice detector
JP2000068882A (en) * 1998-08-17 2000-03-03 Matsushita Electric Ind Co Ltd Radio communication equipment
JP2002169582A (en) * 2000-11-29 2002-06-14 Canon Inc Voice synthesizing device and its control method, and computer-readable memory
JP2002244688A (en) * 2001-02-15 2002-08-30 Sony Computer Entertainment Inc Information processor, information processing method, information transmission system, medium for making information processor run information processing program, and information processing program
JP2003150194A (en) * 2001-11-14 2003-05-23 Seiko Epson Corp Voice interactive device, input voice optimizing method in the device and input voice optimizing processing program in the device
JP2006323769A (en) * 2005-05-20 2006-11-30 Tokai Univ Facing input device
JP2008009695A (en) * 2006-06-29 2008-01-17 Nikon Corp User recognition device, reproduction device, reproduction system, and television set
WO2009125710A1 (en) * 2008-04-08 2009-10-15 株式会社エヌ・ティ・ティ・ドコモ Medium processing server device and medium processing method
JP3173022U (en) * 2011-11-01 2012-01-19 サイバークローン株式会社 Moving image system with speech synthesis
JP2012133477A (en) * 2010-12-20 2012-07-12 Nec Corp Authentication card, authentication system, guidance method and program
JP2015220684A (en) * 2014-05-20 2015-12-07 株式会社ニコン Portable terminal equipment and lip reading processing program

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11219421A (en) * 1998-01-30 1999-08-10 Toshiba Corp Image recognizing device and method therefor
JPH11353468A (en) * 1998-06-11 1999-12-24 Nippon Hoso Kyokai <Nhk> System, method, and recording medium for speaking speed measurement
JP2000057325A (en) * 1998-08-17 2000-02-25 Fuji Xerox Co Ltd Voice detector
JP2000068882A (en) * 1998-08-17 2000-03-03 Matsushita Electric Ind Co Ltd Radio communication equipment
JP2002169582A (en) * 2000-11-29 2002-06-14 Canon Inc Voice synthesizing device and its control method, and computer-readable memory
JP2002244688A (en) * 2001-02-15 2002-08-30 Sony Computer Entertainment Inc Information processor, information processing method, information transmission system, medium for making information processor run information processing program, and information processing program
JP2003150194A (en) * 2001-11-14 2003-05-23 Seiko Epson Corp Voice interactive device, input voice optimizing method in the device and input voice optimizing processing program in the device
JP2006323769A (en) * 2005-05-20 2006-11-30 Tokai Univ Facing input device
JP2008009695A (en) * 2006-06-29 2008-01-17 Nikon Corp User recognition device, reproduction device, reproduction system, and television set
WO2009125710A1 (en) * 2008-04-08 2009-10-15 株式会社エヌ・ティ・ティ・ドコモ Medium processing server device and medium processing method
JP2012133477A (en) * 2010-12-20 2012-07-12 Nec Corp Authentication card, authentication system, guidance method and program
JP3173022U (en) * 2011-11-01 2012-01-19 サイバークローン株式会社 Moving image system with speech synthesis
JP2015220684A (en) * 2014-05-20 2015-12-07 株式会社ニコン Portable terminal equipment and lip reading processing program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019208138A (en) * 2018-05-29 2019-12-05 住友電気工業株式会社 Utterance recognition device and computer program
JP2021107873A (en) * 2019-12-27 2021-07-29 パナソニックIpマネジメント株式会社 Voice characteristic change system and voice characteristic change method
JP2021149664A (en) * 2020-03-19 2021-09-27 ヤフー株式会社 Output apparatus, output method, and output program
JP7248615B2 (en) 2020-03-19 2023-03-29 ヤフー株式会社 Output device, output method and output program
US11749270B2 (en) 2020-03-19 2023-09-05 Yahoo Japan Corporation Output apparatus, output method and non-transitory computer-readable recording medium

Also Published As

Publication number Publication date
JP7021488B2 (en) 2022-02-17

Similar Documents

Publication Publication Date Title
CN103561652B (en) Method and system for assisting patients
CN109460752B (en) Emotion analysis method and device, electronic equipment and storage medium
JP6268193B2 (en) Pulse wave measuring device, portable device, medical device system, and biological information communication system
JP2004310034A (en) Interactive agent system
US20120116186A1 (en) Method and apparatus for evaluation of a subject&#39;s emotional, physiological and/or physical state with the subject&#39;s physiological and/or acoustic data
US20180018300A1 (en) System and method for visually presenting auditory information
JP5714411B2 (en) Behavior analysis method and behavior analysis device
US20050163302A1 (en) Customer service system and method using physiological data
JP2018068618A (en) Emotion estimating device, emotion estimating method, emotion estimating program, and emotion counting system
US20170007126A1 (en) System for conducting a remote physical examination
JP2006071936A (en) Dialogue agent
KR20060052837A (en) Information processing terminal and communication system
US20170344713A1 (en) Device, system and method for assessing information needs of a person
CN113454710A (en) System for evaluating sound presentation
JP2012059107A (en) Emotion estimation device, emotion estimation method and program
JP7021488B2 (en) Information processing equipment and programs
WO2018084157A1 (en) Biometric information measuring device, method for controlling biometric information measuring device, control device, and control program
JP7390268B2 (en) Cognitive function prediction device, cognitive function prediction method, program and system
CN113838544A (en) System, method and computer program product for providing feedback relating to medical examinations
JP2018206055A (en) Conversation recording system, conversation recording method, and care support system
JP2012230535A (en) Electronic apparatus and control program for electronic apparatus
KR20080040803A (en) Method, apparatus, and system for diagnosing health status of mobile terminal users
JP2015103183A (en) Medical examination support system
WO2016047494A1 (en) Device and system for measuring biological information
CN114821962B (en) Triggering method, triggering device, triggering terminal and storage medium for emergency help function

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200831

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220118

R150 Certificate of patent or registration of utility model

Ref document number: 7021488

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150