JP2002009963A - Communication system device and communication system - Google Patents
Communication system device and communication systemInfo
- Publication number
- JP2002009963A JP2002009963A JP2000186284A JP2000186284A JP2002009963A JP 2002009963 A JP2002009963 A JP 2002009963A JP 2000186284 A JP2000186284 A JP 2000186284A JP 2000186284 A JP2000186284 A JP 2000186284A JP 2002009963 A JP2002009963 A JP 2002009963A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- communication
- pseudo image
- image data
- pseudo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、発声音に対応させ
た擬似画像を利用する通信端末、通信サーバ、通信シス
テムの構成に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a communication terminal, a communication server, and a communication system using a pseudo image corresponding to an uttered sound.
【0002】[0002]
【従来の技術】音声及び画像による双方向の通信を可能
とするテレビ電話が存在する。テレビ電話は、マイク及
びスピーカを備える受話器と、通話を行う人の映像を撮
影するカメラと、送信されてきた画像を映し出すモニタ
を備えている。そして、通話を行う両者がテレビ電話を
使用することにより、相互の姿を見ながら会話をするこ
とが可能となる。2. Description of the Related Art There are videophones that enable two-way communication by voice and image. A videophone includes a receiver including a microphone and a speaker, a camera for capturing an image of a person making a call, and a monitor for displaying a transmitted image. By using the videophone, the two parties making the call can have a conversation while seeing each other.
【0003】[0003]
【発明が解決しようとする課題】しかしながら、上述し
たテレビ電話において、相互に相手の姿を確認しながら
会話を行うためには、両者がカメラを備えたテレビ電話
を所有している必要がある。つまり、自分の姿を相手に
見せるには、自分が使用している端末にカメラが必要で
あるし、逆に相手の姿を見るためには、相手が使用して
いる端末にカメラが必要である。However, in the above-described videophone, in order to have a conversation while confirming the other party's figure, it is necessary that both have a videophone equipped with a camera. In other words, in order to show yourself to the other party, you need a camera on the terminal you are using, and conversely, in order to see the other party, you need a camera on the terminal you are using. is there.
【0004】このため、テレビ電話は必然的に構成部品
が多くなり、装置構成も比較的大きなものとなる。ま
た、カメラを装備するためにコストが高くなり、その利
便性の高さにも関わらず、広く普及するには至っていな
い。[0004] For this reason, the videophone inevitably has many components and the device configuration is relatively large. In addition, the cost is high due to the provision of a camera, and despite its high convenience, it has not yet become widespread.
【0005】また、最近では、通信端末は携帯性が重要
なポイントとなるが、カメラを備えたテレビ電話は、携
帯して持ち歩くには形状が大きくなるという問題があ
る。また、カメラを搭載するため、やはり、コストが高
くなる。さらに、コンパクト化が進む携帯通信端末(携
帯電話)においては、できるだけ構成部品の点数を減ら
す必要があり、カメラを搭載することはその妨げとな
る。[0005] Recently, portability is an important point for communication terminals. However, there is a problem that a videophone equipped with a camera has a large size to be carried around. In addition, since the camera is mounted, the cost also increases. Furthermore, in portable communication terminals (mobile phones) that are becoming more compact, it is necessary to reduce the number of components as much as possible, and mounting a camera is an obstacle.
【0006】以上のような状況において、カメラを搭載
し、かつ、携帯性に優れたテレビ電話が普及するには問
題が多く、結果的に所有者が少ないという状況を引き起
こしている。つまり、音声及び画像の送信が可能なテレ
ビ電話(据え置き型、携帯型の種別を問わず)を所有し
ていても、通話相手が限定されるため、その効果を十分
に発揮することができないという状況にある。[0006] Under the circumstances described above, there are many problems in disseminating a videophone equipped with a camera and having excellent portability, and as a result, a situation where the number of owners is small is caused. In other words, even if you have a videophone (regardless of stationary or portable type) capable of transmitting voice and image, the effect is not fully exhibited because the number of callers is limited. In the situation.
【0007】また、テレビ電話では、音声に加えて画像
データを送受信するため、通信回線にかかる負担が大き
い。[0007] In a videophone, image data is transmitted and received in addition to audio, so that a heavy load is imposed on a communication line.
【0008】そこで、本発明は上記問題点に鑑み、擬似
的にテレビ電話機能を実現することで、携帯性に優れ、
かつ、低コストな通信端末を提供することを目的とす
る。[0008] In view of the above problems, the present invention realizes a pseudo-telephone function to provide excellent portability.
Another object of the present invention is to provide a low-cost communication terminal.
【0009】[0009]
【課題を解決するための手段】上記課題を解決するた
め、請求項1の発明は、音声及び画像による通信を可能
とする通信システム用装置であって、通信システム用装
置は通信端末として構成されており、通信端末が、音声
を入力するマイクと、マイクから音声信号を受け取り音
声の認識を行う音声認識装置と、音声認識装置が認識し
た音声とあらかじめ定められた基本音声との照合を行う
マッピング装置と、あらかじめ定められた基本音声に対
応した擬似画像データを蓄積する擬似画像データベース
と、照合された基本音声に対応する擬似画像データを前
記擬似画像データベースから取得する擬似画像取得装置
と、マイクより入力した音声の音声信号と擬似画像取得
装置が取得した擬似画像データとを指定された通信先端
末に送信する通信制御装置と、を備えることを特徴とす
る。In order to solve the above-mentioned problems, the invention of claim 1 is an apparatus for a communication system which enables communication by voice and image, wherein the apparatus for a communication system is configured as a communication terminal. A communication terminal, a microphone for inputting voice, a voice recognition device for receiving voice signals from the microphone and recognizing voice, and a mapping for collating voice recognized by the voice recognition device with a predetermined basic voice. A device, a pseudo image database that stores pseudo image data corresponding to a predetermined basic sound, a pseudo image acquisition device that obtains pseudo image data corresponding to the collated basic sound from the pseudo image database, and a microphone. A communication system for transmitting an input audio signal and pseudo image data acquired by the pseudo image acquisition device to a designated communication destination terminal. Characterized in that it comprises apparatus and, a.
【0010】請求項2の発明は、音声及び画像による通
信を可能とする通信システム用装置であって、通信シス
テム用装置は通信端末として構成されており、通信端末
が、通信先端末から送信された音声信号を受信する通信
制御装置と、通信制御装置が受信した音声信号より音声
の認識を行う音声認識装置と、音声認識装置が認識した
音声とあらかじめ定められた基本音声との照合を行うマ
ッピング装置と、あらかじめ定められた基本音声に対応
した擬似画像データを蓄積する擬似画像データベース
と、照合された基本音声に対応する擬似画像データを前
記擬似画像データベースから取得する擬似画像取得装置
と、通信制御装置が受信した音声信号を音声として再生
するスピーカと、擬似画像取得装置が取得した擬似画像
データを出力するモニタと、を備えることを特徴とす
る。According to a second aspect of the present invention, there is provided an apparatus for a communication system capable of performing voice and image communication, wherein the apparatus for a communication system is configured as a communication terminal, and the communication terminal is transmitted from a communication destination terminal. A communication control device for receiving a voice signal, a voice recognition device for recognizing voice from a voice signal received by the communication control device, and a mapping for collating the voice recognized by the voice recognition device with a predetermined basic voice. A pseudo-image database for storing pseudo-image data corresponding to a predetermined basic sound, a pseudo-image acquiring device for obtaining pseudo image data corresponding to the collated basic sound from the pseudo-image database, and communication control. A speaker for reproducing the audio signal received by the device as audio, and a mode for outputting the pseudo image data acquired by the pseudo image acquisition device. Characterized in that it comprises data and, a.
【0011】請求項3の発明は、音声及び画像による通
信を可能とする通信システム用装置であって、通信シス
テム用装置は通信サーバとして構成されており、通信サ
ーバが、送信側通信端末から送信された音声信号を受信
する受信制御装置と、受信制御装置が受信した音声信号
より音声の認識を行う音声認識装置と、音声認識装置が
認識した音声とあらかじめ定められた基本音声との照合
を行うマッピング装置と、あらかじめ定められた基本音
声に対応した擬似画像データを蓄積する擬似画像データ
ベースと、照合された基本音声に対応する擬似画像デー
タを前記擬似画像データベースから取得する擬似画像取
得装置と、受信制御装置が受信した音声信号と擬似画像
取得装置が取得した擬似画像データとを送信側通信端末
に送信する送信制御装置と、を備えることを特徴とす
る。According to a third aspect of the present invention, there is provided an apparatus for a communication system capable of performing communication by voice and image, wherein the apparatus for a communication system is configured as a communication server, and the communication server transmits from the communication terminal on the transmitting side. A receiving control device for receiving the received voice signal, a voice recognition device for recognizing voice from the voice signal received by the receiving control device, and collating the voice recognized by the voice recognition device with a predetermined basic voice. A mapping device, a pseudo image database that stores pseudo image data corresponding to a predetermined basic sound, a pseudo image acquisition device that obtains pseudo image data corresponding to the collated basic sound from the pseudo image database, A transmission control for transmitting an audio signal received by the control device and pseudo image data acquired by the pseudo image acquisition device to the transmission side communication terminal. Characterized in that it comprises apparatus and, a.
【0012】請求項4の発明は、請求項1ないし請求項
3のいずれかに記載の通信システム用装置であって、擬
似画像データは、基本音声を発声する人の表情を含む映
像情報であることを特徴とする。According to a fourth aspect of the present invention, in the communication system apparatus according to any one of the first to third aspects, the pseudo image data is video information including a facial expression of a person who utters a basic sound. It is characterized by the following.
【0013】請求項5の発明は、請求項1ないし請求項
3のいずれかに記載の通信システム用装置であって、擬
似画像データは、基本音声を発声する人の口元の形状を
あらわす映像情報であることを特徴とする。According to a fifth aspect of the present invention, there is provided the communication system apparatus according to any one of the first to third aspects, wherein the pseudo image data represents video information representing a shape of a mouth of a person who utters a basic sound. It is characterized by being.
【0014】請求項6の発明は、請求項4または請求項
5に記載の通信システム用装置であって、擬似画像デー
タベースは、同一の前記基本音声に対して、背景の異な
る複数種類の擬似画像データを備えることを特徴とす
る。According to a sixth aspect of the present invention, in the communication system apparatus according to the fourth or fifth aspect, the pseudo image database stores a plurality of types of pseudo images having different backgrounds for the same basic sound. It is characterized by having data.
【0015】請求項7の発明は、請求項4ないし請求項
6のいずれかに記載の通信システム用装置であって、基
本音声は所定の言語についての5つの母音の組合せを含
み、擬似画像データベースは少なくとも前記各母音に対
応した擬似画像データを備えることを特徴とする。A seventh aspect of the present invention is the communication system apparatus according to any one of the fourth to sixth aspects, wherein the basic voice includes a combination of five vowels for a predetermined language, and the pseudo image database Comprises at least pseudo image data corresponding to each of the vowels.
【0016】請求項8の発明は、請求項7に記載の通信
システム用装置であって、マッピング装置は音声認識装
置が認識した音声に当該音声の母音を照合する機能を含
むことを特徴とする。According to an eighth aspect of the present invention, there is provided the communication system apparatus according to the seventh aspect, wherein the mapping apparatus has a function of comparing a vowel of the voice with a voice recognized by the voice recognition apparatus. .
【0017】請求項9の発明は、請求項4ないし請求項
6のいずれかに記載の通信システム用装置であって、基
本音声は日本語についての5つの母音及び「ん」音を含
み、擬似画像データベースは少なくとも前記各母音及び
「ん」音に対応した擬似画像データを備えることを特徴
とする。According to a ninth aspect of the present invention, there is provided the communication system apparatus according to any one of the fourth to sixth aspects, wherein the basic voice includes five vowels and "n" sounds for Japanese, The image database is provided with at least pseudo image data corresponding to each of the vowels and the "n" sound.
【0018】請求項10の発明は、請求項9に記載の擬
似画像を利用した通信システム用装置であって、マッピ
ング装置は音声認識装置が認識した音声が「ん」音以外
の音声である場合、当該音声に当該音声の母音を照合
し、音声認識装置が認識した音声が「ん」音である場
合、当該「ん」音をそのまま照合する機能を含むことを
特徴とする。According to a tenth aspect of the present invention, there is provided an apparatus for a communication system using the pseudo image according to the ninth aspect, wherein the mapping apparatus uses a voice recognized by the voice recognition apparatus other than the "n" sound. The vowel of the voice is collated with the voice, and when the voice recognized by the voice recognition device is the “n” sound, the function is provided to collate the “n” sound as it is.
【0019】請求項11の発明は、音声及び画像による
通信を可能とする通信システムであって、送信側通信端
末から受信側通信端末に至るまでの通信に関与する複数
の通信装置のうちの特定の通信装置が、請求項1ないし
請求項10のいずれかの通信システム用装置によって構
成されていることを特徴とする。An invention according to claim 11 is a communication system which enables communication by voice and image, and specifies a plurality of communication devices involved in communication from a transmission side communication terminal to a reception side communication terminal. Is characterized by being constituted by the communication system device according to any one of claims 1 to 10.
【0020】請求項12の発明は、請求項11に記載の
通信システムであって、前記特定の通信装置が、送信側
通信端末と受信側通信端末との通信を中継する通信サー
バであることを特徴とする。A twelfth aspect of the present invention is the communication system according to the eleventh aspect, wherein the specific communication device is a communication server that relays communication between the transmitting communication terminal and the receiving communication terminal. Features.
【0021】[0021]
【発明の実施の形態】以下、本発明の実施の形態につい
て添付の図面を用いて説明する。実施の形態は、送信側
で擬似画像を生成する実施の形態1(図1)、受信側で
擬似画像を生成する実施の形態2(図3)、中間のサー
バが擬似画像を生成する実施の形態3(図5)の3構成
について説明する。Embodiments of the present invention will be described below with reference to the accompanying drawings. In the embodiment, a first embodiment (FIG. 1) in which a pseudo image is generated on the transmitting side, a second embodiment (FIG. 3) in which a pseudo image is generated on the receiving side, and an embodiment in which an intermediate server generates a pseudo image. Three configurations of the third embodiment (FIG. 5) will be described.
【0022】{実施の形態1}まず、送信側で擬似画像
を生成する実施の形態について図1を用いて説明する。
実施の形態1においては、便宜上、擬似画像を生成する
通信端末を画像生成通信端末10と称し、これに対し
て、音声及び画像による通信を可能とする従来型の通信
端末をTV電話(テレビ電話)50と称す。画像生成通
信端末10は、据え置き型、携帯型いずれの構成であっ
てもよいが、本実施の形態では、より本発明の効果を発
揮する携帯型の端末として説明する。Embodiment 1 First, an embodiment for generating a pseudo image on the transmission side will be described with reference to FIG.
In the first embodiment, a communication terminal that generates a pseudo image is referred to as an image generation communication terminal 10 for the sake of convenience, whereas a conventional communication terminal that enables voice and image communication is a TV telephone (video telephone). ) 50. The image generation communication terminal 10 may be either a stationary type or a portable type. However, in the present embodiment, the image generating communication terminal 10 will be described as a portable type that exerts more advantageous effects of the present invention.
【0023】TV電話50は、スピーカ、マイク、モニ
タ、カメラを備えて、双方向で音声及び画像の通信を可
能とするものであるが、本実施の形態においては、TV
電話50がカメラを備えていない構成とする。つまり、
TV電話50は、スピーカ53、マイク54、モニタ5
5を備える構成としている。The TV phone 50 is provided with a speaker, a microphone, a monitor, and a camera to enable two-way voice and image communication.
The telephone 50 does not have a camera. That is,
The TV phone 50 includes a speaker 53, a microphone 54, and a monitor 5.
5 is provided.
【0024】図に示すように、TV電話50は、通信制
御装置51及び制御装置52を備えており、TV電話5
0は、通信制御装置51を介して通信ネットワーク1に
接続されている。そして、通信制御装置51が通信先端
末との間で、音声信号及び画像データの送受信を行い、
制御装置52に接続されたスピーカ53、モニタ55よ
り音声及び画像の出力を行い、マイク54より入力され
た音声を通信制御装置51を介して通信先端末へ送信す
るようにしている。なお、TV電話50と通信ネットワ
ーク1との接続形態は、有線、無線の種別は問わない。As shown in the figure, the TV phone 50 includes a communication control device 51 and a control device 52.
0 is connected to the communication network 1 via the communication control device 51. Then, the communication control device 51 transmits and receives the audio signal and the image data to and from the communication destination terminal,
Audio and images are output from a speaker 53 and a monitor 55 connected to the control device 52, and the audio input from the microphone 54 is transmitted to the communication destination terminal via the communication control device 51. The connection form between the TV phone 50 and the communication network 1 is not limited to wired or wireless.
【0025】画像生成通信端末10は、図に示すよう
に、スピーカ16、マイク17、モニタ18、カメラ1
9を備える構成としているが、後に述べるようにカメラ
19を装備しない構成とすることも可能である。スピー
カ16、マイク17、モニタ18、カメラ19は、それ
ぞれ制御装置12に接続され、制御装置12に接続され
た通信制御装置11を介して、通信先端末との間で音声
及び画像による双方向の通信を行う。As shown in the figure, the image generation communication terminal 10 includes a speaker 16, a microphone 17, a monitor 18, and a camera 1.
9, but it is also possible to adopt a configuration without the camera 19 as described later. The speaker 16, the microphone 17, the monitor 18, and the camera 19 are connected to the control device 12, respectively, and communicate bidirectionally with a communication destination terminal via a communication control device 11 connected to the control device 12 by voice and image. Perform communication.
【0026】また、マイク17と制御装置12の間に
は、音声認識装置15が介装されており、マイク17か
ら受け取った音声信号から音声の認識を行うようにして
いる。つまり、制御装置12は、マイク17が入力した
音声の音声信号と、音声認識装置15が認識した音声の
音声信号とを入力する。A voice recognition device 15 is interposed between the microphone 17 and the control device 12 to recognize voice from a voice signal received from the microphone 17. That is, the control device 12 inputs the voice signal of the voice input by the microphone 17 and the voice signal of the voice recognized by the voice recognition device 15.
【0027】また、制御装置12はマッピング装置12
a及び擬似画像取得装置12bを備えている。マッピン
グ装置12aは、音声認識装置15が認識した音声と、
あらかじめ設定された基本音声との照合を行う装置であ
る。照合とは、認識した音声をどの基本音声に対応付け
る(マッピングする)かの判断手段、および、その対応
付けを行う手段であり、マイク17が入力した音声の全
てを基本音声に照合する機能を備えている。なお、以下
の説明で、マッピング処理としての記述は、上記照合処
理を示すものとする。また、擬似画像取得装置12b
は、基本音声にマッピングされた音声に対応する擬似画
像データを取得する機能を備えている。The control device 12 is a mapping device 12
a and a pseudo image acquisition device 12b. The mapping device 12a includes a voice recognized by the voice recognition device 15;
This is a device that performs collation with a preset basic voice. The collation is a means for determining (mapping) a recognized voice to which basic voice is to be associated with, and a means for performing the association, and has a function of collating all the voices input by the microphone 17 with the basic voice. ing. In the following description, the description as the mapping process indicates the above-described collation process. Also, the pseudo image acquisition device 12b
Has a function of acquiring pseudo image data corresponding to audio mapped to basic audio.
【0028】基本音声については、後で詳細に述べる
が、ここでは、図7で示すように、日本語についての基
本音声を「あ」「い」「う」「え」「お」「ん」の6つ
の音声、つまり、母音及び「ん」音からなる音声の群で
構成する。また、マッピング装置12aは、音声が
「ん」音以外の音声である場合には、その音声の母音を
マッピング(照合)させ、音声が「ん」音である場合に
は、そのまま「ん」音をマッピング(照合)させる設定
となっている。これにより、マイク17が入力した音声
は、マッピング装置12aによって、全て母音及び
「ん」音にマッピングされることになる。The basic voice will be described later in detail, but here, as shown in FIG. 7, the basic voice for Japanese is "A", "I", "U", "E", "O", "N". , Ie, a group of voices composed of vowels and “n” sounds. When the voice is a voice other than the “n” sound, the mapping device 12a maps (collates) the vowel of the voice, and when the voice is the “n” sound, the mapping device 12a does not change the “n” sound. Is set to be mapped (matched). As a result, the voice input by the microphone 17 is all mapped to vowels and “n” sounds by the mapping device 12a.
【0029】例えば、図8に示すように、マイク17に
より「こんにちは」という音声が入力された場合、マッ
ピング装置12aは、 「こ」→「お」 「ん」→「ん」 「に」→「い」 「ち」→「い」 「は」→「あ」 というマッピングを行うのである。[0029] For example, as shown in FIG. 8, when the voice of "Hello" is input by the microphone 17, the mapping unit 12a, "child" → "you,""I" → "I", "to" → " The mapping is performed in the order of "i""chi" → "i""ha" → "a".
【0030】また、画像生成通信端末10は、擬似画像
データベース14を備えている。擬似画像データベース
14は、基本音声に対応した擬似画像データを蓄積する
データベースであり、基本音声を発声した人の表情を撮
影した映像情報を蓄積している。つまり、図7で示すよ
うに、各母音及び「ん」音は、それぞれの音声を発生し
ている人の表情の擬似画像データを保有しているのであ
る。The image generation communication terminal 10 has a pseudo image database 14. The pseudo image database 14 is a database that stores pseudo image data corresponding to the basic sound, and stores video information obtained by photographing the expression of the person who uttered the basic sound. In other words, as shown in FIG. 7, each vowel and “n” sound has pseudo image data of a facial expression of a person generating each sound.
【0031】このように、マッピング装置12aによ
り、全ての音声を基本音声にマッピングし、各基本音声
は対応する擬似画像データを擬似画像データベース14
内に保有しているので、全ての音声に対して擬似画像デ
ータを対応させることが可能となる。As described above, all voices are mapped to basic voices by the mapping device 12a, and each of the basic voices corresponds to the corresponding pseudo image data in the pseudo image database 14.
, The pseudo image data can be associated with all the sounds.
【0032】以上の構成における、画像生成通信端末1
0を動作状態について説明する。まず、前段階として前
述した擬似画像データベース14の作成を行う。擬似画
像データベース14の作成は、例えば、画像生成通信端
末10を利用して通話を行う人の表情をカメラ19で撮
影することにより行う。そして、撮影した各母音及び
「ん」音に対応した擬似画像データを擬似画像データベ
ース14に保存する。なお、画像生成通信端末10には
操作キー等からなる操作装置10aが設けられており、
撮影した画像を、どの基本音声に対応させるかといった
設定を可能としている。In the above configuration, the image generation communication terminal 1
The operation state of 0 will be described. First, the above-described pseudo image database 14 is created as a previous step. The creation of the pseudo image database 14 is performed, for example, by photographing the expression of a person making a call using the image generation communication terminal 10 with the camera 19. Then, pseudo image data corresponding to each of the photographed vowels and “n” sounds is stored in the pseudo image database 14. The image generation communication terminal 10 is provided with an operation device 10a including operation keys and the like.
It is possible to make settings such as which basic sound the captured image corresponds to.
【0033】なお、擬似画像データは、例えばデジタル
カメラで撮影を行い、画像生成通信端末10に設けられ
た外部端子10bより画像データを入力することも可能
である。このような構成とすることにより、画像生成通
信端末10にはカメラを搭載しない構成とすることも可
能となる。The pseudo image data can be taken by, for example, a digital camera, and the image data can be input from an external terminal 10b provided in the image generation communication terminal 10. With such a configuration, the image generation communication terminal 10 can be configured not to include a camera.
【0034】また、マッピング装置12aにおけるマッ
ピングルールは、本実施の形態においては、「ん」音以
外の音声に対しては、当該音声に当該音声の母音を対応
させ、「ん」音に対しては、そのまま「ん」音を対応さ
せるといった設定としているが、後に、述べるように他
のマッピングルールを採用することが可能であるし、ま
た、複数のマッピングルールを保有させることも可能で
ある。複数のマッピングルールを保有させている場合に
は、操作装置10aを用いて、マッピングルールの設定
変更を可能にすればよい。In the present embodiment, the mapping rule in the mapping device 12a is such that, for a sound other than the "n" sound, the vowel of the sound is made to correspond to the sound, and Is set to correspond to the “n” sound as it is. However, as described later, other mapping rules can be adopted, and a plurality of mapping rules can be held. If a plurality of mapping rules are held, the setting of the mapping rules may be changed using the operation device 10a.
【0035】前段階の設定がなされている状態で、画像
生成通信端末10の利用者2は、操作装置10aでダイ
ヤル操作を行い、通話先であるTV電話50との通信を
確立する。もしくは、TV電話50の利用者3の操作に
より、TV電話50側から発呼があり通信が確立する。
そして、利用者2がマイク17に対して発声すると、マ
イク17に入力された音声が音声信号に変換され、音声
認識装置15において音声の認識が行われ、音声信号と
ともに認識された音声の信号が制御装置12に送られ
る。制御装置12では、マッピング装置12aによって
認識された音声を基本音声に対応させ、擬似画像生成装
置12bによって擬似画像データベース14より対応す
る擬似画像データを取得する。そして、制御装置12
は、マイク17より入力した音声の音声信号と、擬似画
像データベース14より取得した擬似画像データを通信
制御装置11へ受け渡す。そして、通信制御装置11に
より、音声信号及び擬似画像データが、通信ネットワー
ク1を介してTV電話50へ送信されるのである。以上
説明した音声信号及び擬似画像データのデータの流れを
図2に示す。In the state where the settings at the previous stage have been made, the user 2 of the image generation communication terminal 10 performs a dial operation with the operation device 10a to establish communication with the TV telephone 50 as the call destination. Alternatively, by the operation of the user 3 of the TV phone 50, a call is made from the TV phone 50 side, and the communication is established.
When the user 2 speaks to the microphone 17, the voice input to the microphone 17 is converted into a voice signal, voice recognition is performed in the voice recognition device 15, and the voice signal recognized together with the voice signal is output. It is sent to the control device 12. In the control device 12, the voice recognized by the mapping device 12a corresponds to the basic voice, and the pseudo image data is acquired from the pseudo image database 14 by the pseudo image generation device 12b. And the control device 12
Transfers the audio signal of the audio input from the microphone 17 and the pseudo image data obtained from the pseudo image database 14 to the communication control device 11. Then, the audio signal and the pseudo image data are transmitted to the TV phone 50 via the communication network 1 by the communication control device 11. FIG. 2 shows the flow of the audio signal and the pseudo image data described above.
【0036】TV電話50の通信制御装置51は、画像
生成通信端末10から音声信号及び擬似画像データを受
信すると、当該信号を制御装置52に受け渡し、制御装
置52により音声信号及び画像信号が取り出され、それ
ぞれスピーカ53及びモニタ55より出力される。When the communication control device 51 of the TV phone 50 receives the audio signal and the pseudo image data from the image generation communication terminal 10, the communication control device 51 transfers the signal to the control device 52, and the control device 52 extracts the audio signal and the image signal. Are output from the speaker 53 and the monitor 55, respectively.
【0037】このようにして、TV電話50側には、画
像生成通信端末10の利用者2の音声と、当該音声に対
応した擬似画像がモニタ55に出力されるので、あたか
も利用者2の姿がリアルタイムでモニタ55に映し出さ
れているような状態で、会話を行うことができるのであ
る。As described above, the voice of the user 2 of the image generation communication terminal 10 and the pseudo image corresponding to the voice are output to the monitor 55 on the TV phone 50 side. Can be conducted in a state where is displayed on the monitor 55 in real time.
【0038】一方、TV電話50のマイク54より入力
された音声信号は、通信制御装置51,11を介して画
像生成通信端末10に送信され、画像生成通信端末10
のスピーカ16より出力される。On the other hand, the audio signal input from the microphone 54 of the TV phone 50 is transmitted to the image generation communication terminal 10 via the communication control devices 51 and 11, and the image generation communication terminal 10
Is output from the speaker 16.
【0039】このような構成とすることで、両者がカメ
ラを装備していない通信端末を利用している場合であっ
ても、擬似的に相手の姿を見ながらの会話が可能とな
る。例えば、図1で示した画像生成通信端末10を営業
担当者が利用すると有効である。顧客からの問い合わせ
電話があった場合に、擬似画像データを送信すること
で、営業担当者は自分の顔を覚えてもらうことができる
のである。しかも、営業担当者は、常に自分の姿をカメ
ラで撮影できるような状態で準備しておく必要がない。
作業着姿で走り回っているときでも、スーツを着てネク
タイを締めた擬似画像の姿で顧客対応が可能となるので
ある。また、あらかじめ複数の擬似画像を選択可能にデ
ータベースに登録し、状況に応じて選択できるようにし
てもよい。By adopting such a configuration, even when both use a communication terminal not equipped with a camera, it is possible to simulate a conversation while looking at the other party. For example, it is effective that the sales representative uses the image generation communication terminal 10 shown in FIG. By transmitting the pseudo image data when a customer makes an inquiry call, the sales representative can have his / her face remembered. In addition, the salesperson does not need to be prepared so that he can always take his picture with the camera.
Even when running around in work clothes, customers can be handled in the form of a pseudo image of wearing a suit and wearing a tie. Alternatively, a plurality of pseudo images may be registered in a database in a selectable manner in advance, and may be selected according to the situation.
【0040】なお、TV電話50にカメラを装備する構
成とした場合には、画像生成通信端末10の利用者2は
TV電話50を利用している利用者3の姿を確認しなが
ら会話をすることが可能となる。In the case where the TV phone 50 is equipped with a camera, the user 2 of the image generating communication terminal 10 has a conversation while checking the appearance of the user 3 using the TV phone 50. It becomes possible.
【0041】{実施の形態2}次に、受信側で擬似画像
を生成する実施の形態について図3を用いて説明する。
なお、実施の形態2においては、便宜上、擬似画像を作
成する通信端末を画像生成通信端末20と称し、これに
対して、音声及び画像による通信を可能とする従来型の
通信端末をTV電話50と称す。なお、TV電話50は
図1で示した実施の形態における端末と同様の構成であ
り、TV電話50が備えている各装置に同一の番号を付
している。Embodiment 2 Next, an embodiment for generating a pseudo image on the receiving side will be described with reference to FIG.
In the second embodiment, a communication terminal that creates a pseudo image is referred to as an image generation communication terminal 20 for the sake of convenience, whereas a conventional communication terminal that enables voice and image communication is a TV phone 50. Called. Note that the TV phone 50 has the same configuration as the terminal in the embodiment shown in FIG. 1, and the same numbers are assigned to the respective devices provided in the TV phone 50.
【0042】画像生成通信端末20は、図に示すよう
に、スピーカ26、マイク27、モニタ28、カメラ2
9を備える構成としているが、実施の形態1で説明した
ようにカメラ29を装備しない構成とすることも可能で
ある。スピーカ26、マイク27、モニタ28、カメラ
29は、それぞれ制御装置22に接続され、制御装置2
2に接続された通信制御装置21を介して、通信先端末
との間で音声及び画像による双方向の通信を行う。As shown in the figure, the image generation communication terminal 20 includes a speaker 26, a microphone 27, a monitor 28,
9, the camera 29 may not be provided as described in the first embodiment. The speaker 26, the microphone 27, the monitor 28, and the camera 29 are connected to the control device 22, respectively.
Via the communication control device 21 connected to the communication terminal 2, bidirectional communication by voice and image is performed with the communication destination terminal.
【0043】また、制御装置22には音声認識装置25
が接続されており、制御装置22が通信相手から受け取
った音声信号から音声の認識を行うようにしている。ま
た、制御装置22は実施の形態1と同様に、マッピング
装置22a及び擬似画像取得装置22bを備えている。
基本音声については、実施の形態1と同様に、「あ」
「い」「う」「え」「お」「ん」の6つの音声、つま
り、母音及び「ん」音からなる音声の群で構成する。こ
れにより、制御装置22が受け取った音声は、マッピン
グ装置22aによって、全て母音及び「ん」音に対応さ
れることになる。また、画像生成通信端末20は、擬似
画像データベース24を備えている。The control device 22 includes a speech recognition device 25.
Is connected, and the control device 22 recognizes a voice from a voice signal received from a communication partner. The control device 22 includes a mapping device 22a and a pseudo image acquisition device 22b, as in the first embodiment.
As for the basic voice, as in the first embodiment, “A”
It is composed of six voices “i”, “u”, “e”, “o”, and “n”, that is, a group of voices composed of vowels and “n” sounds. As a result, all the voices received by the control device 22 are made to correspond to vowels and “n” sounds by the mapping device 22a. Further, the image generation communication terminal 20 includes a pseudo image database 24.
【0044】このように、マッピング装置22aによ
り、全ての音声を基本音声のマッピング(照合)し、各
基本音声は対応する擬似画像データを擬似画像データベ
ース24内に保有しているので、全ての音声に対して擬
似画像データを対応させることが可能となる。As described above, the mapping device 22a maps (collates) all voices with basic voices, and each basic voice has corresponding pseudo image data in the pseudo image database 24. Can be associated with the pseudo image data.
【0045】以上の構成における画像生成通信端末20
の動作状態について説明する。まず、前段階として実施
の形態1と同様に、擬似画像データベース24の作成及
びマッピングルールの設定を行う。画像生成通信端末2
0は、実施の形態1と同様、操作キー等からなる操作装
置20a及び外部端子20bを備えており、カメラ29
により撮影した映像の基本音声への対応付けや、マッピ
ングルールの設定変更は、操作装置20aを用いて行う
ことが可能である。また、デジタルカメラ等で撮影した
映像を外部端子20bから入力することで、外部で生成
した擬似画像データを擬似画像データベース24に登録
することを可能としている。The image generation communication terminal 20 in the above configuration
Will be described. First, as in the first embodiment, the pseudo image database 24 is created and mapping rules are set as in the first embodiment. Image generation communication terminal 2
0 includes an operation device 20a including operation keys and the like and an external terminal 20b as in the first embodiment.
It is possible to associate the video captured with the basic sound with the basic audio and change the setting of the mapping rule using the operation device 20a. Further, by inputting an image captured by a digital camera or the like from the external terminal 20b, it is possible to register pseudo image data generated externally in the pseudo image database 24.
【0046】前段階の設定がなされている状態で、画像
生成通信端末20の利用者4は、操作装置20aでダイ
ヤル操作を行い、通話先であるTV電話50との通信を
確立する。もしくは、TV電話50の利用者5によるダ
イヤル操作により通信が確立する。そして、利用者4が
マイク27に対して発声すると、マイク27が入力した
音声が音声信号に変換され、通信制御装置21,51を
介してTV電話50に送信され、TV電話50のスピー
カ53より出力される。In the state where the settings at the previous stage have been made, the user 4 of the image generation communication terminal 20 performs a dial operation with the operation device 20a to establish communication with the TV telephone 50 as a call destination. Alternatively, communication is established by a dial operation by the user 5 of the TV phone 50. When the user 4 speaks to the microphone 27, the voice input by the microphone 27 is converted into a voice signal, transmitted to the TV phone 50 via the communication control devices 21 and 51, and transmitted from the speaker 53 of the TV phone 50. Is output.
【0047】また、画像生成通信端末20がカメラ29
を装備している場合には、画像及び音声を送信すること
で、TV電話50側に音声及び画像データを出力するこ
とも可能である。The image generation communication terminal 20 is connected to the camera 29
When the device is equipped, it is also possible to output audio and image data to the TV phone 50 by transmitting images and audio.
【0048】一方、TV電話50の利用者5が発声した
音声が、マイク54により音声信号に変換され、通信制
御装置51,21を介して、画像生成通信端末20に送
信される。画像生成通信端末20に送信された音声信号
は、制御装置22に受け渡され、音声認識装置25にお
いて音声の認識が行わる。さらに、制御装置22は、認
識された音声をマッピング装置22aによって基本音声
に対応させ、擬似画像取得装置22bによって擬似画像
データベース24より対応する擬似画像データを取得す
る。そして、制御装置22は、通信制御装置21より受
信した音声信号をスピーカ26に送信するとともに、擬
似画像データベース24より取得した擬似画像データを
モニタ28に送信する。以上説明した音声信号及び擬似
画像データのデータの流れを図4に示す。On the other hand, the voice uttered by the user 5 of the TV phone 50 is converted into a voice signal by the microphone 54 and transmitted to the image generation communication terminal 20 via the communication control devices 51 and 21. The voice signal transmitted to the image generation communication terminal 20 is passed to the control device 22, and the voice recognition device 25 performs voice recognition. Further, the control device 22 causes the recognized voice to correspond to the basic voice by the mapping device 22a, and obtains the corresponding pseudo image data from the pseudo image database 24 by the pseudo image acquisition device 22b. Then, the control device 22 transmits the audio signal received from the communication control device 21 to the speaker 26, and transmits the pseudo image data acquired from the pseudo image database 24 to the monitor 28. FIG. 4 shows the data flow of the audio signal and the pseudo image data described above.
【0049】このようにして、画像生成通信端末20側
には、TV電話50の利用者5の音声と、当該音声に対
応した擬似画像がモニタ28に出力されるので、あたか
も利用者5が会話をしているような映像が、リアルタイ
ムで利用者4側に映し出されるのである。In this way, the voice of the user 5 of the TV phone 50 and the pseudo image corresponding to the voice are output to the monitor 28 on the image generation communication terminal 20 side, so that the user 5 can talk. Is displayed on the user 4 side in real time.
【0050】このような構成とすることで、両者がカメ
ラを装備していない通信端末を利用している場合であっ
ても、擬似的に相手の姿を見ながらの会話が可能とな
る。例えば、自宅に画像生成通信端末20を設置する。
この場合、画像生成通信装置20は据え置き型でもよ
い。そして、会社勤めの父親は携帯電話(図3で示した
TV電話50に相当するが、この場合は、TV電話機能
を保有していない一般の携帯電話でよい。)を持ってい
るとする。そして、会社を出て帰路に向かう父親が携帯
電話で自宅に電話し、「もうすぐ帰るよ」等の会話をす
れば、自宅の画像生成通信端末20では、あらかじめ擬
似画像データベース24に保存されている父親の擬似画
像データを利用して、父親があたかも会話をしているよ
うな映像を映し出すことができるのである。これを利用
すれば、父親の帰宅をまっている小さな子供は、父親の
映像を見ながら会話をすることが可能となる。By adopting such a configuration, even when both use a communication terminal not equipped with a camera, it is possible to have a conversation while looking at the other party in a pseudo manner. For example, the image generation communication terminal 20 is installed at home.
In this case, the image generation communication device 20 may be a stationary type. Then, it is assumed that the father who works for the company has a mobile phone (corresponding to the TV phone 50 shown in FIG. 3, but in this case, a general mobile phone having no TV phone function may be used). Then, if the father who leaves the office and goes home returns and calls home with a mobile phone and has a conversation such as "I'm going home soon," the image generation communication terminal 20 at home stores the image in the pseudo image database 24 in advance. By using the father's pseudo image data, it is possible to display a video as if the father is having a conversation. If this is used, a small child who is returning home from his father can have a conversation while watching the image of his father.
【0051】また、父親の持ち歩く通信端末は通常の携
帯電話を使用することができるという利点もある。つま
り、図3で示した実施の形態では、利用者5が使う端末
をTV電話50として説明したが、本実施の形態におい
ては、利用者5が使う端末は音声のみによる会話が可能
な電話(携帯電話)であってもよい。There is also an advantage that the communication terminal carried by the father can use a normal mobile phone. That is, in the embodiment shown in FIG. 3, the terminal used by the user 5 is described as the TV phone 50. However, in the present embodiment, the terminal used by the user 5 is a telephone ( Mobile phone).
【0052】また、図3で示した構成では、TV電話5
0から画像生成通信端末20に送信されるデータは音声
信号のみである。これにより、通信ネットワーク1にか
かる負荷を小さくできるという利点もある。Also, in the configuration shown in FIG.
Data transmitted from 0 to the image generation communication terminal 20 is only an audio signal. Thereby, there is also an advantage that the load on the communication network 1 can be reduced.
【0053】{実施の形態3}次に、中間のサーバで擬
似画像を作成する実施の形態の構成について図5を用い
て説明する。なお、実施の形態3においては、音声及び
画像による通信を可能とする従来型の通信端末をTV電
話50A,50Bと称すが、TV電話50A,50Bは
図1で示したTV電話50と同様の構成である。Third Embodiment Next, the configuration of a third embodiment in which a pseudo image is created by an intermediate server will be described with reference to FIG. In the third embodiment, conventional communication terminals that enable communication by voice and image are referred to as TV phones 50A and 50B, but the TV phones 50A and 50B are the same as the TV phones 50 shown in FIG. Configuration.
【0054】通信サーバ30は、受信制御装置36及び
送信制御装置37とを備える通信制御装置31、制御装
置32、マッピング装置32a、擬似画像取得装置32
b、擬似画像データベース34、音声認識装置35等を
備えている。なお、制御装置32、マッピング装置32
a、擬似画像取得装置32b、擬似画像データベース3
4、音声認識装置35の構成及び機能は、図1及び図3
で示した画像生成通信端末10,20が備えるそれぞれ
に該当する装置の構成及び機能と同様である。The communication server 30 includes a communication control device 31 having a reception control device 36 and a transmission control device 37, a control device 32, a mapping device 32a, and a pseudo image acquisition device 32.
b, a pseudo image database 34, a voice recognition device 35, and the like. The control device 32 and the mapping device 32
a, pseudo image acquisition device 32b, pseudo image database 3
4. The configuration and functions of the voice recognition device 35 are shown in FIGS.
The configurations and functions of the devices corresponding to the image generation communication terminals 10 and 20 shown in FIG.
【0055】基本音声についても、同様に、基本音声を
「あ」「い」「う」「え」「お」「ん」の6つの音声、
つまり、母音及び「ん」音からなる音声の群で構成す
る。これにより、通信サーバ30が受け取った音声は、
マッピング装置32aによって、全て母音及び「ん」音
にマッピングされることになる。Similarly, for the basic voices, the basic voices are divided into six voices “A”, “I”, “U”, “E”, “O”, and “N”.
In other words, it is composed of a group of voices composed of vowels and “n” sounds. Thereby, the voice received by the communication server 30 is
By the mapping device 32a, all the vowels and "n" sounds are mapped.
【0056】このように、マッピング装置32aによ
り、全ての音声を基本音声にマッピングし、各基本音声
は対応する擬似画像データを擬似画像データベース34
内に保有しているので、全ての音声に対して擬似画像デ
ータを対応させることが可能となる。As described above, all voices are mapped to basic voices by the mapping device 32a, and each of the basic voices corresponds to the corresponding pseudo image data in the pseudo image database 34.
, The pseudo image data can be associated with all the sounds.
【0057】以上の構成における、通信サーバ30の動
作状態について説明する。まず、前段階として実施の形
態1及び実施の形態2と同様に、擬似画像データベース
34の作成及びマッピングルールの設定を行う。The operation state of the communication server 30 in the above configuration will be described. First, as in the first embodiment, as in the first and second embodiments, the creation of the pseudo image database 34 and the setting of mapping rules are performed.
【0058】前段階の設定がなされている状態で、TV
電話50Aの利用者6は、ダイヤル操作を行うことによ
って、通話先であるTV電話50Bとの通信を確立す
る。もしくは、TV電話50Bの利用者7のダイヤル操
作により通信を確立する。そして、利用者6がマイク5
4Aに対して発声すると、マイク54Aが入力した音声
が音声信号に変換され、通信制御装置51Aから送信さ
れる。そして、音声信号は直接TV電話50B側に送信
されるのではなく、通信サーバ30に送信される。In the state where the setting of the previous stage has been made, the TV
The user 6 of the telephone 50A establishes communication with the TV telephone 50B, which is the call destination, by performing a dial operation. Alternatively, communication is established by a dial operation of the user 7 of the TV phone 50B. Then, the user 6 uses the microphone 5
When speaking to 4A, the voice input by microphone 54A is converted to a voice signal and transmitted from communication control device 51A. Then, the audio signal is transmitted to the communication server 30 instead of being directly transmitted to the TV phone 50B side.
【0059】通信サーバ30に送信された音声信号は、
受信制御装置36を介して制御装置32に受け渡され
る。そして、制御装置32が入力した音声信号は、音声
認識装置35において音声の認識が行われ、認識された
音声信号が制御装置32に返される。そして、制御装置
32は、認識された音声信号をマッピング装置32aに
より基本音声に対応させる。さらに、擬似画像取得装置
32bにより、対応された基本音声の擬似画像データを
擬似画像データベース34より取得する。The audio signal transmitted to the communication server 30 is
It is passed to the control device 32 via the reception control device 36. The voice signal input by the control device 32 is subjected to voice recognition in the voice recognition device 35, and the recognized voice signal is returned to the control device 32. Then, the control device 32 causes the recognized voice signal to correspond to the basic voice by the mapping device 32a. Further, the pseudo image data of the corresponding basic sound is obtained from the pseudo image database 34 by the pseudo image obtaining device 32b.
【0060】このようにし、通信サーバ30は、TV電
話端末50Aから受信した音声信号に基づいて擬似画像
データを取得し、受信した音声信号とともに取得した擬
似画像データを送信制御装置37からTV電話50B側
に送信するのである。As described above, the communication server 30 acquires the pseudo image data based on the audio signal received from the TV telephone terminal 50A, and transmits the acquired pseudo image data together with the received audio signal from the transmission control device 37 to the TV telephone 50B. It is sent to the side.
【0061】TV電話50Bは、通信サーバ30からの
音声信号及び擬似画像データを通信制御装置51Bにお
いて受信し、制御装置52Bに受け渡す。そして、制御
装置52Bで取り出された音声信号はスピーカ53Bよ
り出力され、画像データはモニタ55Bに出力されるの
である。The TV telephone 50B receives the audio signal and the pseudo image data from the communication server 30 in the communication control device 51B, and transfers it to the control device 52B. Then, the audio signal extracted by the control device 52B is output from the speaker 53B, and the image data is output to the monitor 55B.
【0062】これとは逆に、TV電話50Bのマイク5
4Bで入力された音声は、通信サーバ30において音声
認識されるとともにマッピング処理され、擬似画像デー
タとともにTV電話50A側に送信される。On the contrary, the microphone 5 of the TV phone 50B
The voice input in 4B is voice-recognized and mapped in the communication server 30, and transmitted to the TV phone 50A together with the pseudo image data.
【0063】このようにして、TV電話50B側には、
TV電話50Aの利用者6の音声がスピーカ53Bで再
生されるとともに、当該音声に対応した擬似画像がモニ
タ55Bに出力され、TV電話50A側には、TV電話
50Bの利用者7の音声がスピーカ53Aで再生される
とともに、当該音声に対応した擬似画像がモニタ55A
に出力されるので、両利用者ともに、あたかも会話をし
ている相手の映像を見ているような状態で、通話が行え
るのである。Thus, the TV phone 50B side
The voice of the user 6 of the TV phone 50A is reproduced by the speaker 53B, a pseudo image corresponding to the voice is output to the monitor 55B, and the voice of the user 7 of the TV phone 50B is displayed on the TV phone 50A side. 53A, and a pseudo image corresponding to the sound is displayed on the monitor 55A.
Is output to the user, so that both users can talk as if they are watching the video of the other party in conversation.
【0064】なお、本実施の形態においては、通信サー
バ30の擬似画像データベース34は、利用者6及び利
用者7の双方の擬似画像データを保有していることにな
り、利用者6から利用者7への音声信号とともに送信さ
れる擬似画像データは利用者6が基本音声を発声してい
る擬似画像であり、利用者7から利用者6への音声信号
とともに送信される擬似画像データは利用者7が基本音
声を発声している擬似画像である。In this embodiment, the pseudo image database 34 of the communication server 30 holds the pseudo image data of both the user 6 and the user 7, and the user 6 The pseudo image data transmitted together with the audio signal to the user 7 is a pseudo image in which the user 6 utters the basic voice, and the pseudo image data transmitted together with the audio signal from the user 7 to the user 6 is the user. Reference numeral 7 denotes a pseudo image producing a basic sound.
【0065】このような構成とすることで、両者がカメ
ラを装備していない通信端末を利用している場合であっ
ても、擬似的に相手の姿を見ながらの会話が可能とな
る。そして、本実施の形態によれば、各利用者が使用す
る端末に、音声認識装置や擬似画像データベースを備え
る必要がないので、システム全体でのコスト低減が図れ
る。By adopting such a configuration, even when both use a communication terminal not equipped with a camera, it is possible to have a conversation while simulating the appearance of the other party. According to the present embodiment, the terminal used by each user does not need to be provided with a voice recognition device or a pseudo image database, so that the cost of the entire system can be reduced.
【0066】{基本音声及びマッピング装置}上述した
それぞれの実施の形態においては、基本音声は「あ」
「い」「う」「え」「お」の5つの母音と、「ん」音と
から構成される一例を説明したが、基本音声は、これに
限定されるものではなく、所定の言語についての音声を
発する人の表情をいくつかのパターンに分類した場合
に、そのパターンを代表する音声で構成すればよい。{Basic Voice and Mapping Apparatus} In each of the above-described embodiments, the basic voice is “A”.
An example has been described in which five vowels “I”, “U”, “E”, and “O” and “N” sound are used, but the basic voice is not limited to this. In the case where the expression of the person who utters the voice of the above is classified into several patterns, it may be constituted by the voice representing the pattern.
【0067】母音及び「ん」音から基本音声を構成した
ものを例に説明すると、音声を発声する人の表情、つま
り口元の形状は、その音声の母音を発声する人の表情と
似ているという性質を利用しているのである。つまり、
母音を発声する人の表情により、音声を発する人の表情
を5つのパターンに分類可能としているのである。ただ
し、口を閉じている状態の表情が5つの母音には存在し
ないため、基本音声に「ん」音を加えることにより、音
声を発している全ての表情を、母音及び「ん」音で網羅
するようにしているのである。To explain an example in which a basic voice is composed of vowels and "n" sounds, the expression of a person who utters the voice, that is, the shape of the mouth is similar to the expression of the person who utters the vowel of the voice. That is the nature of that. That is,
According to the expression of the person who utters the vowel, the expression of the person who utters the voice can be classified into five patterns. However, since the facial expression with the mouth closed does not exist in the five vowels, all facial expressions emitting voice are covered by vowels and "n" sounds by adding the "n" sound to the basic voice. They are trying to do it.
【0068】これと同様に、例えば、音声を発した人の
表情を、その特徴によって分類して、「口をとがらせた
状態で発する音声」や、「口を小さく閉ざした状態で発
する音声」などのパターンに分類し、それぞれのパター
ンの代表する音声を基本音声に設定し、同じパターンに
属する音声は、基本音声にマッピング(照合)するとと
もに、基本音声の擬似画像を利用するようにすればよ
い。Similarly, for example, the facial expression of the person who uttered the voice is classified according to its characteristics, and the "voice uttered with the mouth closed" or the "voice uttered with the mouth closed slightly" If the voices belonging to the same pattern are mapped (matched) to the basic voice and a pseudo image of the basic voice is used, Good.
【0069】このように、音声を基本音声に属するパタ
ーンに分類し、基本音声の擬似画像を利用する方法であ
れば、利用者の発生する言語が日本語でない場合であっ
ても影響を受けない。つまり、入力される音声が例えば
英語である場合には、英語の発音を基本音声を含むパタ
ーンで分類し、全ての音声を基本音声にマッピングする
ようにすればよいのである。また、入力される音声が英
語である場合でも、ある程度の精度の低下を許容するな
らば、日本語による音声認識を行うことで、上述した母
音及び「ん」音を基本音声とするマッピング方法をその
まま利用することも可能である。As described above, if the method is to classify voices into patterns belonging to the basic voices and use a pseudo image of the basic voices, there is no effect even if the language generated by the user is not Japanese. . That is, when the input voice is, for example, English, the English pronunciation may be classified by a pattern including the basic voice, and all voices may be mapped to the basic voice. In addition, even if the input voice is in English, if a certain degree of accuracy is tolerated, by performing voice recognition in Japanese, the above-described mapping method in which the vowel and the "n" sound are used as the basic voice is used. It can be used as it is.
【0070】{擬似画像データ}前述した実施の形態に
おいては、擬似画像データは、図7でも示したように、
基本音声を発声している人の表情を含む映像情報とし
た。一方、音声を発声している人の表情は、その口元に
最も特徴があらわれることから、擬似画像データは、口
元部分のみの映像情報としてもよい。この場合、図9に
示すように、口元以外の部分、つまり、目や鼻などの顔
の他の部分や、人の後ろの背景部分などは、共通部分と
して別の映像情報(共通画像データ)を容易しておき、
この共通部分の映像と、口元部分の映像情報(口元画像
データ)とを合成するようにしてもよい。{Pseudo Image Data} In the above-described embodiment, the pseudo image data is, as shown in FIG.
The video information includes the facial expression of the person uttering the basic sound. On the other hand, since the facial expression of the person who is uttering the voice has the most characteristic at the lip, the pseudo image data may be video information of only the lip. In this case, as shown in FIG. 9, parts other than the mouth, that is, other parts of the face such as eyes and nose, and a background part behind a person are different video information (common image data) as common parts. Make it easier,
The video of the common portion and the video information (mouth image data) of the mouth portion may be combined.
【0071】擬似画像データをこのような構成とするこ
とで、変動部分(口元部分)の画像データの容量を小さ
くできるため、擬似画像データベースの容量を小さくす
ることが可能となる。また、口元と目、口元とまゆな
ど、特徴部分を複数の画像データの組合せにしてもよ
い。When the pseudo image data is configured as described above, the capacity of the image data of the fluctuating portion (mouth portion) can be reduced, so that the capacity of the pseudo image database can be reduced. Further, the characteristic portion such as the lip and the eye and the lip and the eyebrows may be a combination of a plurality of image data.
【0072】{応用例}以上説明した擬似画像を利用し
た通信端末等は、通信(通話)を行う双方が、カメラを
装備したTV電話を所有していなくても、擬似的にTV
電話としての機能を維持する効果が得られるものである
が、カメラの装備の有無に関係なく、次に示すような様
々な応用が可能である。<< Application Example >> A communication terminal or the like using a pseudo image described above can perform pseudo-TV communication even if both parties performing communication (call) do not own a TV phone equipped with a camera.
Although the effect of maintaining the function as a telephone can be obtained, various applications as described below are possible regardless of the presence or absence of a camera.
【0073】(1)留守録モード 会議中や電車の中などにいる場合など、電話にでられな
い状態の時には、携帯電話を留守番録音モードとする場
合があるが、この留守番録音モードにおいて電話がかか
ってきた場合には、あらかじめ録音した、若しくは、あ
らかじめ携帯電話が保有している留守番メッセージが流
される。そして、この留守番メッセージの音声に対して
も基本音声へのマッピングを行い、擬似画像データを取
得することで、留守番メッセージとともに擬似画像デー
タを通話相手に送信することが可能である。これによっ
て、あたかも本人が喋っているような留守番メッセージ
を送信することができる。(1) Answering Machine Mode When the telephone cannot be answered, such as during a meeting or in a train, the mobile phone may be in the answering machine recording mode. When the call arrives, an answering machine message recorded in advance or held in advance by the mobile phone is played. Then, by mapping the voice of the answering machine message to the basic voice and acquiring the pseudo image data, it is possible to transmit the pseudo image data together with the answering machine message to the other party. Thereby, it is possible to transmit an answering machine message as if the person is talking.
【0074】また、留守番録音モード中に電話をかけて
きた通話相手が、メッセージを残した場合にも、その通
話相手の擬似画像データを保有している場合には、あた
かも本人が喋っているようなメッセージを後から確認す
ることができる。Also, if the other party who calls the telephone while in the answering machine recording mode leaves a message, but has pseudo image data of the other party, it is as if the person is talking. Message can be checked later.
【0075】(2)エージェントモード 前述した実施の形態においては、擬似画像データは、音
声を発する人の表情であり、実際に通話を行っている人
の擬似画像データを送信することで、あたかも本人が喋
っているような効果を発揮するものであるが、この擬似
画像をまったく別の人の映像や、アニメーションのキャ
ラクタなどの映像で代用するようにしてもよい。(2) Agent Mode In the above-described embodiment, the pseudo image data is a facial expression of a person who emits a voice. By transmitting the pseudo image data of a person who is actually talking, the pseudo image data is transmitted. The pseudo image is effective, but the pseudo image may be replaced with an image of a completely different person or an image of an animated character or the like.
【0076】例えば、どうしても話し辛い内容を相手に
伝える場合、代わりにアニメーションのキャラクタの映
像を用いて会話をするといった使い方が可能である。ま
た、いやがらせ電話の被害を受けている女性が、かわり
に強面の男性の擬似画像を利用して、撃退対策を打つな
どの使い方も可能である。このようなエージェントのキ
ャラクタは、たとえば、インターネット等で提供される
データをダウンロードすることで入手できるようにして
もよい。For example, when it is absolutely necessary to convey difficult-to-talk content to the other party, it is possible to use a method of having a conversation using an animation character image instead. In addition, it is also possible to use such a method that a woman suffering from a harassment telephone call uses a pseudo image of a strong man to take measures against repulsion instead. Such an agent character may be obtained, for example, by downloading data provided on the Internet or the like.
【0077】(3)背景モード 擬似画像データは、基本音声のそれぞれの音声に対応し
た画像を一通り用意すればよいが、1つの基本音声に対
して複数種類の擬似画像データを擬似画像データベース
に蓄積するようにしてもよい。つまり、基本音声である
「あ」という音声に対して、背景の異なる複数種類の擬
似画像データを蓄積しておくのである。(3) Background Mode For the pseudo image data, it is only necessary to prepare one image corresponding to each of the basic sounds, but a plurality of types of pseudo image data for one basic sound is stored in the pseudo image database. You may make it accumulate. In other words, a plurality of types of pseudo image data having different backgrounds are stored for the sound "a" as the basic sound.
【0078】例えば、「社内用」の擬似画像データとし
て、社内で撮影した基本音声に対応する擬似画像データ
を通話先に送信すれば、社外にいる場合であっても、あ
たかも社内から電話をしているような効果が得られる。
また、「観光用」の擬似画像データとして、いずれかの
観光地で基本音声に対応した画像を撮影しておけば、観
光地から戻った後であっても、あたかも観光地から電話
をかけているような効果が得られる。For example, if pseudo image data corresponding to the basic sound taken in the company is transmitted to the called party as pseudo image data for “in-house”, even if the user is outside the company, it is as if a call is made from within the company. The effect as described above is obtained.
Also, if you shoot an image corresponding to the basic sound at any of the sightseeing spots as pseudo image data for "sightseeing", you can call from the sightseeing spot even if you return from the sightseeing spot The same effect can be obtained.
【0079】このように背景の異なる複数種類の擬似画
像データを利用することで、様々な用途に応じた利用が
可能となる。背景モードは、例えば図1で示した実施の
形態を例にすれば、擬似画像データベース14に、「社
内用」、「観光用」等の複数種類の擬似画像データを蓄
積しておき、操作装置10aで、背景モードの切替操作
を可能にしておけばよい。これにより、擬似画像取得装
置12bは、マッピングされた基本音声と背景モードに
応じた擬似画像データを取得し、通信先には、背景モー
ドに対応した擬似画像が送信されるのである。By using a plurality of types of pseudo image data having different backgrounds as described above, it is possible to use the pseudo image data according to various uses. In the background mode, for example, in the embodiment shown in FIG. 1, a plurality of types of pseudo image data such as “for office” and “for sightseeing” are stored in the pseudo image database 14 and the operation device At 10a, the switching operation of the background mode may be enabled. As a result, the pseudo image acquisition device 12b acquires the mapped basic sound and the pseudo image data corresponding to the background mode, and the pseudo image corresponding to the background mode is transmitted to the communication destination.
【0080】[0080]
【発明の効果】以上説明したように、請求項1記載の発
明では、送信側の通信端末において、音声認識を行うと
ともに擬似画像データを生成し、通信先に音声及び擬似
画像を送信するように構成したので、送信側がカメラを
搭載していない端末であっても、擬似的にテレビ電話と
同様の効果が得られる。As described above, according to the first aspect of the present invention, the communication terminal on the transmitting side performs the speech recognition, generates the pseudo image data, and transmits the voice and the pseudo image to the communication destination. With this configuration, even if the transmitting side is a terminal not equipped with a camera, the same effect as a videophone can be obtained in a pseudo manner.
【0081】請求項2の発明では、受信側の通信端末に
おいて、受信した音声の音声認識を行うとともに擬似画
像データを生成し、音声をスピーカに、擬似画像データ
をモニタに出力するように構成したので、送信側がカメ
ラを搭載していない端末であっても、擬似的にテレビ電
話と同様の効果が得られる。また、通信ネットワークに
は音声信号のみが送信されるので、回線の負荷を軽減さ
せることが可能となる。According to the second aspect of the present invention, the communication terminal on the receiving side is configured to perform voice recognition of the received voice, generate pseudo image data, and output the voice to the speaker and the pseudo image data to the monitor. Therefore, even if the transmitting side is a terminal without a camera, the same effect as a videophone can be obtained. Further, since only the audio signal is transmitted to the communication network, the load on the line can be reduced.
【0082】請求項3または請求項12の発明では、中
間の通信サーバが、送信側通信端末から送信された音声
の音声認識を行うとともに擬似画像データを生成し、音
声および擬似画像データを受信側通信端末に送信するよ
う構成したので、送信側がカメラを搭載していない端末
であっても、擬似的にテレビ電話と同様の効果が得られ
る。さらに、音声認識装置や擬似画像データベースを通
信サーバのみが備えればよいので、システム全体として
のコストを低くすることができる。According to the third or twelfth aspect of the present invention, the intermediate communication server performs voice recognition of the voice transmitted from the transmitting side communication terminal, generates pseudo image data, and transmits the voice and the pseudo image data to the receiving side. Since the transmission is performed to the communication terminal, even if the transmission side is a terminal not equipped with a camera, the same effect as a videophone can be obtained in a pseudo manner. Furthermore, since only the communication server needs to include the voice recognition device and the pseudo image database, the cost of the entire system can be reduced.
【0083】請求項4の発明では、擬似画像データは、
基本音声を発声する人の表情を含む映像情報としたの
で、擬似画像データを見ている通話先の相手は、あたか
も本人が喋っているような感覚が得られる。According to the fourth aspect of the present invention, the pseudo image data is
Since the video information includes the expression of the person who utters the basic voice, the other party who is looking at the pseudo image data can feel as if he or she is talking.
【0084】請求項5の発明では、擬似画像データは、
基本音声を発声する人の口元の形状をあらわす映像情報
としたので、擬似画像データを見ている通話先の相手
は、あたかも本人が喋っているような感覚が得られる。
また、変動部分の画像データの容量を小さくすること
で、擬似画像データベースの容量を節約することが可能
となる。According to the fifth aspect of the present invention, the pseudo image data is
Since the video information represents the shape of the mouth of the person who utters the basic sound, the other party who is looking at the pseudo image data can feel as if the person is talking.
Further, by reducing the capacity of the image data of the fluctuating portion, it is possible to save the capacity of the pseudo image database.
【0085】請求項6の発明では、擬似画像データベー
スは、1つの基本音声に対して、背景の異なる複数種類
の擬似画像データを備えるので、実際に通話をしている
場所とは別の場所から通話をしているような効果を得る
ことができる。According to the sixth aspect of the present invention, the pseudo image database includes a plurality of types of pseudo image data having different backgrounds for one basic voice. It is possible to obtain the effect of making a call.
【0086】請求項7または請求項8の発明では、基本
音声は5つの母音を含むので、音声を発声する人の表情
を最小限の基本音声で分類可能となる。According to the seventh or eighth aspect of the present invention, since the basic voice includes five vowels, it is possible to classify the facial expression of the person who utters the voice with the minimum basic voice.
【0087】請求項9または請求項10の発明では、基
本音声は5つの母音及び「ん」音を含むので、音声を発
する人の表情を最小限の基本音声で分類可能であり、か
つ、網羅的に分類可能となる。According to the ninth or tenth aspect of the present invention, since the basic voice includes five vowels and the "n" sound, the facial expression of a person who emits the voice can be classified with the minimum basic voice, and the basic voice can be covered. Classification is possible.
【0088】請求項11に記載の発明では、請求項1な
いし請求項10のいずれかの通信システム用装置を用い
ることにより、擬似画像を利用した多様なシステムを構
成可能とし、上述した効果が得られる。According to the eleventh aspect of the present invention, by using the communication system apparatus according to any one of the first to tenth aspects, it is possible to configure various systems using a pseudo image, and the above-described effects are obtained. Can be
【図1】送信端末において擬似画像データを作成する実
施の形態の端末及びシステム構成図である。FIG. 1 is a configuration diagram of a terminal and a system according to an embodiment for creating pseudo image data in a transmission terminal.
【図2】図1で示す実施の形態におけるデータの流れを
示す図である。FIG. 2 is a diagram showing a data flow in the embodiment shown in FIG.
【図3】受信端末において擬似画像データを作成する実
施の形態の端末及びシステム構成図である。FIG. 3 is a diagram showing a terminal and system configuration of an embodiment for generating pseudo image data in a receiving terminal.
【図4】図2で示す実施の形態におけるデータの流れを
示す図である。FIG. 4 is a diagram showing a data flow in the embodiment shown in FIG.
【図5】中間のサーバにおいて擬似画像データを作成す
る実施の形態の端末及びシステム構成図である。FIG. 5 is a diagram showing a terminal and system configuration of an embodiment for creating pseudo image data in an intermediate server.
【図6】図5で示す実施の形態におけるデータの流れを
示す図である。FIG. 6 is a diagram showing a data flow in the embodiment shown in FIG.
【図7】基本音声と擬似画像の対応関係を示す図であ
る。FIG. 7 is a diagram showing a correspondence between a basic sound and a pseudo image.
【図8】マッピング装置の処理の概要を示す図である。FIG. 8 is a diagram illustrating an outline of processing of a mapping device.
【図9】口元画像を利用した擬似画像データの構成を示
す図である。FIG. 9 is a diagram showing a configuration of pseudo image data using a lip image.
10 画像生成通信端末 11 通信制御装置 12 制御装置 12a マッピング装置 12b 擬似画像取得装置 14 擬似画像データベース 15 音声認識装置 16 スピーカ 17 マイク 18 モニタ 19 カメラ 50 TV電話 51 通信制御装置 52 制御装置 53 スピーカ 54 マイク 55 モニタ Reference Signs List 10 image generation communication terminal 11 communication control device 12 control device 12a mapping device 12b pseudo image acquisition device 14 pseudo image database 15 voice recognition device 16 speaker 17 microphone 18 monitor 19 camera 50 TV phone 51 communication control device 52 control device 53 speaker 54 microphone 55 monitors
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04N 5/76 G10L 5/06 D (72)発明者 桑名 稔 大阪府大阪市中央区安土町二丁目3番13号 大阪国際ビル ミノルタ株式会社内 (72)発明者 本田 努 大阪府大阪市中央区安土町二丁目3番13号 大阪国際ビル ミノルタ株式会社内 (72)発明者 石丸 和彦 大阪府大阪市中央区安土町二丁目3番13号 大阪国際ビル ミノルタ株式会社内 (72)発明者 長田 英喜 大阪府大阪市中央区安土町二丁目3番13号 大阪国際ビル ミノルタ株式会社内 Fターム(参考) 5C052 AA12 AB04 AC02 DD02 DD06 EE03 5D015 AA01 BB02 CC18 KK02 5K101 KK04 LL12 MM07 NN07 NN08 NN16 NN18 NN23 NN36 NN37──────────────────────────────────────────────────の Continued on the front page (51) Int.Cl. 7 Identification symbol FI Theme coat ゛ (Reference) H04N 5/76 G10L 5/06 D (72) Inventor Minoru Kuwana 2-3 Azuchicho, Chuo-ku, Osaka-shi, Osaka No. 13 Osaka International Building Minolta Co., Ltd. (72) Inventor Tsutomu Honda 2-3-3 Azuchicho, Chuo-ku, Osaka City, Osaka Prefecture Osaka International Building Minolta Co., Ltd. (72) Inventor Kazuhiko Ishimaru Chuo, Osaka City, Osaka Osaka International Building Minolta Co., Ltd. 2-3-1-13 Azuchi-cho, Ward (72) Inventor Hideki Nagata 2-3-13 Azuchi-cho, Chuo-ku, Osaka-shi, Osaka F-term in Osaka International Building Minolta Co., Ltd. 5C052 AA12 AB04 AC02 DD02 DD06 EE03 5D015 AA01 BB02 CC18 KK02 5K101 KK04 LL12 MM07 NN07 NN08 NN16 NN18 NN23 NN36 NN37
Claims (12)
信システム用装置であって、 前記通信システム用装置は通信端末として構成されてお
り、 前記通信端末が、 音声を入力するマイクと、 前記マイクから音声信号を受け取り、音声の認識を行う
音声認識装置と、 前記音声認識装置が認識した音声と、あらかじめ定めら
れた基本音声との照合を行うマッピング装置と、 前記あらかじめ定められた基本音声に対応した擬似画像
データを蓄積する擬似画像データベースと、 前記照合された基本音声に対応する擬似画像データを前
記擬似画像データベースから取得する擬似画像取得装置
と、 前記マイクより入力した音声の音声信号と、前記擬似画
像取得装置が取得した擬似画像データとを指定された通
信先端末に送信する通信制御装置と、を備えることを特
徴とする通信システム用装置。An apparatus for a communication system enabling communication by voice and image, wherein the apparatus for a communication system is configured as a communication terminal, wherein the communication terminal includes: a microphone for inputting sound; A voice recognition device that receives a voice signal from the voice recognition device and performs voice recognition; a mapping device that performs matching between the voice recognized by the voice recognition device and a predetermined basic voice; and corresponds to the predetermined basic voice. A pseudo image database that accumulates the obtained pseudo image data, a pseudo image acquisition device that obtains pseudo image data corresponding to the collated basic sound from the pseudo image database, an audio signal of an audio input from the microphone, A communication control device for transmitting the pseudo image data acquired by the pseudo image acquisition device to the designated communication destination terminal. Communication system, characterized in Rukoto device.
信システム用装置であって、 前記通信システム用装置は通信端末として構成されてお
り、 前記通信端末が、 通信先端末から送信された音声信号を受信する通信制御
装置と、 前記通信制御装置が受信した音声信号より、音声の認識
を行う音声認識装置と、 前記音声認識装置が認識した音声と、あらかじめ定めら
れた基本音声との照合を行うマッピング装置と、 前記あらかじめ定められた基本音声に対応した擬似画像
データを蓄積する擬似画像データベースと、 前記照合された基本音声に対応する擬似画像データを前
記擬似画像データベースから取得する擬似画像取得装置
と、 前記通信制御装置が受信した音声信号を音声として再生
するスピーカと、 当該擬似画像取得装置が取得した擬似画像データを出力
するモニタと、を備えることを特徴とする通信システム
用装置。2. An apparatus for a communication system that enables communication by voice and image, wherein the apparatus for a communication system is configured as a communication terminal, and the communication terminal transmits an audio signal transmitted from a communication destination terminal. A voice recognition device that recognizes a voice from a voice signal received by the communication control device; and performs collation between a voice recognized by the voice recognition device and a predetermined basic voice. A mapping device, a pseudo image database storing pseudo image data corresponding to the predetermined basic sound, and a pseudo image obtaining device obtaining pseudo image data corresponding to the collated basic sound from the pseudo image database. A speaker that reproduces an audio signal received by the communication control device as audio; And a monitor for outputting similar image data.
システム用装置であって、 前記通信システム用装置は通信サーバとして構成されて
おり、 前記通信サーバが、 送信側通信端末から送信された音声信号を受信する受信
制御装置と、 前記受信制御装置が受信した音声信号より、音声の認識
を行う音声認識装置と、 前記音声認識装置が認識した音声と、あらかじめ定めら
れた基本音声との照合を行うマッピング装置と、 前記あらかじめ定められた基本音声に対応した擬似画像
データを蓄積する擬似画像データベースと、 前記照合された基本音声に対応する擬似画像データを前
記擬似画像データベースから取得する擬似画像取得装置
と、 前記受信制御装置が受信した音声信号と、前記擬似画像
取得装置が取得した擬似画像データとを送信側通信端末
に送信する送信制御装置と、を備えることを特徴とする
通信システム用装置。3. An apparatus for a communication system which enables communication by voice and image, wherein said apparatus for a communication system is configured as a communication server, and said communication server transmits a voice transmitted from a communication terminal on the transmitting side. A reception control device that receives a signal, a speech recognition device that performs speech recognition from a speech signal received by the reception control device, and a comparison between a speech recognized by the speech recognition device and a predetermined basic speech. A pseudo-image database that stores pseudo-image data corresponding to the predetermined basic sound; and a pseudo-image acquisition device that obtains pseudo image data corresponding to the collated basic sound from the pseudo image database. Transmitting the audio signal received by the reception control device and the pseudo image data acquired by the pseudo image acquisition device Communication system, characterized in that it comprises a transmission control unit that transmits to the communication terminal apparatus.
載の通信システム用装置であって、 前記擬似画像データは、 前記基本音声を発声する人の表情を含む映像情報である
ことを特徴とする通信システム用装置。4. The communication system device according to claim 1, wherein the pseudo image data is video information including a facial expression of a person who utters the basic sound. Communication system device.
載の通信システム用装置であって、 前記擬似画像データは、 前記基本音声を発声する人の口元の形状をあらわす映像
情報であることを特徴とする通信システム用装置。5. The communication system device according to claim 1, wherein the pseudo image data is video information representing a shape of a mouth of a person who utters the basic sound. An apparatus for a communication system, comprising:
ステム用装置であって、 前記擬似画像データベースは、 同一の前記基本音声に対して、背景の異なる複数種類の
擬似画像データを備えることを特徴とする通信システム
用装置。6. The communication system device according to claim 4, wherein the pseudo image database includes a plurality of types of pseudo image data having different backgrounds for the same basic sound. An apparatus for a communication system, comprising:
載の通信システム用装置であって、 前記基本音声は、所定の言語についての5つの母音の組
合せを含み、 前記擬似画像データベースは、少なくとも前記各母音に
対応した擬似画像データを備えることを特徴とする通信
システム用装置。7. The communication system device according to claim 4, wherein the basic voice includes a combination of five vowels for a predetermined language, and the pseudo image database includes: An apparatus for a communication system, comprising at least pseudo image data corresponding to each of the vowels.
あって、 前記マッピング装置は、前記音声認識装置が認識した音
声に、当該音声の母音を照合する機能を含むことを特徴
とする通信システム用装置。8. The communication system device according to claim 7, wherein the mapping device includes a function of comparing a vowel of the voice with a voice recognized by the voice recognition device. System equipment.
載の通信システム用装置であって、 前記基本音声は、日本語についての5つの母音及び
「ん」音を含み、 前記擬似画像データベースは、少なくとも前記各母音及
び「ん」音に対応した擬似画像データを備えることを特
徴とする通信システム用装置。9. The communication system device according to claim 4, wherein the basic voice includes five vowels and “n” sound for Japanese, and the pseudo image database. Comprises at least pseudo image data corresponding to each of the vowels and the "n" sound.
通信システム用装置であって、 前記マッピング装置は、前記音声認識装置が認識した音
声が「ん」音以外の音声である場合、当該音声に当該音
声の母音を照合し、前記音声認識装置が認識した音声が
「ん」音である場合、当該「ん」音をそのまま照合する
機能を含むことを特徴とする通信システム用装置。10. The communication system device using the pseudo image according to claim 9, wherein the mapping device is configured to, when the voice recognized by the voice recognition device is a voice other than the “n” sound. An apparatus for a communication system, comprising a function of collating a vowel of the voice with the voice and, when the voice recognized by the voice recognition device is a "n" sound, collating the "n" sound as it is.
通信システムであって、 送信側通信端末から受信側通信端末に至るまでの通信に
関与する複数の通信装置のうちの特定の通信装置が、請
求項1ないし請求項10のいずれかの通信システム用装
置によって構成されていることを特徴とする通信システ
ム。11. A communication system capable of voice and image communication, wherein a specific communication device among a plurality of communication devices involved in communication from a transmitting communication terminal to a receiving communication terminal is: A communication system comprising the communication system device according to any one of claims 1 to 10.
って、 前記特定の通信装置が、前記送信側通信端末と前記受信
側通信端末との通信を中継する通信サーバであることを
特徴とする通信システム。12. The communication system according to claim 11, wherein the specific communication device is a communication server that relays communication between the transmitting communication terminal and the receiving communication terminal. Communications system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000186284A JP2002009963A (en) | 2000-06-21 | 2000-06-21 | Communication system device and communication system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000186284A JP2002009963A (en) | 2000-06-21 | 2000-06-21 | Communication system device and communication system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002009963A true JP2002009963A (en) | 2002-01-11 |
Family
ID=18686476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000186284A Pending JP2002009963A (en) | 2000-06-21 | 2000-06-21 | Communication system device and communication system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2002009963A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1480425A1 (en) * | 2003-05-20 | 2004-11-24 | NTT DoCoMo, Inc. | Portable terminal and program for generating an avatar based on voice analysis |
EP1559092A2 (en) * | 2002-11-04 | 2005-08-03 | Motorola, Inc. | Avatar control using a communication device |
JP2015088780A (en) * | 2013-10-28 | 2015-05-07 | アイホン株式会社 | Intercom system |
JP2016126500A (en) * | 2014-12-26 | 2016-07-11 | Kddi株式会社 | Wearable terminal device and program |
-
2000
- 2000-06-21 JP JP2000186284A patent/JP2002009963A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1559092A2 (en) * | 2002-11-04 | 2005-08-03 | Motorola, Inc. | Avatar control using a communication device |
EP1559092A4 (en) * | 2002-11-04 | 2006-07-26 | Motorola Inc | Avatar control using a communication device |
EP1480425A1 (en) * | 2003-05-20 | 2004-11-24 | NTT DoCoMo, Inc. | Portable terminal and program for generating an avatar based on voice analysis |
US7486969B2 (en) | 2003-05-20 | 2009-02-03 | Ntt Docomo, Inc. | Transmitting portable terminal |
JP2015088780A (en) * | 2013-10-28 | 2015-05-07 | アイホン株式会社 | Intercom system |
JP2016126500A (en) * | 2014-12-26 | 2016-07-11 | Kddi株式会社 | Wearable terminal device and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2621153B1 (en) | Portable terminal, response message transmitting method and server | |
US8285257B2 (en) | Emotion recognition message system, mobile communication terminal therefor and message storage server therefor | |
US5848134A (en) | Method and apparatus for real-time information processing in a multi-media system | |
JP2004289254A (en) | Videophone terminal | |
WO2006025461A1 (en) | Push information communication system accompanied by telephone communication | |
WO2003063483A1 (en) | Communication apparatus | |
CN114845081A (en) | Information processing apparatus, recording medium, and information processing method | |
US20060074624A1 (en) | Sign language video presentation device , sign language video i/o device , and sign language interpretation system | |
US20100079573A1 (en) | System and method for video telephony by converting facial motion to text | |
JP2003125086A (en) | Communication system with system component for confirming preparer of transmission | |
CN113194203A (en) | Communication system, answering and dialing method and communication system for hearing-impaired people | |
KR20220109373A (en) | Method for providing speech video | |
KR100941598B1 (en) | telephone communication system and method for providing users with telephone communication service comprising emotional contents effect | |
JP2002009963A (en) | Communication system device and communication system | |
JPS62274962A (en) | Picture telephone system | |
JP2004193809A (en) | Communication system | |
JP2001268078A (en) | Communication controller, its method, providing medium and communication equipment | |
JP4896118B2 (en) | Video phone terminal | |
JP2008067078A (en) | Portable terminal apparatus | |
JP2019176386A (en) | Communication terminals and conference system | |
JP7361460B2 (en) | Communication devices, communication programs, and communication methods | |
JP3031320B2 (en) | Video conferencing equipment | |
KR100945162B1 (en) | System and method for providing ringback tone | |
JP2006140596A (en) | Communication terminal | |
JPH03270390A (en) | Pseudo moving image tv telephone |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20050615 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20051114 |