JPH0216681A - Winking signal generating system for face animation picture synthesizing - Google Patents
Winking signal generating system for face animation picture synthesizingInfo
- Publication number
- JPH0216681A JPH0216681A JP63168482A JP16848288A JPH0216681A JP H0216681 A JPH0216681 A JP H0216681A JP 63168482 A JP63168482 A JP 63168482A JP 16848288 A JP16848288 A JP 16848288A JP H0216681 A JPH0216681 A JP H0216681A
- Authority
- JP
- Japan
- Prior art keywords
- random number
- value
- vocalization
- pulse
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Processing Or Creating Images (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.
Description
【発明の詳細な説明】
[目 次]
概要
産業上の利用分野
従来の技術(第19図)
発明が解決しようとする課題
課題を解決するための手段(第1図)
作 用(第1図)
実施例
第1実施例の説明(第2〜12図)
第2実施例の説明(第13図)
第3実施例の説明(第14〜18図)
発明の効果
[概 要]
初期化時に伝送される少数の初期化データを用いること
により、通信中に伝送される音声情報に応じて、受信側
で顔の動画像を合成して表示するものにおいて、顔動画
像合成用のまばたき信号を発生する方式に関し、
話をしている時と、そうでない時とで、まばたきの様子
を変えることができるようにして、より自然な動画像の
合成を可能にすることを目的とし、初期化時に、初期化
データとして1発声中および非発声中における各まばた
きの時間間隔の平均値、II準偏差を伝送し、通信時に
は、発声中および非発声中における各まばたきの時間間
隔の平均値、標準偏差に応じた正規分布に従う時間間隔
で。[Detailed description of the invention] [Table of contents] Overview Industrial field of application Prior art (Figure 19) Means for solving the problem to be solved by the invention (Figure 1) Effect (Figure 1) ) Embodiment Description of the first embodiment (Figs. 2 to 12) Description of the second embodiment (Fig. 13) Description of the third embodiment (Figs. 14 to 18) Effects of the invention [Summary] At the time of initialization By using a small amount of initialization data that is transmitted, it is possible to generate a blink signal for facial dynamic image synthesis in a device that synthesizes and displays facial dynamic images on the receiving side according to audio information transmitted during communication. Regarding the method of blinking, the aim is to make it possible to change the way the blinking occurs depending on whether you are talking or not, and to make it possible to synthesize more natural video images. , 1 The average value and standard deviation of the time interval of each blink during utterance and non-utterance are transmitted as initialization data, and during communication, the average value and standard deviation of the time interval of each blink during utterance and non-utterance are transmitted. at time intervals that follow a normal distribution according to .
発声時用パルス列信号および非発声時用パルス列信号を
それぞれ発生し、受信側で、音声入力検出部で検出した
検出信号に応じて、発声中は、発声時用パルス列信号を
まばたき信号として出力するとともに、非発声中は、非
発声時用パルス列信号をまばたき信号として出力するよ
うに構成する。A pulse train signal for vocalization and a pulse train signal for non-vocalizing are respectively generated, and the receiving side outputs the pulse train signal for vocalization as a blink signal during vocalization according to the detection signal detected by the audio input detection section. , during non-utterance, the pulse train signal for non-utterance is output as a blink signal.
[産業上の利用分野]
本発明は、初期化時に伝送される少数の初期化データを
用いることにより、通信中に伝送される音声情報に応じ
て、受信側で顔の動画像を合成して表示するものにおい
て、顔動画像合成用のまばたき信号を発生する方式に関
する。[Industrial Application Field] The present invention uses a small amount of initialization data transmitted at the time of initialization to synthesize a moving image of a face on the receiving side according to audio information transmitted during communication. The present invention relates to a method of generating a blink signal for facial moving image synthesis in a display.
テレビ(TV)電話、TV会議等においては、最終的に
公衆電話回線を利用した伝送方式を採用することが目標
とされており、このため、得られた画像情報を可能な限
り圧縮することが要望されている。The goal is to eventually adopt a transmission method that uses public telephone lines for television (TV) telephones, TV conferences, etc., and for this reason, it is necessary to compress the obtained image information as much as possible. It is requested.
[従来の技術]
TV電話等において伝送される画像は1通常、人物の原
動画像であるが、かかる動画像情報は。[Prior Art] Images transmitted in video telephones etc. are usually moving images of people, but such moving image information.
第19図に示すように、音声情報とは独立して伝送され
るのが従来からの方式である4、即ち、入力画像は、送
信側においてTVカメラ61によりアナログ画像信号と
して発生され、この画像信号は画像符号化装置62でデ
ィジタル信号に変換されて符号化され圧縮されて受信側
に送られる。受信側では、画像復号化装置63により受
信画像を元の信号に復号化してデイスプレィ64に出力
画像として表示する。As shown in FIG. 19, in the conventional method 4, the input image is transmitted independently of the audio information, that is, the input image is generated as an analog image signal by the TV camera 61 on the transmitting side, and the input image is The signal is converted into a digital signal by an image encoding device 62, encoded, compressed, and sent to the receiving side. On the receiving side, an image decoding device 63 decodes the received image into an original signal and displays it on a display 64 as an output image.
また、入力音声は送信側でマイクロ5で音声情報として
得た後、音声符号化装置66で音声特有の符号化を行な
って圧縮した後、受信側で音声復号化装置67で復号化
されてスピーカー68から出力音声として得られる。In addition, the input voice is obtained as voice information by the micro 5 on the transmitting side, and is then compressed by voice-specific encoding in the voice encoding device 66. Then, on the receiving side, it is decoded by the voice decoding device 67, and then it is transmitted to the speaker. 68 as output audio.
しかしながら、このような従来から一般的に行なわれて
きた動画像の伝送方式は、動画像の情報量が大きいため
、低ビツトレートの通信回線を利用することができず、
コストが高くなってしまうとともに、公衆電話回線を利
用したTV電話等の適用には程遠いという問題点があっ
た。However, since the amount of information contained in moving images is large, this conventional video transmission method that has been commonly used cannot use low bit rate communication lines.
There were problems in that the cost was high and that it was far from being applicable to TV telephones using public telephone lines.
そこで、送信側からは例えば顔の静止画情報をあらかじ
め送っておき、受信側で、送信側から送られてくる音声
情報からこの音声情報に適合するように、口の部分だけ
を変形させて、画像を再生することも考えられる。Therefore, the sending side sends, for example, still image information of the face in advance, and the receiving side deforms only the mouth part to match the audio information sent from the sending side. It is also possible to play back images.
しかし、これでは顔の表情の中で重要な位置を占める瞼
が全く動かず、不自然さが増すという問題点がある。However, this has the problem that the eyelids, which play an important role in facial expressions, do not move at all, which increases the unnaturalness.
そこで、更に口の部分の変形に加えて、まばたきをラン
ダムに行なわせることにより、顔の表情に不自然さを出
さないようにしながら、原動画の情報をより圧縮できる
ようにした画像伝送方式も提案されている。Therefore, in addition to the deformation of the mouth area, an image transmission method has also been developed that makes it possible to further compress the information in the original video while making the facial expressions look less unnatural by making the eyes blink randomly. Proposed.
[発明が解決しようとする課題]
しかしながら、このように口の部分の変形に加えてまば
たきをランダムに行なわせる従来の手段では、まばたき
の発生が全くランダムなものであるため、話をしている
ときでもそうでないときでも、まばたきの様子は変わら
ず、やはり不自然さが残るため、なんらかの改善が望ま
れている。[Problem to be solved by the invention] However, with the conventional means of deforming the mouth and blinking randomly, the occurrence of blinking is completely random, so it is difficult to talk. No matter when the eyes are blinking or not, the way the eyes blink remains the same, and it still feels unnatural, so some kind of improvement is desired.
本発明は、このような状況下において創案されたもので
、話をしているときと、そうでないときとで、まばたき
の様子を変えることができるようにして、より自然な動
画像の合成を可能にした。The present invention was devised under these circumstances, and allows for the synthesis of more natural moving images by making it possible to change the way the eyes blink depending on whether they are talking or not. made possible.
顔動画像合成用まばたき信号発生方式を提供することを
目的とする。The purpose of this invention is to provide a blink signal generation method for facial dynamic image synthesis.
[課題を解決するための手段] 第1図は本発明の原理ブロック図である。[Means to solve the problem] FIG. 1 is a block diagram of the principle of the present invention.
第1図において、28は顔動画像合成用まばたき信号発
生部で、このまばたき信号発生部28は。In FIG. 1, reference numeral 28 denotes a blink signal generation section for facial moving image synthesis;
標準正規乱数テーブル281.第1.第2の乱数変換部
282,283.第1.第2のパルス発生部284,2
85.音声入力検出部286.パルス列選択部287を
そなえて構成されている。Standard normal random number table 281. 1st. Second random number converter 282, 283. 1st. Second pulse generator 284,2
85. Audio input detection section 286. It is configured to include a pulse train selection section 287.
ここで、標準正規乱数テーブル281は、平均値O2標
準偏差1の正規分布に従う乱数系列Ui(i=1.2,
3. ・・、nj;nは十分大きな整数)の値を記憶
したテーブルである。Here, the standard normal random number table 281 is a random number series Ui (i=1.2,
3. ..., nj; n is a sufficiently large integer).
第1の乱数変換部282は、初期化時に発声中における
まばたきの時間間隔の平均値m工と標準偏差σ、とを受
けて、通信が開始されると、標準正規乱数テーブル28
1の1より乱数値Uiを読み出し、これに(1)式のよ
うな変換を施して平均値m、と標準偏差σ1の正規分布
に従う乱数値Xに変換するものであり、同様に、第2の
乱数変換部283も、初期化時に非発声中におけるまば
たきの時間間隔の平均値m2と標準偏差σ2とを受けて
、通信が開始されると、標準正規乱数テーブル281の
1より乱数値Uiを読み出し、これに(2)式のような
変換を施して平均値m2と標準偏差σ2の正規分布に従
う乱数値Xに変換するものである。The first random number conversion unit 282 receives the average value m and the standard deviation σ of the time interval of blinking during utterance at the time of initialization, and when communication is started, the standard normal random number table 282
The random value Ui is read from 1 of 1, and it is converted as shown in equation (1) to convert it into a random value X that follows a normal distribution with a mean value m and standard deviation σ1.Similarly, the second The random number conversion unit 283 also receives the average value m2 and standard deviation σ2 of the blink time during non-utterance at the time of initialization, and when communication starts, it converts the random number Ui from 1 in the standard normal random number table 281. This is read out and subjected to conversion as shown in equation (2) to convert it into a random value X that follows a normal distribution with an average value m2 and a standard deviation σ2.
X=UiX a1+m1 (但しX>O)−−(1)X
=UiXcr、+m、 (但しX>0)−−(2)第
1のパルス発生部284は、第1の乱数変換部282よ
り乱数値Xが入力されると、クロックをカウントし、カ
ウント値が乱数値Xの値と等しくなると、パルスを発生
し、その後、第1の乱数変換部282へ制御信号を発生
して、次の乱数値Xの値を入力し、同じ処理を繰り返す
ことにより。X=UiX a1+m1 (X>O) --(1)X
= UiXcr, +m, (where X > 0) -- (2) When the first pulse generator 284 receives the random value When it becomes equal to the value of the random number value X, a pulse is generated, and then a control signal is generated to the first random number conversion unit 282 to input the next value of the random number value X, and the same process is repeated.
パルス列信号P□を出力するもので、同様に、第2のパ
ルス発生部285も、第2の乱数変換部283より乱数
値Xが入力されると、クロックをカウントし、カウント
値が乱数値Xの値と等しくなると、パルスP2を発生し
、その後、第2の乱数変換部283へ制御信号を発生し
て、次の乱数値Xの値を入力し、同じ処理を繰り返すこ
とにより、パルス列信号P2を出力するものである。Similarly, when the second pulse generator 285 receives the random number X from the second random number converter 283, it counts the clock, and the count value becomes the random number X. When it becomes equal to the value of This outputs the following.
音声入力検出部286は、伝送されてきた音声のエネル
ギーを一定時間間隔でサンプリングし。The audio input detection unit 286 samples the energy of the transmitted audio at regular time intervals.
そのエネルギーが予め設定されたしきい値より大きけれ
ばオンとなり、小さければオフとなることにより、発声
中か非発声中かを検出するものである。If the energy is larger than a preset threshold value, it is turned on, and if it is smaller, it is turned off, thereby detecting whether vocalization is occurring or not.
パルス列選択部287は、音声入力検出部286で発声
中であることが検出されている間は第1のパルス発生部
284からのパルスP□を出力し、音声入力検出部28
6で非発声中であることが検出されている間は第2のパ
ルス発生部285からのパルスP2を出力するように切
り替わるものである。The pulse train selection section 287 outputs the pulse P□ from the first pulse generation section 284 while the voice input detection section 286 detects that the voice is being uttered.
While non-voice is detected in step 6, the second pulse generator 285 switches to output the pulse P2.
[作 用]
このような構成により、初期化時に、初期化データとし
て、発声中におけるまばたきの時間間隔の平均値miお
よび標準偏差σ1が第1の乱数変換部282へ伝送され
るとともに、非発声中におけるまばたきの時間間隔の平
均値m、および標準偏差σ2が第2の乱数変換部283
へ伝送される。[Function] With this configuration, at the time of initialization, the average value mi and the standard deviation σ1 of the time intervals of blinking during vocalization are transmitted to the first random number conversion unit 282 as initialization data, and the non-vocalizing The average value m of the blink time interval and the standard deviation σ2 are determined by the second random number conversion unit 283
transmitted to.
そして、通信時には、発声中および非発声中における各
まばたきの時間間隔の平均値m工1m2と標準偏差σ1
.σ2とに応じた正規分布に従う時間間隔で、第1.第
2のパルス発生部284,285から発声時用パルス列
信号P1および非発声時用パルス列信号P2がそれぞれ
発生せしめられる。Then, during communication, the average value of the time interval of each blink during utterance and non-utterance is determined by the average value m×1m2 and the standard deviation σ1.
.. The first . The second pulse generating sections 284 and 285 generate a pulse train signal P1 for vocalization and a pulse train signal P2 for non-vocalizing, respectively.
さらに、この受信側では、音声入力検出部286で検出
した検出信号に応じて、パルス列選択部287が切り替
わることにより、発声中は、発声時用パルス列信号P1
がまばたき信号として出力されるとともに、非発声中は
、非発声時用パルス列信号P2がまばたき信号として出
力される。Furthermore, on the reception side, the pulse train selection section 287 switches according to the detection signal detected by the audio input detection section 286, so that during vocalization, the pulse train signal P1 for vocalization is selected.
is output as a blink signal, and during non-utterance, a non-utterance pulse train signal P2 is output as a blink signal.
これにより、話をしているときと、そうでないときとで
、まばたきの様子を変えることができる。This allows you to blink your eyes differently depending on whether you are talking or not.
[実施例] 以下、図面を参照して本発明の詳細な説明する。[Example] Hereinafter, the present invention will be described in detail with reference to the drawings.
(a)第1実施例の説明
第2図は本発明の第1実施例を示すブロック図で、この
第1実施例では、送信部10と受信部20とが設けられ
、送信部10は、顔画像入力を画像処理する画像処理部
11と、音声入力を符号化する音声符号化部12とを含
んでいる。(a) Description of First Embodiment FIG. 2 is a block diagram showing a first embodiment of the present invention. In this first embodiment, a transmitting section 10 and a receiving section 20 are provided, and the transmitting section 10 includes: It includes an image processing section 11 that performs image processing on facial image input, and an audio encoding section 12 that encodes audio input.
また、受信部20は、背景画メモリ19.音声復号化部
21.音声認識部22.コードブック23A、口形モデ
ル変形部(口形モデル画像記憶手段)24A、制御点座
標メモリ(テーブル)23B、陰影モデル変形部(瞼形
モデル画像記憶手段)24B9合成部25.補間点計算
部27.顔動画像合成用まばたき信号発生部28.座標
テーブル制御部29を有している。The receiving unit 20 also includes a background image memory 19. Audio decoding section 21. Speech recognition unit 22. Code book 23A, mouth shape model transformation section (mouth shape model image storage means) 24A, control point coordinate memory (table) 23B, shadow model transformation section (eyelid shape model image storage means) 24B9 synthesis section 25. Interpolation point calculation unit 27. Blink signal generation unit 28 for facial dynamic image synthesis. It has a coordinate table control section 29.
ここで、背景画メモリ19は、初期化時に送信側より送
られた1フレ一ム分の顔画像の静止画データを記憶し格
納するものである。Here, the background image memory 19 stores still image data of one frame of a face image sent from the transmitting side at the time of initialization.
また、音声復号化部21は送信部10で符号化された音
声符号を復号化するもので、音声認識部22は音声復号
化部21から出力された音声信号を音声認識するもので
、コードブック23Aは音声認識部22から次々と出力
される音素符号(音声の基本構成単位である母音又は子
音などから成るもの)から1組の口形パラメータ値を逐
次選択するもので、口形モデル変形部(口形モデル画像
記憶手段)24Aはコードブック23で逐次選択された
1組の口形パラメータ値に応じて口形モデル画像を変形
するものである。Further, the speech decoding section 21 decodes the speech code encoded by the transmission section 10, and the speech recognition section 22 speech recognizes the speech signal output from the speech decoding section 21. 23A sequentially selects a set of mouth shape parameter values from phoneme codes (consisting of vowels or consonants, etc., which are the basic constituent units of speech) output one after another from the speech recognition section 22; The model image storage means 24A transforms the mouth shape model image according to a set of mouth shape parameter values successively selected in the codebook 23.
ところで、コードブック23Aには、第4図に示すよう
に、特定の話者が各音素■、■・・・9mを発生した場
合の口の形状をパラメータ■ (例えば口の横幅)、■
(例えば唇の厚さ)、・・・tn(例えば口の縦幅)と
して数値化したテーブルが予めその個人情報として記憶
されている。ここで、例えば、音素1.n、IIIに対
する口画像の一例を模式的に示すと、第6図(a)、(
b)、(c)のようになる。By the way, as shown in FIG. 4, the codebook 23A includes parameters ■ (for example, the width of the mouth),
(For example, the thickness of the lips), ... tn (For example, the vertical width of the mouth) A table is stored in advance as the personal information. Here, for example, phoneme 1. FIG. 6(a), (
b) and (c).
また、口形モデル変形部24Aは、その個人情報として
予めその特定話者の1画面(1フレーム)分の口画像デ
ータを背景画メモリ19を介してもらい、これを口の幾
何学的形状の骨組となるパッチ・モデルにマツピングし
たものを口形モデル画像として記憶しておく。このよう
に、最初に送信部10から目部分の画像を1画面分送っ
ておく場合でも、コードブック23Aは予め作っておく
必要がある。In addition, the mouth shape model deformation unit 24A obtains one screen (one frame) worth of mouth image data of the specific speaker in advance as the personal information via the background image memory 19, and uses this as the skeleton of the geometric shape of the mouth. The mapped patch model is stored as a mouth shape model image. In this way, even if one screen worth of images of the eyes is first sent from the transmitter 10, the codebook 23A needs to be created in advance.
補間点計算部27は、静止画データに対応する瞼形状モ
デル(第7図参照)の全頂点P、〜P、の座標データを
初期化時に受けて、まばたき開始から終了までの各フレ
ーム時点での制御点p、、p、。The interpolation point calculation unit 27 receives the coordinate data of all vertices P, ~P, of the eyelid shape model (see Fig. 7) corresponding to the still image data at the time of initialization, and calculates the coordinate data at each frame point from the start to the end of blinking. Control points p,,p,.
P4の座標を線形補間計算し、そのデータを制御点座標
メモリ23Bへ送るものである。The coordinates of P4 are calculated by linear interpolation, and the data is sent to the control point coordinate memory 23B.
すなわち、この瞼形状モデルは、第7図に示すごとく、
8個の頂点P1〜P、(各点がXt’jの2次元座標値
をもつ)と、これらの頂点P1〜P、をつないでできる
6個の三角形パッチT1〜Tllとで構成されるが、こ
の瞼形状モデルは、まばたきの動作を合成するため、p
、、p、、p、を制御点(x、y座標を変化させる点)
とし、その他の5点は不動(固定点)としている。In other words, this eyelid shape model is as shown in FIG.
It is composed of eight vertices P1 to P (each point has a two-dimensional coordinate value of Xt'j) and six triangular patches T1 to Tll formed by connecting these vertices P1 to P. , this eyelid shape model synthesizes the blinking action, so p
,,p,,p are control points (points that change the x, y coordinates)
The other five points are fixed (fixed points).
そして、この補間点計算部27においては、初期化時に
、8個の頂点P1〜P、の座標のほかに、p、、 p、
、 p、の最下点を示すp、、p。Then, in this interpolation point calculation unit 27, in addition to the coordinates of the eight vertices P1 to P, p, p, p,
, p, indicating the lowest point of , p.
P4′の3点の座標値も与えられ、あらかじめ与えられ
たまばたき1回当りのフレーム数Nより、P2→P2′
→P、、P□→P、′→p、、p4→P。The coordinate values of the three points P4' are also given, and from the pre-given number N of frames per blink, P2→P2'
→P,,P□→P,'→p,,p4→P.
→P4の各区間を線形補間するようになっている。→ Each section of P4 is linearly interpolated.
制御点座標メモリ23Bは、陰影モデル画像の瞼パラメ
ータを基に瞼のまばたき動作を記憶するものである。具
体的には、上記補間点計算部27で補間計算されたまば
たき開始から終了までの各フレーム時点における3つの
制御点p、、 p、。The control point coordinate memory 23B stores the blinking motion of the eyelids based on the eyelid parameters of the shadow model image. Specifically, three control points p, , p, at each frame time point from the start to the end of blinking are interpolated and calculated by the interpolation point calculation unit 27.
P4の座標をテーブルの形で、制御点座標メモリ23B
に記憶領域に保管するのである。この制御点座標テーブ
ルの構成例を第5図に示す。The coordinates of P4 are stored in the control point coordinate memory 23B in the form of a table.
It is stored in the storage area. An example of the structure of this control point coordinate table is shown in FIG.
まばたき信号発生部28は、まばたき信号(パルス信号
)を発生するもので、第3図に示すごとく、乱数発生器
2809機標準正規乱数テーブル281、第1.第2の
乱数変換部282,283゜第1.第2のパルス発生部
284,285.音声入力検出部286.パルス列選択
部287をそなえて構成されている。The blink signal generator 28 generates a blink signal (pulse signal), and as shown in FIG. Second random number converter 282, 283° 1st. Second pulse generator 284, 285. Audio input detection section 286. It is configured to include a pulse train selection section 287.
ここで、乱数発生器280は、初期化時の信号入力に応
じて乱数開始位置を設定するポインタ値ill 12
(1≦11t’12≦n)をランダムに発生するもので
ある。Here, the random number generator 280 generates a pointer value ill 12 that sets a random number start position according to a signal input at the time of initialization.
(1≦11t'12≦n) is randomly generated.
標準正規乱数テーブル281は、第9図に示すような平
均値o、m準偏差1の正規分布に従う乱数系列Ui(i
==1,2,3. ・a、nunは十分大きな整数)
の値を記憶したテーブル(メモリ)である。The standard normal random number table 281 includes a random number sequence Ui (i
==1, 2, 3.・a and nun are sufficiently large integers)
This is a table (memory) that stores the values of .
第1の乱数変換部282は、初期化時に発声中における
まばたきの時間間隔の平均値m、、@準偏差σ1と乱数
発生器280から乱数開始位置を設定するポインタ値1
1とを受けて、通信が開始されると、標準正規乱数テー
ブル281の番地11よりこの番地iLに対応する乱数
値Uiを読み出し、これに前述の(1)式(下記参照)
のような変換を施して第10図に示すような平均値m工
と標準偏差σ1の正規分布に従う乱数値Xに変換するも
のである。At the time of initialization, the first random number conversion unit 282 uses the average value m of the time interval of blinking during utterance, @ standard deviation σ1 and a pointer value 1 for setting the random number start position from the random number generator 280.
1, and communication is started, the random number Ui corresponding to this address iL is read from address 11 of the standard normal random number table 281, and the above-mentioned formula (1) (see below) is read out from address 11 of the standard normal random number table 281.
By performing the following transformation, the random value X is converted into a random value X that follows a normal distribution with an average value m and a standard deviation σ1 as shown in FIG.
x:=tJix a、+m、 (但しX>0)−−(
1)そして、この第1の乱数変換部282は、後述の第
1のパルス発生部284から制御信号を待って18を1
ずつ増やして同じ処理を繰り返す。x:=tJix a, +m, (X>0)−−(
1) Then, this first random number conversion section 282 waits for a control signal from a first pulse generation section 284, which will be described later, and converts 18 into 1.
Increase by increments and repeat the same process.
かかる処理を第11図に示す、即ち、まずステップa1
で、初期値m工、σ□p xzを設定し、ステップa2
で、標準正規乱数テーブル281から11に対応するU
iを読み出し、ステップa3で。Such processing is shown in FIG. 11, that is, first step a1
Then, set the initial values m, σ□p xz, and proceed to step a2.
Then, U corresponding to standard normal random number table 281 to 11
Read i in step a3.
乱数値X、=UiXσ□+m0を演算し、ステップa4
で、X〉0かどうかを判定し、YESなら、ステップa
5で、乱数値Xを入力し、ステップa6で、第1のパル
ス発生部284から制御信号の入力があったかどうかが
判定され、制御信号の入力があった場合は、ステップa
7で、i、=il+1として1次のステップa8で、1
1≦nかどうかを判定する。かかる処理はi、=n+1
になるまで行なわれ、i、=n+1となると、ステップ
a9で、1i=1と初期化して同様の処理を繰り返す。Calculate random value X,=UiXσ□+m0, step a4
Then, determine whether X>0, and if YES, step a
In step 5, a random value X is input, and in step a6, it is determined whether or not a control signal has been input from the first pulse generator 284. If a control signal has been input, step a
7, as i,=il+1, in the first step a8, 1
Determine whether 1≦n. Such processing is i,=n+1
When i,=n+1, in step a9, the process is initialized to 1i=1 and the same process is repeated.
なお、ステップa4で、乱数値Xが負の値になった場合
は、ステップa5.a6はジャンプする。Note that if the random value X becomes a negative value in step a4, step a5. a6 jumps.
また、ステップa6で、制御信号が入力されないうちは
1次のステップへは移らない。Further, in step a6, the process does not proceed to the first step until the control signal is input.
同様に、第2の乱数変換部283も、初期化時に非発声
中におけるまばたきの時間間隔の平均値m2.標準偏差
σ、および乱数発生器280から乱数開始位置を設定す
るポインタ値12とを受けて、通信が開始されると、標
準正規乱数テーブル281の番地12よりこの番地12
に対応する乱数値Uiを読み出し、これに前述の(2)
式(下記参照)のような変換を施して第10図に示すも
のとほぼ同様な平均値m2と標準偏差σ2の正規分布に
従う乱数値Xに変換するものである。Similarly, the second random number conversion unit 283 also calculates the average value m2 of the blink time during non-utterance at the time of initialization. When communication is started upon receiving the standard deviation σ and the pointer value 12 for setting the random number start position from the random number generator 280, this address 12 is selected from address 12 of the standard normal random number table 281.
Read out the random value Ui corresponding to , and apply the above (2) to this
The random value X is converted into a random value X that follows a normal distribution with an average value m2 and a standard deviation σ2, which is substantially similar to that shown in FIG.
X=UiX a2+m2 (但しX>O)−−(2)そ
して、この第2の乱数変換部283も、後述の第2のパ
ルス発生部285から制御信号を待って12を1ずつ増
やして同じ処理を繰り返す。X=UiX a2+m2 (where X>O) --(2) Then, this second random number conversion section 283 also waits for a control signal from the second pulse generation section 285, which will be described later, and increases 12 by 1 and performs the same process. repeat.
なお、この第2の乱数変換部283における処理フロー
も第11図に示すものと同じである。Note that the processing flow in this second random number conversion section 283 is also the same as that shown in FIG.
第1のパルス発生部284は、クロックを計数するカウ
ンタ284a、このカウンタ284aからのカウント値
と第1の乱数変換部282からの乱数値Xとを比較する
比較器284b、この比較器284bから一致パルスが
出されるとパルスを出力するパルス発生器284Cとを
そなえてなり、これにより第1の乱数変換部282より
乱数値Xが入力されると、クロックをカウントし、カウ
ント値が乱数値Xの値と等しくなると、パルスを発生し
、その後、第1の乱数変換部282へ制御信号を発生し
て9次の乱数値Xの値を入力し、同じ処理を繰り返すこ
とにより、第12図(a)に示すようなパルス列信号P
□を出力するもので、同様に、第2のパルス発生部28
5も、クロックを計数するカウンタ285a、このカウ
ンタ285aからのカウント値と第2の乱数変換部28
3からの乱数値Xとを比較する比較器285b、この比
較器285bから一致パルスが出されるとパルスを出力
するパルス発生器285Cとをそなえてなり、これによ
り第2の乱数変換部283より乱数値Xが入力されると
、クロックをカウントし、カウント値が乱数値Xの値と
等しくなると、パルスを発生し、その後、第2の乱数変
換部283へ制御信号を発生して、次の乱数値Xの値を
入力し、同じ処理を繰り返すことにより、第12図(b
)に示すようなパルス列信号P2を出力するものである
。The first pulse generator 284 includes a counter 284a that counts clocks, a comparator 284b that compares the count value from the counter 284a and the random value X from the first random number converter 282, and a match from the comparator 284b. It is equipped with a pulse generator 284C that outputs a pulse when a pulse is generated, and when a random number value X is input from the first random number converter 282, the clock is counted and the count value is equal to the random number value X. When the value becomes equal to the value, a pulse is generated, and then a control signal is generated to the first random number converter 282 to input the value of the 9th order random number X, and the same process is repeated. ) A pulse train signal P as shown in
Similarly, the second pulse generator 28 outputs □.
5 also includes a counter 285a that counts clocks, a count value from this counter 285a, and a second random number converter 28.
3, and a pulse generator 285C that outputs a pulse when a coincidence pulse is output from the comparator 285b. When the numerical value X is input, the clock is counted, and when the count value becomes equal to the value of the random numerical value By inputting the value of numerical value X and repeating the same process, Figure 12 (b
) outputs a pulse train signal P2 as shown in FIG.
音声入力検出部286は、伝送されてきた音声のエネル
ギーを一定時間間隔でサンプリングし、そのエネルギー
が予め設定されたしきい値より大きければオンとなり、
小さければオフとなることにより[第12図(c)参照
]、発声中か非発声中かを検出するものである。The audio input detection unit 286 samples the energy of the transmitted audio at regular time intervals, and turns on if the energy is greater than a preset threshold.
If it is smaller, it is turned off [see FIG. 12(c)], thereby detecting whether vocalization is occurring or not.
パルス列選択部287は、音声入力検出部286で発声
中であることが検出されている間は第1のパルス発生部
284からのパルスP0をまばたき開始信号として出力
し、音声入力検出部286で非発声中であることが検出
されている間は第2のパルス発生部285からのパルス
P2をまばたき開始信号として出力するように切り替わ
るものでで、マルチプレクサが使用される。The pulse train selection unit 287 outputs the pulse P0 from the first pulse generation unit 284 as a blink start signal while the audio input detection unit 286 detects that the voice is being uttered, and the audio input detection unit 286 outputs the pulse P0 as a blink start signal. While it is detected that utterance is in progress, the pulse P2 from the second pulse generator 285 is switched to be output as the blink start signal, and a multiplexer is used.
従って、このパルス列選択部287からの出力パルス列
は第12図(d)のようになるので、話をしているとき
と、そうでないときとで、異なったパルス列信号を発生
させることができ、これにより、まばたきの様子を変え
ることができる。Therefore, the output pulse train from the pulse train selection section 287 is as shown in FIG. This allows you to change the way your eyes blink.
ところで、第2図の座標テーブル制御部29は、まばた
き信号発生部28からまばたき開始信号を受けた時点か
ら制御点座標メモリ23Bの座標テーブル内の全頂点デ
ータを順次読み出し、各フレームごとに陰影モデル変形
部24Bへと転送するものである。By the way, the coordinate table control unit 29 in FIG. 2 sequentially reads out all vertex data in the coordinate table of the control point coordinate memory 23B from the time when it receives the blink start signal from the blink signal generation unit 28, and creates a shadow model for each frame. It is transferred to the deforming section 24B.
陰影モデル変形部24Bは、顔の瞼部分の幾何学的形状
を示す陰影パラメータによって定義される除温モデル画
像を記憶するもので、この陰影モデル変形部24Bでは
、制御点座標メモリ23Bから瞼パラメータを取り出し
、この瞼パラメータに基づいて除温モデル画像を変形す
るものである。The shadow model transformation unit 24B stores a warming model image defined by shadow parameters indicating the geometrical shape of the eyelid portion of the face.The shadow model transformation unit 24B stores the eyelid parameters from the control point coordinate memory 23B The model image is then transformed based on the eyelid parameters.
具体的には、座標テーブル制御部29の作用により、制
御点座標メモリ23Bから順次送られてくる瞼パラメー
タを取り込んで、この瞼パラメータに基づいて除温モデ
ル画像を変形するのである。Specifically, by the action of the coordinate table control unit 29, the eyelid parameters sequentially sent from the control point coordinate memory 23B are taken in, and the dewarming model image is transformed based on the eyelid parameters.
ここで、この除温モデル画像の変形の様子を模式的に示
すと、第8図(a)〜(c)のようになる。Here, the deformation of this temperature removal model image is schematically shown in FIGS. 8(a) to 8(c).
合成部25は、口形モデル変形部24Aから発生された
自画像および陰影モデル変形部24Bから発生された瞼
画像を、背景画メモリ19に記憶された静止顔画像の目
部分および瞼部分以外の画像と合成するものである。The synthesis unit 25 combines the self-portrait generated from the mouth shape model transformation unit 24A and the eyelid image generated from the shadow model transformation unit 24B with an image other than the eyes and eyelids of the still face image stored in the background image memory 19. It is something that is synthesized.
次に、この第1実施例の動作を説明する。Next, the operation of this first embodiment will be explained.
音声入力は音声符号化部12で符号化されて受信部20
に伝送されるが、この音声符号は音声復号化部21で復
号化して音声として出力される。The audio input is encoded by the audio encoder 12 and sent to the receiver 20.
This audio code is decoded by the audio decoding section 21 and output as audio.
また、一方において、この音声出力は音声認識部22に
送られ、その音素符号が逐次抽出されてコードブック2
3Aに送られる。コードブック23Aでは、入力した音
素符号に基づいて第4図に示すコードブックの中から対
応する口形に関する1組のパラメータ値1.II、・・
・、nを選択する。On the other hand, this voice output is sent to the voice recognition unit 22, and its phoneme codes are sequentially extracted and stored in the codebook 22.
Sent to 3A. In the codebook 23A, based on the input phoneme code, a set of parameter values 1. II...
・, select n.
そして、これらの選択された1組のパラメータ値により
、予め記憶した口形モデル画像を変形した自画像を口形
モデル変形部24Aで発生する。この結果、発生された
自画像と音声認識部22で抽出された音素との対応関係
は、例えば第6図(a)(b)、(Q)に示すようにな
る。Then, based on the selected set of parameter values, the mouth shape model deforming section 24A generates a self-portrait by deforming the mouth shape model image stored in advance. As a result, the correspondence between the generated self-image and the phonemes extracted by the voice recognition section 22 is as shown in FIGS. 6(a), 6(b), and 6(Q), for example.
一方、まばたき信号発生部28からは、話中とそうでな
いときとで、異なったランダムな時間間隔で、まばたき
開始信号が発せられる。On the other hand, the blink signal generator 28 generates a blink start signal at different random time intervals depending on whether the phone is busy or not.
即ち、初期化時に、初期化データとして1発声中におけ
るまばたきの時間間隔の平均値m工、Itl準偏差σ1
および乱数開始位置を設定するポインタ値11が第3図
に示す第1の乱数変換部282へ伝送されるとともに、
非発声中におけるまばたきの時間間隔の平均値m、、4
!111準偏差σ2および乱数開始位置を設定するポイ
ンタ値i、Iが第2の乱数変換部283へ伝送される。That is, at the time of initialization, the average value m of the time interval of blinking during one utterance and Itl standard deviation σ1 are used as initialization data.
The pointer value 11 for setting the random number start position is transmitted to the first random number converter 282 shown in FIG.
Average value of blink time interval during non-utterance, m, 4
! The 111 standard deviation σ2 and pointer values i and I for setting the random number start position are transmitted to the second random number conversion unit 283.
そして、通信時には1発声中および非発声中における各
まばたきの時間間隔の平均値m1.m2と標準偏差σ1
.σ□とに応じた正規分布に従う時間間隔で、第1.第
2のパルス発生部284,285から発声時用パルス列
信号P工および非発声時用パルス列信号P2がそれぞれ
発生される。During communication, the average value m1 of the time interval of each blink during one utterance and during non-utterance is determined. m2 and standard deviation σ1
.. The first . The second pulse generators 284 and 285 generate a pulse train signal P for vocalization and a pulse train signal P2 for non-vocal, respectively.
さらに、この受信側では、音声入力検出部286で検出
した検出信号に応じて、パルス列選択部287が切り替
わることにより、発声中は、第12図(2)に示すよう
な発声時用パルス列信号P工がまばたき開始信号として
出力されるとともに、非発声中は、第12図(b)に示
すような非発声時用パルス列信号P2がまばたき開始信
号として出力される。Furthermore, on the reception side, the pulse train selection section 287 switches according to the detection signal detected by the audio input detection section 286, so that during vocalization, the pulse train signal P for vocalization as shown in FIG. During non-speech, a non-speech pulse train signal P2 as shown in FIG. 12(b) is output as a blink start signal.
これにより1話をしているときと、そうでないときとで
、異なったパルス列信号が出力される[第12図(c)
、(d)参照]。As a result, different pulse train signals are output depending on whether one episode is being made or not [Figure 12(c)]
, see (d)].
このようにまばたき信号発生部28からパルス列信号が
出力されると、座標テーブル制御部29では、このまば
たき開始信号を受けた時点から、制御点座標メモリ23
Bの座標テーブル内の全頂点データを読み出し、各フレ
ーム毎に陰影モデル変形部24Bへと転送する。かかる
転送はまばたき開始信号発生時から単位まばたき当りの
フレーム数が経過した時点で終了する。そして、陰影モ
デル変形部24Bでは、上記の頂点データに従って、あ
らかじめ記憶した除温モデル画像を変形した瞼画像を発
生する。When the pulse train signal is output from the blink signal generating section 28 in this way, the coordinate table control section 29 starts the control point coordinate memory 23 from the time when this blink start signal is received.
All vertex data in the coordinate table of B is read out and transferred to the shadow model transformation unit 24B for each frame. Such transfer ends when the number of frames per unit blink has elapsed since the blink start signal was generated. Then, the shadow model deformation unit 24B generates an eyelid image by deforming the pre-stored warming model image according to the above vertex data.
このようにして変形して発生された自画像および瞼画像
は、背景画メモリ19に記憶された静止顔画像の口およ
び瞼以外の画像と、合成部25で、合成されて、顔全体
の動画像として出力されることとなる。The self-portrait and eyelid image deformed and generated in this way are combined with the image other than the mouth and eyelids of the still face image stored in the background image memory 19 in the compositing unit 25 to create a moving image of the entire face. This will be output as .
これにより、原動画の情報をより圧縮できるので、情報
量を大きく削減することができ、その結果、低ビツトレ
ートの回線を利用した低置な画像伝送方式を実現できる
ほか、顔の中の瞼の部分が会話の途中において、話して
いるときとそうでないときとで、異なった間隔でまばた
きをするので、顔の表情がより自然になる。This makes it possible to further compress the information in the original video, significantly reducing the amount of information.As a result, it is possible to realize a low-cost image transmission method that uses a low bit rate line, and also to During a conversation, the person blinks at different intervals depending on whether they are talking or not, making their facial expressions more natural.
なお、上記の口形モデル変形部24Aでの口形モデル画
像の変形および陰影モデル変形部24Bでの陰影モデル
画像の変形に用いられる手法は、信学技報IE87−2
.第87巻、第19号、1987に記述されている。The method used to transform the mouth shape model image in the mouth shape model transformation section 24A and the shadow model image in the shadow model transformation section 24B is described in IEICE technical report IE87-2.
.. 87, No. 19, 1987.
(b)第2実施例の説明
第13図は本発明の第2実施例を示すブロック図である
が、前述した第2図の第1実施例と異なる点は、送信部
10に音声認識部13を設け、送信側で音素符号とその
他の情報(イントネーション、ピッチ等)とに分離して
受信部20に送り、受信部20では、音素符号をそのま
まコードブック23Aで用いるとともに音素符号とイン
トネーション等の情報とを音声合成部26で合成して音
声出力を発生していることである。その他の構成および
動作(まばたき信号発生部の構成および動作を含む)は
第2,3図の場合と同様である。従って、この第2実施
例においても、前述の第1実施例と同様の効果ないし利
点が得られる。(b) Description of Second Embodiment FIG. 13 is a block diagram showing a second embodiment of the present invention. The difference from the first embodiment shown in FIG. 13, and the transmitting side separates the phoneme code and other information (intonation, pitch, etc.) and sends it to the receiver 20. The receiver 20 uses the phoneme code as it is in the codebook 23A, and also separates the phoneme code and intonation, etc. information is synthesized by the speech synthesis section 26 to generate speech output. The other configurations and operations (including the configuration and operations of the blink signal generator) are the same as those in FIGS. 2 and 3. Therefore, in this second embodiment as well, the same effects and advantages as in the first embodiment described above can be obtained.
(c)第3実施例の説明
ところで1以上の各実施例では、予め記憶されたコード
ブック23Aは予め決められた話者固有のものであるた
め、不特定多数の人物の口画像を伝送しようとすると、
コードブックに記憶された全口形符号を、話者が変わる
度にその話者に適合させるための書き換え処理を行なう
か、または、登録されている話者のコードブック情報を
すべて記録しておくための膨大なメモリ領域をコードブ
ックに用意しておかなければならない。(c) Description of the third embodiment By the way, in each of the first or more embodiments, since the pre-stored codebook 23A is unique to a predetermined speaker, mouth images of an unspecified number of people should be transmitted. Then,
To rewrite the full mouth form code stored in the codebook to adapt it to the speaker each time the speaker changes, or to record all codebook information for registered speakers. A huge memory area must be prepared for the codebook.
そこで、以下に示す第3実施例では、コードブックを不
特定の話者に合わせて用いることができるようにした。Therefore, in the third embodiment shown below, the codebook can be used to suit unspecified speakers.
即ち、第14図に示すように、標準的な人間の全音素を
発音した字の口形に対する口形モデルの各パラメータ値
を測定して標準コードブックを作成し、このコードブッ
ク内の各パラメータ値を予め決めた基本音素符号(例え
ば無音符号)のパラメータ値で正規化(割算)してパラ
メータ後とに正規化したコードブックを作る(第15図
参照)。That is, as shown in Fig. 14, a standard codebook is created by measuring each parameter value of the mouth shape model for the mouth shape of a character that pronounces all standard human phonemes, and each parameter value in this codebook is A predetermined basic phoneme code (for example, silence code) is normalized (divided) by the parameter value to create a normalized codebook after the parameters (see FIG. 15).
そして、第16図に示すように、基本音素符号に対応す
る個人の口画像から1組のパラメータを測定し、パラメ
ータ毎に第15図のように求めた正規化されたコードブ
ックの全音素符号に対する各パラメータに乗算すること
により個人用のコードブックが作成できることとなる。Then, as shown in Fig. 16, a set of parameters are measured from the individual's mouth image corresponding to the basic phoneme code, and the total phoneme code of the normalized codebook is obtained for each parameter as shown in Fig. 15. By multiplying each parameter for , a personal codebook can be created.
即ち1例えば、得られた1組の個人口画像パラメータが
bよ、〜b、nとすれば、第15図において音素符号■
でパラメータ■の正規化コードa 21/ a 1□に
は上記のパラメータb1□が掛けられて(as□/a工
z) bllというコードに変換され、同様にしてパラ
メータlに関してはパラメータb11が全音素符号に関
して乗算されることとなる。That is, 1. For example, if the obtained set of personal mouth image parameters is byo, ~b, n, then in FIG. 15, the phoneme code ■
Then, the normalized code a21/a1□ of parameter ■ is multiplied by the above parameter b1□ (as□/a z) and converted to the code bll, and similarly for parameter l, parameter b11 is completely The phoneme code will be multiplied.
第17図はかかる個人用のコードブックを作成するため
の初期化装置30を設けた第3実施例を示すブロック図
であるが、この初期化装置30でコードブック23Aを
個人用に初期化することにより不特定多数の話者の原動
画像を再生するものである。FIG. 17 is a block diagram showing a third embodiment that is provided with an initialization device 30 for creating such a personal codebook, and this initialization device 30 initializes the codebook 23A for personal use. By doing so, dynamic images of an unspecified number of speakers are reproduced.
そして、この初期化装置30の具体的な構成が第18図
に示されており、最初に送信部10の画像処理部11か
ら顔画像中の基本音素符号(この場合、無音符号)の口
画像が送られてきた時、この初期化装置30では、特徴
点抽出部31でその口画像の特徴点を抽出する。そして
、この特徴点間距離等からパラメータ計算部32で1組
のパラメータを計算する。この1組のパラメータを第1
5図に示すように正規化コードブックメモリ33に予め
用意しておいた正規化コードブックの各パラメータ毎の
乗算を乗算器34で行なって個人用コードブックメモリ
35を作成してコードブック23に格納する。The specific configuration of this initialization device 30 is shown in FIG. When the mouth image is sent, the feature point extraction unit 31 of the initialization device 30 extracts the feature points of the mouth image. Then, a parameter calculation unit 32 calculates a set of parameters based on the distance between feature points and the like. This set of parameters is
As shown in FIG. 5, the multiplier 34 performs multiplication for each parameter of the normalized codebook prepared in advance in the normalized codebook memory 33 to create a personal codebook memory 35. Store.
以後、その個人の0画像伝送の際に参照されることとな
る。From now on, it will be referenced when transmitting that individual's 0 image.
このように、用意したコードブックを話者毎に更新でき
るように初期化装置30を設けたので、不特定多数の話
者に対しても容易に対応することが可能と成る。In this way, since the initialization device 30 is provided so that the prepared codebook can be updated for each speaker, it becomes possible to easily deal with an unspecified number of speakers.
なお、この初期化装置30は、第13図に示すような実
施例にも同様に適用される。Note that this initialization device 30 is similarly applied to the embodiment shown in FIG.
[発明の効果]
以上のように、本発明の顔動画像合成用まばたき信号発
生方式によれば5話をしているときと、そうでないとき
とで、まばたき信号の発生頻度を変えることができるの
で、まばたきの様子を変えることができ、これにより、
より自然な動画像を合成できるという利点がある。[Effects of the Invention] As described above, according to the blink signal generation method for face dynamic image synthesis of the present invention, the frequency of blink signal generation can be changed depending on whether the person is talking or not. This allows you to change the way your eyes blink.
This has the advantage of being able to synthesize more natural moving images.
第1図は本発明の原理ブロック図、
第2図は本発明の第1実施例を示すブロック図、第3図
はまばたき信号発生部のブロック図、第4図はコードブ
ックの構成図、
第5図は制御点座標テーブルの構成図、第6図(a)、
(b)、(c)は音素符号に対する口画像を示す図、
第7図は瞼領域の形状モデル構成を示す図、第8図(a
)、(b)、(c)は陰影モデル画像の変形の概念を説
明する図、
第9図は平均0.標準偏差1の正規分布を示す図、
第10図は平均m8.標準偏差σ、の正規分布を示す図
、
第11図は乱数値演算要領を示すフローチャート、
第12図はまばたき信号発生部での各部波形を示す図、
第13図は本発明の第2実施例を示すブロック図、
第14図は本発明の第3実施例における正規化コードブ
ックの作成手順を示す図、
第15図は正規化コードブックの構成図、第16図は本
発明の第3実施例における個人用コードブックの作成手
順を示す図、
第17図は本発明の第3実施例を示すブロック図、
第18図は初期化装置のブロック図、
第19図は従来の一般的な画像伝送方式を示す系統図で
ある。
図において、
10は送信部、
11は画像処理部、
12は音声符号化部、
13は音声認識部。
19は背景画メモリ、
20は受信部。
21は音声復号化部、
22は音声認識部、
23Aはフードブック、
23Bは制御点座標メモリ(テーブル)、24Aは口形
モデル変形部(口形モデル画像記憶手段)。
24Bは陰影モデル変形部(瞼形モデル画像記憶手段)
、
25は合成部、
26は音声合成部、
27は補間点計算部、
28はまばたき信号発生部、
29は座標テーブル制御部。
30は初期化装置、
31は特徴点抽出部、
32はパラメータ計算部。
33は正規化コードブックメモリ、
34は乗算部、
35は個人用コードブックメモリ、
280は乱数発生器、
281は標準正規乱数テーブル。
282は第1の乱数変換部、
283は第2の乱数変換部、
284は第1のパルス発生部、
284aはカウンタ。
284bは比較器、
284cはパルス発生器、
285は第2のパルス発生部、
285aはカウンタ、
285bは比較器、
285cはパルス発生器、
286は音声入力検出部、
287はパルス列選択部である。
ツードブ1ワめ講放凹
第4図
刺fJP虐。
怜り卸、化11オ水イープル/la6支し]巨舎瀬域/
l形状七程槙広乞小す図
第7
図
音素工
音素■
音#:II
(b)
(C)
冬昔素1;丈寸オろロ山イ家!ホす刀
第6図
平均m+、標譚イ鼎左σ輪正規7分卆乞小す口笛
1゜
図
S!−均oJ譚(橢井1め正規分布乞がす口第
図
d)数%亘演算91貝ぎ示すフロー手ヤード第
図
、正犬見イヒコードブ7グイ丁〜キP1貝七す固第14
図
正絹、化コードブッグめわIff画
第15図
イ固人用コード°ブ7グイTiマイトlll貝乞ホすロ
第16図
判
slイ
ロFig. 1 is a block diagram of the principle of the present invention, Fig. 2 is a block diagram showing a first embodiment of the invention, Fig. 3 is a block diagram of the blink signal generator, Fig. 4 is a block diagram of the codebook, Figure 5 is a configuration diagram of the control point coordinate table, Figure 6 (a),
(b) and (c) are diagrams showing mouth images corresponding to phoneme codes, Figure 7 is a diagram showing the shape model configuration of the eyelid region, and Figure 8 (a
), (b), and (c) are diagrams explaining the concept of deformation of a shadow model image. Figure 9 shows an average of 0. Figure 10 shows a normal distribution with a standard deviation of 1. FIG. 11 is a flowchart showing the procedure for calculating random numbers. FIG. 12 is a diagram showing waveforms of various parts in the blink signal generation section. FIG. 13 is a second embodiment of the present invention. FIG. 14 is a diagram showing the procedure for creating a normalization codebook in the third embodiment of the present invention, FIG. 15 is a block diagram of the normalization codebook, and FIG. Figure 17 is a block diagram showing the third embodiment of the present invention; Figure 18 is a block diagram of the initialization device; Figure 19 is a conventional general image. FIG. 2 is a system diagram showing a transmission method. In the figure, 10 is a transmitting section, 11 is an image processing section, 12 is a speech encoding section, and 13 is a speech recognition section. 19 is a background image memory, and 20 is a receiving section. 21 is a voice decoding unit, 22 is a voice recognition unit, 23A is a food book, 23B is a control point coordinate memory (table), and 24A is a mouth shape model transformation unit (mouth shape model image storage means). 24B is a shadow model transformation unit (eyelid shape model image storage means)
, 25 is a synthesis section, 26 is a speech synthesis section, 27 is an interpolation point calculation section, 28 is a blink signal generation section, and 29 is a coordinate table control section. 30 is an initialization device, 31 is a feature point extraction unit, and 32 is a parameter calculation unit. 33 is a normalization codebook memory, 34 is a multiplication unit, 35 is a personal codebook memory, 280 is a random number generator, and 281 is a standard normal random number table. 282 is a first random number converter, 283 is a second random number converter, 284 is a first pulse generator, and 284a is a counter. 284b is a comparator, 284c is a pulse generator, 285 is a second pulse generator, 285a is a counter, 285b is a comparator, 285c is a pulse generator, 286 is an audio input detector, and 287 is a pulse train selector. Two Dobu 1 Wame Kyouho Concave Figure 4 Stab fJP Massacre. Resurrection, 11 O water Ypres / LA 6 support] Kyosha Se area /
l-shape 7-degree Makihiro-Ko-su Diagram 7 Diagram Phoneme Technique Phoneme ■ Sound #: II (b) (C) Fuyuumamoto 1; Length size Ororo Yamai family! Hosu sword figure 6 average m+, mark Tan I ding left σ ring regular 7 minutes 卆 beg small whistle 1° figure S! - Hitoshi oJ story (Kurai 1st normal distribution begging diagram d) several % calculation 91 shell showing flow hand diagram, positive Inumi Ihi code 7 Gui cho ~ Ki P1 Kai 7 Su Gu 14th
Figure Pure Silk, Code Book Mewa Iff Drawing Figure 15 A Cord for Solid Person ° BU 7 Gui Ti Might Ill Shellfish Begging Hosulo Figure 16 Size SL Iro
Claims (2)
ることにより、通信中に伝送される音声情報に応じて、
受信側で顔の動画像を合成して表示するものにおいて、 初期化時に、該初期化データとして、発声中および非発
声中における各まばたきの時間間隔の平均値(m_1、
m_2)と標準偏差(σ_1、σ_2)とを伝送し、通
信時には、発声中および非発声中における各まばたきの
時間間隔の平均値(m_1、m_2)と標準偏差(σ_
1、σ_2)とに応じた正規分布に従う時間間隔で、発
声時用パルス列信号(P_1)および非発声時用パルス
列信号(P_2)をそれぞれ発生し、 受信側で、音声入力検出部(286)で検出した検出信
号(S)に応じて、発声中は、該発声時用パルス列信号
(P_1)をまばたき信号として出力するとともに、非
発声中は、該非発声時用パルス列信号(P_2)をまば
たき信号として出力することを特徴とする、顔動画像合
成用まばたき信号発生方式。(1) By using a small amount of initialization data transmitted during initialization, depending on the audio information transmitted during communication,
In a device that synthesizes and displays moving images of faces on the receiving side, at the time of initialization, the average value (m_1,
m_2) and the standard deviation (σ_1, σ_2), and during communication, the average value (m_1, m_2) of the time interval of each blink during vocalization and non-vocalization and the standard deviation (σ_
A pulse train signal for vocalization (P_1) and a pulse train signal for non-vocalization (P_2) are generated at time intervals according to a normal distribution according to According to the detected detection signal (S), during vocalization, the pulse train signal for vocalization (P_1) is output as a blink signal, and during non-vocalization, the pulse train signal for non-vocalization (P_2) is output as a blink signal. A blink signal generation method for facial dynamic image synthesis, which is characterized by outputting.
、3、・・、n;nは十分大きな整数)の値を記憶した
標準正規乱数テーブル(281)と、初期化時に発声中
におけるまばたきの時間間隔の平均値(m_1)と標準
偏差(σ_1)とを受けて、通信が開始されると、該標
準正規乱数テーブル(281)より乱数値Uiを読み出
し、これに所要の変換を施して平均値(m_1)と標準
偏差(σ_1)の正規分布に従う乱数値(X)に変換す
る第1の乱数変換部(282)と、 初期化時に非発声中におけるまばたきの時間間隔の平均
値(m_2)と標準偏差(σ_2)とを受けて、通信が
開始されると、該標準正規乱数テーブル(281)より
乱数値Uiを読み出し、これに所要の変換を施して平均
値(m_2)と標準偏差(σ_2)の正規分布に従う乱
数値(X)に変換する第2の乱数変換部(283)と、 該第1の乱数変換部(282)より乱数値(X)が入力
されると、クロックをカウントし、カウント値が乱数値
(X)の値と等しくなると、パルスを発生し、その後、
該第1の乱数変換部(282)へ制御信号を発生して、
次の乱数値(X)の値を入力し、同じ処理を繰り返す第
1のパルス発生部(284)と、該第2の乱数変換部(
283)より乱数値(X)が入力されると、クロックを
カウントし、カウント値が乱数値(X)の値と等しくな
ると、パルスを発生し、その後、該第2の乱数変換部(
283)へ制御信号を発生して、次の乱数値(X)の値
を入力し、同じ処理を繰り返す第2のパルス発生部(2
85)と、伝送されてきた音声のエネルギーを一定時間
間隔でサンプリングし、そのエネルギーが予め設定され
たしきい値より大きければオンとなり、小さければオフ
となることにより、発声中か非発声中かを検出する音声
入力検出部(286)と、該音声入力検出部(286)
で発声中であることが検出されている間は該第1のパル
ス発生部(284)からのパルス(P1)を出力し、該
音声入力検出部(286)で非発声中であることが検出
されている間は該第2のパルス発生部(285)からの
パルス(P_2)を出力するように切り替わるパルス列
選択部(287)とをそなえて構成されたことを 特徴とする、顔動画像合成用まばたき信号発生方式。(2) Random number sequence Ui (i=1, 2
, 3, . When communication is started, a random value Ui is read from the standard normal random number table (281), and the required conversion is performed on it to make it follow a normal distribution of mean value (m_1) and standard deviation (σ_1). Communication starts upon receiving the first random number conversion unit (282) that converts into a random number value (X), and the average value (m_2) and standard deviation (σ_2) of the time interval of blinking during non-utterance at the time of initialization. Then, the random value Ui is read from the standard normal random number table (281), and the required conversion is performed on it to convert it into a random value (X) that follows a normal distribution of the mean value (m_2) and standard deviation (σ_2). When a random number (X) is input from the second random number converter (283) and the first random number converter (282), the clock is counted and the count value is equal to the value of the random number (X). , it generates a pulse, and then
generating a control signal to the first random number converter (282);
A first pulse generator (284) that inputs the next random number value (X) and repeats the same process, and a second random number converter (
When a random number value (X) is input from the second random number converter (
A second pulse generator (283) generates a control signal, inputs the next random number value (X), and repeats the same process.
85), the energy of the transmitted voice is sampled at fixed time intervals, and if the energy is greater than a preset threshold, it is turned on, and if it is smaller, it is turned off. a voice input detection unit (286) that detects the voice input detection unit (286);
While it is detected that vocalization is being performed, the pulse (P1) from the first pulse generating section (284) is output, and the voice input detecting section (286) detects that no vocalization is being performed. a pulse train selection section (287) that switches to output the pulse (P_2) from the second pulse generation section (285) while blink signal generation method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63168482A JPH0216681A (en) | 1988-07-05 | 1988-07-05 | Winking signal generating system for face animation picture synthesizing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63168482A JPH0216681A (en) | 1988-07-05 | 1988-07-05 | Winking signal generating system for face animation picture synthesizing |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0216681A true JPH0216681A (en) | 1990-01-19 |
Family
ID=15868912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63168482A Pending JPH0216681A (en) | 1988-07-05 | 1988-07-05 | Winking signal generating system for face animation picture synthesizing |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0216681A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0374777A (en) * | 1989-08-17 | 1991-03-29 | Graphic Commun Technol:Kk | Face image synthesizing device |
JPH0795550A (en) * | 1993-07-15 | 1995-04-07 | Nec Corp | Video display device |
JP2002042166A (en) * | 2000-07-28 | 2002-02-08 | Namco Ltd | Game system and information storage medium |
JP2003108502A (en) * | 2001-09-28 | 2003-04-11 | Interrobot Inc | Physical media communication system |
-
1988
- 1988-07-05 JP JP63168482A patent/JPH0216681A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0374777A (en) * | 1989-08-17 | 1991-03-29 | Graphic Commun Technol:Kk | Face image synthesizing device |
JPH0795550A (en) * | 1993-07-15 | 1995-04-07 | Nec Corp | Video display device |
JP2002042166A (en) * | 2000-07-28 | 2002-02-08 | Namco Ltd | Game system and information storage medium |
JP2003108502A (en) * | 2001-09-28 | 2003-04-11 | Interrobot Inc | Physical media communication system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5826234A (en) | Device and method for dubbing an audio-visual presentation which generates synthesized speech and corresponding facial movements | |
JP2518683B2 (en) | Image combining method and apparatus thereof | |
US6208356B1 (en) | Image synthesis | |
JPH10247254A (en) | Lip motion parameter generator | |
EP0920691A1 (en) | Segmentation and sign language synthesis | |
JPH0823530A (en) | Method and apparatus for processing stream of audio signal and video signal | |
KR950030647A (en) | Video communication device | |
EP0673170A2 (en) | Video signal processing systems and methods utilizing automated speech analysis | |
AU7337191A (en) | Video telephone system | |
TW307090B (en) | ||
EP0890168B1 (en) | Image synthesis | |
CN113724683A (en) | Audio generation method, computer device, and computer-readable storage medium | |
JP2667455B2 (en) | Facial video synthesis system | |
JPH0216681A (en) | Winking signal generating system for face animation picture synthesizing | |
CN117275485B (en) | Audio and video generation method, device, equipment and storage medium | |
JP2644789B2 (en) | Image transmission method | |
JP3299797B2 (en) | Composite image display system | |
KR100229538B1 (en) | Apparatus and method for encoding a facial movement | |
JPH01190187A (en) | Image transmission method | |
JPH02196585A (en) | Voice signal communication equipment | |
JP3298076B2 (en) | Image creation device | |
Hasegawa et al. | Oral image to voice converter-image input microphone | |
JPH01190188A (en) | Picture transmission system | |
CN117115318B (en) | Method and device for synthesizing mouth-shaped animation and electronic equipment | |
Chen et al. | Audio visual interaction in multimedia |