CN108447474A - 一种虚拟人物语音与口型同步的建模与控制方法 - Google Patents
一种虚拟人物语音与口型同步的建模与控制方法 Download PDFInfo
- Publication number
- CN108447474A CN108447474A CN201810199537.3A CN201810199537A CN108447474A CN 108447474 A CN108447474 A CN 108447474A CN 201810199537 A CN201810199537 A CN 201810199537A CN 108447474 A CN108447474 A CN 108447474A
- Authority
- CN
- China
- Prior art keywords
- mouth
- phoneme
- speaks
- shape
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000003068 static effect Effects 0.000 claims abstract description 49
- 230000001360 synchronised effect Effects 0.000 claims abstract description 21
- 238000009877 rendering Methods 0.000 claims description 13
- 238000005183 dynamical system Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 4
- 239000011800 void material Substances 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 abstract description 7
- 238000003786 synthesis reaction Methods 0.000 abstract description 7
- 230000003190 augmentative effect Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明属于语音合成领域的虚拟人物姿态控制,具体涉及一种虚拟人物语音与口型同步的建模与控制方法。目的是减少口型动画数据标注量,并获得准确、自然流畅并与声音同步的口型动作。该方法包括:产生待同步语音对应的音素序列;将音素序列转换为音素类别序列;将音素类别序列转换为静态口型配置序列;通过动态模型将在时间轴上排布的静态口型配置序列转换为动态变化的口型配置;将动态变化的口型配置渲染成虚拟人物头颈部的姿态形象,同步配合语音信号进行展示。该方法可以不依赖于口型动画数据,并利用语音学先验知识和动态模型实现高效自然的虚拟人物口型同步控制。
Description
技术领域
本发明属于语音合成领域的虚拟人物姿态控制,具体涉及一种虚拟人物语音与口型同步的建模与控制方法。
背景技术
虚拟人物建模与渲染技术在动画、游戏和电影等行业得到广泛应用,并且使虚拟人物讲话时能够具有自然流畅并与声音同步的口型动作是提升用户体验的关键。
目前,给虚拟人物对口型是一项非常消耗时间和人力的工作,设计师需要根据音频的内容在时间轴上调整口型配置。一些基于机器学习的方法可以从大量口型动画中学习得到模型,并利用模型为其他输入语音产生口型。但这类方法依赖大量的口型动画作为训练数据,严重依赖数据量和标注工作。
因此,如何减少口型动画数据标注量,并获得准确、自然流畅并与声音同步的口型动作是目前亟需解决的问题。
发明内容
本发明提供一种虚拟人物语音与口型同步的建模与控制方法,无需口型动画数据标注量,并能够获得准确、自然流畅并与声音同步的口型动作。
一种口型建模方法,包括如下方法:
步骤一、将语音音素划分为不同的音素类别;
步骤二、为每个音素类别定义一个静态发音姿态;
步骤三、为每个静态发音姿态建立相应的虚拟人物渲染系统的一组静态口型配置。
如上所述的口型建模方法,其中:步骤一中,所述语音音素分为元音音素和辅音音素;对于元音音素,根据开口度和唇形将元音音素划分为多个元音音素类别;对于辅音音素,根据发音部位将辅音音素划分为多个辅音音素类别。
如上所述的口型建模方法,其中:步骤二中,所述静态发音姿态指该类别的音素在理想情况下,即发音完整的静态状态下的发音姿态。
如上所述的口型建模方法,其中:步骤三中,所述静态口型配置指虚拟人物渲染系统所定义的口型配置,形式为一个关键帧或一组口型关键点参数。
一种虚拟人物语音与口型同步的控制方法,包括如下步骤:
步骤一、产生待同步语音对应的音素序列,所述音素序列为排布在时间轴上的音素序列;
步骤二、将音素序列转换为音素类别序列;
步骤三,将音素类别序列转换为静态口型配置序列。
步骤四,通过动态模型将在时间轴上排布的静态口型配置序列转换为动态变化的口型配置。
步骤五,将动态变化的口型配置渲染成虚拟人物头颈部的姿态形象,同步配合语音信号进行展示。
如上所述的一种虚拟人物语音与口型同步的控制方法,其中:所述步骤四包括:
步骤4.1,将时间轴的单位转换为帧;
步骤4.2,利用动态模型计算出动态变化的口型配置。
如上所述的一种虚拟人物语音与口型同步的控制方法,其中:所述音素类别至少分为元音音素类别和辅音音素类别,所述元音音素根据开口度和唇形划分为若干类别,所述辅音音素根据发音部位划分为若干类别。
如上所述的一种虚拟人物语音与口型同步的控制方法,其中:所述静态口型配置序列为关键帧或口型参数。
如上所述的一种虚拟人物语音与口型同步的控制方法,其中:所述静态口型配置为对应音素类别的静态发音姿态。
如上所述的一种虚拟人物语音与口型同步的控制方法,其中:所述动态模型为插值模型或动态系统。
与现有技术相比,本发明具有以下优点:
本发明提供的一种虚拟人物语音与口型同步的建模与控制方法,实现对虚拟人物口型的控制,使虚拟人物的口型与其语音内容同步。其应用场景包括:
(1)控制虚拟人物的口型与语音合成器所产生的语音同步;
(2)控制虚拟人物的口型与某个人所发出的语音同步。
本发明基于语音识别和语音合成技术,可以不依赖于口型动画数据,并利用语音学先验知识和动态模型实现高效自然的虚拟人物口型同步控制。
本发明通过将音素划分为不同的音素类别,并对各音素类别建立发音姿态,音素类别根据发音特征划分,有可以应用于世界上所有人类语言的优点。
本发明通过利用关键帧或关键点参数对各音素类别的发音姿态建立静态口型配置,有参数物理意义直观、可解释性强,易于配置的优点。
本发明利用音素在理想情况下,即发音完整的静态状态下的发音姿态建立关键帧或关键点参数,有标注工作量小的优点。
本发明利用人体动力学先验知识,通过动态模型将时间轴上排布的静态口型配置序列转换为动态变化的口型配置,有模型物理意义明确、模型构建简单、不依赖于海量训练数据优点。
附图说明
图1为本发明提供的一种虚拟人物语音与口型同步的建模方法的流程图;
图2为本发明提供的一种虚拟人物语音与口型同步的控制方法的流程图;
图3为以基于口型参数的静态口型配置序列表示的“大家好”。
图4为在图3基础上用二阶动态系统得到的口型参数。
具体实施方式
下面将介绍本发明的实施方式,但是应当意识到本发明并不局限于所介绍的实施方式,并且在不脱离基本思想的情况下本发明的各种变型都是可行的。因此本发明的范围仅由所附的权利要求确定。
如图1所示,一种口型建模方法,包括如下步骤:
步骤一、将语音音素划分为不同的音素类别。
通常可将音素划分为元音音素和辅音音素;对于元音音素,根据开口度和唇形将元音音素划分为若干元音音素类别;对于辅音音素,根据发音部位将辅音音素划分为若干辅音音素类别。该方法基于音素的发音特征进行类别划分,发音特征是普适于全人类语言的属性,因此该方法可以适用于世界上的任何语言。
步骤二、为每个音素类别定义一个静态发音姿态。
静态发音姿态指该类别的音素在理想情况下,即发音完整的静态状态下的发音姿态。每个音素都具有语音学意义上明确的静态发音位置,只需要为每个音素定义一个静态发音姿态。
步骤三、为每个静态发音姿态建立相应的虚拟人物渲染系统的一组静态口型配置。
虚拟人物渲染系统是电影、动画、游戏等领域中常用的数字信息系统,该系统可以将可配置的人物姿态渲染成三维或二维的图像及视频。人物的口型是由渲染系统中的口型配置决定的。
静态口型配置指虚拟人物渲染系统所定义的口型配置,形式可以为一个关键帧,或一组关键点参数。
如图2所示,一种虚拟人物语音与口型同步的控制方法,包括如下步骤:
步骤一,产生待同步语音对应的音素序列。
当待同步语音是语音合成器所产生的语音的情况下,语音合成器在合成语音的同时输出语音对应的音素序列及音素出现的起始时间点。
当待同步语音是某个人所发出的语音的情况下,采用语音识别器识别语音并输出对应的音素序列及音素出现的起始时间点。
音素序列指在时间轴上排布的若干音素,包含若干音素及其起始时间。
具体地,以汉语句子“大家好。”为例,所述音素序列为:
起始时间(毫秒) | 音素类别 |
0 | SIL |
20 | D |
40 | A |
180 | J |
220 | I |
270 | A |
350 | H |
390 | A |
440 | O |
500 | SIL |
其中,音素中SIL为特殊符号,表示静音。
再以英语句子“Hello.”为例,所述音素序列为:
起始时间(毫秒) | 音素类别 |
0 | SIL |
20 | h |
80 | ə |
160 | l |
200 | ə |
240 | ʊ |
300 | SIL |
步骤二,将音素序列根据所述音素划分方法转换为音素类别序列。
例如,可将音素划分为元音音素和辅音音素,元音音素根据开口度和唇形划分为若干类别,具体地,以汉语为例,划分规则可以为:
音素类别 | 音素集合 |
V_A | {A} |
V_O | {O} |
V_E | {E} |
V_I | {I} |
V_U | {U} |
V_V | {V} |
由于汉语的六个元音音素的开口度和唇形差异较大,所以本实施例中每个音素划分为一个类别,对于其他语言划分规则需要按实际情况调整。
以英语为例,所述划分规则为:
音素类别 | 音素集合 |
V_I | {iː, ɪ} |
V_E | {e} |
V_AE | {æ} |
V_ER | { ɜː, ə} |
V_A | {ɑː, ʌ} |
V_O | { ɔː, ɒ} |
V_U | { uː, ʊ} |
辅音音素根据发音部位划分为若干类别,具体地,以汉语为例,所述划分规则可以为:
音素类别 | 音素集合 |
C_SC | {B, P, M, SIL} |
C_CC | {F} |
C_JQ | {Z, C, S} |
C_SJ | {D, T, N, L} |
C_JH | {ZH, CH, SH, r} |
C_SM | {J, Q, X} |
C_SG | {G, K, H, NG} |
对于其他语言划分规则需要按实际情况调整。以英语为例,所述划分规则为:
音素类别 | 音素集合 |
C_SC | {b, p, m, SIL} |
C_SJ | {d, t, n, l, r} |
C_CY | {s, z, ts, dz} |
C_CYH | {ʃ, ʒ, tr, dr} |
C_CJ | {θ, ð} |
C_CC | {f, v} |
C_RE | {g, k, h, w, ŋ} |
具体地,以汉语句子“大家好。”为例,所述转换后的音素类别序列为:
起始时间(毫秒) | 音素类别 |
0 | C_SC |
20 | C_SJ |
40 | V_A |
180 | C_SM |
220 | V_I |
270 | V_A |
350 | C_SG |
390 | V_A |
440 | V_O |
500 | C_SC |
再以英语句子“Hello.”为例,对应的音素类别序列为:
起始时间(毫秒) | 音素类别 |
0 | C_SC |
20 | C_RE |
80 | V_ER |
160 | C_SJ |
200 | V_ER |
240 | V_U |
300 | C_SC |
步骤三,将音素类别序列转换为虚拟人物渲染系统所定义的口型配置序列。
假设虚拟人物渲染系统采用的口型配置为关键帧,具体地,以汉语句子“大家好。”为例,转换后的口型配置序列为:
起始时间(毫秒) | 关键帧名称 |
0 | KF_C_SC |
20 | KF_C_SJ |
40 | KF_V_A |
180 | KF_C_SM |
220 | KF_V_I |
270 | KF_V_A |
350 | KF_C_SG |
390 | KF_V_A |
440 | KF_V_O |
500 | KF_C_SC |
例如,“KF_C_SC”指音素类别“C_SC”的关键帧。此关键帧为对应音素类别的静态发音姿态,即指该音素类别在发音完整的静态状态下的发音姿态。
假设虚拟人物渲染系统采用的口型配置为口型参数,如二维参数,包括上下唇间距和左右嘴角间距;实际应用时也可以采用更复杂的参数表示,如六维参数,包括上下唇纵坐标、左右嘴角横纵坐标,或基于多关键点的坐标表示。具体地,以汉语句子“大家好。”为例,转换后的二维参数口型配置序列为:
起始时间(毫秒) | 口型配置 |
0 | (10, 50) |
20 | (20, 50) |
40 | (40, 50) |
180 | (20, 60) |
220 | (20, 70) |
270 | (40, 50) |
350 | (20, 50) |
390 | (40, 50) |
440 | (40, 30) |
500 | (10, 50) |
其中,口型配置为二维口型参数,格式为(上下唇间距, 左右嘴角间距),单位为像素。
需要注意上述实施例为了简洁起见采用二维口型参数,具体实施时,口型参数的类型和维度以实际情况为准,如包括上下唇纵坐标、左右嘴角横纵坐标的六维参数,或基于多关键点的表示。
步骤四,通过动态模型将在时间轴上排布的静态口型配置序列转换为动态变化的口型配置。
动态模型可以采用动态系统,例如可以采用但不限于二阶动态系统等;动态模型也可以是插值模型,例如可以采用但不限于线性插值、样条插值等。
对于基于关键帧的口型配置,动态模型给出某一时刻渲染的帧由各关键帧混合的比例。
对于基于口型参数的口型配置,经过动态模型计算后给出某一时刻的口型参数值。
步骤4.1,将时间轴的单位转换为帧,供视频、软件界面、虚拟现实或增强现实中的虚拟人物渲染使用。
以基于关键帧的静态口型配置序列为例:
起始时间(帧) | 关键帧名称 |
0 | KF_C_SC |
0.4 | KF_C_SJ |
0.8 | KF_V_A |
3.6 | KF_C_SM |
4.4 | KF_V_I |
5.4 | KF_V_A |
7.0 | KF_C_SG |
7.8 | KF_V_A |
8.8 | KF_V_O |
10.0 | KF_C_SC |
如附图3,以基于口型参数的静态口型配置序列为例:
起始时间(帧) | 口型配置(二维口型参数) |
0 | (10,50) |
0.4 | (20,50) |
0.8 | (40,50) |
3.6 | (20,60) |
4.4 | (20,70) |
5.4 | (40,50) |
7.0 | (20,50) |
7.8 | (40,50) |
8.8 | (40,30) |
10.0 | (10,50) |
步骤4.2,利用动态模型计算给出动态变化的口型配置。
以插值模型,如线性插值为例,从上述基于关键帧的静态口型配置序列中插值计算出第0帧到第10帧的关键帧混合比例如下:
展示时间(帧) | 关键帧名称及其混合比例 |
0 | KF_C_SC(100.0%) |
1 | KF_V_A(92.9%) KF_C_SM(7.1%) |
2 | KF_V_A(57.1%) KF_C_SM(42.9%) |
3 | KF_V_A(21.4%) KF_C_SM(78.6%) |
4 | KF_C_SM(50.0%) KF_V_I(50.0%) |
5 | KF_V_I(40.0%) KF_V_A(60.0%) |
6 | KF_V_A(62.5%) KF_C_SG(37.5%) |
7 | KF_C_SG(100.0%) |
8 | KF_V_A(80.0%) KF_V_O(20.0%) |
9 | KF_V_O(83.3%) KF_C_SC(16.7%) |
10 | KF_C_SC(100.0%) |
如附图4,以二阶动态系统
G(s)=ω^2/(s^2+2ζωs+ω^2),
ζ=0.5,ω=0.7
为例,其中ζ为阻尼系数,ω为自然频率,从上述基于口型参数的静态口型配置序列中计算出第0帧到第10帧的口型参数:
展示时间(帧) | 口型配置(二维口型参数) |
0 | (10.0, 50.1) |
1 | (37.3, 53.2) |
2 | (19.5, 60.0) |
3 | (19.9, 60.0) |
4 | (20.0, 68.4) |
5 | (42.4, 47.2) |
6 | (17.2, 50.4) |
7 | (20.4, 50.0) |
8 | (41.6, 43.6) |
9 | (31.2, 36.4) |
10 | (9.9, 49.9) |
步骤五,将动态变化的口型配置渲染成虚拟人物头颈部的姿态形象,同步配合语音信号,在视频、软件界面、虚拟现实或增强现实的媒介上展示。
本发明提供的一种虚拟人物语音与口型同步的控制方法,包括建模步骤和口型同步步骤,其中建模步骤具体分为:
步骤S1.1、将语音音素划分为不同的音素类别。
通常可将音素划分为元音音素和辅音音素;对于元音音素,根据开口度和唇形将元音音素划分为若干元音音素类别;对于辅音音素,根据发音部位将辅音音素划分为若干辅音音素类别。
步骤S1.2、为每个音素类别定义一个静态发音姿态。
静态发音姿态指该类别的音素在理想情况下,即发音完整的静态状态下的发音姿态。
步骤S1.3、为每个静态发音姿态建立相应的虚拟人物渲染系统的一组静态口型配置。静态口型配置指虚拟人物渲染系统所定义的口型配置,形式可以为一个关键帧,或一组关键点参数。
其中,口型同步步骤具体分为:
步骤S2.1,产生待同步语音对应的音素序列。
当待同步语音是语音合成器所产生的语音的情况下,语音合成器在合成语音的同时输出语音对应的音素序列及音素出现的起始时间点。
当待同步语音是某个人所发出的语音的情况下,采用语音识别器识别语音并输出对应的音素序列及音素出现的起始时间点。
音素序列指在时间轴上排布的若干音素,包含若干音素及其起始时间。
步骤S2.2,将音素序列根据所述音素划分方法转换为音素类别序列。
步骤S2.3,将音素类别序列转换为静态口型配置序列。
步骤S2.4,通过动态模型将在时间轴上排布的静态口型配置序列转换为动态变化的口型配置。
动态模型可以采用动态系统,例如可以采用但不限于二阶动态系统等;动态模型也可以是插值模型,例如可以采用但不限于线性插值、样条插值等。
对于基于关键帧的口型配置,动态模型给出某一时刻渲染的帧由各关键帧混合的比例。
对于基于口型参数的口型配置,经过动态模型计算后给出某一时刻的口型参数值。
步骤S2.4.1,将时间轴的单位转换为帧,供视频、软件界面、虚拟现实或增强现实中的虚拟人物渲染使用。
步骤S2.4.2,利用动态模型计算给出动态变化的口型配置。
步骤S2.5,将动态变化的口型配置渲染成虚拟人物头颈部的姿态形象,同步配合语音信号,在视频、软件界面、虚拟现实或增强现实的媒介上展示。
本发明基于语音识别和语音合成技术,可以不依赖于口型动画数据,并利用语音学先验知识和动态模型实现高效自然的虚拟人物口型同步控制。
通过主观实验评测,基于本发明提出的方法构建的系统可以达到MOS(MeanOpinion Score)值3.3±0.2分。参与实验的被试为10名语音学或语言学专业的研究生,平均年龄为23.8±0.7岁,试验采用的素材为随机顺序呈现的50句合成语音,以及对应的合成视频,被试的任务是从口型自然度角度给出自己的主观评价分数,分数范围为1到5,表示从很不自然到很自然的自然度变化范围。
任何本领域技术人员在不脱离本发明的精神和范围内,都可以做出可能的变动和修改,因此本发明的保护范围应当以本发明权利要求所界定的范围为准。
Claims (10)
1.一种口型建模方法,包括如下方法:
步骤一、将语音音素划分为不同的音素类别;
步骤二、为每个音素类别定义一个静态发音姿态;
步骤三、为每个静态发音姿态建立相应的虚拟人物渲染系统的一组静态口型配置。
2.如权利要求1所述的口型建模方法,其特征在于:步骤一中,所述语音音素分为元音音素和辅音音素;对于元音音素,根据开口度和唇形将元音音素划分为多个元音音素类别;对于辅音音素,根据发音部位将辅音音素划分为多个辅音音素类别。
3.如权利要求1所述的口型建模方法,其特征在于:步骤二中,所述静态发音姿态指该类别的音素在理想情况下,即发音完整的静态状态下的发音姿态。
4.如权利要求1所述的口型建模方法,其特征在于:步骤三中,所述静态口型配置指虚拟人物渲染系统所定义的口型配置,形式为一个关键帧或一组口型关键点参数。
5.一种虚拟人物语音与口型同步的控制方法,包括如下步骤:
步骤一、产生待同步语音对应的音素序列,所述音素序列为排布在时间轴上的音素序列;
步骤二、将音素序列转换为音素类别序列;
步骤三,将音素类别序列转换为静态口型配置序列;
步骤四,通过动态模型将在时间轴上排布的静态口型配置序列转换为动态变化的口型配置;
步骤五,将动态变化的口型配置渲染成虚拟人物头颈部的姿态形象,同步配合语音信号进行展示。
6.如权利要求5所述的一种虚拟人物语音与口型同步的控制方法,其特征在于:所述步骤四包括:
步骤4.1,将时间轴的单位转换为帧;
步骤4.2,利用动态模型计算出动态变化的口型配置。
7.如权利要求6所述的一种虚拟人物语音与口型同步的控制方法,其特征在于:所述音素类别至少分为元音音素类别和辅音音素类别,所述元音音素根据开口度和唇形划分为若干类别,所述辅音音素根据发音部位划分为若干类别。
8.如权利要求6所述的一种虚拟人物语音与口型同步的控制方法,其特征在于:所述口型配置序列为关键帧或口型参数。
9.如权利要求6所述的一种虚拟人物语音与口型同步的控制方法,其特征在于:所述静态口型配置为对应音素类别的静态发音姿态。
10.如权利要求6所述的一种虚拟人物语音与口型同步的控制方法,其特征在于:所述动态模型为插值模型或动态系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810199537.3A CN108447474B (zh) | 2018-03-12 | 2018-03-12 | 一种虚拟人物语音与口型同步的建模与控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810199537.3A CN108447474B (zh) | 2018-03-12 | 2018-03-12 | 一种虚拟人物语音与口型同步的建模与控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108447474A true CN108447474A (zh) | 2018-08-24 |
CN108447474B CN108447474B (zh) | 2020-10-16 |
Family
ID=63193985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810199537.3A Active CN108447474B (zh) | 2018-03-12 | 2018-03-12 | 一种虚拟人物语音与口型同步的建模与控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108447474B (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109168067A (zh) * | 2018-11-02 | 2019-01-08 | 深圳Tcl新技术有限公司 | 视频时序矫正方法、矫正终端及计算机可读存储介质 |
CN109326151A (zh) * | 2018-11-01 | 2019-02-12 | 北京智能优学科技有限公司 | 基于语义驱动虚拟形象的实现方法、客户端和服务器 |
CN110288682A (zh) * | 2019-06-28 | 2019-09-27 | 北京百度网讯科技有限公司 | 用于控制三维虚拟人像口型变化的方法和装置 |
CN110503942A (zh) * | 2019-08-29 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语音驱动动画方法和装置 |
CN111161755A (zh) * | 2019-12-25 | 2020-05-15 | 新华智云科技有限公司 | 基于3d渲染引擎的中文唇音同步方法 |
CN111261187A (zh) * | 2020-02-04 | 2020-06-09 | 清华珠三角研究院 | 一种将语音转换成唇形的方法、系统、装置和存储介质 |
CN111325817A (zh) * | 2020-02-04 | 2020-06-23 | 清华珠三角研究院 | 一种虚拟人物场景视频的生成方法、终端设备及介质 |
CN111741326A (zh) * | 2020-06-30 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 视频合成方法、装置、设备及存储介质 |
CN112002301A (zh) * | 2020-06-05 | 2020-11-27 | 四川纵横六合科技股份有限公司 | 一种基于文本的自动化视频生成方法 |
CN112001323A (zh) * | 2020-08-25 | 2020-11-27 | 成都威爱新经济技术研究院有限公司 | 一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法 |
CN112348932A (zh) * | 2020-11-13 | 2021-02-09 | 广州博冠信息科技有限公司 | 口型动画录制方法及装置、电子设备、存储介质 |
CN112992120A (zh) * | 2019-12-02 | 2021-06-18 | 泛太丝亚企业管理顾问(上海)有限公司 | 语音转换虚拟脸部图像的方法 |
CN113539240A (zh) * | 2021-07-19 | 2021-10-22 | 北京沃东天骏信息技术有限公司 | 动画生成方法、装置、电子设备和存储介质 |
WO2022048404A1 (zh) * | 2020-09-01 | 2022-03-10 | 魔珐(上海)信息科技有限公司 | 端到端的虚拟对象动画生成方法及装置、存储介质、终端 |
CN114267374A (zh) * | 2021-11-24 | 2022-04-01 | 北京百度网讯科技有限公司 | 音素检测方法及装置、训练方法及装置、设备和介质 |
CN114359450A (zh) * | 2022-01-17 | 2022-04-15 | 小哆智能科技(北京)有限公司 | 一种模拟虚拟人物说话的方法及装置 |
CN114359443A (zh) * | 2022-01-17 | 2022-04-15 | 小哆智能科技(北京)有限公司 | 一种用于模拟虚拟人物说话的方法及装置 |
CN114782597A (zh) * | 2022-04-06 | 2022-07-22 | 北京达佳互联信息技术有限公司 | 图像的处理方法、装置、设备及存储介质 |
CN115050354A (zh) * | 2022-08-10 | 2022-09-13 | 北京百度网讯科技有限公司 | 数字人驱动方法和装置 |
CN115222856A (zh) * | 2022-05-20 | 2022-10-21 | 一点灵犀信息技术(广州)有限公司 | 表情动画生成方法及电子设备 |
CN116095357A (zh) * | 2023-04-07 | 2023-05-09 | 世优(北京)科技有限公司 | 虚拟主播的直播方法、装置及系统 |
CN116524896A (zh) * | 2023-04-24 | 2023-08-01 | 北京邮电大学 | 一种基于发音生理建模的发音反演方法及系统 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6066794A (en) * | 1997-01-21 | 2000-05-23 | Longo; Nicholas C. | Gesture synthesizer for electronic sound device |
US20060221084A1 (en) * | 2005-03-31 | 2006-10-05 | Minerva Yeung | Method and apparatus for animation |
CN1971621A (zh) * | 2006-11-10 | 2007-05-30 | 中国科学院计算技术研究所 | 语音和文本联合驱动的卡通人脸动画生成方法 |
CN102819856A (zh) * | 2012-07-10 | 2012-12-12 | 广东工业大学 | 一种根据中文对白生成连贯嘴型动画的方法 |
CN102830121A (zh) * | 2012-08-17 | 2012-12-19 | 浙江工业大学 | 一种软性磨粒流磨粒群实时检测方法 |
US20140198108A1 (en) * | 2013-01-16 | 2014-07-17 | Disney Enterprises, Inc. | Multi-linear dynamic hair or clothing model with efficient collision handling |
CN104361620A (zh) * | 2014-11-27 | 2015-02-18 | 韩慧健 | 一种基于综合加权算法的口型动画合成方法 |
CN105390133A (zh) * | 2015-10-09 | 2016-03-09 | 西北师范大学 | 藏语ttvs系统的实现方法 |
CN105654942A (zh) * | 2016-01-04 | 2016-06-08 | 北京时代瑞朗科技有限公司 | 一种基于统计参数的疑问句、感叹句的语音合成方法 |
CN105900144A (zh) * | 2013-06-07 | 2016-08-24 | 费斯史福特股份公司 | 实时面部动画的在线建模 |
CN106328163A (zh) * | 2016-08-16 | 2017-01-11 | 新疆大学 | 维吾尔语音位‑视位参数的转换方法和系统 |
CN106504304A (zh) * | 2016-09-14 | 2017-03-15 | 厦门幻世网络科技有限公司 | 一种动画合成的方法及装置 |
CN107066647A (zh) * | 2015-12-15 | 2017-08-18 | 达索系统西姆利亚公司 | 虚拟现实创建方法 |
-
2018
- 2018-03-12 CN CN201810199537.3A patent/CN108447474B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6066794A (en) * | 1997-01-21 | 2000-05-23 | Longo; Nicholas C. | Gesture synthesizer for electronic sound device |
US20060221084A1 (en) * | 2005-03-31 | 2006-10-05 | Minerva Yeung | Method and apparatus for animation |
CN1971621A (zh) * | 2006-11-10 | 2007-05-30 | 中国科学院计算技术研究所 | 语音和文本联合驱动的卡通人脸动画生成方法 |
CN102819856A (zh) * | 2012-07-10 | 2012-12-12 | 广东工业大学 | 一种根据中文对白生成连贯嘴型动画的方法 |
CN102830121A (zh) * | 2012-08-17 | 2012-12-19 | 浙江工业大学 | 一种软性磨粒流磨粒群实时检测方法 |
US20140198108A1 (en) * | 2013-01-16 | 2014-07-17 | Disney Enterprises, Inc. | Multi-linear dynamic hair or clothing model with efficient collision handling |
CN105900144A (zh) * | 2013-06-07 | 2016-08-24 | 费斯史福特股份公司 | 实时面部动画的在线建模 |
CN104361620A (zh) * | 2014-11-27 | 2015-02-18 | 韩慧健 | 一种基于综合加权算法的口型动画合成方法 |
CN105390133A (zh) * | 2015-10-09 | 2016-03-09 | 西北师范大学 | 藏语ttvs系统的实现方法 |
CN107066647A (zh) * | 2015-12-15 | 2017-08-18 | 达索系统西姆利亚公司 | 虚拟现实创建方法 |
CN105654942A (zh) * | 2016-01-04 | 2016-06-08 | 北京时代瑞朗科技有限公司 | 一种基于统计参数的疑问句、感叹句的语音合成方法 |
CN106328163A (zh) * | 2016-08-16 | 2017-01-11 | 新疆大学 | 维吾尔语音位‑视位参数的转换方法和系统 |
CN106504304A (zh) * | 2016-09-14 | 2017-03-15 | 厦门幻世网络科技有限公司 | 一种动画合成的方法及装置 |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109326151A (zh) * | 2018-11-01 | 2019-02-12 | 北京智能优学科技有限公司 | 基于语义驱动虚拟形象的实现方法、客户端和服务器 |
CN109168067A (zh) * | 2018-11-02 | 2019-01-08 | 深圳Tcl新技术有限公司 | 视频时序矫正方法、矫正终端及计算机可读存储介质 |
CN110288682A (zh) * | 2019-06-28 | 2019-09-27 | 北京百度网讯科技有限公司 | 用于控制三维虚拟人像口型变化的方法和装置 |
CN110288682B (zh) * | 2019-06-28 | 2023-09-26 | 北京百度网讯科技有限公司 | 用于控制三维虚拟人像口型变化的方法和装置 |
WO2021036644A1 (zh) * | 2019-08-29 | 2021-03-04 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语音驱动动画方法和装置 |
CN110503942A (zh) * | 2019-08-29 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语音驱动动画方法和装置 |
US12002138B2 (en) | 2019-08-29 | 2024-06-04 | Tencent Technology (Shenzhen) Company Limited | Speech-driven animation method and apparatus based on artificial intelligence |
CN112992120A (zh) * | 2019-12-02 | 2021-06-18 | 泛太丝亚企业管理顾问(上海)有限公司 | 语音转换虚拟脸部图像的方法 |
CN111161755A (zh) * | 2019-12-25 | 2020-05-15 | 新华智云科技有限公司 | 基于3d渲染引擎的中文唇音同步方法 |
CN111325817A (zh) * | 2020-02-04 | 2020-06-23 | 清华珠三角研究院 | 一种虚拟人物场景视频的生成方法、终端设备及介质 |
CN111325817B (zh) * | 2020-02-04 | 2023-07-18 | 清华珠三角研究院 | 一种虚拟人物场景视频的生成方法、终端设备及介质 |
CN111261187A (zh) * | 2020-02-04 | 2020-06-09 | 清华珠三角研究院 | 一种将语音转换成唇形的方法、系统、装置和存储介质 |
CN111261187B (zh) * | 2020-02-04 | 2023-02-14 | 清华珠三角研究院 | 一种将语音转换成唇形的方法、系统、装置和存储介质 |
CN112002301A (zh) * | 2020-06-05 | 2020-11-27 | 四川纵横六合科技股份有限公司 | 一种基于文本的自动化视频生成方法 |
CN111741326A (zh) * | 2020-06-30 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 视频合成方法、装置、设备及存储介质 |
CN111741326B (zh) * | 2020-06-30 | 2023-08-18 | 腾讯科技(深圳)有限公司 | 视频合成方法、装置、设备及存储介质 |
CN112001323A (zh) * | 2020-08-25 | 2020-11-27 | 成都威爱新经济技术研究院有限公司 | 一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法 |
WO2022048404A1 (zh) * | 2020-09-01 | 2022-03-10 | 魔珐(上海)信息科技有限公司 | 端到端的虚拟对象动画生成方法及装置、存储介质、终端 |
US11810233B2 (en) | 2020-09-01 | 2023-11-07 | Mofa (Shanghai) Information Technology Co., Ltd. | End-to-end virtual object animation generation method and apparatus, storage medium, and terminal |
CN112348932A (zh) * | 2020-11-13 | 2021-02-09 | 广州博冠信息科技有限公司 | 口型动画录制方法及装置、电子设备、存储介质 |
CN112348932B (zh) * | 2020-11-13 | 2024-08-09 | 广州博冠信息科技有限公司 | 口型动画录制方法及装置、电子设备、存储介质 |
CN113539240B (zh) * | 2021-07-19 | 2024-06-18 | 北京沃东天骏信息技术有限公司 | 动画生成方法、装置、电子设备和存储介质 |
CN113539240A (zh) * | 2021-07-19 | 2021-10-22 | 北京沃东天骏信息技术有限公司 | 动画生成方法、装置、电子设备和存储介质 |
CN114267374A (zh) * | 2021-11-24 | 2022-04-01 | 北京百度网讯科技有限公司 | 音素检测方法及装置、训练方法及装置、设备和介质 |
CN114267374B (zh) * | 2021-11-24 | 2022-10-18 | 北京百度网讯科技有限公司 | 音素检测方法及装置、训练方法及装置、设备和介质 |
CN114359450A (zh) * | 2022-01-17 | 2022-04-15 | 小哆智能科技(北京)有限公司 | 一种模拟虚拟人物说话的方法及装置 |
CN114359443A (zh) * | 2022-01-17 | 2022-04-15 | 小哆智能科技(北京)有限公司 | 一种用于模拟虚拟人物说话的方法及装置 |
CN114782597A (zh) * | 2022-04-06 | 2022-07-22 | 北京达佳互联信息技术有限公司 | 图像的处理方法、装置、设备及存储介质 |
CN115222856B (zh) * | 2022-05-20 | 2023-09-26 | 一点灵犀信息技术(广州)有限公司 | 表情动画生成方法及电子设备 |
CN115222856A (zh) * | 2022-05-20 | 2022-10-21 | 一点灵犀信息技术(广州)有限公司 | 表情动画生成方法及电子设备 |
CN115050354A (zh) * | 2022-08-10 | 2022-09-13 | 北京百度网讯科技有限公司 | 数字人驱动方法和装置 |
CN116095357B (zh) * | 2023-04-07 | 2023-07-04 | 世优(北京)科技有限公司 | 虚拟主播的直播方法、装置及系统 |
CN116095357A (zh) * | 2023-04-07 | 2023-05-09 | 世优(北京)科技有限公司 | 虚拟主播的直播方法、装置及系统 |
CN116524896A (zh) * | 2023-04-24 | 2023-08-01 | 北京邮电大学 | 一种基于发音生理建模的发音反演方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108447474B (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108447474A (zh) | 一种虚拟人物语音与口型同步的建模与控制方法 | |
KR102035596B1 (ko) | 인공지능 기반의 가상 캐릭터의 페이셜 애니메이션 자동 생성 시스템 및 방법 | |
US7353177B2 (en) | System and method of providing conversational visual prosody for talking heads | |
KR20150076128A (ko) | 3차원 멀티미디어 활용 발음 학습 지원 시스템 및 그 시스템의 발음 학습 지원 방법 | |
CN105390133A (zh) | 藏语ttvs系统的实现方法 | |
Wang et al. | Computer-assisted audiovisual language learning | |
Beskow | Trainable articulatory control models for visual speech synthesis | |
CN116363268A (zh) | 一种口型动画的生成方法、装置、电子设备和存储介质 | |
US20200193961A1 (en) | System for synchronizing speech and motion of character | |
Serra et al. | A proposal for a visual speech animation system for European Portuguese | |
Karpov et al. | Multimodal synthesizer for Russian and Czech sign languages and audio-visual speech | |
JP2019097016A (ja) | コーパス生成装置、コーパス生成方法、およびプログラム | |
Kolivand et al. | Realistic lip syncing for virtual character using common viseme set | |
Rakun et al. | SIBI (Sign System Indonesian Language) Text-to-3D Animation Translation Mobile Application | |
Verma et al. | Animating expressive faces across languages | |
US12002487B2 (en) | Information processing apparatus and information processing method for selecting a character response to a user based on emotion and intimacy | |
EP0982684A1 (en) | Moving picture generating device and image control network learning device | |
CN115529500A (zh) | 动态影像的生成方法和装置 | |
Wolfe et al. | Exploring localization for mouthings in sign language avatars | |
Morishima et al. | Audio-visual speech translation with automatic lip syncqronization and face tracking based on 3-d head model | |
Lacerda et al. | Enhancing Portuguese Sign Language Animation with Dynamic Timing and Mouthing | |
Muzahidin et al. | Text-driven talking head using dynamic viseme and DFFD for SIBI | |
KR20010088139A (ko) | 텍스트 데이터 입력에 대응한 입모양 출력장치 및 그 방법 | |
KR20210052791A (ko) | 사용자의 발음정보에서 내부 모션 추정을 통한 발음 평가 방법 | |
Uchida et al. | Statistical acoustic-to-articulatory mapping unified with speaker normalization based on voice conversion. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |