CN111081270B - 一种实时音频驱动的虚拟人物口型同步控制方法 - Google Patents
一种实时音频驱动的虚拟人物口型同步控制方法 Download PDFInfo
- Publication number
- CN111081270B CN111081270B CN201911314031.3A CN201911314031A CN111081270B CN 111081270 B CN111081270 B CN 111081270B CN 201911314031 A CN201911314031 A CN 201911314031A CN 111081270 B CN111081270 B CN 111081270B
- Authority
- CN
- China
- Prior art keywords
- mouth shape
- real
- probability
- phoneme
- virtual character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000001360 synchronised effect Effects 0.000 title claims abstract description 29
- 238000009877 rendering Methods 0.000 claims abstract description 22
- 238000005070 sampling Methods 0.000 claims abstract description 16
- 238000001914 filtration Methods 0.000 claims abstract description 13
- 238000002156 mixing Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 10
- 238000009432 framing Methods 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 5
- 210000000988 bone and bone Anatomy 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000008878 coupling Effects 0.000 abstract description 3
- 238000010168 coupling process Methods 0.000 abstract description 3
- 238000005859 coupling reaction Methods 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012952 Resampling Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/18—Details of the transformation process
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种实时音频驱动的虚拟人物口型同步控制方法。该方法包括如下步骤:从实时语音流中识别出视素概率的步骤;对所述视素概率进行滤波的步骤;将所述视素概率的采样率转换为和虚拟人物渲染帧率相同的采样率的步骤;将所述视素概率转换为标准口型配置并进行口型渲染的步骤。该方法可以避免要求在传递音频流时同步传递音素序列或口型序列信息,可以显著降低系统复杂性、耦合度和实现难度,适用于各种在显示设备上渲染虚拟人物的应用场景。
Description
技术领域
本发明属于虚拟人物姿态控制领域,具体涉及一种实时音频驱动的虚拟人物口型同步控制方法。
背景技术
虚拟人物建模与渲染技术在动画、游戏和电影等行业得到广泛应用。使虚拟人物讲话时能够具有自然流畅并与声音同步的口型动作是提升用户体验的关键。在实时系统中,需要同步播放以流的形式实时获取的音频,和同步渲染的虚拟人物形象,这个过程中需要保证音频和人物口型之间的同步。
其应用场景包括:
1、实时音频为语音合成器所产生的语音;
1.1、可以以同步流的形式获取语音对应的音素序列;
1.2、无法以同步流的形式获取语音对应的音素序列;
2、实时音频为某个人所发出的语音。
在场景1.1中可以同步获得语音对应的音素序列。因此可以将音素序列转换为口型动作序列用于驱动虚拟人物口型变化。但是同步获取语音对应的音素序列在应用中需要额外的通信协议支持,用来保证语音和音素序列之间的时间同步,使得系统复杂性提升,耦合性增加,实现难度较大。
在场景1.2和场景2中,无法同步获得语音对应的音素序列。因此需要一种能够基于实时音频数据驱动虚拟人物口型的控制方法。
因此,为了解决上述无法同步获得语音对应的音素序列的情况,亟需一种能够从音频中识别出口型序列,并利用该口型序列同步驱动虚拟人物口型变化的方法。
发明内容
本发明提供了一种实时音频驱动的虚拟人物口型同步控制方法,目的是要解决:在实时音频流传输的场景下,需要在设备端展示一个虚拟人物,该人物所说的语音从实时音频流获取,人物的口型需要和语音内容同步。
一种实时音频驱动的虚拟人物口型同步控制方法,包括如下步骤:
从实时语音流中识别出视素概率的步骤;其中,视素概率是基于预设的音素到视素的映射关系,将属于同一类视素的音素概率合并后得到的;
对所述视素概率进行滤波的步骤;
将所述视素概率的采样率转换为和虚拟人物渲染帧率相同的采样率的步骤;
将所述视素概率转换为标准口型配置并进行口型渲染的步骤。
如上所述的一种实时音频驱动的虚拟人物口型同步控制方法,其中:所述视素概率利用视素识别方法得到;或利用音素识别从实时语音流中识别出音素概率,再将所述音素概率转换为视素概率。
如上所述的一种实时音频驱动的虚拟人物口型同步控制方法,其中:采用有限或无限冲击响应滤波器,分别对各视素概率进行平滑滤波。
如上所述的一种实时音频驱动的虚拟人物口型同步控制方法,其中:将所述视素概率转换为标准口型配置时;首先,为每一种视素定义标准口型配置,所述标准口型配置为关键帧或描述口型的参数;其次,通过映射函数将视素概率转换为标准口型配置的混合比例;其中,在关键帧场景下,所述混合比例是不同关键帧之间的插值比例;在关键点参数、骨骼参数或blenshape参数的场景下,所述混合比例是各描述口型的参数的混合比例。
如上所述的一种实时音频驱动的虚拟人物口型同步控制方法,其中:在音视频播放时,为保持同步,在播放音频流时通过补偿延迟使音频流和视频流的内容同步。
如上所述的一种实时音频驱动的虚拟人物口型同步控制方法,其中:所述补偿延迟的缓冲区的长度由口型视素识别、滤波和视频渲染的处理延迟共同决定。
如上所述的一种实时音频驱动的虚拟人物口型同步控制方法,其中:所述音素识别包括:将语音流分帧,进行特征提取的步骤;以及利用所述特征进行音素估计的步骤。
如上所述的一种实时音频驱动的虚拟人物口型同步控制方法,其中:所述音素是IPA定义的音素,或自定义音素。
如上所述的一种实时音频驱动的虚拟人物口型同步控制方法,其中:所述补偿延迟的方法为:音频延迟补偿量=分帧延迟+特征拼接延迟+音素识别延迟+滤波延迟-视频渲染延迟。
本发明针对无法同步获得语音对应的音素序列的情况,提出从音频中识别出口型序列,并利用该口型序列同步驱动虚拟人物口型变化的方法。可以避免要求在传递音频流时同步传递音素序列或口型序列信息,可以显著降低系统复杂性、耦合度和实现难度,适用于各种在显示设备上渲染虚拟人物的应用场景。
与现有技术相比,本发明具有以下优点:
通过在设备端本地渲染虚拟人物,避免在服务器端渲染后通过网络传输视频信号,可以节省大量通信带宽,降低运营成本。
通过在设备端本地识别口型,避免在传输音频的同时传输口型信息,避免进行音频和口型的通信层同步,降低通信协议复杂度,降低实现难度。
通过基于音素或视素识别模型输出的概率作为标准口型参数的混合比,可以避免使用Viterbi解码算法将概率转化为音素或视素类别的标签,降低实现难度。
本发明从音频信号直接推理出口型参数的混合比,不使用Viterbi解码,可以避免解码带来的系统性延迟,相比基于解码的方法可缩短系统响应时间约1秒,在实时交互的场景下大幅度降低交互延迟,提升用户体验。
附图说明
图1为本发明提供的一种实时音频驱动的虚拟人物口型同步控制方法的第一实施例的流程图;
图2为本发明提供的一种实时音频驱动的虚拟人物口型同步控制方法的第二实施例的流程图;
图3为本发明提供的一种实时音频驱动的虚拟人物口型同步控制方法的第三实施例的流程图。
具体实施方式
下面将结合附图介绍本发明的实施方式,但是应当意识到本发明并不局限于所介绍的实施方式,并且在不脱离基本思想的情况下本发明的各种变型都是可行的。因此本发明的范围仅由所附的权利要求确定。
如图1所示,本发明提供的一种实时音频驱动的虚拟人物口型同步控制方法,包括如下步骤:
从实时语音流中识别出视素概率的步骤;
对所述视素概率进行滤波的步骤;
将所述视素概率的采样率转换为和虚拟人物渲染帧率相同的采样率的步骤;
将所述视素概率转换为标准口型配置并进行口型渲染的步骤。
如图2所示,本发明提供的另一实施例的一种实时音频驱动的虚拟人物口型同步控制方法,包括如下步骤:
步骤1、音素识别
步骤1.1、特征提取
将语音流分帧,进行特征提取。
分帧过程为,在连续语音流上每隔H个样点,取帧长为L的一帧数据,帧和帧之间的重叠样点数为L-H。
特征提取过程为,将一帧数据进行信号处理,将其转化为某种形式,如频谱、相位谱、分带能量、倒谱系数、线性预测系数等等。
特征提取过程也可以不对语音数据进行处理,以原始音频样本作为特征提取的结果。
得到每一帧数据对应的特征后,也可以利用时间上相邻的帧的特征,进一步提取出差分特征,并将差分特征附加到原始特征上作为特征提取的结果。
得到每一帧数据对应的特征后,也可以将时间上临近的帧的特征进行拼接,将拼接的结果作为特征提取的结果。
差分和拼接操作可以同时使用。
步骤1.2、音素概率估计
音素概率估计利用统计机器学习模型,从输入特征,估计出该特征是某个音素的概率。
音素可以是IPA(International Phonetic Alphabet)定义的音素,也可以是以其他标准定义的音素。
以汉语为例,可以采用的自定义音素集合为:
b | p | m | f | d | t | n | l |
g | h | j | q | x | z | c | s |
zh | ch | sh | ng | a | o | e | i |
ii | iii | u | v | er | sil |
其中,ng表示neng的韵尾,i表示yi的韵母,ii表示zi的韵母,iii表示zhi的韵母。sil表示静音。
步骤2、音素到视素概率转换
其中,视素概率是基于预设的音素到视素的映射关系,将属于同一类视素的音素概率合并后得到的。
所述预设的映射关系可以遵循不同的设计准则,不限于本发明给定的具体实施例。
以汉语为例,该映射关系可以是:
视素 | 音素 |
b | b/p/m |
d | d/t/n |
z | z/c/s |
zh | zh/ch/sh |
j | j/q/x |
k | k/h/l/g/ng |
a | a |
o | o |
e | e/er |
i | i/ii/iii |
u | u/v |
sil | sil |
步骤3、对得到的视素概率进行平滑滤波
由于统计机器学习模型对概率的估计不能保证完全准确,通常需要结合多帧数据信息对结果进行优化,得到在时间上平滑变化的概率。
平滑滤波过程可以采用有限冲击响应滤波器,分别对各视素概率进行滤波,滤波器的阶数和滤波器参数,可以根据对系统响应时间的要求进行调节。
以最简单的情况为例,可以采用阶数为10的滑动平均有限冲击响应滤波器实现。实际实施过程中,可以采用不同的滤波器设计。
步骤4、根据视频的采样率对语音流进行重采样
由于步骤1中特征提取过程对语音流进行分帧,其数据帧的采样率为(H/音频采样率)赫兹。
渲染视频的采样率一般以显示设备的刷新率为准。
因此需要利用重采样,使数据帧的采样率和视频采样率一致。
步骤5、视素概率到标准口型混合比例转换
虚拟人物渲染系统一般会对每种视素定义标准口型配置,可能的形式为关键帧,或描述口型的参数。
可以将视素概率通过线性或非线性映射函数,转换为标准口型配置的混合比例。
在关键帧场景下,该混合比例可以是不同关键帧之间的插值比例。
在关键点参数、骨骼参数或blenshape参数的场景下,该混合比例可以是参数的混合比例。
以一帧数据为例,如果视素概率为:
视素 | 视素概率 |
b | 0.0 |
d | 0.0 |
z | 0.0 |
zh | 0.0 |
j | 0.0 |
k | 0.0 |
a | 0.6 |
o | 0.4 |
e | 0.0 |
i | 0.0 |
u | 0.0 |
sil | 0.0 |
且假设从视素概率到混合比例的映射函数为线性映射。以关键点参数场景为例,将二维关键点参数定义为:
a(0.2 0.8)
e(0.7 0.3)
则上述视素概率对应的关键点参数混合比为a*0.6+e*0.4,因而得到当前帧的关键点参数为(0.4,0.6)。
步骤6、利用视素概率进行口型渲染
虚拟人物渲染系统根据所述混合后的口型配置,渲染虚拟人物形象,得到视频流。
步骤7、音视频同步播放
由于语音流经过分帧、拼接、音素识别、平滑滤波等环节的处理,每个环节存在一定的系统延迟,因此在播放音频流时需要通过补偿延迟使得音频流和视频流的内容同步。
所述延迟可以通过累加各处理环节的延迟计算得出。
由于视频渲染也存在一定延迟,在计算音频延迟时需要减去视频渲染系统的延迟。
以常见场景为例:
音频延迟补偿量=分帧延迟+特征拼接延迟+音素识别延迟+平滑滤波延迟-视频渲染延迟。
图3为本发明提供的第三实施例。该实施例与图2提供的第二实施例的区别在于:本实施例直接从语音流进行视素识别,不再经过音素识别和音素到视素概率的转换。
该方法的视素概率估计准确率相比图2所述方法略低,但基本不影响用户的主观感受,其优点在于实现难度和计算复杂度较低。
任何本领域技术人员在不脱离本发明的精神和范围内,都可以做出可能的变动和修改,因此本发明的保护范围应当以本发明权利要求所界定的范围为准。
Claims (8)
1.一种实时音频驱动的虚拟人物口型同步控制方法,包括如下步骤:
从实时语音流中识别出视素概率的步骤;其中,视素概率是基于预设的音素到视素的映射关系,将属于同一类视素的音素概率合并后得到的;所述视素概率利用视素识别方法得到;或利用音素识别从实时语音流中识别出音素概率,再将所述音素概率转换为视素概率;
对所述视素概率进行滤波的步骤;
将所述视素概率的采样率转换为和虚拟人物渲染帧率相同的采样率的步骤;
将所述视素概率转换为标准口型配置并进行口型渲染的步骤;将所述视素概率转换为标准口型配置时:首先,为每一种视素定义标准口型配置,所述标准口型配置为关键帧或描述口型的参数;其次,通过映射函数将视素概率转换为标准口型配置的混合比例;其中,在关键帧场景下,所述混合比例是不同关键帧之间的插值比例;在关键点参数、骨骼参数或blenshape参数的场景下,所述混合比例是关键点参数、骨骼参数或blenshape参数的混合比例。
2.如权利要求1所述的一种实时音频驱动的虚拟人物口型同步控制方法,其特征在于:采用有限或无限冲击响应滤波器,分别对各视素概率进行平滑滤波。
3.如权利要求1所述的一种实时音频驱动的虚拟人物口型同步控制方法,其特征在于:在音视频播放时,为保持同步,在播放音频流时通过补偿延迟使音频流和视频流的内容同步。
4.如权利要求3所述的一种实时音频驱动的虚拟人物口型同步控制方法,其特征在于:所述补偿延迟的缓冲区的长度由口型视素识别、滤波和视频渲染的处理延迟共同决定。
5.如权利要求1所述的一种实时音频驱动的虚拟人物口型同步控制方法,其特征在于:所述音素识别包括:将语音流分帧,进行特征提取的步骤;以及利用所述特征进行音素估计的步骤。
6.如权利要求5所述的一种实时音频驱动的虚拟人物口型同步控制方法,其特征在于:所述音素是IPA定义的音素,或自定义音素。
8.如权利要求3所述的一种实时音频驱动的虚拟人物口型同步控制方法,其特征在于:所述补偿延迟的方法为:音频延迟补偿量=分帧延迟+特征拼接延迟+音素识别延迟+滤波延迟-视频渲染延迟。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911314031.3A CN111081270B (zh) | 2019-12-19 | 2019-12-19 | 一种实时音频驱动的虚拟人物口型同步控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911314031.3A CN111081270B (zh) | 2019-12-19 | 2019-12-19 | 一种实时音频驱动的虚拟人物口型同步控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111081270A CN111081270A (zh) | 2020-04-28 |
CN111081270B true CN111081270B (zh) | 2021-06-01 |
Family
ID=70315527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911314031.3A Active CN111081270B (zh) | 2019-12-19 | 2019-12-19 | 一种实时音频驱动的虚拟人物口型同步控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111081270B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111627096A (zh) * | 2020-05-07 | 2020-09-04 | 江苏原力数字科技股份有限公司 | 一种基于blendshape的数字人驱动系统 |
CN111698552A (zh) * | 2020-05-15 | 2020-09-22 | 完美世界(北京)软件科技发展有限公司 | 一种视频资源的生成方法和装置 |
CN115426553A (zh) * | 2021-05-12 | 2022-12-02 | 海信集团控股股份有限公司 | 一种智能音箱及其显示方法 |
CN117557692A (zh) * | 2022-08-04 | 2024-02-13 | 深圳市腾讯网域计算机网络有限公司 | 口型动画生成方法、装置、设备和介质 |
CN117079664B (zh) * | 2023-08-16 | 2024-11-05 | 北京百度网讯科技有限公司 | 口型驱动及其模型训练方法、装置、设备和介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2438691A (en) * | 2005-04-13 | 2007-12-05 | Pixel Instr Corp | Method, system, and program product for measuring audio video synchronization independent of speaker characteristics |
CN101482975A (zh) * | 2008-01-07 | 2009-07-15 | 丰达软件(苏州)有限公司 | 一种文字转换动画的方法和装置 |
CN102342100A (zh) * | 2009-03-09 | 2012-02-01 | 思科技术公司 | 用于在网络环境中提供三维成像的系统和方法 |
CN103218842A (zh) * | 2013-03-12 | 2013-07-24 | 西南交通大学 | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 |
CN103329147A (zh) * | 2010-11-04 | 2013-09-25 | 数字标记公司 | 基于智能手机的方法和系统 |
CN107369440A (zh) * | 2017-08-02 | 2017-11-21 | 北京灵伴未来科技有限公司 | 一种针对短语音的说话人识别模型的训练方法及装置 |
CN109599113A (zh) * | 2019-01-22 | 2019-04-09 | 北京百度网讯科技有限公司 | 用于处理信息的方法和装置 |
CN109712627A (zh) * | 2019-03-07 | 2019-05-03 | 深圳欧博思智能科技有限公司 | 一种使用语音触发虚拟人物表情及口型动画的语音系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8694318B2 (en) * | 2006-09-19 | 2014-04-08 | At&T Intellectual Property I, L. P. | Methods, systems, and products for indexing content |
US10657972B2 (en) * | 2018-02-02 | 2020-05-19 | Max T. Hall | Method of translating and synthesizing a foreign language |
-
2019
- 2019-12-19 CN CN201911314031.3A patent/CN111081270B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2438691A (en) * | 2005-04-13 | 2007-12-05 | Pixel Instr Corp | Method, system, and program product for measuring audio video synchronization independent of speaker characteristics |
CN101482975A (zh) * | 2008-01-07 | 2009-07-15 | 丰达软件(苏州)有限公司 | 一种文字转换动画的方法和装置 |
CN102342100A (zh) * | 2009-03-09 | 2012-02-01 | 思科技术公司 | 用于在网络环境中提供三维成像的系统和方法 |
CN103329147A (zh) * | 2010-11-04 | 2013-09-25 | 数字标记公司 | 基于智能手机的方法和系统 |
CN103218842A (zh) * | 2013-03-12 | 2013-07-24 | 西南交通大学 | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 |
CN107369440A (zh) * | 2017-08-02 | 2017-11-21 | 北京灵伴未来科技有限公司 | 一种针对短语音的说话人识别模型的训练方法及装置 |
CN109599113A (zh) * | 2019-01-22 | 2019-04-09 | 北京百度网讯科技有限公司 | 用于处理信息的方法和装置 |
CN109712627A (zh) * | 2019-03-07 | 2019-05-03 | 深圳欧博思智能科技有限公司 | 一种使用语音触发虚拟人物表情及口型动画的语音系统 |
Non-Patent Citations (2)
Title |
---|
基于BTSM和DBN模型的唇读和视素切分研究;吕国云 等;《计算机工程与应用》;20070731;第43卷(第14期);第21-24页 * |
面向人机接口的多种输入驱动的三维虚拟人头;於俊 等;《计算机学报》;20131231;第36卷(第12期);第2525-2536页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111081270A (zh) | 2020-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111081270B (zh) | 一种实时音频驱动的虚拟人物口型同步控制方法 | |
US5890120A (en) | Matching, synchronization, and superposition on orginal speaking subject images of modified signs from sign language database corresponding to recognized speech segments | |
CN110446000B (zh) | 一种生成对话人物形象的方法和装置 | |
US5608839A (en) | Sound-synchronized video system | |
CN103650002B (zh) | 基于文本的视频生成 | |
EP0993197B1 (en) | A method and an apparatus for the animation, driven by an audio signal, of a synthesised model of human face | |
WO2007076278A2 (en) | Method for animating a facial image using speech data | |
EP4195668A1 (en) | Virtual video livestreaming processing method and apparatus, storage medium, and electronic device | |
US6943794B2 (en) | Communication system and communication method using animation and server as well as terminal device used therefor | |
WO2001046947A1 (en) | Voice-controlled animation system | |
US20030149569A1 (en) | Character animation | |
CN113592985B (zh) | 混合变形值的输出方法及装置、存储介质、电子装置 | |
US20060079325A1 (en) | Avatar database for mobile video communications | |
JP2003529861A (ja) | 音響信号により駆動される人間の顔の合成モデルのアニメ化方法 | |
JP2518683B2 (ja) | 画像合成方法及びその装置 | |
JP2008500573A (ja) | メッセージを変更するための方法及びシステム | |
CN114895817B (zh) | 交互信息处理方法、网络模型的训练方法及装置 | |
EP4033769A1 (en) | Video sound and picture matching method, related device and storage medium | |
CN116597857A (zh) | 一种语音驱动图像的方法、系统、装置及存储介质 | |
US20050204286A1 (en) | Speech receiving device and viseme extraction method and apparatus | |
CA2162199A1 (en) | Acoustic-assisted image processing | |
CN114793300A (zh) | 一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统 | |
CN114339069A (zh) | 视频处理方法、装置、电子设备及计算机存储介质 | |
CN114760425A (zh) | 数字人生成方法、装置、计算机设备和存储介质 | |
KR100395491B1 (ko) | 아바타 기반 음성 언어 번역 시스템에서의 화상 통신 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |