CN116580707A - 基于语音生成动作视频的方法和装置 - Google Patents
基于语音生成动作视频的方法和装置 Download PDFInfo
- Publication number
- CN116580707A CN116580707A CN202310558500.6A CN202310558500A CN116580707A CN 116580707 A CN116580707 A CN 116580707A CN 202310558500 A CN202310558500 A CN 202310558500A CN 116580707 A CN116580707 A CN 116580707A
- Authority
- CN
- China
- Prior art keywords
- action
- key
- frames
- frame sequence
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009471 action Effects 0.000 title claims abstract description 460
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000033001 locomotion Effects 0.000 claims abstract description 145
- 238000012549 training Methods 0.000 claims abstract description 78
- 230000000295 complement effect Effects 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 64
- 230000036961 partial effect Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 14
- 230000009850 completed effect Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 5
- 238000003709 image segmentation Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 14
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Acoustics & Sound (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Social Psychology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种基于语音生成动作视频的方法、装置、电子设备和存储介质,所述方法包括:从输入的语音信号提取音频特征;将提取的音频特征输入训练好的关键动作预测模型,以获得与语音信号的语音数据帧对应的预测关键动作的语义类别;基于预测关键动作的语义类别从视频训练集中得到与语音信号的语音数据帧匹配的第一关键动作帧序列;将得到的第一关键动作帧序列输入训练好的姿态补全模型,以获得补全后的动作帧序列;基于补全后的动作帧序列生成动作视频。根据本公开的方法避免了直接回归语音到人体动作之间的不确定性映射关系,并且使得生成的动作具有良好的真实感。
Description
技术领域
本公开涉及计算机技术领域,更具体地说,涉及一种基于语音生成动作视频的方法、装置、电子设备和存储介质,以及用于训练基于语音生成动作视频的模型的方法、装置、电子设备和存储介质。
背景技术
写实虚拟人技术的目标是通过技术手段构建能够替代真人的虚拟人,在直播、播报等场景下为消费者带来真人般的观看体验。典型的应用场景包括直播带货、7×24小时无人直播、短视频生产等。这种技术的一般形式是给定一段语音作为输入,生成一段与之匹配的说话人视频。人在说话的时候常常伴随着自然的肢体动作。这些肢体动作可以辅助语言内容的组织和呈现,带给观众更好的聆听体验。
相关技术的基于语音生产动作方法使用卷积神经网络或者序列模型,以语音特征作为输入,直接回归说话人的身体姿态(一般表征为肢体关键点的位置),使用均方误差作为监督信号,训练确定性的回归模型。然而,因为肢体动作和语音之间存在的是非确定性的关联,对同一段语音,可能有多个不同的动作序列可以与之对应,不同的语音也有可能与同一个动作序列相对应。因此,相关技术的方案主要存在的问题包括:1.生成的肢体动作真实感差,例如肢体动作严重变形,时序稳定性差,动作存在严重的抖动等;2.生成的动作和语音的语义匹配程度差。
发明内容
本公开提供一种基于语音生成动作视频的方法、装置、电子设备和存储介质、用于训练基于语音生成动作视频的模型的方法和装置、电子设备和存储介质。
根据本公开实施例的第一方面,提供一种动作视频生成模型的训练方法,其特征在于,所述动作视频生成模型包括关键动作预测模型和姿态补全模型,所述方法包括:提取视频训练集中的说话视频的语音数据帧的音频特征,基于提取的音频特征从所述关键动作预测模型获得预测关键动作的语义类别,并根据所述预测关键动作的语义类别和针对所述语音数据帧标记的关键动作的语义类别的差异来调整所述关键动作预测模型,以得到训练后的关键动作预测模型,其中,所述关键动作的语义类别被预先定义用于表达动作的特定语义;获取表示所述说话视频中的说话人的动作的第一动作帧序列,将所述第一动作帧序列中与所述关键动作对应的关键动作帧和部分非关键动作帧输入所述姿态补全模型以输出补全后的第二动作帧序列,并基于所述第二动作帧序列与所述第一动作帧序列的差异来调整所述姿态补全模型,以得到训练后的姿态补全模型;基于所述训练后的关键动作预测模型以及所述训练后的姿态补全模型,得到所述动作视频生成模型。
根据本公开实施例的第一方面,所述说话视频被标记了所述关键动作的语义类别以及所述关键动作的起始帧序号和结束帧序号,其中,所述将第一动作帧序列中与所述关键动作对应的关键动作帧和部分非关键动作帧输入所述姿态补全模型包括:基于所述关键动作的起始帧序号和结束帧序号,从所述第一动作帧序列中随机屏蔽所述部分非关键动作帧中的第一部分帧,并将所述部分非关键动作帧中的剩余的第二部分帧和所述关键动作帧输入姿态补全模型。
根据本公开实施例的第一方面,所述基于提取的音频特征从所述关键动作预测模型获得预测关键动作的语义类别包括:获取所述关键动作预测模型针对所述语音数据帧的前一语音数据帧预测的语义类别,并将提取的音频特征和所述前一语音数据帧的预测的语义类别输入所述关键动作预测模型,以输出与所述语音数据帧对应的预测关键动作的语义类别,其中,所述前一语音数据帧是所述说话视频的语音数据帧序列中位于所述语音数据帧之前的语音数据帧。
根据本公开实施例的第一方面,所述关键动作预测模型为具有注意力机制的语义识别模型,其中,所述根据预测关键动作的语义类别和针对所述语音数据帧标记的关键动作的语义类别的差异来调整关键动作预测模型包括:通过基于所述预测关键动作的语义类别和针对所述语音数据帧标记的所述关键动作的语义类别构建的交叉熵损失函数来调整所述关键动作预测模型的参数。
根据本公开实施例的第一方面,所述获取表示所述说话视频中的说话人的动作的第一动作帧序列包括:获取所述说话视频中的视频帧中的人体的关键点坐标,并基于表示获取的视频帧的关键点坐标值的序列生成所述第一动作帧序列。
根据本公开实施例的第一方面,所述姿态补全模型为基于语义进行图像分割处理的全卷积网络,其中,所述基于输出的第二动作帧序列与第一动作帧序列的差异来调整姿态补全模型包括:使用基于所述第一动作帧序列的动作帧和所述第二动作帧序列中的相应预测动作帧构建绝对差损失函数,并基于所述第二动作帧序列中相邻的两个动作帧之间的差异构建差分损失函数;使用所述绝对差损失函数和所述差分损失函数来调整所述姿态补全模型的参数。
根据本公开实施例的第一方面,所述使用基于第一动作帧序列的动作帧和第二动作帧序列中的相应预测动作帧构建绝对差损失函数包括:基于所述第一动作帧序列中的部分动作帧和所述第二动作序列帧中的相应预测动作帧之间的绝对差,构建第一损失函数项,并对第一损失函数项赋予预定权重,其中,所述部分动作帧是处于关键动作帧和非关键动作帧的边界范围内的预定数量的动作帧;基于所述第一动作序列中除所述部分动作帧之外的其余动作帧和所述第二动作序列中的相应预测动作帧之间的绝对差,构建第二损失函数项;基于通过所述预定权重加权的第一损失函数项和所述第二损失函数项,获得所述绝对差损失函数。
根据本公开实施例的第二方面,提供了一种动作视频生成模型的训练装置,其特征在于,所述模型包括关键动作预测模型和姿态补全模型,所述训练装置包括:关键动作预测模型训练单元,被配置为提取视频训练集中的说话视频的语音数据帧的音频特征,基于提取的音频特征从所述关键动作预测模型获得预测关键动作的语义类别,并根据所述预测关键动作的语义类别和针对所述语音数据帧标记的关键动作的语义类别的差异来调整所述关键动作预测模型,以得到训练后的关键动作预测模型,其中,所述关键动作的语义类别被预先定义用于表达动作的特定语义;姿态补全模型训练单元,被配置为获取表示所述说话视频中的说话人的动作的第一动作帧序列,将所述第一动作帧序列中与所述关键动作对应的关键动作帧和部分非关键动作帧输入所述姿态补全模型以输出补全后的第二动作帧序列,并基于所述第二动作帧序列与所述第一动作帧序列的差异来调整姿态补全模型,以得到训练后的姿态补全模型;动作视频生成模型单元,被配置为基于所述训练后的关键动作预测模型以及所述训练后的姿态补全模型,得到所述动作视频生成模型。
根据本公开实施例的第二方面,所述说话视频被标记了所述关键动作的语义类别以及所述关键动作的起始帧序号和结束帧序号,其中,姿态补全模型训练单元被配置为:基于所述关键动作的起始帧序号和结束帧序号,从所述第一动作帧序列中随机屏蔽所述部分非关键动作帧中的第一部分帧,并将所述部分非关键动作帧中的剩余的第二部分帧和所述关键动作帧输入姿态补全模型。
根据本公开实施例的第二方面,关键动作预测模型训练单元被配置为获取所述关键动作预测模型针对所述语音数据帧的前一语音数据帧预测的语义类别,并将提取的音频特征和所述前一语音数据帧的预测的语义类别输入所述关键动作预测模型,以输出与所述语音数据帧对应的预测关键动作的语义类别,其中,所述前一语音数据帧是所述说话视频的语音数据帧序列中位于所述语音数据帧之前的语音数据帧。
根据本公开实施例的第二方面,所述关键动作预测模型为具有注意力机制的语义识别模型,其中,所述关键动作预测训练单元被配置为:通过基于所述预测关键动作的语义类别和针对所述语音数据帧标记的所述关键动作的语义类别构建的交叉熵损失函数来调整所述关键动作预测模型的参数。
根据本公开实施例的第二方面,姿态补全模型训练单元被配置为获取所述说话视频中的视频帧中的人体的关键点坐标,并基于表示获取的视频帧的关键点坐标值的序列生成所述第一动作帧序列。
根据本公开实施例的第二方面,所述姿态补全模型为基于语义进行图像分割处理的全卷积网络,姿态补全模型训练单元被配置为使用基于所述第一动作帧序列的动作帧和所述第二动作帧序列中的相应预测动作帧构建绝对差损失函数,并基于所述第二动作帧序列中相邻的两个动作帧之间的差异构建差分损失函数;使用所述绝对差损失函数和所述差分损失函数来调整所述姿态补全模型的参数。
根据本公开实施例的第二方面,所述姿态补全模型训练单元被配置为基于所述第一动作帧序列中的部分动作帧和所述第二动作序列帧中的相应预测动作帧之间的绝对差,构建第一损失函数项,并对第一损失函数项赋予预定权重,其中,所述部分动作帧是处于关键动作帧和非关键动作帧的边界范围内的预定数量的动作帧;基于所述第一动作序列中除所述部分动作帧之外的其余动作帧和所述第二动作序列中的相应预测动作帧之间的绝对差,构建第二损失函数项;基于通过所述预定权重加权的第一损失函数项和所述第二损失函数项,获得所述绝对差损失函数。
根据本公开实施例的第三方面,提供了一种基于语音生成动作视频的方法,包括:从输入的语音信号提取音频特征;将提取的音频特征输入根据本公开实施例的第一方面所述的方法训练得到的关键动作预测模型,以获得与语音信号的语音数据帧对应的预测关键动作的语义类别;基于预测关键动作的语义类别从视频训练集中得到与语音信号的语音数据帧匹配的第一关键动作帧序列;将得到的第一关键动作帧序列输入根据本公开实施例的第一方面所述的方法训练得到的姿态补全模型,以获得补全后的动作帧序列;基于补全后的动作帧序列生成动作视频。
根据本公开实施例的第三方面,基于预测关键动作的语义类别从视频训练集中得到与语音信号的语音数据帧匹配的关键动作帧序列包括:基于关键动作预测模型输出的语音数据帧的语义类别,获得预测关键动作的语义类别以及起始帧序号和结束帧序号;从视频训练集中检索与预测关键动作的语义类别相同类别的多个候选关键动作帧序列;根据预测关键动作的起始帧序号和结束帧序号确定预测关键动作帧序列的长度,并从候选关键动作帧序列中选择与关键动作帧序列的长度最匹配的候选关键动作帧序列;对所述候选关键动作帧序列中的动作帧进行插值以获得与预测关键动作帧序列长度相同的第一关键动作帧序列。
根据本公开实施例的第四方面,提供了一种基于语音生成动作视频的装置,包括:特征提取单元,被配置为从输入的语音信号提取音频特征;关键动作预测单元,被配置为将提取的音频特征输入根据本公开实施例的第一方面所述训练得到的关键动作预测模型,以获得与语音信号的语音数据帧对应的预测关键动作的语义类别;匹配单元,被配置为基于预测关键动作的语义类别从视频训练集中得到与语音信号的语音数据帧匹配的第一关键动作帧序列;姿态补全单元,被配置为将得到的第一关键动作帧序列输入根据本公开实施例的第一方面所述的方法训练得到的姿态补全模型,以获得补全后的动作帧序列;视频生成单元,被配置为基于补全后的动作帧序列生成动作视频。
根据本公开实施例的第四方面,匹配单元被配置为:基于关键动作预测模型输出的语音数据帧的语义类别,获得预测关键动作的语义类别以及起始帧序号和结束帧序号;从视频训练集中检索与预测关键动作的语义类别相同类别的多个候选关键动作帧序列;根据预测关键动作的起始帧序号和结束帧序号确定预测关键动作帧序列的长度,并从候选关键动作帧序列中选择与关键动作帧序列的长度最匹配的候选关键动作帧序列;对所述候选关键动作帧序列中的动作帧进行插值以获得与预测关键动作帧序列长度相同的第一关键动作帧序列。
根据本公开实施例的第五方面,提供了一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现根据本公开实施例的第一方面的方法和/或根据本公开实施例的第三方面所述的方法。
根据本公开实施例的第六方面,提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行以实现根据本公开实施例的第一方面的方法和/或根据本公开实施例的第三方面所述的方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据本公开实施例的第一方面的方法和/或根据本公开实施例的第三方面所述的方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
以人体动作的语义类别作为中间表示,构建人体动作与输入语音之间的关联,避免了直接回归语音到人体动作之间的不确定性映射关系,并且以实际的说话视频训练集的动作序列作为引导,对关键动作之间的动作进行补全,使得生成的动作具有良好的真实感,从而可以有效提升生成的动作视频的说话人的肢体动作的时序一致性和与语音的匹配性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是示出根据本公开的示例性实施例的基于语音生成视频方法所使用的模型的基本结构示意图;
图2是示出根据本公开的示例性实施例的训练基于语音生成动作视频的模型的方法的流程图;
图3是示出用于训练根据本公开的示例性实施例的基于语音生成动作视频的模型的训练样本的标记示意图;
图4是示出根据本公开的示例性实施例的关键动作预测模型的示意图;
图5是示出根据本公开的示例性实施例的姿态补全模型的示意图;
图6是示出根据本公开的示例性实施例的动作帧序列的示意图;
图7是示出根据本公开的示例性实施例的基于语音生成视频的方法的流程图;
图8是示出根据本公开的示例性实施例的基于语音生成视频的装置的框图;
图9是示出根据本公开的示例性实施例的训练基于语音生成动作视频的模型的装置的框图;
图10是示出根据本公开的示例性实施例的电子设备的示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
图1示出了根据本公开的示例性实施例的基于语音生成视频方法所使用的模型的基本结构示意图。
应理解,根据本公开的示例性实施例的基于语音生成视频的方法可以在诸如手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、上网本、个人数字助理(personaldigital assistant,PDA)、增强现实(augmented reality,AR)/虚拟现实(virtualreality,VR)设备的终端设备上实施。可在终端上运行各种视频播放的应用,诸如短视频应用、直播应用、社交应用、视频会议应用、在线教育应用等,并在应用中实施基于语音生成视频的方法。另外,可在服务器上执行根据本公开的示例性实施例的方法,从而在终端设备上运行应用时通过网络与服务器连接并将语音信号发送至服务器,并从服务器获得从语音信号生成的视频。
如图1所示,根据本公开的示例性实施例的基于语音生成视频方法所使用的模型包括两个部分:关键动作预测模型和姿态补全模型。
考虑到从语音到说话人身体姿态映射关系的不确定性,本发明方案将语音到说话人肢体动作的生成分成两个阶段,第一个阶段由关键动作预测模型从语音预测说话人的关键动作(例如,肢体动作)的语义类别,从而避免直接拟合语音到说话人的身体姿态;第二个阶段由姿态补全模型依据第一个阶段预测的动作类别信息生成说话人全部动作。
如图1所示,关键动作预测模型可针对一段语音信号识别出3个关键动作的语义类别。根据本公开的示例性实施例,关键动作的语义类别被预先定义用于表达动作的特定语义。说话人的肢体动作通常可表达特定的语义,因此,可针对语音信号识别出关键动作的语义类别。例如,可识别出说话人的左右手的运动,将左右手的各个动作记录为关键动作并结合说话人的讲话所表达的语义来确定关键动作的语义类别。语义类别可被预先确定,例如,可以是表达邀请、表示数字、表示方向等各种类别。定义的语义类别可形成语义类别库,然后可对应的将说话人的关键动作与语义类别库中的语义类别映射对应。接下来,姿态补全模型可将关键动作之间的空白部分的动作(屏蔽动作)补全从而形成一个完整流畅的动作序列。下面将参照图2-图6来说明用于训练关键动作预测模型和姿态补全模型的方法。
图2是示出根据本公开示例性实施例的用于训练基于语音生成动作视频的方法的流程图。
首先,在步骤S201,提取视频训练集中的说话视频的语音数据帧的音频特征,基于提取的音频特征从关键动作预测模型获得预测关键动作的语义类别,并根据预测关键动作的语义类别和针对所述语音数据帧标记的关键动作的语义类别的差异来调整关键动作预测模型。
这里,视频训练集是真实拍摄的说话视频(例如演讲视频)。针对说话视频,可标注视频中说话人做出的每一个关键动作(例如,肢体动作)的语义类别,以及该关键动作的起始帧和结束帧的序号。
图3示出了根据本公开的示例性实施例的训练样本的说话视频的一个关键动作截图以及对应的标注信息。如图3所示,视频中的说话人做出了一个举起右手的动作,同时根据说话人的讲话内容可知该说话人正在和其他人打招呼。因此,可根据图3的曲线图中的下方的右手运动曲线确定右手的运动起始帧和结束帧的序号,进而可将该动作标注为“A3:5-65”,即,该动作与A3语义类别(打招呼)对应,该动作的起始帧为第5帧,结束帧为第65帧。
根据本公开的示例性实施例,对于视频训练集中的说话视频的音频信号,可从中提取特定的音频特征,将其作为关键动作预测模型的输入。可以采用各种音频特征提取方法,例如梅尔倒谱系数(MFCC)、语音识别模型中间层特征(例如DeepSpeech)等,在此不做限制。
根据本公开的示例性实施例,基于提取的音频特征从关键动作预测模型获得预测关键动作的语义类别包括:获取关键动作预测模型针对语音数据帧的前一语音数据帧预测的语义类别,并将提取的音频特征和前一语音数据帧的预测的语义类别输入关键动作预测模型,以输出与语音数据帧对应的预测关键动作的语义类别,其中,所述前一语音数据帧是说话视频的语音数据帧序列中位于所述语音数据帧之前的语音数据帧。通过将语音数据帧的前一帧信息输入到预测模型,增加了预测模型的输入维度,可以以前一帧信息作为参考得到更准确的当前帧的输出。
根据本公开的示例性实施例的关键动作预测模型可以是具有注意力机制的语义识别模型。例如,关键动作预测模型可采用基于transformer网络的自回归sequence2sequence结构。Transformer网络结构可以使得模型具有对长序列的学习能力,自回归的sequence2sequence结构则可以提升模型的时序一致性。因此,根据本公开示例性实施例的关键动作预测模型的输入采用提取的音频帧的音频特征以及上一个时间步(即上一音频帧)的模型输出,输出是每一个时间步的动作语义类别。
如图4所示,具有transformer结构的关键动作预测模型的输入为当前语音帧i的前一帧的语义类别ci-1和当前语音帧的音频特征ai,i=0,1,2…T,其中,T表示音频信号的帧数,输出为每个音频帧i的语义类别ci。
根据本公开的示例性实施例,在步骤S201中,根据预测关键动作的语义类别和针对语音数据帧标记的关键动作的语义类别的差异来调整关键动作预测模型可包括:通过基于预测关键动作的语义类别和语音数据帧标记的关键动作的语义类别构建的交叉熵损失函数来调整关键动作预测模型的参数,如下所示:
其中,N表示样本的数量,即语音帧的数量,M为语义类别的数量,yic为符号函数(0或1,当样本i的类别为c时取1,否则为0);pic为模型给出的样本i类别为c的置信度。通过如上所述的方式,针对用于语义分类的关键动作预测模型,使用训练样本(即,针对语音数据帧标记的关键动作)和针对训练样本的预测结果(即,预测关键动作的语义类别)构建交叉熵损失函数,可以使得关键动作预测模型快速收敛到预期目标,提高了训练效率。
根据本公开的示例性实施例,在训练了关键动作预测模型之后,可执行步骤S203训练姿态补全模型。具体地,可获取表示说话视频中的说话人的动作的第一动作帧序列,将第一动作帧序列中与关键动作对应的关键动作帧和部分非关键动作帧输入姿态补全模型以输出补全后的第二动作帧序列,并基于输出的第二动作帧序列与第一动作帧序列的差异来调整姿态补全模型,以得到训练后的姿态补全模型。应理解,步骤S201和S203可以同时执行,也可以按先后顺序执行,也就是说,也可以先训练姿态补全模型,然后训练关键动作预测模型。根据本公开的示例性实施例,姿态补全模型可以是基于语义进行图像分割处理的全卷积网络。图5是示出根据本公开示例性实施例的姿态补全模型的示意图。如图5所示,可采用2DUnet的全卷积网络。根据本公开的示例性实施例,说话视频被标记了关键动作的语义类别以及关键动作的起始帧序号和结束帧序号,相应地,在步骤S203,可基于关键动作的起始帧序号和结束帧序号,从第一动作帧序列中随机屏蔽部分非关键动作帧中的第一部分帧,并将所述部分非关键动作帧中的剩余的第二部分帧和关键动作帧输入姿态补全模型来进行训练。也就是说,姿势补全模型的卷积网络可采用以下方式进行训练:依据训练集中关键动作起始帧和结束帧的标注信息,在训练时首先将训练集中的除了关键动作序列的动作帧随机屏蔽掉一定比例作为模型的输入,模型的输出为对被屏蔽掉的部分进行填补的完整动作序列。以关键动作帧作为主体并采用部分非关键动作帧作为连接关键动作帧之间的参考,这样使得训练的姿态补全模型能够在反映出关键动作的同时生成关键动作之间的过渡动作,使得生成的动作视频更加自然流畅。
根据本公开的示例性实施例,可将视频训练集中的视频帧中的动作表示为人体关键点坐标的形式,从而可将动作视频帧序列表示为由关键点坐标值表示的数值形式的动作帧序列。根据本公开的示例性实施例,可使用2D人体关键点坐标的方式作为说话人动作帧序列的数字表示形式。也可采用3D人体关键点坐标等其他表示方式,对此不作限制。图6示出了根据本公开的示例性实施例的动作帧序列的示意图。如图6所示,从上到下分别示出了与说话视频的对应的文本、音频、关键点坐标表示和视频帧。文本、音频、关键点坐标和视频帧按照帧序号一一对应。通过采用这样的关键点坐标的数值表示方式,能够以简单的数值形式在随后的视频渲染中渲染生成真实动作,即,从动作帧序列的数字形式的动作转换为视频的实际/虚拟人体的动作,能够简单高效地实现动作视频的生成。
根据本公开的示例性实施例,姿态补全模型可使用基于第一动作帧序列的原始动作帧和第二动作帧序列中的相应预测动作帧构建的绝对差损失函数(例如,L1损失函数)以及基于第二动作帧序列中相邻的两个动作帧的差分损失函数来调整所述姿态补全模型的参数。可基于所述第一动作帧序列中的部分动作帧和所述第二动作序列帧中的相应预测动作帧之间的绝对差,构建第一损失函数项,并对第一损失函数项赋予预定权重,其中,所述部分动作帧是处于关键动作帧和非关键动作帧的边界范围内的预定数量的动作帧;基于所述第一动作序列中除所述部分动作帧之外的其余动作帧和所述第二动作序列中的相应预测动作帧之间的绝对差,构建第二损失函数项;基于通过所述预定权重加权的第一损失函数项和所述第二损失函数项,,获得所述绝对差损失函数。例如,假设说话视频标记的关键动作帧的长度为从第5帧开始到第65帧,可以将序号为0-10的帧以及序号为60-70的帧(以下称为原始动作帧)设置为边界范围,从而对序号为0-10的原始动作帧和针对该原始动作帧的预测动作帧的损失函数项赋予预定的权重。
例如,用于姿态补全模型的损失函数为基于模型的输出与未经过屏蔽的原始动作帧序列和预测动作帧序列构建的L1损失Lrecon,以及时序上的前一帧和后一帧的差分损失Lst,如下面的等式所示:
Lrecon=λ||Mgt-Mpred||
Lrecon=||Mi-Mi-1||
其中,Mgt表示原始动作帧序列,Mpred表示预测的动作帧序列,λ表示针对处于关键动作帧和非关键动作帧的边界范围内的预定数量的动作帧的权重,Mi表示预测动作帧序列中的帧,i表示帧序号。针对绝对差损失的权重加强了屏蔽动作和未被屏蔽动作的衔接阶段的损失权重,从而使得模型能够更好地对被屏蔽掉的部分动作进行补全,而差分损失使得模型的输出结果在时序上连续。
在通过如上所述的方式训练关键动作预测模型和姿态补全模型之后,在步骤S205可以基于训练后的关键动作预测模型以及训练后的姿态补全模型,得到基于语音生成动作视频的模型。关键动作预测模型以人体动作的语义类别作为中间表示,构建人体动作与输入语音之间的关联,避免了直接回归语音到人体动作之间的不确定性映射关系。姿势补全模型在以实际的说话视频训练集的动作序列作为引导,对关键动作之间的动作进行补全,使得生成的动作具有良好的真实感。
图7是示出根据本公开的示例性实施例的基于语音生成动作视频的方法的流程图。方法可分为预测阶段和视频生成阶段。在预测阶段,将语音信号输入模型,输出生成的动作序列。基于生成的动作序列,可通过视频渲染技术从动作序列产生实际的/虚拟的人体动作视频。
如图7所示,在步骤S701,从输入的语音信号提取音频特征。这里,例如,可采用诸如梅尔倒谱系数(MFCC)、语音识别模型中间层特征(例如DeepSpeech)等方式来提取音频特征。
在步骤S703,将提取的音频特征输入根据本公开示例性实施例所述的方法训练得到的关键动作预测模型,以获得与语音信号的语音数据帧对应的预测关键动作的语义类别。
在步骤S705,基于预测关键动作的语义类别从视频训练集中得到与语音信号的语音数据帧匹配的第一关键动作帧序列。
在步骤S707,将得到的第一关键动作帧序列输入根据本公开示例性实施例的方法训练得到的姿态补全模型,以获得补全后的动作帧序列。
在步骤S709,基于补全后的动作帧序列生成动作视频。
根据本公开的示例性实施例,在步骤S705基于预测关键动作的语义类别从视频训练集中得到与语音信号的语音数据帧匹配的第一关键动作帧序列可包括:基于关键动作预测模型输出的语音数据帧的语义类别,获得预测关键动作的语义类别以及起始帧序号和结束帧序号,从视频训练集中检索与预测关键动作的语义类别相同类别的多个候选关键动作帧序列,根据预测关键动作的起始帧序号和结束帧序号确定预测关键动作帧序列的长度,并从候选关键动作帧序列中选择与关键动作帧序列的长度最匹配的候选关键动作帧序列,对所述候选关键动作帧序列中的动作帧进行插值以获得与预测关键动作帧序列长度相同的第一关键动作帧序列。以上操作可以生成与视频训练集中的关键动作帧序列匹配的动作帧序列,从而可以作为姿态补全模型的输入进行后续的姿态补全。
例如,如果从“大家晚上好”的语音信号中识别出该语音信号对应的关键动作的语义类别为“问候”,并且其动作的起始帧序号为5,结束帧序号为60,则可以从训练视频集中检索与“问候”对应的所有关键动作帧序列,并找到与55帧的长度最接近的一个关键动作帧序列A。假设序列A的长度为50帧,则可通过插值获得55帧的动作帧序列A’作为姿态补全模型的输入。
通过以上过程,可从语音信号生成一个完整的动作序列。这个动作序列可以是如前所述的2D/3D人体关键点坐标的数值表示形式。
图8是示出根据本公开的示例性实施例的基于语音生成动作视频的装置的框图。
如图8所示,装置800可包括:特征提取单元810、关键动作预测单元820、匹配单元830、姿态补全单元840和视频生成单元850。
特征提取单元810被配置为从输入的语音信号提取音频特征。
关键动作预测单元820被配置为将提取的音频特征输入如前所述的方法训练得到的关键动作预测模型,以获得与语音信号的语音数据帧对应的预测关键动作的语义类别。
匹配单元830被配置为基于预测关键动作的语义类别从视频训练集中得到与语音信号的语音数据帧匹配的第一关键动作帧序列。
姿态补全单元840被配置为将得到的第一关键动作帧序列输入如前所述的方法训练得到的姿态补全模型,以获得补全后的动作帧序列。
视频生成单元850被配置为基于补全后的动作帧序列生成动作视频。
根据本公开的示例性实施例,匹配单元830被配置为:基于关键动作预测模型输出的语音数据帧的语义类别,获得预测关键动作的语义类别以及起始帧序号和结束帧序号,从视频训练集中检索与预测关键动作的语义类别相同类别的多个候选关键动作帧序列,根据预测关键动作的起始帧序号和结束帧序号确定预测关键动作帧序列的长度,并从候选关键动作帧序列中选择与关键动作帧序列的长度最匹配的候选关键动作帧序列,对所述候选关键动作帧序列中的动作帧进行插值以获得与预测关键动作帧序列长度相同的第一关键动作帧序列。
以上已经参照图7对基于语音生成动作视频的过程进行了说明,在此不再重复。
图9是示出根据本公开的示例性实施例的动作视频生成模型的训练装置的框图。
如图9所示,根据本公开的示例性实施例的动作视频生成模型的训练装置包括关键动作预测模型训练单元910、姿态补全模型训练单元920和动作视频生成模型单元930。
根据本公开的示例性实施例,关键动作预测模型训练单元910被配置为提取视频训练集中的说话视频的语音数据帧的音频特征,基于提取的音频特征从所述关键动作预测模型获得预测关键动作的语义类别,并根据所述预测关键动作的语义类别和针对所述语音数据帧标记的关键动作的语义类别的差异来调整所述关键动作预测模型,以得到训练后的关键动作预测模型,其中,所述关键动作的语义类别被预先定义用于表达动作的特定语义。
根据本公开的示例性实施例,姿态补全模型训练单元920被配置为获取表示所述说话视频中的说话人的动作的第一动作帧序列,将所述第一动作帧序列中与所述关键动作对应的关键动作帧和部分非关键动作帧输入所述姿态补全模型以输出补全后的第二动作帧序列,并基于所述第二动作帧序列与所述第一动作帧序列的差异来调整姿态补全模型,以得到训练后的姿态补全模型。
根据本公开的示例性实施例,动作视频生成模型单元930被配置为基于所述训练后的关键动作预测模型以及所述训练后的姿态补全模型,得到所述动作视频生成模型。
根据本公开实施例,所述说话视频被标记了所述关键动作的语义类别以及所述关键动作的起始帧序号和结束帧序号,其中,姿态补全模型训练单元920被配置为:基于所述关键动作的起始帧序号和结束帧序号,从所述第一动作帧序列中随机屏蔽所述部分非关键动作帧中的第一部分帧,并将所述部分非关键动作帧中的剩余的第二部分帧和所述关键动作帧输入姿态补全模型。
根据本公开实施例,关键动作预测模型训练单元910被配置为获取所述关键动作预测模型针对所述语音数据帧的前一语音数据帧预测的语义类别,并将提取的音频特征和所述前一语音数据帧的预测的语义类别输入所述关键动作预测模型,以输出与所述语音数据帧对应的预测关键动作的语义类别,其中,所述前一语音数据帧是所述说话视频的语音数据帧序列中位于所述语音数据帧之前的语音数据帧。
根据本公开实施例,所述关键动作预测模型为具有注意力机制的语义识别模型,其中,关键动作预测训练单元910被配置为:通过基于所述预测关键动作的语义类别和针对所述语音数据帧标记的所述关键动作的语义类别构建的交叉熵损失函数来调整所述关键动作预测模型的参数。
根据本公开实施例,姿态补全模型训练单元920被配置为获取所述说话视频中的视频帧中的人体的关键点坐标,并基于表示获取的视频帧的关键点坐标值的序列生成所述第一动作帧序列。
根据本公开实施例,姿态补全模型为基于语义进行图像分割处理的全卷积网络,姿态补全模型训练单元920被配置为使用基于所述第一动作帧序列的动作帧和所述第二动作帧序列中的相应预测动作帧构建绝对差损失函数,并基于所述第二动作帧序列中相邻的两个动作帧之间的差异构建差分损失函数;使用所述绝对差损失函数和所述差分损失函数来调整所述姿态补全模型的参数。
根据本公开实施例,姿态补全模型训练单元920被配置为基于所述第一动作帧序列中的部分动作帧和所述第二动作序列帧中的相应预测动作帧之间的绝对差,构建第一损失函数项,并对第一损失函数项赋予预定权重,其中,所述部分动作帧是处于关键动作帧和非关键动作帧的边界范围内的预定数量的动作帧;基于所述第一动作序列中除所述部分动作帧之外的其余动作帧和所述第二动作序列中的相应预测动作帧之间的绝对差,构建第二损失函数项;基于通过所述预定权重加权的第一损失函数项和所述第二损失函数项,获得所述绝对差损失函数。以上已经参照图2-图6对训练方法进行了详细说明,在此不再重复。
图10是的一种电子设备的结构框图。该电子设备1000例如可以是:智能手机、平板电脑、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,电子设备1000包括有:处理器1001和存储器1002。
处理器1001可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(FieldProgrammable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1001可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1001还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1002可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1001所执行以实现本公开的如图2-图7所示的方法实施例提供的训练方法和/或视频生成方法。
在一些实施例中,电子设备1000还可选包括有:外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地,外围设备包括:射频电路1004、触摸显示屏1005、摄像头1006、音频电路1007、定位组件1008和电源1009中的至少一种。
外围设备接口1003可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中,处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上;在一些其他实施例中,处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1004用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1004包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1004还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本公开对此不加以限定。
显示屏1005用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时,显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时,显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1005可以为一个,设置在电子设备1000的前面板;在另一些实施例中,显示屏1005可以为至少两个,分别设置在终端1000的不同表面或呈折叠设计;在再一些实施例中,显示屏1005可以是柔性显示屏,设置在终端1000的弯曲表面上或折叠面上。甚至,显示屏1005还可以设置成非矩形的不规则图形,也即异形屏。显示屏1005可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1006用于采集图像或视频。可选地,摄像头组件1006包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1001进行处理,或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1007还可以包括耳机插孔。
定位组件1008用于定位电子设备1000的当前地理位置,以实现导航或LBS(Location Based Service,基于位置的服务)。定位组件1008可以是基于美国的GPS(Global Positioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源1009用于为电子设备1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,电子设备1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于:加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。
加速度传感器1011可以检测以终端1000建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号,控制触摸显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1012可以检测终端1000的机体方向及转动角度,陀螺仪传感器1012可以与加速度传感器1011协同采集用户对终端1000的3D动作。处理器1001根据陀螺仪传感器1012采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1013可以设置在终端1000的侧边框和/或触摸显示屏1005的下层。当压力传感器1013设置在终端1000的侧边框时,可以检测用户对终端1000的握持信号,由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在触摸显示屏1005的下层时,由处理器1001根据用户对触摸显示屏1005的压力操作,实现对UI上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1014用于采集用户的指纹,由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份,或者,由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1001授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置电子设备1000的正面、背面或侧面。当电子设备1000上设置有物理按键或厂商Logo时,指纹传感器1014可以与物理按键或厂商Logo集成在一起。
光学传感器1015用于采集环境光强度。在一个实施例中,处理器1001可以根据光学传感器1015采集的环境光强度,控制触摸显示屏1005的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏1005的显示亮度;当环境光强度较低时,调低触摸显示屏1005的显示亮度。在另一个实施例中,处理器1001还可以根据光学传感器1015采集的环境光强度,动态调整摄像头组件1006的拍摄参数。
接近传感器1016,也称距离传感器,通常设置在电子设备1000的前面板。接近传感器1016用于采集用户与电子设备1000的正面之间的距离。在一个实施例中,当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变小时,由处理器1001控制触摸显示屏1005从亮屏状态切换为息屏状态;当接近传感器1016检测到用户与电子设备1000的正面之间的距离逐渐变大时,由处理器1001控制触摸显示屏1005从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图9中示出的结构并不构成对电子设备1000的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
根据本公开的实施例,还可提供一种存储指令的计算机可读存储介质,其中,当指令被至少一个处理器运行时,促使至少一个处理器执行根据本公开的如图2-图7所示的方法实施例提供的训练方法和/或视频生成方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
根据本公开的实施例中,还可提供一种计算机程序产品,该计算机程序产品中的指令可由计算机设备的处理器执行以完成如图2-图7所示的方法实施例提供的训练方法和/或视频生成方法。
根据本公开的基于语音生成动作视频的方法以人体动作的语义类别作为中间表示,构建人体动作与输入语音之间的关联,避免了直接回归语音到人体动作之间的不确定性映射关系,并且以实际的说话视频训练集的动作序列作为引导,对关键动作之间的动作进行补全,使得生成的动作具有良好的真实感,从而可以有效提升生成的动作视频的说话人的肢体动作的时序一致性和与语音的匹配性。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (13)
1.一种动作视频生成模型的训练方法,其特征在于,所述动作视频生成模型包括关键动作预测模型和姿态补全模型,所述方法包括:
提取视频训练集中的说话视频的语音数据帧的音频特征,基于提取的音频特征从所述关键动作预测模型获得预测关键动作的语义类别,并根据所述预测关键动作的语义类别和针对所述语音数据帧标记的关键动作的语义类别的差异来调整所述关键动作预测模型,以得到训练后的关键动作预测模型,其中,所述关键动作的语义类别被预先定义用于表达动作的特定语义;
获取表示所述说话视频中的说话人的动作的第一动作帧序列,将所述第一动作帧序列中与所述关键动作对应的关键动作帧和部分非关键动作帧输入所述姿态补全模型以输出补全后的第二动作帧序列,并基于所述第二动作帧序列与所述第一动作帧序列的差异来调整所述姿态补全模型,以得到训练后的姿态补全模型;
基于所述训练后的关键动作预测模型以及所述训练后的姿态补全模型,得到所述动作视频生成模型。
2.如权利要求1所述的方法,其特征在于,所述说话视频被标记了所述关键动作的语义类别以及所述关键动作的起始帧序号和结束帧序号,
其中,所述将第一动作帧序列中与所述关键动作对应的关键动作帧和部分非关键动作帧输入所述姿态补全模型包括:
基于所述关键动作的起始帧序号和结束帧序号,从所述第一动作帧序列中随机屏蔽所述部分非关键动作帧中的第一部分帧,并将所述部分非关键动作帧中的剩余的第二部分帧和所述关键动作帧输入姿态补全模型。
3.如权利要求1所述的方法,其特征在于,所述基于提取的音频特征从所述关键动作预测模型获得预测关键动作的语义类别包括:
获取所述关键动作预测模型针对所述语音数据帧的前一语音数据帧预测的语义类别,并将提取的音频特征和所述前一语音数据帧的预测的语义类别输入所述关键动作预测模型,以输出与所述语音数据帧对应的预测关键动作的语义类别,其中,所述前一语音数据帧是所述说话视频的语音数据帧序列中位于所述语音数据帧之前的语音数据帧。
4.如权利要求1所述的方法,其特征在于,所述关键动作预测模型为具有注意力机制的语义识别模型,
其中,所述根据预测关键动作的语义类别和针对所述语音数据帧标记的关键动作的语义类别的差异来调整关键动作预测模型包括:
通过基于所述预测关键动作的语义类别和针对所述语音数据帧标记的所述关键动作的语义类别构建的交叉熵损失函数来调整所述关键动作预测模型的参数。
5.如权利要求1所述的方法,其特征在于,所述获取表示所述说话视频中的说话人的动作的第一动作帧序列包括:
获取所述说话视频中的视频帧中的人体的关键点坐标,并基于表示获取的视频帧的关键点坐标值的序列生成所述第一动作帧序列。
6.如权利要求1所述的方法,其特征在于,所述姿态补全模型为基于语义进行图像分割处理的全卷积网络,其中,所述基于输出的第二动作帧序列与第一动作帧序列的差异来调整姿态补全模型包括:
使用基于所述第一动作帧序列的动作帧和所述第二动作帧序列中的相应预测动作帧构建绝对差损失函数,并基于所述第二动作帧序列中相邻的两个动作帧之间的差异构建差分损失函数;
使用所述绝对差损失函数和所述差分损失函数来调整所述姿态补全模型的参数。
7.如权利要求6所述的方法,其特征在于,所述使用基于第一动作帧序列的动作帧和第二动作帧序列中的相应预测动作帧构建绝对差损失函数包括:
基于所述第一动作帧序列中的部分动作帧和所述第二动作序列帧中的相应预测动作帧之间的绝对差,构建第一损失函数项,并对第一损失函数项赋予预定权重,其中,所述部分动作帧是处于关键动作帧和非关键动作帧的边界范围内的预定数量的动作帧;
基于所述第一动作序列中除所述部分动作帧之外的其余动作帧和所述第二动作序列中的相应预测动作帧之间的绝对差,构建第二损失函数项;
基于通过所述预定权重加权的第一损失函数项和所述第二损失函数项,获得所述绝对差损失函数。
8.一种基于语音生成动作视频的方法,其特征在于,包括:
从输入的语音信号提取音频特征;
将提取的音频特征输入如权利要求1-7中任意一个所述的方法训练得到的关键动作预测模型,以获得与语音信号的语音数据帧对应的预测关键动作的语义类别;
基于所述预测关键动作的语义类别从视频训练集中得到与所述语音信号的语音数据帧匹配的第一关键动作帧序列;
将所述第一关键动作帧序列输入如权利要求1-7中任意一个所述的方法训练得到的姿态补全模型,以获得补全后的动作帧序列;
基于补全后的动作帧序列生成动作视频。
9.如权利要求8所述的方法,其特征在于,所述基于预测关键动作的语义类别从视频训练集中得到与语音信号的语音数据帧匹配的关键动作帧序列包括:
基于所述关键动作预测模型输出的语音数据帧的语义类别,获得所述预测关键动作的语义类别以及起始帧序号和结束帧序号;
从所述视频训练集中检索与所述预测关键动作的语义类别相同类别的多个候选关键动作帧序列;
根据所述预测关键动作的起始帧序号和结束帧序号确定所述预测关键动作帧序列的长度,并从所述视频训练集的候选关键动作帧序列中选择与所述关键动作帧序列的长度最匹配的候选关键动作帧序列;
对所述候选关键动作帧序列中的动作帧进行插值以获得与所述预测关键动作帧序列长度相同的第一关键动作帧序列。
10.一种动作视频生成模型的训练装置,其特征在于,所述模型包括关键动作预测模型和姿态补全模型,所述训练装置包括:
关键动作预测模型训练单元,被配置为提取视频训练集中的说话视频的语音数据帧的音频特征,基于提取的音频特征从所述关键动作预测模型获得预测关键动作的语义类别,并根据所述预测关键动作的语义类别和针对所述语音数据帧标记的关键动作的语义类别的差异来调整所述关键动作预测模型,以得到训练后的关键动作预测模型,其中,所述关键动作的语义类别被预先定义用于表达动作的特定语义;
姿态补全模型训练单元,被配置为获取表示所述说话视频中的说话人的动作的第一动作帧序列,将所述第一动作帧序列中与所述关键动作对应的关键动作帧和部分非关键动作帧输入所述姿态补全模型以输出补全后的第二动作帧序列,并基于所述第二动作帧序列与所述第一动作帧序列的差异来调整姿态补全模型,以得到训练后的姿态补全模型;
动作视频生成模型单元,被配置为基于所述训练后的关键动作预测模型以及所述训练后的姿态补全模型,得到所述动作视频生成模型。
11.一种基于语音生成动作视频的装置,其特征在于,包括:
特征提取单元,被配置为从输入的语音信号提取音频特征;
关键动作预测单元,被配置为将提取的音频特征输入如权利要求1-7中任意一个所述的方法训练得到的关键动作预测模型,以获得与所述语音信号的语音数据帧对应的预测关键动作的语义类别;
匹配单元,被配置为基于所述预测关键动作的语义类别从视频训练集中得到与所述语音信号的语音数据帧匹配的第一关键动作帧序列;
姿态补全单元,被配置为将所述第一关键动作帧序列输入如权利要求1-7中任意一个所述的方法训练得到的姿态补全模型,以获得补全后的动作帧序列;
视频生成单元,被配置为基于补全后的动作帧序列生成动作视频。
12.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1-7中任意一个所述的方法和/或如权利要求8-9中任意一个所述的方法。
13.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行以实现如权利要求1-7中任意一个所述的方法和/或如权利要求8-9中任意一个所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310558500.6A CN116580707A (zh) | 2023-05-17 | 2023-05-17 | 基于语音生成动作视频的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310558500.6A CN116580707A (zh) | 2023-05-17 | 2023-05-17 | 基于语音生成动作视频的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116580707A true CN116580707A (zh) | 2023-08-11 |
Family
ID=87535463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310558500.6A Pending CN116580707A (zh) | 2023-05-17 | 2023-05-17 | 基于语音生成动作视频的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116580707A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117156081A (zh) * | 2023-10-30 | 2023-12-01 | 中国科学院自动化研究所 | 说话人视频的编辑帧生成方法、装置、电子设备及介质 |
-
2023
- 2023-05-17 CN CN202310558500.6A patent/CN116580707A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117156081A (zh) * | 2023-10-30 | 2023-12-01 | 中国科学院自动化研究所 | 说话人视频的编辑帧生成方法、装置、电子设备及介质 |
CN117156081B (zh) * | 2023-10-30 | 2024-03-01 | 中国科学院自动化研究所 | 说话人视频的编辑帧生成方法、装置、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110121118B (zh) | 视频片段定位方法、装置、计算机设备及存储介质 | |
CN111897996B (zh) | 话题标签推荐方法、装置、设备及存储介质 | |
CN110263213B (zh) | 视频推送方法、装置、计算机设备及存储介质 | |
CN109189879B (zh) | 电子书籍显示方法及装置 | |
CN111524501B (zh) | 语音播放方法、装置、计算机设备及计算机可读存储介质 | |
CN108270794B (zh) | 内容发布方法、装置及可读介质 | |
CN110110145A (zh) | 描述文本生成方法及装置 | |
CN110162604B (zh) | 语句生成方法、装置、设备及存储介质 | |
CN108304506B (zh) | 检索方法、装置及设备 | |
CN110322760B (zh) | 语音数据生成方法、装置、终端及存储介质 | |
CN110572716B (zh) | 多媒体数据播放方法、装置及存储介质 | |
CN111737573A (zh) | 资源推荐方法、装置、设备及存储介质 | |
WO2022057435A1 (zh) | 基于搜索的问答方法及存储介质 | |
CN111611490A (zh) | 资源搜索方法、装置、设备及存储介质 | |
CN111291200A (zh) | 多媒体资源展示方法、装置、计算机设备及存储介质 | |
CN111324699A (zh) | 语义匹配的方法、装置、电子设备及存储介质 | |
KR102646344B1 (ko) | 이미지를 합성하기 위한 전자 장치 및 그의 동작 방법 | |
WO2022134634A1 (zh) | 视频处理方法及电子设备 | |
CN110837557A (zh) | 摘要生成方法、装置、设备及介质 | |
CN111428079B (zh) | 文本内容处理方法、装置、计算机设备及存储介质 | |
CN113918767A (zh) | 视频片段定位方法、装置、设备及存储介质 | |
CN114154520B (zh) | 机器翻译模型的训练方法、机器翻译方法、装置及设备 | |
CN116580707A (zh) | 基于语音生成动作视频的方法和装置 | |
CN113763931B (zh) | 波形特征提取方法、装置、计算机设备及存储介质 | |
CN109829067B (zh) | 音频数据处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |