CN112735371B - 一种基于文本信息生成说话人视频的方法及装置 - Google Patents
一种基于文本信息生成说话人视频的方法及装置 Download PDFInfo
- Publication number
- CN112735371B CN112735371B CN202011577254.1A CN202011577254A CN112735371B CN 112735371 B CN112735371 B CN 112735371B CN 202011577254 A CN202011577254 A CN 202011577254A CN 112735371 B CN112735371 B CN 112735371B
- Authority
- CN
- China
- Prior art keywords
- sequence
- generate
- key point
- text information
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 34
- 230000001815 facial effect Effects 0.000 claims abstract description 34
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 34
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 72
- 238000000605 extraction Methods 0.000 claims description 28
- 238000007781 pre-processing Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 13
- 238000004519 manufacturing process Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种基于文本信息生成说话人视频的方法及装置,本发明实施例对文本信息进行语音合成处理,生成梅尔频谱图序列;对所述梅尔频谱图序列进行图像处理,生成与文本信息对应的面部图像;对所述梅尔频谱图序列进行语音处理,生成与文本信息对应的语音信息;对所述面部图像和所述语音信息进行合成处理,生成说话人视频。由此能够有效合成说话人视频,并提高说话人视频的合成效果,从而解决现有技术中不同使用者通过语音合成说话人视频导致的合成效果下降且制作成本高的问题。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于文本信息生成说话人视频的方法及装置。
背景技术
现有的说话人视频通常是基于语音信息生成的说话人视频,也就是将语音信息输入训练好的模型中生成说话人视频。对于合成的说话人视频,通常要求在视觉上说话内容要与说话姿态保持一致,说话姿态可以是面部动作等。
然而由于人与人之间的声音特征有很大区别,例如针对同一单词,不同人发出的语音特征有很大差别,每个人的语音都携带有对应的ID特征,这里的ID特征主是用来区分不同人的声音。采用不同ID特征的语音训练模型,利用该模型得到的说话人姿态效果不佳,最终导致合成的说话人视频单调、僵硬。为此,在利用语音信息训练模型时,需要先对语音的ID特征进行去除,然后利用去除ID特征的语音信息训练模型,但是去除ID特征的语音信息通常语义表征比较单一,因此会增加模型训练的难度,而且从使用效果上来看,采用该方法训练的模型还不如使用单个说话人语音信息训练的模型。另外,通常语音信息需要使用专用设备和专业操作人员进行捕获,而且数据量大,训练周期长,成本高,并且所有工作均是由一组动画师执行,因此针对单个说话人语音信息训练模型,上述这种定制化方式对于使用者来说通常是非常昂贵的。
发明内容
本发明实施例提供一种基于文本信息生成说话人视频的方法及装置,能够使得生成的说话人视频更加自然逼真,提高了说话人视频的合成效果。
根据本发明实施例第一方面,提供一种基于文本信息生成说话人视频的方法,包括:对文本信息进行语音合成处理,生成梅尔频谱图序列;对所述梅尔频谱图序列进行图像处理,生成与文本信息对应的面部图像;对所述梅尔频谱图序列进行语音处理,生成与文本信息对应的语音信息;对所述面部图像和所述语音信息进行合成处理,生成说话人视频。
根据本发明一实施方式,所述对文本信息进行语音合成处理,生成梅尔频谱图序列,包括:对所述文本信息进行预处理,生成音素向量;对所述音素向量进行语义特征提取处理,得到语义向量;对所述语义向量进行时序特征提取处理,生成时序向量;对所述时序向量进行解码处理,生成梅尔频谱图序列。
根据本发明一实施方式,所述对所述文本信息进行预处理,生成音素向量,包括:对所述文本信息进行分词处理,得到单词;对所述单词进行拼音处理,得到与所述单词对应的拼音;对所述拼音进行分割处理,生成音素信息;对所述音素信息进行编码处理,生成音素向量。
根据本发明一实施方式,所述对所述时序向量进行解码处理,生成梅尔频谱图序列,包括:对所述时序向量施加特征权重,得到具有权重的特征向量;对所述具有权重的特征向量进行解码处理,生成梅尔频谱图序列。
根据本发明一实施方式,所述对所述梅尔频谱图序列进行图像处理,生成与文本信息对应的面部图像,包括:针对所述梅尔频谱图序列中任一梅尔频谱图:对所述梅尔频谱图进行图像处理,生成预处理面部图像;将多个所述预处理面部图像进行处理,生成与文本信息对应的面部图像。
根据本发明一实施方式,所述对所述梅尔频谱图进行图像处理,生成预处理面部图像,包括:对所述梅尔频谱图进行处理,得到整个面部对应的第一关键点序列,所述第一关键点序列包括多个第一关键点子序列,每个所述第一关键点子序列对应面部中指定部位;根据所述文本信息,从数据库查询与所述文本信息对应的指定动作帧,并获取所述指定动作帧对应的第二关键点序列;所述指定动作帧用于指示面部指定部位的动作帧;确定与所述指定动作帧对应的第一关键点子序列,并在所述第一关键点序列中利用所述第二关键点序列替换所述对应的第一关键点子序列,生成替换的第一关键点序列;对所述替换的第一关键点序列进行模型处理,生成预处理面部图像。
根据本发明实施例第二方面,还提供一种基于文本信息生成说话人视频的装置,包括:语音合成模块,用于对文本信息进行语音合成处理,生成梅尔频谱图序列;图像处理模块,用于对所述梅尔频谱图序列进行图像处理,生成与文本信息对应的面部图像;语音处理模块,用于对所述梅尔频谱图序列进行语音处理,生成与文本信息对应的语音信息;视频合成模块,用于对所述面部图像和所述语音信息进行合成处理,生成说话人视频。
根据本发明一实施方式,所述语音合成模块包括:预处理单元,用于对所述文本信息进行预处理,生成音素向量;语义提取单元,用于对所述音素向量进行语义特征提取处理,生成语义向量;时序提取单元,用于对所述语义向量进行时序特征提取处理,生成时序向量;解码单元,用于对所述时序向量进行解码处理,生成梅尔频谱图序列。
根据本发明一实施方式,所述图像处理模块包括:第一图像处理单元,用于针对所述梅尔频谱图序列中任一梅尔频谱图:对所述梅尔频谱图进行图像处理,生成预处理面部图像;第二图像处理单元,将多个所述预处理面部图像进行处理,生成与文本信息对应的面部图像。
根据本发明一实施方式,所述第一图像处理单元包括:面部关键点子单元,用于对所述梅尔频谱图进行处理,得到整个面部对应的第一关键点序列,所述第一关键点序列包括多个第一关键点子序列,每个所述第一关键点子序列对应面部中指定部位;查询子单元,用于根据所述文本信息,从数据库查询与所述文本信息对应的指定动作帧,并获取所述指定动作帧对应的第二关键点序列;所述指定动作帧用于指示面部指定部位的动作帧;替换子单元,用于确定与所述指定动作帧对应的第一关键点子序列,并在所述第一关键点序列中利用所述第二关键点序列替换所述对应的第一关键点子序列,生成替换的第一关键点序列;模型处理子单元,用于对所述替换的第一关键点序列进行模型处理,生成预处理面部图像。
根据本发明实施例第三方面,还提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行如第一方面所述基于文本信息生成说话人视频的方法。
本发明实施例基于文本信息生成说话人视频的方法及装置,首先对文本信息进行语音合成处理,生成梅尔频谱图序列;并对所述梅尔频谱图序列进行图像处理和语音处理,生成与文本信息对应的面部图像和与文本信息对应的语音信息;之后将面部图像和语音信息进行合成处理,生成说话人视频。由此能够有效合成说话人视频,并提高说话人视频的合成效果,从而解决现有技术中不同使用者通过语音合成说话人视频导致的合成效果下降且制作成本高的问题。
需要理解的是,本发明的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本发明的其他实施方式还能够实现上面未提到的有益效果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本发明一实施例基于文本信息生成说话人视频的方法的流程示意图;
图2示出了本发明另一实施例基于文本信息生成说话人视频的方法的流程示意图;
图3示出了本发明另一实施例中生成预处理面部图像的流程示意图;
图4示出了本发明一实施例基于文本信息生成说话人视频的装置的结构示意图;
图5示出了本发明实施例中整个面部对应的第一关键点序列的示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为使本发明更加透彻和完整,并能够将本发明的范围完整地传达给本领域的技术人员。
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
如图1所示,本发明一实施例基于文本信息生成说话人视频的方法的流程示意图。
一种基于文本信息生成说话人视频的方法,该方法至少包括如下操作流程:S101,对文本信息进行语音合成处理,生成梅尔频谱图序列;S102,对梅尔频谱图序列进行图像处理,生成与文本信息对应的面部图像;S103,对梅尔频谱图序列进行语音处理,生成与文本信息对应的语音信息;S104,对面部图像和语音信息进行合成处理,生成说话人视频。
在S101中,对文本信息进行分词处理,得到单词;针对单词进行拼音处理,得到与单词对应的拼音;对拼音进行分割处理,生成音素信息。对音素信息进行编码处理,生成音素向量。声学模型是通过对音素向量进行语义特征提取以及时序特征提取的学习后而获得的,例如在对声学模型训练时,先通过卷积层网络对音素向量进行语义特征提取的训练,之后再通过双向长短时循环网络对语义特征提取后的语义向量进行时序特征提取训练。利用声学模型对音素向量进行处理,得到梅尔频谱图序列。声学模型对音素向量的处理过程如下:对音素向量进行语义特征提取,生成语义向量;对语义向量进行时序特征提取处理,生成时序向量;对时序向量进行解码处理,生成梅尔频谱图序列。由此,通过声学模型对音素向量进行语义特征提取处理,从而获取文本信息的语义内容;通过声学模型对时序向量进行时序特征处理,从而获取语义内容的前后相关性特征;进而使得梅尔频谱图序列生成的面部图像和语音信息更加准确,提高了说话人视频的合成效果。
在这里,音素信息中包括多个音素。音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看,音素是从音质角度划分出来的最小语音单位。从生理性质来看,一个发音动作形成一个音素。如〔ma〕包含〔m〕〔a〕两个发音动作,是两个音素。相同发音动作发出的音就是同一音素,不同发音动作发出的音就是不同音素。如〔ma-mi〕中,两个〔m〕发音动作相同,是相同音素,〔a〕〔i〕发音动作不同,是不同音素。
需要说明的是,对音素信息进行编码处理可以通过全连接层网络实现。对音素向量进行语义特征提取可以通过卷积层网络实现,对语义向量进行时序特征提取处理可以通过双向长短时循环网络实现。
在S102中,利用说话人合成模型对梅尔频谱图序列进行图像处理,生成与文本信息对应的面部图像。说话人合成模型包括面部关键点生成模型和关键点合成图像模型。具体地,针对梅尔频谱图序列中任一梅尔频谱图:利用面部关键点生成模型对梅尔频谱图进行处理,得到面部关键点序列;利用关键点合成模型对面部关键点序列进行图像处理,生成预处理面部图像;利用多个预处理面部图像进行处理,生成与文本信息对应的面部图像。
在S103中,利用神经网络声码器模型对梅尔频谱图序列进行语音处理,生成与文本信息对应的语音信息。
在S104中,例如按照时间段,将面部图像和语音信息进行合成处理,生成说话人视频。
本发明实施例基于文本信息生成说话人视频的方法及装置,首先对文本信息进行语音合成处理,生成梅尔频谱图序列;并对梅尔频谱图序列进行图像处理和语音处理,生成与文本信息对应的面部图像和与文本信息对应的语音信息;之后将面部图像和语音信息进行合成处理,生成说话人视频。由此能够有效合成说话人视频,并提高说话人视频的合成效果,从而解决现有技术中不同使用者通过语音合成说话人视频导致的合成效果下降且制作成本高的问题。
应理解,在本发明的实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在的逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
如图2所示,本发明另一实施例基于文本信息生成说话人视频的方法的流程示意图。本实施例是在前述实施例的基础上进一步优化得到的。一种基于文本信息生成说话人视频的方法,该方法至少包括如下操作流程:S201,对文本信息进行预处理,生成音素向量;S202,对音素向量进行语义特征提取处理,得到语义向量;S203,对语义向量进行时序特征提取处理,生成时序向量;S204,对时序向量施加特征权重,得到具有权重的特征向量;S205,对具有权重的特征向量进行解码处理,生成梅尔频谱图序列;S206,针对梅尔频谱图序列中任一梅尔频谱图:对梅尔频谱图进行面部关键点计算,并生成预处理面部图像;S207,将多个预处理面部图像进行处理,生成与文本信息对应的面部图像;S208,对梅尔频谱图序列进行语音处理,生成与文本信息对应的语音信息;S209,对面部图像和语音信息进行合成处理,生成说话人视频。
其中,S201、S202、S203、S205、S206、S207、S208和S209的具体实现过程与图1所示实施例中S101、S102、S103和S104的具体实现过程相类似,这里不再赘述。
在S204中,对时序向量中表示指定部位的数据施加对应的特征权重,从而对文本信息中重要的内容施加更高的关注度。
本发明实施例通过对音素向量进行语义特征提取和时序特征提取后,再对时序向量施加特征权重,从而对文本中重要的内容施加更高的关注度,从而能够实现通过梅尔频谱图序列更准确地获取文本信息语义内容。
应理解,在本发明的实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在的逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
如图3所示,本发明另一实施例中生成预处理面部图像的流程示意图。本实施例是在前述实施例的基础上进一步优化得到的。生成预处理面部图像,具体包括如下操作流程:S301,对梅尔频谱图进行处理,得到整个面部对应的第一关键点序列,第一关键点序列包括多个第一关键点子序列,每个第一关键点子序列对应面部中指定部位;S302,根据文本信息,从数据库查询与文本信息对应的指定动作帧,并获取指定动作帧对应的第二关键点序列;指定动作帧用于指示面部指定部位的动作帧;S303,确定与指定动作帧对应的第一关键点子序列,并在第一关键点序列中利用第二关键点序列替换对应的第一关键点子序列,生成替换的第一关键点序列;S304,对替换的第一关键点序列进行模型处理,生成预处理面部图像。
在这里,第一关键点和第二关键点均是指坐标信息。
由此,本发明实施例通过在合成的第一关键点序列中插入指定动作帧,从而丰富合成说话人动作姿态,使得合成效果更加自然逼真。
如图5所示,本发明实施例中整个面部对应的第一关键点序列的示意图。
例如,眼睛具有对应的第一关键点子序列,嘴巴具有对应的第一关键点子序列。文本信息是“我很开心”,针对眼睛部位,数据库中有多个眼睛动作帧,例如有表示开心的眼睛动作帧,以及表示伤心的眼睛动作帧等。根据该文本信息从数据库中查询得到表示开心的眼睛动作帧,获取该眼睛动作帧的第二关键点序列。之后在第一关键点序列中利用眼睛动作帧对应的第二关键点序列替换眼睛部位对应的第一关键点子序列,得到替换后的第一关键点序列,替换后的第一关键点序列表示整个面部的关键点序列。
应理解,在本发明的实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在的逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
评判本发明实施例的方法指标为用户平均意见分(Mean Opinion Score,缩写MOS),通过对比已有方法和本实施例的方法生成的说话人视频进行用户评分,可以发现本实施例的方法在数据量更少的情况下,合成的说话人视频更加逼真,说话内容与嘴形更加匹配,MOS也高于原系统。
如图4所示,本发明一实施例基于文本信息生成说话人视频的装置的结构示意图。一种基于文本信息生成说话人视频的装置,该装置400包括:语音合成模块401,用于对文本信息进行语音合成处理,生成梅尔频谱图序列;图像处理模块402,用于对所述梅尔频谱图序列进行图像处理,生成与文本信息对应的面部图像;语音处理模块403,用于对所述梅尔频谱图序列进行语音处理,生成与文本信息对应的语音信息;视频合成模块404,用于对所述面部图像和所述语音信息进行合成处理,生成说话人视频。
在可选的实施例中,所述语音合成模块包括:预处理单元,用于对所述文本信息进行预处理,生成音素向量;语义提取单元,用于对所述音素向量进行语义特征提取处理,生成语义向量;时序提取单元,用于对所述语义向量进行时序特征提取处理,生成时序向量;解码单元,用于对所述时序向量进行解码处理,生成梅尔频谱图序列。
在可选的实施例中,所述预处理单元包括:分词处理子单元,用于对所述文本信息进行分词处理,得到单词;拼音处理子单元,用于对所述单词进行拼音处理,得到与所述单词对应的拼音;分割处理子单元,用于对所述拼音进行分割处理,生成音素信息;编码处理子单元,用于对所述音素信息进行编码处理,生成音素向量。
在可选的实施例中,所述解码单元包括:权重子单元,用于对所述时序向量施加特征权重,得到具有权重的特征向量;解码子单元,用于对所述具有权重的特征向量进行解码处理,生成梅尔频谱图序列。
在可选的实施例中,所述图像处理模块包括:第一图像处理单元,用于针对所述梅尔频谱图序列中任一梅尔频谱图:对所述梅尔频谱图进行图像处理,生成预处理面部图像;第二图像处理单元,将多个所述预处理面部图像进行处理,生成与文本信息对应的面部图像。
在可选的实施例中,所述第一图像处理单元包括:面部关键点子单元,用于对所述梅尔频谱图进行处理,得到整个面部对应的第一关键点序列,所述第一关键点序列包括多个第一关键点子序列,每个所述第一关键点子序列对应面部中指定部位;查询子单元,用于根据所述文本信息,从数据库查询与所述文本信息对应的指定动作帧,并获取所述指定动作帧对应的第二关键点序列;所述指定动作帧用于指示面部指定部位的动作帧;替换子单元,用于确定与所述指定动作帧对应的第一关键点子序列,并在所述第一关键点序列中利用所述第二关键点序列替换所述对应的第一关键点子序列,生成替换的第一关键点序列;模型处理子单元,用于对所述替换的第一关键点序列进行模型处理,生成预处理面部图像。
这里需要指出的是:以上基于文本信息生成说话人视频的装置实施例的描述,与前述图1所示的方法实施例的描述是类似的,具有同前述图1所示的方法实施例相似的有益效果,因此不做赘述。对于本发明基于文本信息生成说话人视频的装置中未披露的技术细节,请参照本发明前述图1所示的方法实施例的描述而理解,为节约篇幅,因此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以利用硬件的形式实现,也可以利用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于运算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个运算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该运算机软件产品存储在一个存储介质中,包括若干指令用以使得一台运算机设备(可以是个人运算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (6)
1.一种基于文本信息生成说话人视频的方法,其特征在于,包括:
对文本信息进行语音合成处理,生成梅尔频谱图序列;
对所述梅尔频谱图序列进行图像处理,生成与文本信息对应的面部图像;
对所述梅尔频谱图序列进行语音处理,生成与文本信息对应的语音信息;
对所述面部图像和所述语音信息进行合成处理,生成说话人视频;
其中,对所述梅尔频谱图序列进行图像处理,生成与文本信息对应的面部图像,包括:
针对所述梅尔频谱图序列中任一梅尔频谱图:对所述梅尔频谱图进行图像处理,生成预处理面部图像;
将多个所述预处理面部图像进行处理,生成与文本信息对应的面部图像;
所述对所述梅尔频谱图进行图像处理,生成预处理面部图像,包括:
对所述梅尔频谱图进行处理,得到整个面部对应的第一关键点序列,所述第一关键点序列包括多个第一关键点子序列,每个所述第一关键点子序列对应面部中指定部位;
根据所述文本信息,从数据库查询与所述文本信息对应的指定动作帧,并获取所述指定动作帧对应的第二关键点序列;所述指定动作帧用于指示面部指定部位的动作帧;
确定与所述指定动作帧对应的第一关键点子序列,并在所述第一关键点序列中利用所述第二关键点序列替换所述对应的第一关键点子序列,生成替换的第一关键点序列;
对所述替换的第一关键点序列进行模型处理,生成预处理面部图像。
2.根据权利要求1所述的方法,其特征在于,所述对文本信息进行语音合成处理,生成梅尔频谱图序列,包括:
对所述文本信息进行预处理,生成音素向量;
对所述音素向量进行语义特征提取处理,得到语义向量;
对所述语义向量进行时序特征提取处理,生成时序向量;
对所述时序向量进行解码处理,生成梅尔频谱图序列。
3.根据权利要求2所述的方法,其特征在于,所述对所述文本信息进行预处理,生成音素向量,包括:
对所述文本信息进行分词处理,得到单词;
对所述单词进行拼音处理,得到与所述单词对应的拼音;
对所述拼音进行分割处理,生成音素信息;
对所述音素信息进行编码处理,生成音素向量。
4.根据权利要求2所述的方法,其特征在于,所述对所述时序向量进行解码处理,生成梅尔频谱图序列,包括:
对所述时序向量施加特征权重,得到具有权重的特征向量;
对所述具有权重的特征向量进行解码处理,生成梅尔频谱图序列。
5.一种基于文本信息生成说话人视频的装置,其特征在于,包括:
语音合成模块,用于对文本信息进行语音合成处理,生成梅尔频谱图序列;
图像处理模块,用于对所述梅尔频谱图序列进行图像处理,生成与文本信息对应的面部图像;
语音处理模块,用于对所述梅尔频谱图序列进行语音处理,生成与文本信息对应的语音信息;
视频合成模块,用于对所述面部图像和所述语音信息进行合成处理,生成说话人视频;
其中,所述图像处理模块包括:
第一图像处理单元,用于针对所述梅尔频谱图序列中任一梅尔频谱图:对所述梅尔频谱图进行图像处理,生成预处理面部图像;
第二图像处理单元,将多个所述预处理面部图像进行处理,生成与文本信息对应的面部图像;
所述第一图像处理单元包括:
面部关键点子单元,用于对所述梅尔频谱图进行处理,得到整个面部对应的第一关键点序列,所述第一关键点序列包括多个第一关键点子序列,每个所述第一关键点子序列对应面部中指定部位;
查询子单元,用于根据所述文本信息,从数据库查询与所述文本信息对应的指定动作帧,并获取所述指定动作帧对应的第二关键点序列;所述指定动作帧用于指示面部指定部位的动作帧;
替换子单元,用于确定与所述指定动作帧对应的第一关键点子序列,并在所述第一关键点序列中利用所述第二关键点序列替换所述对应的第一关键点子序列,生成替换的第一关键点序列;
模型处理子单元,用于对所述替换的第一关键点序列进行模型处理,生成预处理面部图像。
6.根据权利要求5所述的装置,其特征在于,所述语音合成模块包括:
预处理单元,用于对所述文本信息进行预处理,生成音素向量;
语义提取单元,用于对所述音素向量进行语义特征提取处理,生成语义向量;
时序提取单元,用于对所述语义向量进行时序特征提取处理,生成时序向量;
解码单元,用于对所述时序向量进行解码处理,生成梅尔频谱图序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011577254.1A CN112735371B (zh) | 2020-12-28 | 2020-12-28 | 一种基于文本信息生成说话人视频的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011577254.1A CN112735371B (zh) | 2020-12-28 | 2020-12-28 | 一种基于文本信息生成说话人视频的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112735371A CN112735371A (zh) | 2021-04-30 |
CN112735371B true CN112735371B (zh) | 2023-08-04 |
Family
ID=75606391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011577254.1A Active CN112735371B (zh) | 2020-12-28 | 2020-12-28 | 一种基于文本信息生成说话人视频的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112735371B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113299312B (zh) * | 2021-05-21 | 2023-04-28 | 北京市商汤科技开发有限公司 | 一种图像生成方法、装置、设备以及存储介质 |
CN113327586B (zh) * | 2021-06-01 | 2023-11-28 | 深圳市北科瑞声科技股份有限公司 | 一种语音识别方法、装置、电子设备以及存储介质 |
CN113421544B (zh) * | 2021-06-30 | 2024-05-10 | 平安科技(深圳)有限公司 | 歌声合成方法、装置、计算机设备及存储介质 |
CN114173188B (zh) * | 2021-10-18 | 2023-06-02 | 深圳追一科技有限公司 | 视频生成方法、电子设备、存储介质和数字人服务器 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866968A (zh) * | 2019-10-18 | 2020-03-06 | 平安科技(深圳)有限公司 | 基于神经网络生成虚拟人物视频的方法及相关设备 |
CN110880315A (zh) * | 2019-10-17 | 2020-03-13 | 深圳市声希科技有限公司 | 一种基于音素后验概率的个性化语音和视频生成系统 |
CN111369967A (zh) * | 2020-03-11 | 2020-07-03 | 北京字节跳动网络技术有限公司 | 基于虚拟人物的语音合成方法、装置、介质及设备 |
CN111415662A (zh) * | 2020-03-16 | 2020-07-14 | 北京字节跳动网络技术有限公司 | 用于生成视频的方法、装置、设备和介质 |
CN111933110A (zh) * | 2020-08-12 | 2020-11-13 | 北京字节跳动网络技术有限公司 | 视频生成方法、生成模型训练方法、装置、介质及设备 |
CN111988658A (zh) * | 2020-08-28 | 2020-11-24 | 网易(杭州)网络有限公司 | 视频生成方法及装置 |
CN112002301A (zh) * | 2020-06-05 | 2020-11-27 | 四川纵横六合科技股份有限公司 | 一种基于文本的自动化视频生成方法 |
WO2020256475A1 (ko) * | 2019-06-21 | 2020-12-24 | 주식회사 머니브레인 | 텍스트를 이용한 발화 동영상 생성 방법 및 장치 |
-
2020
- 2020-12-28 CN CN202011577254.1A patent/CN112735371B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020256475A1 (ko) * | 2019-06-21 | 2020-12-24 | 주식회사 머니브레인 | 텍스트를 이용한 발화 동영상 생성 방법 및 장치 |
CN110880315A (zh) * | 2019-10-17 | 2020-03-13 | 深圳市声希科技有限公司 | 一种基于音素后验概率的个性化语音和视频生成系统 |
CN110866968A (zh) * | 2019-10-18 | 2020-03-06 | 平安科技(深圳)有限公司 | 基于神经网络生成虚拟人物视频的方法及相关设备 |
CN111369967A (zh) * | 2020-03-11 | 2020-07-03 | 北京字节跳动网络技术有限公司 | 基于虚拟人物的语音合成方法、装置、介质及设备 |
CN111415662A (zh) * | 2020-03-16 | 2020-07-14 | 北京字节跳动网络技术有限公司 | 用于生成视频的方法、装置、设备和介质 |
CN112002301A (zh) * | 2020-06-05 | 2020-11-27 | 四川纵横六合科技股份有限公司 | 一种基于文本的自动化视频生成方法 |
CN111933110A (zh) * | 2020-08-12 | 2020-11-13 | 北京字节跳动网络技术有限公司 | 视频生成方法、生成模型训练方法、装置、介质及设备 |
CN111988658A (zh) * | 2020-08-28 | 2020-11-24 | 网易(杭州)网络有限公司 | 视频生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112735371A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112735371B (zh) | 一种基于文本信息生成说话人视频的方法及装置 | |
CN111566656B (zh) | 利用多种语言文本语音合成模型的语音翻译方法及系统 | |
CN112786004B (zh) | 语音合成方法以及电子设备、存储装置 | |
CN104157285B (zh) | 语音识别方法、装置及电子设备 | |
CN111260761B (zh) | 一种生成动画人物口型的方法及装置 | |
CN111653265B (zh) | 语音合成方法、装置、存储介质和电子设备 | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
CN112309365A (zh) | 语音合成模型的训练方法、装置、存储介质以及电子设备 | |
CN112614510B (zh) | 一种音频质量评估方法及装置 | |
CN111916054B (zh) | 基于唇形的语音生成方法、装置和系统及存储介质 | |
CN112185363B (zh) | 音频处理方法及装置 | |
KR20210059586A (ko) | 텍스트 음성 변환과 함께 멀티태스크 학습을 사용한 감정적 음성 변환 방법 및 장치 | |
CN111079423A (zh) | 一种听写报读音频的生成方法、电子设备及存储介质 | |
CN113327578B (zh) | 一种声学模型训练方法、装置、终端设备及存储介质 | |
CN112397053B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
Hrúz et al. | Automatic fingersign-to-speech translation system | |
CN110781329A (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN117253493A (zh) | 用于语音生成任务的音频编码方法、电子设备和存储介质 | |
CN115511704B (zh) | 一种虚拟客服生成方法、装置、电子设备及存储介质 | |
CN113761268A (zh) | 音频节目内容的播放控制方法、装置、设备和存储介质 | |
CN113112575A (zh) | 一种口型生成方法、装置、计算机设备及存储介质 | |
CN112580669B (zh) | 一种对语音信息的训练方法及装置 | |
CN114125506B (zh) | 语音审核方法及装置 | |
CN115700871A (zh) | 模型训练和语音合成方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230704 Address after: Room 101, floor 1, building 1, courtyard 42, gaoliangqiaoxie street, Haidian District, Beijing Applicant after: Beijing Yufanzhi Information Technology Co.,Ltd. Address before: 215000 unit 4-b404, creative industry park, 328 Xinghu street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: Go out and ask (Suzhou) Information Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |