CN112735371B

CN112735371B - 一种基于文本信息生成说话人视频的方法及装置

Info

Publication number: CN112735371B
Application number: CN202011577254.1A
Authority: CN
Inventors: 张旭; 杨喜鹏; 殷昊; 江明奇; 陈云琳
Original assignee: Beijing Yufanzhi Information Technology Co ltd
Current assignee: Beijing Yufanzhi Information Technology Co ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2023-08-04
Anticipated expiration: 2040-12-28
Also published as: CN112735371A

Abstract

本发明公开了一种基于文本信息生成说话人视频的方法及装置，本发明实施例对文本信息进行语音合成处理，生成梅尔频谱图序列；对所述梅尔频谱图序列进行图像处理，生成与文本信息对应的面部图像；对所述梅尔频谱图序列进行语音处理，生成与文本信息对应的语音信息；对所述面部图像和所述语音信息进行合成处理，生成说话人视频。由此能够有效合成说话人视频，并提高说话人视频的合成效果，从而解决现有技术中不同使用者通过语音合成说话人视频导致的合成效果下降且制作成本高的问题。

Description

一种基于文本信息生成说话人视频的方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于文本信息生成说话人视频的方法及装置。

背景技术

现有的说话人视频通常是基于语音信息生成的说话人视频，也就是将语音信息输入训练好的模型中生成说话人视频。对于合成的说话人视频，通常要求在视觉上说话内容要与说话姿态保持一致，说话姿态可以是面部动作等。

然而由于人与人之间的声音特征有很大区别，例如针对同一单词，不同人发出的语音特征有很大差别，每个人的语音都携带有对应的ID特征，这里的ID特征主是用来区分不同人的声音。采用不同ID特征的语音训练模型，利用该模型得到的说话人姿态效果不佳，最终导致合成的说话人视频单调、僵硬。为此，在利用语音信息训练模型时，需要先对语音的ID特征进行去除，然后利用去除ID特征的语音信息训练模型，但是去除ID特征的语音信息通常语义表征比较单一，因此会增加模型训练的难度，而且从使用效果上来看，采用该方法训练的模型还不如使用单个说话人语音信息训练的模型。另外，通常语音信息需要使用专用设备和专业操作人员进行捕获，而且数据量大，训练周期长，成本高，并且所有工作均是由一组动画师执行，因此针对单个说话人语音信息训练模型，上述这种定制化方式对于使用者来说通常是非常昂贵的。

发明内容

本发明实施例提供一种基于文本信息生成说话人视频的方法及装置，能够使得生成的说话人视频更加自然逼真，提高了说话人视频的合成效果。

根据本发明实施例第一方面，提供一种基于文本信息生成说话人视频的方法，包括：对文本信息进行语音合成处理，生成梅尔频谱图序列；对所述梅尔频谱图序列进行图像处理，生成与文本信息对应的面部图像；对所述梅尔频谱图序列进行语音处理，生成与文本信息对应的语音信息；对所述面部图像和所述语音信息进行合成处理，生成说话人视频。

根据本发明一实施方式，所述对文本信息进行语音合成处理，生成梅尔频谱图序列，包括：对所述文本信息进行预处理，生成音素向量；对所述音素向量进行语义特征提取处理，得到语义向量；对所述语义向量进行时序特征提取处理，生成时序向量；对所述时序向量进行解码处理，生成梅尔频谱图序列。

根据本发明一实施方式，所述对所述文本信息进行预处理，生成音素向量，包括：对所述文本信息进行分词处理，得到单词；对所述单词进行拼音处理，得到与所述单词对应的拼音；对所述拼音进行分割处理，生成音素信息；对所述音素信息进行编码处理，生成音素向量。

根据本发明一实施方式，所述对所述时序向量进行解码处理，生成梅尔频谱图序列，包括：对所述时序向量施加特征权重，得到具有权重的特征向量；对所述具有权重的特征向量进行解码处理，生成梅尔频谱图序列。

根据本发明一实施方式，所述对所述梅尔频谱图序列进行图像处理，生成与文本信息对应的面部图像，包括：针对所述梅尔频谱图序列中任一梅尔频谱图：对所述梅尔频谱图进行图像处理，生成预处理面部图像；将多个所述预处理面部图像进行处理，生成与文本信息对应的面部图像。

根据本发明一实施方式，所述对所述梅尔频谱图进行图像处理，生成预处理面部图像，包括：对所述梅尔频谱图进行处理，得到整个面部对应的第一关键点序列，所述第一关键点序列包括多个第一关键点子序列，每个所述第一关键点子序列对应面部中指定部位；根据所述文本信息，从数据库查询与所述文本信息对应的指定动作帧，并获取所述指定动作帧对应的第二关键点序列；所述指定动作帧用于指示面部指定部位的动作帧；确定与所述指定动作帧对应的第一关键点子序列，并在所述第一关键点序列中利用所述第二关键点序列替换所述对应的第一关键点子序列，生成替换的第一关键点序列；对所述替换的第一关键点序列进行模型处理，生成预处理面部图像。

根据本发明实施例第二方面，还提供一种基于文本信息生成说话人视频的装置，包括：语音合成模块，用于对文本信息进行语音合成处理，生成梅尔频谱图序列；图像处理模块，用于对所述梅尔频谱图序列进行图像处理，生成与文本信息对应的面部图像；语音处理模块，用于对所述梅尔频谱图序列进行语音处理，生成与文本信息对应的语音信息；视频合成模块，用于对所述面部图像和所述语音信息进行合成处理，生成说话人视频。

根据本发明一实施方式，所述语音合成模块包括：预处理单元，用于对所述文本信息进行预处理，生成音素向量；语义提取单元，用于对所述音素向量进行语义特征提取处理，生成语义向量；时序提取单元，用于对所述语义向量进行时序特征提取处理，生成时序向量；解码单元，用于对所述时序向量进行解码处理，生成梅尔频谱图序列。

根据本发明一实施方式，所述图像处理模块包括：第一图像处理单元，用于针对所述梅尔频谱图序列中任一梅尔频谱图：对所述梅尔频谱图进行图像处理，生成预处理面部图像；第二图像处理单元，将多个所述预处理面部图像进行处理，生成与文本信息对应的面部图像。

根据本发明一实施方式，所述第一图像处理单元包括：面部关键点子单元，用于对所述梅尔频谱图进行处理，得到整个面部对应的第一关键点序列，所述第一关键点序列包括多个第一关键点子序列，每个所述第一关键点子序列对应面部中指定部位；查询子单元，用于根据所述文本信息，从数据库查询与所述文本信息对应的指定动作帧，并获取所述指定动作帧对应的第二关键点序列；所述指定动作帧用于指示面部指定部位的动作帧；替换子单元，用于确定与所述指定动作帧对应的第一关键点子序列，并在所述第一关键点序列中利用所述第二关键点序列替换所述对应的第一关键点子序列，生成替换的第一关键点序列；模型处理子单元，用于对所述替换的第一关键点序列进行模型处理，生成预处理面部图像。

根据本发明实施例第三方面，还提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行如第一方面所述基于文本信息生成说话人视频的方法。

本发明实施例基于文本信息生成说话人视频的方法及装置，首先对文本信息进行语音合成处理，生成梅尔频谱图序列；并对所述梅尔频谱图序列进行图像处理和语音处理，生成与文本信息对应的面部图像和与文本信息对应的语音信息；之后将面部图像和语音信息进行合成处理，生成说话人视频。由此能够有效合成说话人视频，并提高说话人视频的合成效果，从而解决现有技术中不同使用者通过语音合成说话人视频导致的合成效果下降且制作成本高的问题。

需要理解的是，本发明的教导并不需要实现上面所述的全部有益效果，而是特定的技术方案可以实现特定的技术效果，并且本发明的其他实施方式还能够实现上面未提到的有益效果。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本发明一实施例基于文本信息生成说话人视频的方法的流程示意图；

图2示出了本发明另一实施例基于文本信息生成说话人视频的方法的流程示意图；

图3示出了本发明另一实施例中生成预处理面部图像的流程示意图；

图4示出了本发明一实施例基于文本信息生成说话人视频的装置的结构示意图；

图5示出了本发明实施例中整个面部对应的第一关键点序列的示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为使本发明更加透彻和完整，并能够将本发明的范围完整地传达给本领域的技术人员。

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

如图1所示，本发明一实施例基于文本信息生成说话人视频的方法的流程示意图。

一种基于文本信息生成说话人视频的方法，该方法至少包括如下操作流程：S101，对文本信息进行语音合成处理，生成梅尔频谱图序列；S102，对梅尔频谱图序列进行图像处理，生成与文本信息对应的面部图像；S103，对梅尔频谱图序列进行语音处理，生成与文本信息对应的语音信息；S104，对面部图像和语音信息进行合成处理，生成说话人视频。

在S101中，对文本信息进行分词处理，得到单词；针对单词进行拼音处理，得到与单词对应的拼音；对拼音进行分割处理，生成音素信息。对音素信息进行编码处理，生成音素向量。声学模型是通过对音素向量进行语义特征提取以及时序特征提取的学习后而获得的，例如在对声学模型训练时，先通过卷积层网络对音素向量进行语义特征提取的训练，之后再通过双向长短时循环网络对语义特征提取后的语义向量进行时序特征提取训练。利用声学模型对音素向量进行处理，得到梅尔频谱图序列。声学模型对音素向量的处理过程如下：对音素向量进行语义特征提取，生成语义向量；对语义向量进行时序特征提取处理，生成时序向量；对时序向量进行解码处理，生成梅尔频谱图序列。由此，通过声学模型对音素向量进行语义特征提取处理，从而获取文本信息的语义内容；通过声学模型对时序向量进行时序特征处理，从而获取语义内容的前后相关性特征；进而使得梅尔频谱图序列生成的面部图像和语音信息更加准确，提高了说话人视频的合成效果。

在这里，音素信息中包括多个音素。音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个音素。如〔ma〕包含〔m〕〔a〕两个发音动作，是两个音素。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素。如〔ma-mi〕中，两个〔m〕发音动作相同，是相同音素，〔a〕〔i〕发音动作不同，是不同音素。

需要说明的是，对音素信息进行编码处理可以通过全连接层网络实现。对音素向量进行语义特征提取可以通过卷积层网络实现，对语义向量进行时序特征提取处理可以通过双向长短时循环网络实现。

在S102中，利用说话人合成模型对梅尔频谱图序列进行图像处理，生成与文本信息对应的面部图像。说话人合成模型包括面部关键点生成模型和关键点合成图像模型。具体地，针对梅尔频谱图序列中任一梅尔频谱图：利用面部关键点生成模型对梅尔频谱图进行处理，得到面部关键点序列；利用关键点合成模型对面部关键点序列进行图像处理，生成预处理面部图像；利用多个预处理面部图像进行处理，生成与文本信息对应的面部图像。

在S103中，利用神经网络声码器模型对梅尔频谱图序列进行语音处理，生成与文本信息对应的语音信息。

在S104中，例如按照时间段，将面部图像和语音信息进行合成处理，生成说话人视频。

本发明实施例基于文本信息生成说话人视频的方法及装置，首先对文本信息进行语音合成处理，生成梅尔频谱图序列；并对梅尔频谱图序列进行图像处理和语音处理，生成与文本信息对应的面部图像和与文本信息对应的语音信息；之后将面部图像和语音信息进行合成处理，生成说话人视频。由此能够有效合成说话人视频，并提高说话人视频的合成效果，从而解决现有技术中不同使用者通过语音合成说话人视频导致的合成效果下降且制作成本高的问题。

应理解，在本发明的实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在的逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

如图2所示，本发明另一实施例基于文本信息生成说话人视频的方法的流程示意图。本实施例是在前述实施例的基础上进一步优化得到的。一种基于文本信息生成说话人视频的方法，该方法至少包括如下操作流程：S201，对文本信息进行预处理，生成音素向量；S202，对音素向量进行语义特征提取处理，得到语义向量；S203，对语义向量进行时序特征提取处理，生成时序向量；S204，对时序向量施加特征权重，得到具有权重的特征向量；S205，对具有权重的特征向量进行解码处理，生成梅尔频谱图序列；S206，针对梅尔频谱图序列中任一梅尔频谱图：对梅尔频谱图进行面部关键点计算，并生成预处理面部图像；S207，将多个预处理面部图像进行处理，生成与文本信息对应的面部图像；S208，对梅尔频谱图序列进行语音处理，生成与文本信息对应的语音信息；S209，对面部图像和语音信息进行合成处理，生成说话人视频。

其中，S201、S202、S203、S205、S206、S207、S208和S209的具体实现过程与图1所示实施例中S101、S102、S103和S104的具体实现过程相类似，这里不再赘述。

在S204中，对时序向量中表示指定部位的数据施加对应的特征权重，从而对文本信息中重要的内容施加更高的关注度。

本发明实施例通过对音素向量进行语义特征提取和时序特征提取后，再对时序向量施加特征权重，从而对文本中重要的内容施加更高的关注度，从而能够实现通过梅尔频谱图序列更准确地获取文本信息语义内容。

如图3所示，本发明另一实施例中生成预处理面部图像的流程示意图。本实施例是在前述实施例的基础上进一步优化得到的。生成预处理面部图像，具体包括如下操作流程：S301，对梅尔频谱图进行处理，得到整个面部对应的第一关键点序列，第一关键点序列包括多个第一关键点子序列，每个第一关键点子序列对应面部中指定部位；S302，根据文本信息，从数据库查询与文本信息对应的指定动作帧，并获取指定动作帧对应的第二关键点序列；指定动作帧用于指示面部指定部位的动作帧；S303，确定与指定动作帧对应的第一关键点子序列，并在第一关键点序列中利用第二关键点序列替换对应的第一关键点子序列，生成替换的第一关键点序列；S304，对替换的第一关键点序列进行模型处理，生成预处理面部图像。

在这里，第一关键点和第二关键点均是指坐标信息。

由此，本发明实施例通过在合成的第一关键点序列中插入指定动作帧，从而丰富合成说话人动作姿态，使得合成效果更加自然逼真。

如图5所示，本发明实施例中整个面部对应的第一关键点序列的示意图。

例如，眼睛具有对应的第一关键点子序列，嘴巴具有对应的第一关键点子序列。文本信息是“我很开心”，针对眼睛部位，数据库中有多个眼睛动作帧，例如有表示开心的眼睛动作帧，以及表示伤心的眼睛动作帧等。根据该文本信息从数据库中查询得到表示开心的眼睛动作帧，获取该眼睛动作帧的第二关键点序列。之后在第一关键点序列中利用眼睛动作帧对应的第二关键点序列替换眼睛部位对应的第一关键点子序列，得到替换后的第一关键点序列，替换后的第一关键点序列表示整个面部的关键点序列。

评判本发明实施例的方法指标为用户平均意见分(Mean Opinion Score，缩写MOS),通过对比已有方法和本实施例的方法生成的说话人视频进行用户评分，可以发现本实施例的方法在数据量更少的情况下，合成的说话人视频更加逼真，说话内容与嘴形更加匹配，MOS也高于原系统。

如图4所示，本发明一实施例基于文本信息生成说话人视频的装置的结构示意图。一种基于文本信息生成说话人视频的装置，该装置400包括：语音合成模块401，用于对文本信息进行语音合成处理，生成梅尔频谱图序列；图像处理模块402，用于对所述梅尔频谱图序列进行图像处理，生成与文本信息对应的面部图像；语音处理模块403，用于对所述梅尔频谱图序列进行语音处理，生成与文本信息对应的语音信息；视频合成模块404，用于对所述面部图像和所述语音信息进行合成处理，生成说话人视频。

在可选的实施例中，所述语音合成模块包括：预处理单元，用于对所述文本信息进行预处理，生成音素向量；语义提取单元，用于对所述音素向量进行语义特征提取处理，生成语义向量；时序提取单元，用于对所述语义向量进行时序特征提取处理，生成时序向量；解码单元，用于对所述时序向量进行解码处理，生成梅尔频谱图序列。

在可选的实施例中，所述预处理单元包括：分词处理子单元，用于对所述文本信息进行分词处理，得到单词；拼音处理子单元，用于对所述单词进行拼音处理，得到与所述单词对应的拼音；分割处理子单元，用于对所述拼音进行分割处理，生成音素信息；编码处理子单元，用于对所述音素信息进行编码处理，生成音素向量。

在可选的实施例中，所述解码单元包括：权重子单元，用于对所述时序向量施加特征权重，得到具有权重的特征向量；解码子单元，用于对所述具有权重的特征向量进行解码处理，生成梅尔频谱图序列。

在可选的实施例中，所述图像处理模块包括：第一图像处理单元，用于针对所述梅尔频谱图序列中任一梅尔频谱图：对所述梅尔频谱图进行图像处理，生成预处理面部图像；第二图像处理单元，将多个所述预处理面部图像进行处理，生成与文本信息对应的面部图像。

在可选的实施例中，所述第一图像处理单元包括：面部关键点子单元，用于对所述梅尔频谱图进行处理，得到整个面部对应的第一关键点序列，所述第一关键点序列包括多个第一关键点子序列，每个所述第一关键点子序列对应面部中指定部位；查询子单元，用于根据所述文本信息，从数据库查询与所述文本信息对应的指定动作帧，并获取所述指定动作帧对应的第二关键点序列；所述指定动作帧用于指示面部指定部位的动作帧；替换子单元，用于确定与所述指定动作帧对应的第一关键点子序列，并在所述第一关键点序列中利用所述第二关键点序列替换所述对应的第一关键点子序列，生成替换的第一关键点序列；模型处理子单元，用于对所述替换的第一关键点序列进行模型处理，生成预处理面部图像。

这里需要指出的是：以上基于文本信息生成说话人视频的装置实施例的描述，与前述图1所示的方法实施例的描述是类似的，具有同前述图1所示的方法实施例相似的有益效果，因此不做赘述。对于本发明基于文本信息生成说话人视频的装置中未披露的技术细节，请参照本发明前述图1所示的方法实施例的描述而理解，为节约篇幅，因此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个装置，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以利用硬件的形式实现，也可以利用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于运算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个运算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该运算机软件产品存储在一个存储介质中，包括若干指令用以使得一台运算机设备(可以是个人运算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于文本信息生成说话人视频的方法，其特征在于，包括：

对文本信息进行语音合成处理，生成梅尔频谱图序列；

对所述梅尔频谱图序列进行图像处理，生成与文本信息对应的面部图像；

对所述梅尔频谱图序列进行语音处理，生成与文本信息对应的语音信息；

对所述面部图像和所述语音信息进行合成处理，生成说话人视频；

其中，对所述梅尔频谱图序列进行图像处理，生成与文本信息对应的面部图像，包括：

针对所述梅尔频谱图序列中任一梅尔频谱图：对所述梅尔频谱图进行图像处理，生成预处理面部图像；

将多个所述预处理面部图像进行处理，生成与文本信息对应的面部图像；

所述对所述梅尔频谱图进行图像处理，生成预处理面部图像，包括：

对所述梅尔频谱图进行处理，得到整个面部对应的第一关键点序列，所述第一关键点序列包括多个第一关键点子序列，每个所述第一关键点子序列对应面部中指定部位；

根据所述文本信息，从数据库查询与所述文本信息对应的指定动作帧，并获取所述指定动作帧对应的第二关键点序列；所述指定动作帧用于指示面部指定部位的动作帧；

确定与所述指定动作帧对应的第一关键点子序列，并在所述第一关键点序列中利用所述第二关键点序列替换所述对应的第一关键点子序列，生成替换的第一关键点序列；

对所述替换的第一关键点序列进行模型处理，生成预处理面部图像。

2.根据权利要求1所述的方法，其特征在于，所述对文本信息进行语音合成处理，生成梅尔频谱图序列，包括：

对所述文本信息进行预处理，生成音素向量；

对所述音素向量进行语义特征提取处理，得到语义向量；

对所述语义向量进行时序特征提取处理，生成时序向量；

对所述时序向量进行解码处理，生成梅尔频谱图序列。

3.根据权利要求2所述的方法，其特征在于，所述对所述文本信息进行预处理，生成音素向量，包括：

对所述文本信息进行分词处理，得到单词；

对所述单词进行拼音处理，得到与所述单词对应的拼音；

对所述拼音进行分割处理，生成音素信息；

对所述音素信息进行编码处理，生成音素向量。

4.根据权利要求2所述的方法，其特征在于，所述对所述时序向量进行解码处理，生成梅尔频谱图序列，包括：

对所述时序向量施加特征权重，得到具有权重的特征向量；

对所述具有权重的特征向量进行解码处理，生成梅尔频谱图序列。

5.一种基于文本信息生成说话人视频的装置，其特征在于，包括：

语音合成模块，用于对文本信息进行语音合成处理，生成梅尔频谱图序列；

图像处理模块，用于对所述梅尔频谱图序列进行图像处理，生成与文本信息对应的面部图像；

语音处理模块，用于对所述梅尔频谱图序列进行语音处理，生成与文本信息对应的语音信息；

视频合成模块，用于对所述面部图像和所述语音信息进行合成处理，生成说话人视频；

其中，所述图像处理模块包括：

第一图像处理单元，用于针对所述梅尔频谱图序列中任一梅尔频谱图：对所述梅尔频谱图进行图像处理，生成预处理面部图像；

第二图像处理单元，将多个所述预处理面部图像进行处理，生成与文本信息对应的面部图像；

所述第一图像处理单元包括：

面部关键点子单元，用于对所述梅尔频谱图进行处理，得到整个面部对应的第一关键点序列，所述第一关键点序列包括多个第一关键点子序列，每个所述第一关键点子序列对应面部中指定部位；

查询子单元，用于根据所述文本信息，从数据库查询与所述文本信息对应的指定动作帧，并获取所述指定动作帧对应的第二关键点序列；所述指定动作帧用于指示面部指定部位的动作帧；

替换子单元，用于确定与所述指定动作帧对应的第一关键点子序列，并在所述第一关键点序列中利用所述第二关键点序列替换所述对应的第一关键点子序列，生成替换的第一关键点序列；

模型处理子单元，用于对所述替换的第一关键点序列进行模型处理，生成预处理面部图像。

6.根据权利要求5所述的装置，其特征在于，所述语音合成模块包括：

预处理单元，用于对所述文本信息进行预处理，生成音素向量；

语义提取单元，用于对所述音素向量进行语义特征提取处理，生成语义向量；

时序提取单元，用于对所述语义向量进行时序特征提取处理，生成时序向量；

解码单元，用于对所述时序向量进行解码处理，生成梅尔频谱图序列。