CN114143479B

CN114143479B - 视频摘要的生成方法、装置、设备以及存储介质

Info

Publication number: CN114143479B
Application number: CN202111436728.5A
Authority: CN
Inventors: 刘钊
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2023-07-25
Anticipated expiration: 2041-11-29
Also published as: CN114143479A

Abstract

本申请实施例涉及人工智能领域，公开了一种视频摘要的生成方法、装置、设备以及存储介质。其中，该方法通过获取目标文案解说视频，并将目标文案解说视频划分为多个解说视频片段；从解说视频片段种选出关键视频片段；提取关键视频片段的文案解说音频及文案解说影像；获取关键视频片段中目标对象的第一语音数据；获取目标对象对应的第二语音数据；根据第一语音数据和第二语音数据确定目标对象的目标语音数据；根据目标语音数据获取目标文本信息；根据每个关键视频片段对应的文案解说影像、目标语音数据及目标文本信息生成对应关键视频片段的视频摘要片段；将视频摘要片段进行拼接，生成目标文案解说视频对应的视频摘要。

Description

视频摘要的生成方法、装置、设备以及存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种视频摘要的生成方法、装置、设备以及存储介质。

背景技术

随着互联网技术和多媒体技术的发展，数字视频大量涌入，比如新闻、广告、电视、电影、网络直播等等。无论是学习工作还是社交娱乐，用户都被海量视频包围着，想要在大量视频中快速查询到感兴趣的视频是不易的，因此视频摘要应运而生，顾名思义，视频摘要是视频内容的简要表示，目的是为了方便用户快速了解视频内容，并决定是否详细观看，以及用于视频数据库的索引和查询等。

其中，文案解说类视频，通常是需要解说人员对应PPT、word、黑板等记载有文案信息的介质进行讲解，并为讲解适配对应的解说字幕，以使观看人员可以多角度获取解说内容，现有技术中，解说类视频为了快速地生成视频摘要，通常情况下，会随机地、或者等帧间间隔地从视频中摘取多个视频帧，并将摘取的多个视频帧简单结合，从而生成视频摘要。

然而，通过此种方式生成的视频摘要，无法识别素材是否存在质量问题，所生成的视频摘要质量难以保证。

发明内容

本申请实施例的主要目的在于提供一种视频摘要的生成方法、装置、设备以及存储介质，旨在提高视频摘要的生成质量，提升用户体验。

第一方面，本申请实施例提供一种视频摘要的生成方法，包括：

获取目标文案解说视频，并将所述目标文案解说视频划分为多个解说视频片段；

根据每个所述解说视频片段与目标文案讲解的相关程度从多个所述解说视频片段选出关键视频片段，其中，每个所述关键视频片段均包括讲解所述目标文案的目标对象；

提取所述关键视频片段对应的文案解说音频及文案解说影像，并根据所述文案解说音频获取所述关键视频片段中所述目标对象的第一语音数据，以及根据所述文案解说影像获取所述关键视频片段中所述目标对象的多张口型变化图像，并根据多张所述口型变化图像获取所述目标对象对应的第二语音数据；

根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，并将所述目标语音数据输入至预设的语音识别模型，以获取目标文本信息；

根据每个所述关键视频片段对应的所述文案解说影像、所述目标语音数据及所述目标文本信息生成对应所述关键视频片段的视频摘要片段，并将所述视频摘要片段进行拼接，生成所述目标文案解说视频对应的视频摘要。

第二方面，本申请实施例还提供一种视频摘要的生成装置，包括：

片段划分模块，用于获取目标文案解说视频，并将所述目标文案解说视频划分为多个解说视频片段；

片段筛选模块，用于根据每个所述解说视频片段与目标文案讲解的相关程度从多个所述解说视频片段选出关键视频片段，其中，每个所述关键视频片段均包括讲解所述目标文案的目标对象；

语音提起模块，用于提取所述关键视频片段对应的文案解说音频及文案解说影像，并根据所述文案解说音频获取所述关键视频片段中所述目标对象的第一语音数据，以及根据所述文案解说影像获取所述关键视频片段中所述目标对象的多张口型变化图像，并根据多张所述口型变化图像获取所述目标对象对应的第二语音数据；

文本转换模块，用于根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，并将所述目标语音数据输入至预设的语音识别模型，以获取目标文本信息；

摘要生成模块，用于根据每个所述关键视频片段对应的所述文案解说影像、所述目标语音数据及所述目标文本信息生成对应所述关键视频片段的视频摘要片段，并将所述视频摘要片段进行拼接，生成所述目标文案解说视频对应的视频摘要。

第三方面，本申请实施例还提供一种电子设备，电子设备包括处理器、存储器、存储在存储器上并可被处理器执行的计算机程序以及用于实现处理器和存储器之间的连接通信的数据总线，其中计算机程序被处理器执行时，实现如本申请说明书提供的任一项视频摘要的生成方法的步骤。

第四方面，本申请实施例还提供一种存储介质，用于计算机可读存储，其特征在于，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现如本申请说明书提供的任一项视频摘要的生成方法的步骤。

本申请实施例提供一种视频摘要的生成方法、装置、设备及存储介质，其中，该方法通过获取目标文案解说视频，并将所述目标文案解说视频划分为多个解说视频片段；根据每个所述解说视频片段与目标文案讲解的相关程度从多个所述解说视频片段选出关键视频片段，其中，每个所述关键视频片段均包括讲解所述目标文案的目标对象；提取所述关键视频片段对应的文案解说音频及文案解说影像，并根据所述文案解说音频获取所述关键视频片段中所述目标对象的第一语音数据，以及根据所述文案解说影像获取所述关键视频片段中所述目标对象的多张口型变化图像，并根据多张所述口型变化图像获取所述目标对象对应的第二语音数据；根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，并将所述目标语音数据输入至预设的语音识别模型，以获取目标文本信息；根据每个所述关键视频片段对应的所述文案解说影像、所述目标语音数据及所述目标文本信息生成对应所述关键视频片段的视频摘要片段，并将所述视频摘要片段进行拼接，生成所述目标文案解说视频对应的视频摘要。在进行目标文案解说视频对应的视频摘要生成过程中，通过获取目标对象的口型变化从而获取到目标对象的解说语音数据，从而当所获取的目标文案解说视频中音频出现问题时，可以利用口型变化所获得的语音进行补偿，从而提高视频摘要的生成质量，提升用户体验。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频摘要的生成方法的流程示意图；

图2为本申请实施例提供的一种视频摘要的生成装置的模块结构示意图；

图3为本申请实施例提供的一种电子设备的结构示意框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

通过上述方法所形成的视频摘要对原素材质量的依赖性很强，若原素材中的文案解说类视频中语音出现卡顿或解析不清晰，则可能造成在所生成的视频摘要中出现语音卡顿或解析不清晰的情况，因此，最终生成的视频摘要质量无法得到有效保证，使得用户的体验度较差。

因此，为了提高视频摘要的生成质量，提升用户体验，本申请实施例提供一种视频摘要的生成方法、装置、设备及存储介质。其中，该视频摘要的生成方法可应用于电子设备。该电子设备可以为手机、平板电脑、笔记本电脑、台式电脑、个人数字助理、穿戴式设备等终端设备，也可以是服务器，其中，服务器可以为独立的服务器，也可以为服务器集群。

具体的，视频摘要的生成方法通过该方法通过获取目标文案解说视频，并将所述目标文案解说视频划分为多个解说视频片段；根据每个所述解说视频片段与目标文案讲解的相关程度从多个所述解说视频片段选出关键视频片段，其中，每个所述关键视频片段均包括讲解所述目标文案的目标对象；提取所述关键视频片段对应的文案解说音频及文案解说影像，并根据所述文案解说音频获取所述关键视频片段中所述目标对象的第一语音数据，以及根据所述文案解说影像获取所述关键视频片段中所述目标对象的多张口型变化图像，并根据多张所述口型变化图像获取所述目标对象对应的第二语音数据；根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，并将所述目标语音数据输入至预设的语音识别模型，以获取目标文本信息；根据每个所述关键视频片段对应的所述文案解说影像、所述目标语音数据及所述目标文本信息生成对应所述关键视频片段的视频摘要片段，并将所述视频摘要片段进行拼接，生成所述目标文案解说视频对应的视频摘要。在进行目标文案解说视频对应的视频摘要生成过程中，通过获取目标对象的口型变化从而获取到目标对象的解说语音数据，从而当所获取的目标文案解说视频中音频出现问题时，可以利用口型变化所获得的语音进行补偿，从而提高视频摘要的生成质量，提升用户体验。

下面结合附图，对本申请的一些实施例作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请实施例提供的一种视频摘要的生成方法的流程示意图。

如图1所示，该基于语音识别的方案获取方法包括步骤S1至步骤S5。

步骤S1：获取目标文案解说视频，并将所述目标文案解说视频划分为多个解说视频片段。

目标文案解说视频获取途径有多种，如，可以是存储在硬盘、U盘、SD卡等存储介质中获取，也可以是获取到目标文案解说视频的视频链接，通过视频链接下载到目标文案解说视频。

在获取到目标文案解说视频后，将目标文案解说视频划分为多个解说视频片段，其中，解说视频片段的划分可以是根据目标文案解说视频的总时长将目标文案解说视频均分成单位时长的若干个解说视频片段，也可以将目标文案解说视频随机分成若干解说视频片段，在此不做限定。

在一些实施方式中，所述将所述目标文案解说视频划分为多个解说视频片段，包括：

获取所述目标文案解说视频的总时长，根据所述总时长将所述目标文案解说视频均分成N个解说视频片段，其中N大于2。

示例性地，目标文案解说视频的总时长为120分钟，为了生成视频摘要需要对目标文案解说视频进行片段截取选择，如，将120分钟的总时长进行12等分的均分，即将120分钟的目标文案解说视频均分成12个10分钟的解说视频片段。

步骤S2：根据每个所述解说视频片段与目标文案讲解的相关程度从多个所述解说视频片段选出关键视频片段，其中，每个所述关键视频片段均包括讲解所述目标文案的目标对象。

示例性地，将目标文案解说视频分割成若干解说视频片段后，其中有些视频片段是跟目标文案解说视频关联度较强的，如，讲师对文案进行讲解的部分，有些视频片段跟目标文案解说视频关联度较弱，如，一些过度放松环节的视频片段、一些文案解说的扩展片段、一些提问解答片段等。

基于每个解说片段中对目标文案讲解的时长可能不同，甚至有些解说视频片段中没有解说对象，因此，这些视频片段与目标文案解说视频的相关程度不强，若利用这些视频片段做成目标文案解说视频的视频摘要可能无法传达出当前视频类型为目标文案解说视频的信息，因此，从目标文案解说视频中筛选出关键视频片段至关重要。

在一些实施方式中，所述根据每个所述解说视频片段与目标文案讲解的相关程度从多个所述解说视频片段选出关键视频片段，包括：

判断所述解说视频片段中讲解所述目标文案的目标对象的出现时间是否超过预设时间；

当所述目标对象的出现时间超过预设时间时，获取所述解说视频片段的字幕信息，并根据所述字幕信息中的关键词对每条所述字幕信息进行类型划分；

基于每条所述字幕信息的字幕类型，以及各个所述字幕类型的加权系数对所述字幕信息进行加权求和，获得所述解说视频片段的关键程度；

选择所述关键程度最高的预设数量所述解说视频片段作为所述关键视频片段。

示例性地，预设时长根据解说视频片段的时长设置，如，每个解说视频片段的时长至少为T1，通过图像识别计算每个解说视频片段中讲解目标文案的目标对象的出现时间T2，T2小于或等于T1，当T2大于或等于0.6T1则认为目标对象在解说视频片段中的出现时间超过预设时间，从而可以筛选出部分符合初始要求的解说视频片段。

当初步筛选到符合初始要求的解说视频片段时，获取该解说视频片段的字幕信息，并对字幕信息进行关键词拆分，并根据拆分后的关键词对每条所述字幕信息进行字幕类型划分，例如，电子设备内存储有关键词和字幕类型的对应短息，当字幕信息中含有关键词A、关键词B、关键词C时，该字幕信息划分为A字幕类型，当字幕信息中含有关键词A、关键词B、关键词D时，该字幕信息划分为B字幕类型，当字幕信息中含有关键词H、关键词E、关键词F时，该字幕信息划分为C字幕类型。

每种字幕信息对应的字幕类型都对应有一个加权系数，将解说视频片段中出现的所有字幕信息进行类型划分后，根据字幕信息的字幕类型对应的加权系数对所述字幕信息进行加权求和，获得所述解说视频片段的关键程度，然后选择所述关键程度最高的预设数量所述解说视频片段作为所述关键视频片段。即，目标文案解说视频被划分为N个解说视频片段，从N个解说视频片段中选择M个选择关键程度最高的解说视频片段作为关键视频片段，其中，N大于M。从12个解说视频片段中选择3个关键程度最高的作为关键视频片段。

当所述目标对象的出现时间超过预设时间时，获取每个所述解说视频片段中所出现的目标文案的文案信息，并对所述文案信息进行关键词提取，以获取文案关键词；

根据每个所述解说视频片段中对应的所述文案关键词的出现频率、及所述文案关键词的数量获取每个所述解说视频片段的关键程度；

示例性地，当目标对象在解说视频片段中的出现时间超过预设时间，从而可以筛选出部分符合初始要求的解说视频片段。

当初步筛选到符合初始要求的解说视频片段时，筛选出每个解说视频片段中出现目标文案的视频帧，将视频帧转换为对应的视频图片并通过OCR文字识别技术识别视频图片中所对应的目标文案的文案信息，并对文案进行关键词拆分，以获取关键词词集，通过预设关键词库从关键词词集中筛选出文案关键词。

统计筛选出的每个解说视频片段中所出现的文案关键词数量及文案关键词的出现频率，预设有解说视频片段的关键程度和关键词数量、文案关键词的出现频率之间的对应关系，根据文案关键词的出现频率及文案关键词的数量获取每个解说视频片段的关键程度，选择所述关键程度最高的预设数量所述解说视频片段作为所述关键视频片段。

步骤S3：提取所述关键视频片段对应的文案解说音频及文案解说影像，并根据所述文案解说音频获取所述关键视频片段中所述目标对象的第一语音数据，以及根据所述文案解说影像获取所述关键视频片段中所述目标对象的多张口型变化图像，并根据多张所述口型变化图像获取所述目标对象对应的第二语音数据。

示例性地，每个关键视频片段中至少包括文案解说音频及文案解说影像，其中，每个文案解说音频包括多个音频帧，每个文案解说影像包括多个视频图像帧。将关键视频片段进行解码，从而获取到关键视频片段对应的文案解说音频及文案解说影像。

所获取的音频数据中可能存在环境噪音，如，环境听众的掌声、听众的提问声等等，为了降低环境噪音的影响，需要从音频数据中分离出目标对象的第一语音数据。

通过文案解说影像获取关键视频片段中目标对象的口型变化图像，并根据口型变化图像识别到视频对应中目标对象的唇语信息，从而根据唇语信息获取到文案解说影像中目标对象的第二语音数据，可以利用第一语音数据和第二语音数据获取到较为精准、全面的目标对象的目标语音。

在一些实施方式中，所述根据所述文案解说音频获取所述关键视频片段中所述目标对象的第一语音数据，包括：

将所述文案解说音频对应的音频数据输入到语音提取模型的特征提取网络进行特征提取，获取所述音频数据对应的特征向量，所述音频数据包括所述目标对象的第一语音数据和环境的噪声数据；

将预设向量和所述特征向量输入到所述语音提取模型的语音提取网络，以从所述音频数据中提取出所述目标对象的第一语音数据，其中，所述语音提取模型通过目标对象的语音训练获得，所述预设向量根据所述噪声数据获得，所述语音提取网络以所述预设向量为参考，调整所述第一语音数据和所述噪声数据在所述音频数据中所占的比例，从而获取所述目标对象的第一语音数据。

示例性地，基于不同的声音具有不同的声纹特征，从而可以利用声纹特征将用户声音和环境噪声进行区分，以从音频数据中分离出目标对象的语音数据。

首先需要说明的是，所谓声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。

每个人的语音声学特征既有相对稳定性，又有变异性，不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。

进一步地，声纹特征是与人类的发音机制的解剖学结构有关的声学特征，如频谱、倒频谱、共振峰、基音、反射系数等等、鼻音、带深呼吸音、沙哑音、笑声等；人类的声纹特征受社会经济状况、受教育水平、出生地、语义、修辞、发音、言语习惯等的影响。对于声纹特征，个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征，可以从利用数学方法建模的角度出发，声纹自动识别模型目前可以使用的特征包括：声学特征，如倒频谱；词法特征，如说话人相关的词n-gram，音素n-gram等；韵律特征，如利用ngram描述的基音和能量“姿势”。

实际应用中，进行声纹特征提取时，可以提取音频数据中用户的声纹特征数据，该声纹特征数据包括基音频谱及其轮廓、基音帧的能量、基音共振峰的出现频率及其轨迹、线性预测倒谱、线谱对、自相关和对数面积比、Mel频率倒谱系数( Mel Frequency CepstrumCoefficient，MFCC )、感知线性预测中的至少一者。

例如，音频数据包括目标对象的第一语音数据和环境的噪声数据。基于目标对象为用户，目标对象的语音与环境噪声具有较大的差别，利用目标对象的语音和环境噪声训练语音提取模型，在进行目标对象语音数据提取时，将获取的音频数据输入到语音提取模型中进行特征提取，以获取音频数据对应的特征向量，并将获取终端设备所在环境的环境噪声并将环境噪声转换为对应的预设向量。

将预设向量及特征向量输入到语音提取模型的语音提取网络，以从音频数据中提取出目标对象的第一语音数据，其中，语音提取模型通过用户语音及环境噪声训练获得，预设向量根据噪声数据获得，语音提取网络以预设向量为参考，调整第一语音数据和噪声数据在音频数据中所占的比例，从而获取目标对象的第一语音数据。

在一些实施方式中，所述根据所述文案解说影像获取所述关键视频片段中所述目标对象的多张口型变化图像，并根据多张所述口型变化图像获取所述目标对象对应的第二语音数据，包括：

提取所述文案解说影像的每一帧视频图像中目标对象的口型图像，并根据所述文案解说影像的时间轴赋予所述口型图像对应的时间戳；

根据所述时间戳将所述口型图像输入至预设的唇语识别模型，以获取所述文案解说影像中所述目标对象对应的第二语音数据。

示例性地，所获取的文案解说影像中包括N帧视频图像，提取N帧视频图像中每一帧图像里的目标对象口型图像，并根据每一帧图像的先后顺序为所提取到的口型图像赋予对应的时间戳，根据时间戳的先后顺序将口型图像输入至唇语识别模型中，以获取文案解说影像中目标对象对应的第二语音数据。

例如，文案解说影像中第一帧获取到第一口型图像，第二帧获取到第二口型图像，第三帧获取到第三口型图像，直至第N帧获取到第N口型图像，根据每一帧图像的时间先后顺序赋予对应的口型图像时间戳，从而准确识别出目标对象的口型变化顺序，并根据该时间戳的先后顺序，将先后将文案解说影像的第一帧到第N帧所获取的口型图像输入至唇语识别模型中，以获取文案解说影像中目标对象对应的第二语音数据。

步骤S4：根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，并将所述目标语音数据输入至预设的语音识别模型，以获取目标文本信息。

示例性地，第一语音数据中可能会因为环境噪音的影响造成所获取的目标对象语音被环境噪声覆盖或语音采集器受到环境干扰无法即使获取到目标对象语音，从而造成目标对象的语音缺失，在语音缺失部分利用第二语音数据所对应的部分进行补偿，从而获取到目标对象的目标语音数据。利用预设的语音识别模型识别所获取的目标语音数据，从而获取到目标文本信息。

在一些实施方式中，所述根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，包括：

将所述第一语音数据和所述第二语音数据对比，判断所述第一语音数据是否存在语音缺失；

当所述第一语音数据存在语音缺失时，根据所述第二语音数据对所述第一语音数据进行语音补偿，得到所述目标语音数据。

在一些实施方式中，所述根据所述第二语音数据对所述第一语音数据进行语音补偿，得到所述目标语音数据，包括：

标记所述第一语音数据的缺失部分，并获取与所述缺失部分对应的第一时间段；

从所述第二语音数据中获取与所述第一时间段对应的第二语音数据段，并利用所述第二语音数据段补偿所述缺失部分，得到所述目标语音数据。

示例性地，基于语音数据和视频数据为同时获取，因此第一语音数据和第二语音数据的起始时间相同，通过对比第一语音数据所对应的第一音频信号及第二语音数据所对应的第二音频信号在时间连续性上的相似度，从而判断出第一语音数据是否存在语音缺失，当存在语音缺失时，标记语音缺失部分，并获取缺失部分对应的第一时间段，从第二语音数据中获取与所述第一时间段相同时间段所对应的第二语音数据段，并利用第二语音数据段补偿第一语音数据的缺失部分，从而获取到目标对象的目标语音数据。

将所述目标语音数据输入至预设的语音识别模型，以获取目标文本信息。例如，通过自动语音识别(Automatic Speech Recognition，ASR)技术将目标语音数据转换为对应的文本，从而可以将所获得的目标文本信息作为目标语音数据对应的字幕。

步骤S5：根据每个所述关键视频片段对应的所述文案解说影像、所述目标语音数据及所述目标文本信息生成对应所述关键视频片段的视频摘要片段，并将所述视频摘要片段进行拼接，生成所述目标文案解说视频对应的视频摘要。

将每个关键视频片段所获取的文案解说影像、目标语音数据、目标文本信息作为当前视频摘要片段的源文件，将目标语音数据作为文案解说影像的解说语音，将目标文本信息作为文案解说影像的解说字幕，确定文案解说影像中目标对象开始讲解的时间点，并将该时间点与对应的目标语音数据的开始时间点对齐，同时，以目标对象开始讲解的时间点作为目标文本信息的出现时间，从而生成可以较为精准的生成当前视频摘要片段。

同理，依次生成多个关键视频片段所对应视频摘要片段，从而获取到所有关键视频片段对应的视频摘要片段。

每个解说视频片段在进行视频片段划分时均已经被赋予对应时间戳，通过时间戳可以确定出对应视屏片段的先后顺序。

因此，根据时间戳可以确定对应视频摘要片段的先后顺序，在生成目标文案解说视频的视频摘要片段，也可以将频摘要片段进行随机排序并拼接成对应的视频摘要，在此不做限定。

请参阅图2，本申请还提供了一种视频摘要的生成装置200，该视频摘要的生成装置200包括片段划分模块201、片段筛选模块202、语音提取模块203、文本转换模块204、及摘要生成模块205。

具体的，片段划分模块201，用于获取目标文案解说视频，并将所述目标文案解说视频划分为多个解说视频片段；

片段筛选模块202，用于根据每个所述解说视频片段与目标文案讲解的相关程度从多个所述解说视频片段选出关键视频片段，其中，每个所述关键视频片段均包括讲解所述目标文案的目标对象；

语音提起模块203，用于提取所述关键视频片段对应的文案解说音频及文案解说影像，并根据所述文案解说音频获取所述关键视频片段中所述目标对象的第一语音数据，以及根据所述文案解说影像获取所述关键视频片段中所述目标对象的多张口型变化图像，并根据多张所述口型变化图像获取所述目标对象对应的第二语音数据；

文本转换模块204，用于根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，并将所述目标语音数据输入至预设的语音识别模型，以获取目标文本信息；

摘要生成模块205，用于根据每个所述关键视频片段对应的所述文案解说影像、所述目标语音数据及所述目标文本信息生成对应所述关键视频片段的视频摘要片段，并将所述视频摘要片段进行拼接，生成所述目标文案解说视频对应的视频摘要。

在一些实施方式中，片段划分模块201还用于：获取所述目标文案解说视频的总时长，根据所述总时长将所述目标文案解说视频均分成N个解说视频片段，其中N大于2。

在一些实施方式中，片段筛选模块202还用于：判断所述解说视频片段中讲解所述目标文案的目标对象的出现时间是否超过预设时间；

在一些实施方式中，片段筛选模块202还用于：所述根据每个所述解说视频片段与目标文案讲解的相关程度从多个所述解说视频片段选出关键视频片段，包括：

在一些实施方式中，语音提取模块203还用于：将音频数据输入到语音提取模型的特征提取网络进行特征提取，获取所述音频数据对应的特征向量，所述音频数据包括所述目标对象的第一语音数据和环境的噪声数据；

在一些实施方式中，语音提取模块203还用于：提取所述文案解说影像的每一帧视频图像中目标对象的口型图像，并根据所述文案解说影像的时间轴赋予所述口型图像对应的时间戳；

在一些实施方式中，文本转换模块204还用于：将所述第一语音数据和所述第二语音数据对比，判断所述第一语音数据是否存在语音缺失；

在一些实施方式中，文本转换模块204还用于：标记所述第一语音数据的缺失部分，并获取与所述缺失部分对应的第一时间段；

请参阅图3，图3为本申请实施例提供的电子设备的结构示意性框图。

如图3所示，电子设备300包括处理器301和存储器302，处理器301和存储器302通过总线303连接，该总线比如为I2C（Inter-integrated Circuit）总线。

具体地，处理器301用于提供计算和控制能力，支撑整个服务器的运行。处理器301可以是中央处理单元 (Central Processing Unit，CPU)，该处理器301还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

具体地，存储器302可以是Flash芯片、只读存储器 (ROM，Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请实施例方案相关的部分结构的框图，并不构成对本申请实施例方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，处理器301用于运行存储在存储器中的计算机程序，并在执行计算机程序时实现本申请实施例提供的任意一种方案获取方法。

在一些实施方式中，处理器301用于运行存储在存储器中的计算机程序，并在执行计算机程序时实现如下步骤：

在一些实施方式中，处理器301在所述将所述目标文案解说视频划分为多个解说视频片段时，包括：

在一些实施方式中，处理器301在根据每个所述解说视频片段与目标文案讲解的相关程度从多个所述解说视频片段选出关键视频片段时，包括：

在一些实施方式中，处理器301在根据所述文案解说音频获取所述关键视频片段中所述目标对象的第一语音数据时，包括：

在一些实施方式中，处理器301在根据所述文案解说影像获取所述关键视频片段中所述目标对象的多张口型变化图像，并根据多张所述口型变化图像获取所述目标对象对应的第二语音数据时，包括：

在一些实施方式中，处理器301在根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据时，包括：

在一些实施方式中，处理器301在根据所述第二语音数据对所述第一语音数据进行语音补偿，得到所述目标语音数据时，包括：

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的电子设备的具体工作过程，可以参考前述视频摘要的生成方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种存储介质，用于计算机可读存储，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现如本申请说明书实施例提供的任一项视频摘要的生成方法的步骤。

其中，存储介质可以是前述实施例的电子设备的内部存储单元，例如电子设备的硬盘或内存。存储介质也可以是电子设备的外部存储设备，例如电子设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施例中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质（或非暂时性介质）和通信介质（或暂时性介质）。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息（诸如计算机可读指令、数据结构、程序模块或其他数据）的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘（DVD）或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

应当理解，在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上，仅为本申请的具体实施例，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频摘要的生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据每个所述解说视频片段与目标文案讲解的相关程度从多个所述解说视频片段选出关键视频片段，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据每个所述解说视频片段与目标文案讲解的相关程度从多个所述解说视频片段选出关键视频片段，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述文案解说音频获取所述关键视频片段中所述目标对象的第一语音数据，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述文案解说影像获取所述关键视频片段中所述目标对象的多张口型变化图像，并根据多张所述口型变化图像获取所述目标对象对应的第二语音数据，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述第二语音数据对所述第一语音数据进行语音补偿，得到所述目标语音数据，包括：

8.一种视频摘要的生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器、存储器、存储在所述存储器上并可被所述处理器执行的计算机程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，其中所述计算机程序被所述处理器执行时，实现如权利要求1至7中任一项所述的视频摘要的生成方法的步骤。

10.一种存储介质，用于计算机可读存储，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1至7中任一项所述视频摘要的生成方法的步骤。