CN109408672B

CN109408672B - 一种文章生成方法、装置、服务器及存储介质

Info

Publication number: CN109408672B
Application number: CN201811535231.7A
Authority: CN
Inventors: 卞东海; 蒋帅; 刁世亮; 陈思姣; 罗雨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2020-09-29
Anticipated expiration: 2038-12-14
Also published as: CN109408672A

Abstract

本发明实施例公开了一种文章生成方法、装置、服务器及存储介质，其中，该方法包括：从目标视频中获取视频图像集；识别与目标视频及其视频图像相关的至少一篇新闻；结合预先建立的知识图谱信息库中的视频知识信息和所述至少一篇新闻，生成与每张视频图像相关的摘要信息，并依据所述摘要信息和视频图像集生成与所述目标视频相关的文章。本发明实施例实现了快速且高效地生成与视频相关的内容优质且丰富的文章，可以满足用户对高品质热门视频的文章的诉求，提升相关产品的商业价值。

Description

一种文章生成方法、装置、服务器及存储介质

技术领域

本发明实施例涉及互联网技术领域，尤其涉及一种文章生成方法、装置、服务器及存储介质。

背景技术

在互联网信息爆炸的时代，围绕网络数据展开的趋势性应用和产品受到广泛关注。针对各种类型的视频，例如影视剧中的剧照，即影视剧中精彩镜头的高清图集，通过图集文章，可以帮助影视剧吸引用户观看，用户在观看剧照的同时也可以确认是否对该影视剧具有观看兴趣。因此，与视频相关的图集文章是沟通用户和这些视频之间最直接的桥梁。

目前，我们看到的视频图集文章，例如影视剧照文章，多为小编纯手工编辑的文章，如根据人工选择某些热门电视剧，然后选取精彩画面作为剧照图片，最后再对剧照进行剧情介绍、人物介绍等，最终生成电视剧剧照图集文章。显然，整个文章生成过程都需要人工参与，人工干预过多、程序繁琐，并且文章生成耗时长、产量低。即除了收集数据繁琐、数据资源不足以及信息时效性差等缺点之外，还远远达不到量产和实时的更新。

发明内容

本发明实施例提供一种文章生成方法、装置、服务器及存储介质，实现快速且高效地生成与视频相关的内容优质且丰富的文章，可以满足用户对高品质热门视频的文章的诉求，提升相关产品的商业价值。

第一方面，本发明实施例提供了一种文章生成方法，包括：

从目标视频中获取视频图像集；

识别与目标视频及其视频图像相关的至少一篇新闻；

结合预先建立的知识图谱信息库中的视频知识信息和所述至少一篇新闻，生成与每张视频图像相关的摘要信息，并依据所述摘要信息和视频图像集生成与所述目标视频相关的文章。

第二方面，本发明实施例还提供了一种文章生成装置，包括：

图像获取模块，用于从目标视频中获取视频图像集；

新闻获取模块，用于识别与目标视频及其视频图像相关的至少一篇新闻；

文章生成模块，用结合预先建立的知识图谱信息库中的视频知识信息和所述至少一篇新闻，生成与每张视频图像相关的摘要信息，并依据所述摘要信息和视频图像集生成与所述目标视频相关的文章。

第三方面，本发明实施例还提供了一种服务器，所述服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所述的一种文章生成方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如本发明任意实施例所述的一种文章生成方法。

本发明实施例通过从目标视频中获取视频图像集；识别与目标视频及其视频图像相关的至少一篇新闻；结合预先建立的知识图谱信息库中的视频知识信息和所述至少一篇新闻，生成与每张视频图像相关的摘要信息，并依据所述摘要信息和视频图像集生成与所述目标视频相关的文章，实现快速且高效地生成与视频相关的文章。同时，文章的素材是结合视频图像从新闻和知识图谱信息库中获取，因此，文章内容优质且丰富，可以满足用户对高品质热门视频文章的诉求，提升相关产品的商业价值。

附图说明

图1是本发明实施例一中的一种文章生成方法的流程图；

图2是本发明实施例二中的一种文章生成方法的流程图；

图3本发明实施例二中的文章生成方法中识别新闻的方法流程图；

图4是本发明实施例三中的一种文章生成装置的结构示意图；

图5是本发明实施例四中的一种服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种文章生成方法的流程图，本实施例可适用于文章的生成情况，该方法可以由文章生成装置来执行，该装置可以采用硬件和/或软件实现，并可配置在服务器中，该方法具体包括：

S110、从目标视频中获取视频图像集。

目标视频可以是与即将要制作或生成的文章相关的视频，可以包括短视频、微电影、电视剧和电影等，视频图像集可以是从目标视频中提取出的视频图像构成。如果是要制作剧照文章，则目标视频即可以是与即将要制作或生成的剧照文章相关的影视剧。示例性的，要针对电影B制作剧照文章，则电影B即为目标视频(目标影视剧)。在制作影视剧文章时，需要先选出与目标影视剧相关的视频图像，具体可以直接从影视剧库中识别，如可以通过影视剧的视频中解析相应的剧照。影视剧库可以是已有的视频资源库，其收录了大量的影视剧的相关信息，比如包括电视剧或电影的名称，拍摄时间，相关剧照和清晰度等。视频图像集可以是针对目标影视剧的一个或多个相关剧照形成的候选集。在此，还可以从其他已有的信息知识数据库中获取视频图像集，比如百科数据库，本实施例对视频图像集的来源方不做限定。

S120、识别与目标视频及其视频图像相关的至少一篇新闻。

视频图像可以是视频图像集中的一张或多张与视频相关的图像。在制作相关图集文章时除了图像还需要其他描述信息，例如，在制作剧照文章的素材除了剧照还需要与之相关的文字表达或描述的信息。

在本实施例中，可以从新闻库中识别出与诸如影视剧等视频图像相关的至少一篇新闻，利用新闻来生成与视频中图像相关的文本。其中，新闻库包括大量的新闻信息，于是，便可以从新闻库中选出的一篇或多篇与视频及其视频图像相关的新闻。以视频为影视剧为例，如电视剧C的视频图像集中包括5张剧照，并选择这5张剧照作为视频图像，进一步的，可以从新闻库中识别出与电视剧C以及这5张剧照相关的新闻信息。当然，识别新闻的规则可以是预先建立的识别规则或策略，示例性的，可以是识别与视频图像中的人物角色或扮演角色有关的新闻信息；也可以是利用经过相应的样本数据训练完成的识别模型进行识别相关新闻。在此，新闻还可以从其他已有的信息知识数据库中获取，本实施例对相关新闻的来源不做限定。

S130、结合预先建立的知识图谱信息库中的视频知识信息和所述至少一篇新闻，生成与每张视频图像相关的摘要信息，并依据所述摘要信息和视频图像集生成与所述目标视频相关的文章。

其中，预先建立的知识图谱信息库可以是预先建立的包括更全面的视频相关信息的数据库，可以包括视频相关的知识信息，知识信息可以是视频的制作信息和内容信息等。例如，影视剧、微电影等视频的知识信息可以至少包括剧名、剧情、演员、角色、播出时间和制作时间等。摘要信息可以是针对视频信息的概括或主要信息。进一步可以依据视频图像并对应摘要信息组合构成与该视频相关的文章。示例性的，可以是每一张视频图像下面对应添加对应的摘要信息，最终形成图集文章。

以影视剧的剧照文章的生成为例，可以利用影视剧的知识信息和至少一篇新闻，生成与剧照相关的摘要信息，摘要信息可以是从影视剧的知识信息以及新闻中提取或分析出的与剧照相关的信息，比如剧照的描述介绍信息。当然，可以利用多篇新闻生成对应剧照的摘要信息。然后利用每张剧照以及对应的摘要信息生成影视剧的剧照文章。

可选的，在从目标视频中获取视频图像集之前，所述方法还包括：

从视频资源库中挖掘出热门视频，将该热门视频作为所述目标视频。

热门视频可以是指一定时间、一定范围内，公众或网友最为关注的视频。例如，电视剧A的收视率较同一时期的其他电视剧高，或者电视剧A的话题讨论量非常大，则电视剧A可以视为热门电视剧，相应的，可以将电视剧A作为目标影视剧。将热门视频作为视频相关的文章更能符合大众的阅读需求，也更能吸引观众的眼球。

可选的，所述从视频资源库中挖掘出热门视频，包括：

获取所述视频资源库中对各视频的描述信息，其中，所述描述信息用于从不同维度对视频进行介绍；

根据所述描述信息从互联网上抓取各视频的选择特征，其中，所述选择特征用于从不同角度评价视频热度；

将所述选择特征通过加权求和的方法确定各视频的热度总分，根据热度总分挖掘出热门视频。

具体的，描述信息可以是用于描述或说明视频的具体信息，其中，所述描述信息至少包括名称、拍摄时间和清晰度。例如，对于挖掘热门视频的描述信息还可以包括：各视频的人物角色以及相应的饰演者。根据这些描述信息从互联网或其他数据库中抓取各视频的选择特征，可以利用预设的抓取模型或现有的抓取工具和软件等进行选择特征的抓取。

选择特征用于从不同角度评价视频热度，例如，可以至少包括影视剧热度、演员热度和播放热度等维度。示例性的，如果影视剧是根据小说改编的，还可以将对应小说的阅读热度作为选择特征。利用对不同选择特征加权求和的方法确定各视频的热度总分，其中不同特征的权重值可以是预先根据业务需求或视频的不同类型和需求设置的。比如，对于一些偶像电视剧可以设置演员热度对应的权重值大一些。最终根据各视频的热度总分确定热门视频，如热度总分越高的视频的热度越高，便可以视为热门视频。

本发明实施例的技术方案，结合选出的视频图像和相关新闻，进一步，结合视频知识信息和新闻生成视频图像的摘要信息，利用视频图像和对应的摘要信息最终生成文章，实现了快速且高效地生成与视频相关的文章。同时，文章的素材是从新闻和知识图谱信息库中获取，因此，内容优质且丰富，可以满足用户对高品质热门视频的图集文章的诉求，提升相关产品的商业价值。

实施例二

图2是本发明实施例二提供的一种文章生成方法的流程图，在上述实施例的基础上进一步进行优化，如图2所示，该方法具体包括：

S210、对目标视频的视频源进行解析，从解析得到的全部视频帧图像中以秒为单位随机获取预设数量的视频帧图像，得到目标视频的多张候选视频帧图像。

为了得到视频图像，可以通过对目标视频的视频源进行解析，得到全部视频帧图像，然后按照一定的规则从中选出多张候选视频帧图像。例如，对于每秒具有24帧视频图像的视频，按照每秒随机抽取3张的方式获取视频源中的多张图像，从而得到预设数量的视频帧图像。

S220、获取每张候选视频帧图像中的识别特征，利用预先训练得到的高质图像识别模型并结合所述识别特征，对所述多张候选视频帧图像进行筛选，得到视频图像候选集，其中，所述识别特征包括用于衡量视频帧图像质量的至少一个特征。

在获取到多张视频帧图像后，需要对这些图像进行品质识别或过滤。具体可以通过预先训练得到的高质剧照识别模型对图像进行识别，对于剧照文章而言，需要识别出哪些是可以使用的高品质剧照。该高质剧照识别模型可以是基于深度学习RESNET(resent)的图像分类算法，同时结合剧照的先验知识，例如比如是否包含演员、演员个数、演员是否闭眼、图片是否模糊等识别特征作为样本数据，对剧照进行二分类学习得到的。另外，关于剧照的先验知识，可以由其他第三方服务进行识别并提供。

在进行高品质剧照识别时，可以将不同剧照以及对应的先验知识输入到该识别模型，得到每张剧照的品质值，当品质值高于预设阈值，则可以认为该剧照为高品质剧照，可以为剧照文章所使用。

S230、对所述视频图像候选集中的视频帧图像按照图像相似度进行去重，得到所述视频图像集。

由于过滤后的高品质图像可能会存在重复或相似，这会降低读者的阅读体验。因此，可以再对筛选后的剧照进行去重操作。示例性的，可以采用SITF算法进行相似图像的过滤。

S240、从互联网上抓取与目标影视剧相关的属性信息，其中，所述属性信息至少包括视频名称、导演名、演员名、演员扮演的角色和剧情。

属性信息可以是用于描述影视剧的相关信息，尤其是针对影视剧本身更加详细具体的信息，除了包括视频名称、导演名、演员名、演员扮演的角色和剧情，还可以包括其他相关信息，比如如果是正剧，还可以包括剧情对应的历史背景等介绍信息。具体例如，可以利用现有的抓取工具或软件从互联网上进行抓取与目标影视剧的相关属性信息。

S250、结合所述视频图像中涉及的演员名，依据所述属性信息与新闻库中的新闻进行比对，并在比对的过程中，按照属性信息类型的命中数、全部类型的属性信息的命中频次和新闻字数阈值，对与目标视频及其视频图像相关的新闻进行识别。

在识别与目标视频以及视频图像相关的新闻的过程中，可以先根据视频图像中涉及的演员名，以及获取到的目标视频的属性信息，通过不同的维度或特征与新闻库中的新闻进行比对，比如对比在剧名、演员、角色等特征的情况。具体可以选择剧名命中数、演员命中数、角色命中数、命中频次、新闻字数、标题中是否包含影视剧名称信息、标题中是否包含演员名称等特征作为过滤条件。其中，命中数可以是这些特征中一共命中的特征个数，命中频次可以是这些特征在新闻中一共出现的次数。

示例性的，图3是本发明实施例提供的识别新闻的方法流程图，如图3所示，首先可以从新闻库中过滤掉一些低质量的新闻，例如新闻内容不完整或内容不健康等低质新闻，然后针对上述特征在新闻中进行统计，若经统计得到在上述各特征中，命中数大于3且命中频次大于5，且新闻字数少于300，则可以认为该新闻符合要求，可以作为最终的新闻。当然，可以预先设置具体的识别新闻的规则，也可以是利用预先训练好的新闻识别模型进行识别，能够从海量的新闻数据中筛选与影视剧相关的新闻信息。

S260、从所述视频图像集中随机选取预设数量的视频图像，生成视频图集。

由于视频图像集中包括一张或多张的图像，因此可以从中随机选择一定数量的图像。例如，针对剧照文章的制作，可以根据预先设定好的剧照数量或剧照文章模板，需要5张剧照，则可以从视频图像集中随机选择5张作为剧照图集，以便后续剧照文章生成时使用。

S270、根据所述图像图集中的每张图像的识别特征和与目标视频相关的属性信息，从所述知识图谱信息库中获取与所述识别特征和属性信息相关的视频知识信息。

知识图谱信息库可以预先创建，其中记载有大量的有用信息。在本实施例中，需要结合视频图像生成图文结合的文章，因此，可以从知识图谱信息库中获取与视频图像的识别特征和目标视频的属性信息相关视频知识信息，以用于图集文章的配文。而知识图谱信息库中的信息普遍具有一定的正确度，而且覆盖较为全面，因此，利用知识图谱信息库中的信息构建图集文章，可以增加文章的准确度，增加文章可读性。例如，针对单明星剧照，可以从知识图谱信息库中获取该明星的相关知识信息，以及该明星的有关当前目标影视剧的相关知识信息。

S280、根据所述视频图集中的每张图像的识别特征和与目标视频相关的属性信息，并结合所述视频知识信息，从所述至少一篇新闻中生成与视频图集中的每张图像相关的摘要信息。

摘要信息是作为图集文章中与图像的配文所用，可以从已经识别到的新闻中提取，进一步的，还可以设置新闻数量为不多于3篇，即从1-2篇新闻中进行提取，以便最终生成的摘要信息具有良好的一致性，增加易读性。针对剧照文章而言，提取时需要根据每张剧照的识别特征生成与之相关的摘要信息，例如与剧照中的演员以及当前的目标影视剧相关的摘要信息。此外，还可以结合从知识图谱信息库中获取到的影视剧知识信息，以作为对新闻的文字补充。而至于从已知文本中提取摘要的方法，在本发明实施例中，可以采用现有技术中的任一种抽取式或生成式摘要生成算法，因此这里不再赘述。

S290、将视频图集中的每张图像与对应的摘要信息进行组合，得到与目标视频相关的文章。

示例性的，如果从视频图像集中随机选择8-10张高质图片作为剧照图集候选，然后使用与每张剧照对应的摘要作为图集介绍，组合得到最终的剧照文章。当然，如果摘要信息数据量不足，还可以将百科的影视剧情介绍或演员介绍作为图集介绍的补充。

本发明实施例通过利用预设知识图谱信息库，同时利用先进的深度学习技术，从大量的、杂乱的视频数据中获取优质的影视剧照、同时利用天然的新闻资讯优势为剧照生成用于描述、评论剧照以及影视剧的摘要信息，最终将剧照和摘要信息组合成视频的图集文章，不仅可以自动化生成，而且实现快速、高效且内容丰富，能够满足用户对高品质热门视频的图集文章的诉求，提升相关产品的商业价值。

实施例三

图4为本发明实施例三提供的一种文章生成装置的结构示意图，如图4所示，所述装置包括：

图像获取模块410，用于从目标视频中获取视频图像集。新闻获取模块420，用于识别与目标视频及其视频图像相关的至少一篇新闻。

文章生成模块430，用于结合预先建立的知识图谱信息库中的视频知识信息和所述至少一篇新闻，生成与每张视频图像相关的摘要信息，并依据所述摘要信息和视频图像集生成与所述目标视频相关的文章。

可选的，所述装置还包括：

目标视频挖掘模块，用于在图像获取模块410从目标视频中获取视频图像集之前，从视频资源库中挖掘出热门视频，将该热门视频作为所述目标视频。

可选的，所述目标视频挖掘模块包括：

描述信息获取单元，用于获取所述视频资源库中对各视频的描述信息，其中，所述描述信息用于从不同维度对视频进行介绍；

选择特征抓取单元，用于根据所述描述信息从互联网上抓取各视频的选择特征，其中，所述选择特征用于从不同角度评价视频热度；

热度总分计算单元，用于将将所述选择特征通过加权求和的方法确定各视频的热度总分，根据热度总分挖掘出热门视频。

可选的，所述图像获取模块410包括：

视频源解析单元，用于对目标视频的视频源进行解析，从解析得到的全部视频帧图像中以秒为单位随机获取预设数量的视频帧图像，得到目标视频的多张候选视频帧图像；

获视频候选集筛选单元，用于获取每张候选视频帧图像中的识别特征，利用预先训练得到的高质图像识别模型并结合所述识别特征，对所述多张候选视频帧图像进行筛选，得到视频图像候选集，其中，所述识别特征包括用于衡量视频帧图像质量的至少一个特征；

去重单元，用于对所述视频图像候选集中的视频帧图像按照图像相似度进行去重，得到所述视频图像集。

可选的，所述新闻获取模块420包括：

属性信息抓取单元，用于从互联网上抓取与目标视频相关的属性信息，其中，所述属性信息至少包括影视剧名称、导演名、演员名、演员扮演的角色和剧情；

新闻识别单元，用于结合所述视频图像中涉及的演员名，依据所述属性信息与新闻库中的新闻进行比对，并在比对的过程中，按照属性信息类型的命中数、全部类型的属性信息的命中频次和新闻字数阈值，对与目标视频及其视频图像相关的新闻进行识别。

可选的，所述文章生成模块430包括：

视频图集选取单元，用于从所述视频图像集中随机选取预设数量的视频图像，生成视频图集；

知识信息获取单元，用于根据所述视频图集中的每张图像的识别特征和与目标视频相关的属性信息，从所述知识图谱信息库中获取与所述识别特征和属性信息相关的视频知识信息；

摘要信息生成单元，用于根据所述视频图集中的每张图像的识别特征和与目标视频相关的属性信息，并结合所述视频知识信息，从所述至少一篇新闻中生成与视频图集中的每张图像相关的摘要信息；

文章组合单元，用于将视频图集中的每张图像与对应的摘要信息进行组合，得到与目标视频相关的文章。

本发明实施例所提供的文章生成装置，可执行本发明任意实施例所提供的文章生成方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的一种文章生成方法。

实施例四

参见图5，本实施例提供了一种服务器500，其包括：一个或多个处理器520；存储装置510，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器520执行，使得所述一个或多个处理器520实现本发明实施例所提供的一种文章生成方法，包括：

从目标视频中获取视频图像集；

识别与目标视频及其视频图像相关的至少一篇新闻；

当然，本领域技术人员可以理解，处理器520还可以实现本发明任意实施例所提供的一种文章生成方法的技术方案。

图5显示的服务器500仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，服务器500以通用计算设备的形式表现。服务器500的组件可以包括但不限于：一个或者多个处理器520，存储装置510，连接不同系统组件(包括存储装置510和处理器520)的总线550。

总线550表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

服务器500典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器500访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置510可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)511和/或高速缓存存储器512。服务器500可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统513可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线550相连。存储装置510可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块515的程序/实用工具514，可以存储在例如存储装置510中，这样的程序模块515包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块515通常执行本发明所描述的任意实施例中的功能和/或方法。

服务器500也可以与一个或多个外部设备560(例如键盘、指向设备、显示器570等)通信，还可与一个或者多个使得用户能与该服务器500交互的设备通信，和/或与使得该服务器500能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口530进行。并且，服务器500还可以通过网络适配器540与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图5所示，网络适配器540通过总线550与服务器500的其它模块通信。应当明白，尽管图中未示出，可以结合服务器500使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器520通过运行存储在存储装置510中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种文章生成方法。

实施例五

本发明实施例五提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种文章生成方法，该方法包括：

从目标视频中获取视频图像集；

识别与目标视频及其视频图像相关的至少一篇新闻；

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的一种文章生成方法中的相关操作。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种文章生成方法，其特征在于，所述方法包括：

从目标视频中获取视频图像集；

识别与目标视频及其视频图像相关的至少一篇新闻；

结合预先建立的知识图谱信息库中的视频知识信息和所述至少一篇新闻，生成与每张视频图像相关的摘要信息，依据所述视频图像并对应摘要信息组合构成与所述目标视频相关的文章。

2.根据权利要求1所述的方法，其特征在于，在从目标视频中获取视频图像集之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述从视频资源库中挖掘出热门视频，包括：

4.根据权利要求1所述的方法，其特征在于，所述从目标视频中获取视频图像集，包括：

对目标视频的视频源进行解析，从解析得到的全部视频帧图像中以秒为单位随机获取预设数量的视频帧图像，得到目标视频的多张候选视频帧图像；

获取每张候选视频帧图像中的识别特征，利用预先训练得到的高质图像识别模型并结合所述识别特征，对所述多张候选视频帧图像进行筛选，得到视频图像候选集，其中，所述识别特征包括用于衡量视频帧图像质量的至少一个特征；

对所述视频图像候选集中的视频帧图像按照图像相似度进行去重，得到所述视频图像集。

5.根据权利要求4所述的方法，其特征在于，所述识别与目标视频及其视频图像相关的至少一篇新闻，包括：

从互联网上抓取与目标视频相关的属性信息，其中，所述属性信息至少包括视频名称、导演名、演员名、演员扮演的角色和剧情；

结合所述视频图像中涉及的演员名，依据所述属性信息与新闻库中的新闻进行比对，并在比对的过程中，按照属性信息类型的命中数、全部类型的属性信息的命中频次和新闻字数阈值，对与目标视频及其视频图像相关的新闻进行识别。

6.根据权利要求5所述的方法，其特征在于，结合预先建立的知识图谱信息库中的视频知识信息和所述至少一篇新闻，生成与每张视频图像相关的摘要信息，并依据所述摘要信息和视频图像集生成与所述目标视频相关的文章，包括：

从所述视频图像集中随机选取预设数量的视频图像，生成视频图集；

根据所述视频图集中的每张图像的识别特征和与目标视频相关的属性信息，从所述知识图谱信息库中获取与所述识别特征和属性信息相关的视频知识信息；

根据所述视频图集中的每张图像的识别特征和与目标视频相关的属性信息，并结合所述视频知识信息，从所述至少一篇新闻中生成与视频图集中的每张图像相关的摘要信息；

将视频图集中的每张图像与对应的摘要信息进行组合，得到与目标视频相关的文章。

7.一种文章生成装置，其特征在于，所述装置包括：

图像获取模块，用于从目标视频中获取视频图像集；

文章生成模块，用于结合预先建立的知识图谱信息库中的视频知识信息和所述至少一篇新闻，生成与每张视频图像相关的摘要信息，依据所述视频图像并对应摘要信息组合构成与所述目标视频相关的文章。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

目标视频挖掘模块，用于在图像获取模块从目标视频中获取视频图像集之前，从视频资源库中挖掘出热门视频，将该热门视频作为所述目标视频。

9.根据权利要求8所述的装置，其特征在于，所述目标视频挖掘模块包括：

10.根据权利要求7所述的装置，其特征在于，所述图像获取模块包括：

11.根据权利要求10所述的装置，其特征在于，所述新闻获取模块包括：

12.根据权利要求11所述的装置，其特征在于，所述文章生成模块包括：

13.一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的一种文章生成方法。

14.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-6中任一所述的一种文章生成方法。