CN113947745A

CN113947745A - 一种数据处理方法、装置、计算机设备以及存储介质

Info

Publication number: CN113947745A
Application number: CN202111263054.3A
Authority: CN
Inventors: 张悦; 黄均昕; 董治; 姜涛
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-01-18

Abstract

本申请实施例公开一种数据处理方法、装置、计算机设备以及存储介质，其中方法包括如下步骤：获取目标视频，所述目标视频的多帧视频帧中至少一视频帧包括文本信息；确定所述目标视频中文本信息的位置信息；使用第一采样频率对所述目标视频进行采样得到第一视频帧序列；根据所述位置信息从所述第一视频帧序列中提取文本视频帧片段，得到文本视频帧片段序列；确定所述文本视频帧片段序列中各个文本视频帧片段与其他文本视频帧片段的相似度，根据所述相似度从所述文本视频帧片段序列中获取目标文本视频帧片段；基于所述目标文本视频帧片段获取所述目标视频中的文本信息。采用本申请，可以提高视频中歌词检测的效率和准确性。

Description

一种数据处理方法、装置、计算机设备以及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种数据处理方法、装置、计算机设备以及存储介质。

背景技术

随着移动互联网的发展，用户生成内容(UGC)逐渐成为音视频内容的主要组成部分。在音乐类平台中，需要识别UGC视频中用户所演唱的歌曲ID，从而更好的进行内容分类和推荐。很多UGC内容加入了用户的创作，单纯根据UGC的音频数据无法确定歌曲ID，因此一般通过识别视频中的歌词字幕来定位歌曲ID。

现有的视频字幕定位方案大多将视频转化为图片序列，然后逐帧检测进行字幕文字识别。但是由于视频背景的复杂性，视频场景中某些图像特征信息，容易被误检为文字，造成歌词检测的误差。此外，逐帧检测也需要较长时间进行有效文本的筛选和文本去重，歌词检测效率较低。

发明内容

本申请实施例提供一种数据处理方法、装置、计算机设备以及存储介质，可以提高视频中歌词检测的效率和准确性。

本申请实施例一方面提供了一种数据处理方法，可包括：

获取目标视频，所述目标视频的多帧视频帧中至少一视频帧包括文本信息；

确定所述目标视频中文本信息的位置信息，所述位置信息用于表示所述至少一文本信息在各视频帧中所在位置的相同区域；

使用第一采样频率对所述目标视频进行采样得到第一视频帧序列；

根据所述位置信息从所述第一视频帧序列中提取文本视频帧片段，得到文本视频帧片段序列；

确定所述文本视频帧片段序列中各个文本视频帧片段与其他文本视频帧片段的相似度，根据所述相似度从所述文本视频帧片段序列中获取目标文本视频帧片段；

基于所述目标文本视频帧片段获取所述目标视频中的文本信息。

在一种可行的实施方式中，所述确定所述目标视频中文本信息的位置信息，包括：

采用第二采样频率对所述目标视频进行采样得到所述目标视频的第二视频帧序列；

基于文本检测网络获取所述第二视频帧序列的二值图；

根据所述二值图获取所述目标视频中文本信息的位置信息。

在一种可行的实施方式中，所述根据所述位置信息从所述第一视频帧序列中提取文本视频帧片段，得到文本视频帧片段序列，包括：

从第一视频帧序列的各第一视频帧中提取所述位置信息对应的位置区域，生成各所述第一视频帧的文本视频帧片段；

按照文本视频帧片段的时间顺序，将各个所述第一视频帧的文本视频帧片段排序为文本视频帧片段序列。

在一种可行的实施方式中，所述确定所述文本视频帧片段序列中各个文本视频帧片段与其他文本视频帧片段的相似度，包括：

确定文本视频帧片段序列中除第一个文本视频帧片段外的各个文本视频帧片段与所述文本视频帧片段的前一文本视频帧片段之间的相似度，得到各个所述文本视频帧片段的相似度。

在一种可行的实施方式中，还包括：基于各个所述文本视频帧片段的相似度，获取各个所述文本视频帧片段的相似度变化情况；

所述根据所述相似度从所述文本视频帧片段序列中获取目标文本视频帧片段，包括：

根据各个所述文本视频帧片段的相似度和相似度变化情况，从所述文本视频帧片段序列中获取目标文本视频帧片段。

在一种可行的实施方式中，所述基于各个所述文本视频帧片段的相似度，获取各个所述文本视频帧片段的相似度变化情况，包括：

根据各个所述文本视频帧片段的相似度生成相似度序列；所述相似度序列中的相似度按照各个所述文本视频帧片段的时间顺序排列；

计算所述相似度序列中除第一个相似度外的各个相似度与所述相似度的前一相似度之间的相似度变化值，其中所述相似度变化值用于表示所述文本视频帧片段的相似度变化情况。

在一种可行的实施方式中，所述根据各个所述文本视频帧片段的相似度和相似度变化情况，从所述文本视频帧片段序列中获取目标文本视频帧片段，包括：

若所述文本视频帧片段序列中的文本视频帧片段的相似度大于第一阈值且相似度变化值大于第二阈值，则将所述文本视频帧片段确定为目标文本视频帧片段。

在一种可行的实施方式中，所述基于所述目标文本视频帧片段获取所述目标视频中的文本信息，包括：

若所述目标文本视频帧片段的数量为一个，则采用文本识别方法提取所述目标文本视频帧片段中的文本信息，将所述目标文本视频帧片段中的文本信息确定为所述目标视频中的文本信息；

若所述目标文本视频帧片段的数量大于一个，则将至少两个所述目标文本视频帧片段进行拼接生成拼接图片，采用文本识别方法提取所述拼接图片中的文本信息，将所述拼接图片中的文本信息确定为所述目标视频中的文本信息。

本申请实施例一方面提供了一种数据处理装置，可包括：

视频获取单元，用于获取目标视频，所述目标视频的多帧视频帧中至少一视频帧包括文本信息；

位置信息确定单元，用于确定所述目标视频中文本信息的位置信息，所述位置信息用于表示所述至少一文本信息在各视频帧中所在位置的相同区域；

第一视频帧获取单元，用于使用第一采样频率对所述目标视频进行采样得到第一视频帧序列；

序列生成单元，用于根据所述位置信息从所述第一视频帧序列中提取文本视频帧片段，得到文本视频帧片段序列；

目标片段获取单元，用于确定所述文本视频帧片段序列中各个文本视频帧片段与其他文本视频帧片段的相似度，根据所述相似度从所述文本视频帧片段序列中获取目标文本视频帧片段；

文本信息获取单元，用于基于所述目标文本视频帧片段获取所述目标视频中的文本信息。

在一种可行的实施方式中，所述位置信息确定单元具体用于：

基于文本检测网络获取所述第二视频帧序列的二值图；

根据所述二值图获取所述目标视频中文本信息的位置信息。

在一种可行的实施方式中，所述序列生成单元具体用于：

在一种可行的实施方式中，所述目标片段获取单元，具体用于：

在一种可行的实施方式中，还包括：

变化情况获取单元，用于基于各个所述文本视频帧片段的相似度，获取各个所述文本视频帧片段的相似度变化情况。

在一种可行的实施方式中，所述变化情况获取单元，具体用于：

在一种可行的实施方式中，所述文本信息获取单元具体用于：

本申请实施例一方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序适于由处理器加载并执行上述的方法步骤。

本申请实施例一方面提供了一种计算机设备，包括：处理器、存储器以及网络接口；所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供网络通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码执行上述的方法步骤。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的方法步骤。

在本申请实施例中，通过获取目标视频，目标视频的多帧视频帧中至少一视频帧包括文本信息，进一步确定所述目标视频中文本信息的位置信息，使用第一采样频率对所述目标视频进行采样得到第一视频帧序列，进而根据所述位置信息从所述第一视频帧序列中提取文本视频帧片段，得到文本视频帧片段序列，进一步的，确定所述文本视频帧片段序列中各个文本视频帧片段与其他文本视频帧片段的相似度，根据所述相似度从所述文本视频帧片段序列中获取目标文本视频帧片段，最后基于所述目标文本视频帧片段获取所述目标视频中的文本信息。采用上述方法，只需要对位置信息对应区域的特征进行检测，也不需要对目标视频进行逐帧检测，避免了将视频背景中的特征误检为文字，以及文本筛选和文本去重耗时严重的问题，提高了视频中歌词检测的效率和准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据处理的网络架构图；

图2是本申请实施例提供的一种数据处理方法的流程示意图；

图3是本申请实施例提供的一种确定位置信息的举例示意图；

图4是本申请实施例提供的一种数据处理方法的流程示意图；

图5a是本申请实施例提供的一种文本视频帧片段序列的举例示意图；

图5b是本申请实施例提供的一种相似度的举例示意图；

图5c是本申请实施例提供的一种拼接图片的举例示意图；

图6是本申请实施例提供的一种提取歌词字幕的举例示意图；

图7是本申请实施例提供的一种数据处理装置的结构示意图；

图8是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参见图1，图1是本申请实施例提供的数据处理的网络架构图。该网络架构图可以包括业务服务器100以及用户终端集群，该用户终端集群可以包括用户终端10a、用户终端10b、…、用户终端10c，其中，用户终端集群之间可以存在通信连接，例如用户终端10a与用户终端10b之间存在通信连接，用户终端10b与用户终端10c之间存在通信连接，且用户终端集群中的任一用户终端可以与业务服务器100存在通信连接，例如用户终端10a与业务服务器100之间存在通信连接，用户终端10b与业务服务器100之间存在通信连接。

其中，上述用户终端集群(也包括上述的用户终端10a、用户终端10b以及用户终端10c)均可以集成安装有目标应用。可选的，该目标应用可以包括具有展示文字、图像以及视频等数据信息功能的应用。在一种可行的实施方式中，用户终端通过获取目标视频，目标视频的多帧视频帧中至少一视频帧包括文本信息，进一步用户终端确定所述目标视频中文本信息的位置信息，使用第一采样频率对所述目标视频进行采样得到第一视频帧序列，进而用户终端根据所述位置信息从所述第一视频帧序列中提取文本视频帧片段，得到文本视频帧片段序列，进一步的，用户终端确定所述文本视频帧片段序列中各个文本视频帧片段与其他文本视频帧片段的相似度，根据所述相似度从所述文本视频帧片段序列中获取目标文本视频帧片段，最后用户终端基于所述目标文本视频帧片段获取所述目标视频中的文本信息。可选的，上述用户终端可以为在上述图1所对应实施例的用户终端集群中所选取的任意一个用户终端，比如，该用户终端可以为上述用户终端10b。

可以理解的是，本申请实施例所提供的方法可以由计算机设备执行，计算机设备包括但不限于终端或服务器，本申请实施例中的业务服务器100可以为计算机设备，用户终端集群中的用户终端也可以为计算机设备，此处不限定。上述业务服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以包括：智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视、智能音箱、台式计算机、智能手表等携带图像识别功能的智能终端，但并不局限于此。其中，用户终端以及业务服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

进一步地，为便于理解，请参见图2，图2是本申请实施例提供的数据处理方法的流程示意图。该方法可以由用户终端(例如，上述图1所示的用户终端)执行，也可以由用户终端和业务服务器(如上述图1所对应实施例中的业务服务器100)共同执行。为便于理解，本实施例以该方法由上述用户终端执行为例进行说明。其中，该数据处理方法至少可以包括以下步骤S101-步骤S106：

S101，获取目标视频。

具体的，用户终端获取目标视频，可以理解的是，所述目标视频的多帧视频帧中至少一视频帧包括文本信息，目标视频可以是存储在用户终端本地的视频，用户终端可以直接从本地获取，目标视频也可以是互联网中各网站平台服务器存储的视频，用户终端可以通过网络进行下载，例如，目标视频可以是音乐平台中歌曲的音乐视频(Music Video，MV)，文本信息为MV中歌曲的歌词字幕。

S102，确定所述目标视频中文本信息的位置信息。

具体的，位置信息是文本信息在目标视频中出现的区域，上述区域的位置坐标即为文本信息的位置信息。需要说明的是，本申请实施例的目标视频包含的文本信息具有一定特点，即文本信息在目标视频的各个视频帧中的位置大致相同，例如音乐视频中的歌词字幕，一般都在各个视频帧的底部位置。因此，本步骤确定的文本信息的位置信息并非每一视频帧中各个文本信息的具体位置，而是表示目标视频的各个视频帧包含的文本信息所在的大致共同位置。

下面以歌曲的MV进行说明，文本信息即为歌曲的歌词字幕，在MV中，歌词字幕通常出现在视频的下方位置固定位置，因此，可以从MV中提取少量的视频帧，根据上述提取的视频帧中歌词字幕的区域确定文本信息的位置信息。具体的，确定位置信息的具体步骤如下：

采用第二采样频率对所述目标视频进行采样，获取所述目标视频的第二视频帧，所述第二采样频率为预先设定的采样频率，由于所需的第二视频帧数量较少，因此，第二采样频率可以设定为较大的值。在一种具体实施方式中，为了提高位置信息的定位准确率，采样的第二视频帧可以为目标视频中的关键图像帧。进一步的，基于文本检测网络，获取所述第二视频帧的二值图，根据所述二值图获取所述目标视频中文本信息的位置信息，所述二值图用于标识第一视频帧中的文本信息，文本检测网络可以采用神经网络，具体可以是VGG16网络架构，下面以VGG16网络架构对二值图的获取进行说明。

请参见图3，图3是本申请实施例提供的一种确定位置信息的举例示意图，具体的，将所述第二视频帧输入VGG16网络，网络输出两个与第二视频帧相同尺寸的概率图，其中一个图代表每个像素点属于文字的概率，另一个图代表每个像素点属于两个文字之间的概率。结合两个概率图，生成与第二视频帧相同尺寸的二值图，其中二值图中白色区域代表该区域识别有文字，根据所述网络获取所有第二视频帧的二值图后，通过帧间综合统计每个像素点被判定为文本信息的次数，为了减少文本信息的误判，通常设定次数阈值判定文本信息，例如，次数阈值可以设定为2，若像素点被判定为文本信息的次数大于次数阈值，则将该像素点确定为文本信息。由于目标视频的背景中可能存在干扰信息，因此，上述文本信息可以有多个区域，可以进一步对上述文本信息进行筛选获取歌词字幕对应的文本信息，例如，通过以下规则筛选得到文本区域：1)面积大于150个像素，2)文本信息处于视频帧的最下方位置。最后获取筛选后的文本信息的位置信息，即完成对文本信息的定位，一般情况下，文本信息对应为矩形区域，位置信息可以采用文本信息对应的矩形区域的左上角的坐标和矩形区域的宽度和高度表示，左上角坐标的横坐标、纵坐标，矩形区域的宽度、高度，分别用字母x，y，w，h表示，即矩形区域为(x，y，w，h)。

S103，使用第一采样频率对所述目标视频进行采样得到第一视频帧序列。

具体的，用户终端使用第一采样频率对所述目标视频进行采样得到第一视频帧序列。可以理解的是，第一采样频率是预先设定的采样频率，例如，第一采样频率可以设定为1hz，即对目标视频每秒抽取一帧I_n，其中下标n表示第n秒的采样帧，I_n为第一视频帧。需要说明的是，通过第一采样频率获取数量较多的第一视频帧，第一采样频率比上述第二采样频率大。

S104，根据所述位置信息从所述第一视频帧序列中提取文本视频帧片段，得到文本视频帧片段序列；

具体的，用户终端根据所述位置信息从所述第一视频帧序列中提取文本视频帧片段，得到文本视频帧片段序列，所述位置区域为文本信息所在的区域，例如，文本信息为歌词字幕，则位置区域是歌词字幕对应的矩形区域。进一步的，将所述目标视频对应的每个第一视频帧的文本视频帧片段确定为文本视频帧片段序列，所述文本视频帧片段序列中的文本视频帧片段按照文本视频帧片段的时间顺序排列，例如，对长度为1分钟的目标视频每秒采样一帧，则在t＝1s，2s，3s...60s的时刻进行采样，生成60个第一视频帧，进一步生成60个文本视频帧片段，则文本视频帧片段序列中的第一个文本视频帧片段为目标视频中t＝1s时刻对应的文本视频帧片段，第二个文本视频帧片段为目标视频中t＝2s时刻对应的文本视频帧片段，最后一个文本视频帧片段为目标视频中t＝60s时刻对应的文本视频帧片段。

需要说明的是，为了提高鲁棒性，避免文本信息边缘区域的文字被截断，可以将文本信息对应的矩形区域的上下左右分别增加了10％长度的边缘，例如，若矩形区域为(x，y，w，h)，经过调整后，矩形区域的左上顶点坐标为(x-0.1*w，y-0.1*h)，右下顶点坐标为(x+1.1*w，y+1.1*h)，矩形区域的宽度为1.2*w，长度为1.2*h。

S105，确定所述文本视频帧片段序列中各个文本视频帧片段与其他文本视频帧片段的相似度，根据所述相似度从所述文本视频帧片段序列中获取目标文本视频帧片段。

具体的，用户终端基于所述文本视频帧片段序列，获取文本视频帧片段对应的相似度，所述相似度用于衡量两个文本视频帧片段中文本信息之间的相似程度，所述相似度是文本视频帧片段序列中文本视频帧片段与其前一个文本视频帧片段的相似度，具体的，可以采用Dice系数作为相似度，当两个文本视频帧片段中文本信息完全一样时，则Dice系数为1，当两个文本视频帧片段中文本信息完全不一样时，则Dice系数为0，进一步的，根据所述相似度从所述文本视频帧片段序列中删除重复的文本视频帧片段，以获取目标文本视频帧片段。

S106，基于所述目标文本视频帧片段获取所述目标视频中的文本信息。

具体的，用户终端基于所述目标文本视频帧片段获取所述目标视频中的文本信息，可以理解的是，从文本视频帧片段序列中获取的目标文本视频帧片段可以是一个，也可以是多个，若所述目标文本视频帧片段的数量为一个，则采用文本识别方法提取所述目标文本视频帧片段中的文本信息，将所述目标文本视频帧片段中的文本信息确定为所述目标视频中的文本信息，若所述目标文本视频帧片段的数量大于一个，则将所述至少两个目标文本视频帧片段进行拼接生成拼接图片，采用文本识别方法提取所述拼接图片中的文本信息，将所述拼接图片中的文本信息确定为所述目标视频中的文本信息，文本识别方法具体可以是OCR。

请参见图4，图4是本申请实施例提供的数据处理方法的流程示意图。该方法可以由用户终端(例如，上述图1所示的用户终端)执行，也可以由用户终端和业务服务器(如上述图1所对应实施例中的业务服务器100)共同执行。为便于理解，本实施例以该方法由上述用户终端执行为例进行说明。其中，该数据处理方法至少可以包括以下步骤S201-步骤S208：

S201，获取目标视频。

其中，本发明实施例的步骤S201参见图2所示实施例的步骤S101的具体描述，在此不进行赘述。

S202，确定所述目标视频中文本信息的位置信息。

其中，本发明实施例的步骤S202参见图2所示实施例的步骤S102的具体描述，在此不进行赘述。

S203，使用第一采样频率对所述目标视频进行采样得到第一视频帧序列。

其中，本发明实施例的步骤S203参见图2所示实施例的步骤S103的具体描述，在此不进行赘述。

S204，根据所述位置信息从所述第一视频帧序列中提取文本视频帧片段，得到文本视频帧片段序列。

其中，本发明实施例的步骤S204参见图2所示实施例的步骤S104的具体描述，在此不进行赘述。

S205，确定文本视频帧片段序列中除第一个文本视频帧片段外的各个文本视频帧片段与所述文本视频帧片段的前一文本视频帧片段之间的相似度，得到各个所述文本视频帧片段的相似度；

具体的，用户终端获取文本视频帧片段序列中的文本视频帧片段，所述文本视频帧片段为文本视频帧片段序列中除第一个文本视频帧片段外的任意一个文本视频帧片段，计算所述文本视频帧片段的前一个文本视频帧片段与所述文本视频帧片段之间的相似度，将所述相似度确定为文本视频帧片段对应的相似度。

下面结合图5a-图5b对相似度的获取进行说明，其中，相似度采用Dice系数。图5a是本申请实施例提供的一种文本视频帧片段序列的举例示意图，图5b是本申请实施例提供的一种相似度的举例示意图。请参见图5a，图中包括15个按照时间顺序排列的文本视频帧片段，分别编号为1-15，每个文本视频帧片段中包括文本信息，文本信息为MV中的歌词字幕。为了提高相似度的准确性，一般会使用边缘检测算法得到文本视频帧片段的边缘图，进一步使用形态学的膨胀操作将边缘图的单像素边缘变粗，请参见图5b，图中是进行边缘检测和形态学的膨胀操作后的文本视频帧片段，在计算文本视频帧片段的Dice系数时，只需要关注文本视频帧片段中的白色的字幕区域，而不需关注黑色的背景区域，具体的，从编号2-15的文本视频帧片段中分别选择每一个文本视频帧片段，计算该文本视频帧片段的前一个文本视频帧片段与该文本视频帧片段之间的Dice系数，将该Dice系数确定为该文本视频帧片段对应的Dice系数，如图中所示，编号2-15的文本视频帧片段对应的Dice系数“0.49，0.61，...1.00”。

S206，基于各个所述文本视频帧片段的相似度，获取各个所述文本视频帧片段的相似度变化情况。

具体的，用户终端根据文本视频帧片段对应的相似度生成相似度序列，所述相似度序列中的相似度按照文本视频帧片段的时间顺序排列，请参见图5b，采用Dice系数对相似度序列进行说明，编号2-15的文本视频帧片段对应的Dice系数“0.49，0.61，...1.00”即为文本视频帧片段对应的相似度序列。进一步的，获取所述相似度序列中的相似度，计算所述相似度的前一个相似度与所述相似度之间的相似度变化情况，将所述相似度变化情况确定为文本视频帧片段对应的相似度变化情况，所述相似度变化情况具体可以为相似度与所述相似度的前一个相似度之间的差值，所述相似度为相似度序列中除第一个相似度外的任意一个相似度。如图5b所示，从编号3-15的文本视频帧片段对应的相似度中分别选择每一个相似度，计算该相似度与该相似度的前一个相似度之间的差值，将所述差值确定为该文本视频帧片段对应的相似度变化值，如图中所示，编号3-15的文本视频帧片段对应的相似度变化值为“0.11，0.11，...0.84”。

S207，根据各个所述文本视频帧片段的相似度和相似度变化情况，从所述文本视频帧片段序列中获取目标文本视频帧片段。

具体的，用户终端从所述文本视频帧片段序列中获取文本视频帧片段，所述文本视频帧片段为文本视频帧片段序列中除第一个文本视频帧片段和第二个文本视频帧片段外的任意一个文本视频帧片段；若所述文本视频帧片段的相似度大于第一阈值，且所述文本视频帧片段的相似度变化值大于第二阈值，则将所述文本视频帧片段确定为目标文本视频帧片段，所述第一阈值和第二阈值为预先设定，具体的，可以将第一阈值设定为0.8，第二阈值设定为0.1，即相似度大于0.8且相似度变化值大于0.1的文本视频帧片段为目标文本视频帧片段。请参见图5b，文本视频帧片段序列对应的相似度为“0.49，0.61，...1.00”，相似度变化值为“0.11，0.11，...0.84”，满足第一阈值和第二阈值条件的文本视频帧片段为编号为5、7、13和15，即编号为5、7、13和15的文本视频帧片段为目标文本视频帧片段。

S208，基于所述目标文本视频帧片段获取所述目标视频中的文本信息。

具体的，用户终端基于所述目标文本视频帧片段获取所述目标视频中的文本信息，可以理解的是，从文本视频帧片段序列中获取的目标文本视频帧片段可以是一个，也可以是多个，若所述目标文本视频帧片段的数量为一个，则将采用文本识别方法提取所述目标文本视频帧片段中的文本信息，将所述目标文本视频帧片段中的文本信息确定为所述目标视频中的文本信息，若所述目标文本视频帧片段的数量大于一个，则将所述至少两个目标文本视频帧片段进行拼接生成拼接图片，采用文本识别方法提取所述拼接图片中的文本信息，将所述拼接图片中的文本信息确定为所述目标视频中的文本信息，文本识别方法具体可以是OCR。下面针对多个目标文本视频帧片段的情况进行说明，请参见图5b和5c，图5c是本申请实施例提供的一种拼接图片的举例示意图。基于图5b可知目标文本视频帧片段包括4个，则将上述4个目标文本视频帧片段进行拼接生成拼接图片，如图5c所示，进一步采用文本识别方法提取所述拼接图片中的文本信息，则上述文本信息即为所述目标视频中的文本信息。

下面结合图6对从目标视频中提取歌词字幕进行说明，图6是本申请实施例提供的一种提取歌词字幕的举例示意图。如图6所示，目标视频为歌曲的MV，目标视频中包括歌词字幕，首先从目标视频中采样提取少量视频帧，根据上述视频帧定位目标视频中歌词字幕的位置信息；进一步的对目标视频进行采样，获取目标视频中的第一视频帧，根据位置信息提取第一视频帧中的歌词字幕区域，生成第一视频帧的文本视频帧片段；基于所有的第一视频帧的文本视频帧片段生成目标视频对应的文本视频帧片段序列，进一步的，根据Dice系数计算文本视频帧片段之间的相似度，根据Dice系数对文本视频帧片段序列进行文本去重得到文本视频帧片段序列中的目标文本视频帧片段；最后通过文本识别方法，获取目标文本视频帧片段中的文本信息。

请参见图7，图7是本申请实施例提供的一种数据处理装置的结构示意图。所述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该数据处理装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图7所示，本申请实施例的所述数据处理装置1可以包括：视频获取单元11、位置信息确定单元12、第一视频帧获取单元13、序列生成单元14、目标片段获取单元15、文本信息获取单元16。

视频获取单元11，用于获取目标视频，所述目标视频的多帧视频帧中至少一视频帧包括文本信息；

位置信息确定单元12，用于确定所述目标视频中文本信息的位置信息，所述位置信息用于表示所述至少一文本信息在各视频帧中所在位置的相同区域；

第一视频帧获取单元13，用于使用第一采样频率对所述目标视频进行采样得到第一视频帧序列；

序列生成单元14，用于根据所述位置信息从所述第一视频帧序列中提取文本视频帧片段，得到文本视频帧片段序列；

目标片段获取单元15，用于确定所述文本视频帧片段序列中各个文本视频帧片段与其他文本视频帧片段的相似度，根据所述相似度从所述文本视频帧片段序列中获取目标文本视频帧片段；

文本信息获取单元16，用于基于所述目标文本视频帧片段获取所述目标视频中的文本信息。

在一种可行的实施方式中，所述位置信息确定单元12具体用于：

基于文本检测网络获取所述第二视频帧序列的二值图；

根据所述二值图获取所述目标视频中文本信息的位置信息。

在一种可行的实施方式中，所述序列生成单元14具体用于：

在一种可行的实施方式中，所述目标片段获取单元15，具体用于：

请参见图7，本申请实施例的所述数据处理装置1可以还包括：变化情况获取单元17。

变化情况获取单元17，用于基于各个所述文本视频帧片段的相似度，获取各个所述文本视频帧片段的相似度变化情况。

在一种可行的实施方式中，所述变化情况获取单元17，具体用于：

在一种可行的实施方式中，所述文本信息获取单元16具体用于：

请参见图8，图8是本申请实施例提供的一种计算机设备的结构示意图。如图8所示，所述计算机设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是随机存取存储器(Random Access Memory，RAM)，也可以是非易失性存储器(non-volatile memory，NVM)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图8所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理应用程序。

在图8所示的计算机设备1000中，网络接口1004可提供网络通讯功能，用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的数据处理应用程序，以实现上述图2-图6任一个所对应实施例中对所述数据处理方法的描述，在此不再赘述。

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图2-图6任一个所对应实施例中对所述数据处理方法的描述，也可执行前文图7所对应实施例中对所述数据处理装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且所述计算机可读存储介质中存储有前文提及的数据处理装置所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图2-图6任一个所对应实施例中对所述数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行，分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述计算机可读存储介质可以是前述任一实施例提供的一种数据处理装置或者上述设备的内部存储单元，例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(smart media card,SMC)，安全数字(securedigital,SD)卡，闪存卡(flash card)等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体(read-only memory，ROM)或随机存储记忆体等。进一步地，该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其它程序和数量。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本发明的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

确定所述目标视频中文本信息的位置信息，所述位置信息用于表示至少一文本信息在各视频帧中所在位置的相同区域；

2.根据权利要求1所述的方法，其特征在于，所述确定所述目标视频中文本信息的位置信息，包括：

基于文本检测网络获取所述第二视频帧序列的二值图；

根据所述二值图获取所述目标视频中文本信息的位置信息。

3.根据权利要求1所述的方法，其特征在于，所述根据所述位置信息从所述第一视频帧序列中提取文本视频帧片段，得到文本视频帧片段序列，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定所述文本视频帧片段序列中各个文本视频帧片段与其他文本视频帧片段的相似度，包括：

5.根据权利要求4所述的方法，其特征在于，还包括：基于各个所述文本视频帧片段的相似度，获取各个所述文本视频帧片段的相似度变化情况；

6.根据权利要求5所述的方法，其特征在于，所述基于各个所述文本视频帧片段的相似度，获取各个所述文本视频帧片段的相似度变化情况，包括：

7.根据权利要求5所述的方法，其特征在于，所述根据各个所述文本视频帧片段的相似度和相似度变化情况，从所述文本视频帧片段序列中获取目标文本视频帧片段，包括：

8.根据权利要求1所述的方法，其特征在于，所述基于所述目标文本视频帧片段获取所述目标视频中的文本信息，包括：

9.一种数据处理装置，其特征在于，包括：

位置信息确定单元，用于确定所述目标视频中文本信息的位置信息，所述位置信息用于表示至少一文本信息在各视频帧中所在位置的相同区域；

10.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；

所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供网络通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行权利要求1-8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，该计算机程序适于由处理器加载并执行权利要求1-8任一项所述的方法。