CN113392689A

CN113392689A - 视频文字跟踪方法、视频处理方法、装置、设备及介质

Info

Publication number: CN113392689A
Application number: CN202011565988.8A
Authority: CN
Inventors: 宋浩; 黄珊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-09-14

Abstract

本申请公开了视频文字跟踪方法、视频处理方法、装置、设备及介质，在对视频文字进行跟踪识别时，从第一视频帧中确定到第一文本框后，在与第一视频帧相邻的视频帧中第一文本框对应的位置生成多个粒子，根据各个粒子的位置确定第二文本框，然后确定第一文本框和各个第二文本框的相似度，将相似度最高的第二文本框确定为第三文本框，根据第三文本框与第一文本框确定视频文字的目标跟踪轨迹。该方法通过当前视频帧中文字的位置确定其相邻的视频帧中同段文字可能出现的位置，无需再对相邻的视频帧从一开始进行检测，能够有效减少视频文字跟踪过程中所需要的处理时间，提高视频文字跟踪的速度，节省计算资源。本申请可广泛应用于人工智能技术领域。

Description

视频文字跟踪方法、视频处理方法、装置、设备及介质

技术领域

本申请涉及人工智能技术领域，尤其是一种视频文字跟踪方法、视频处理方法、装置、设备及介质。

背景技术

近年来，人工智能技术飞速发展，在图像分类、人脸识别、自动驾驶等领域取得了良好的应用效果。例如，可以通过人工智能技术对视频内的文字进行轨迹跟踪，以确定出哪几个视频帧中存在连续显示的同一个文本信息，方便用于视频内容的分析、审核等。

相关技术中，一般在对文字进行轨迹跟踪时，需要对每一个视频帧进行检测、匹配。这种实施方式需要花费较长的时间，消耗大量的计算资源，成本较高，难以满足实际的应用需求。综上，现有技术中存在的问题亟需得到解决。

发明内容

本申请的目的在于至少一定程度上解决现有技术中存在的技术问题之一。

为此，本申请实施例的一个目的在于提供一种视频文字跟踪方法、视频处理方法、装置、设备及介质，该视频文字跟踪方法可有效提高视频文字跟踪的处理速度，降低计算资源的消耗。

本申请的一方面提供了一种视频文字跟踪方法，包括以下步骤：

从视频的第一视频帧中确定第一文本框；

在所述视频的第二视频帧中与所述第一文本框对应的位置生成多个粒子；所述第一视频帧和所述第二视频帧相邻；

根据各个所述粒子的位置，在所述第二视频帧中确定多个第二文本框；

确定所述第一文本框与各个所述第二文本框的第一相似度，将所述第一相似度最高的所述第二文本框作为第三文本框；

根据所述第一文本框和所述第三文本框，确定所述视频文字的目标跟踪轨迹；所述目标跟踪轨迹用于表征所述视频文字的位置信息。

本申请的另一方面提供了一种视频处理方法，包括：

获取视频的多个连续视频帧；

通过前面所述的视频文字跟踪方法，得到所述视频中多个视频文字的目标跟踪轨迹；

根据各个所述目标跟踪轨迹，对所述视频帧进行抽取，得到所述视频的关键帧集合。

本申请的另一方面提供了一种视频文字跟踪装置，包括：

第一处理模块，用于从视频的第一视频帧中确定第一文本框；

粒子生成模块，用于在所述视频的第二视频帧中与所述第一文本框对应的位置生成多个粒子；所述第一视频帧和所述第二视频帧相邻；

第二处理模块，用于根据各个所述粒子的位置，在所述第二视频帧中确定多个第二文本框；

相似度确定模块，用于确定所述第一文本框与各个所述第二文本框的第一相似度，将所述第一相似度最高的所述第二文本框作为第三文本框；

轨迹确定模块，用于根据所述第一文本框和所述第三文本框，确定所述视频文字的目标跟踪轨迹；所述目标跟踪轨迹用于表征所述视频文字的位置信息。

本申请的另一方面提供了一种电子设备，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现前面所述的视频文字跟踪方法或者视频处理方法。

本申请的另一方面提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，前面所述处理器可执行的程序在由处理器执行时用于实现前面所述的视频文字跟踪方法或者视频处理方法。

本申请的另一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在前面所述的计算机可读存储介质中；前面所述的电子设备的处理器可以从前面所述的计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行前面所述的视频文字跟踪方法或者视频处理方法。

本申请的优点和有益效果将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到：

本申请实施例中的视频文字跟踪方法，在对视频文字进行跟踪识别时，从第一视频帧中确定到第一文本框后，在与第一视频帧相邻的第二视频帧中第一文本框对应的位置生成多个粒子，根据各个粒子的位置确定第二文本框，然后确定第一文本框和各个第二文本框的相似度，将相似度最高的第二文本框作为第三文本框，根据第三文本框与第一文本框确定视频文字的目标跟踪轨迹。本申请实施例中的视频文字跟踪方法，在对视频文字进行跟踪时，通过当前视频帧中文字的位置确定其相邻的视频帧中相同文字可能出现的位置，无需再对相邻的视频帧从一开始进行检测，能够有效减少视频文字跟踪过程中所需要的处理时间，提高视频文字跟踪的速度，节省计算资源。

附图说明

为了更清楚地说明本申请实施例或者现有技术中的技术方案，下面对本申请实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本申请的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1为本申请实施例提供的一种视频文字跟踪方法的实施环境示意图；

图2为本申请实施例提供的一种视频文字跟踪方法的流程示意图；

图3为本申请实施例提供的视频文字跟踪方法中采用的第一文字跟踪网络一种示意图；

图4为本申请实施例提供的视频文字跟踪方法中采用的第一文字跟踪网络另一种示意图；

图5为本申请实施例提供的视频文字跟踪方法中采用的一种第二文字跟踪网络示意图；

图6为本申请实施例提供的视频文字跟踪方法中粒子生成示意图；

图7为本申请实施例提供的视频文字跟踪方法中采用的一种基于Yolo-v3网络的文字跟踪网络的第一示意图；

图8为本申请实施例提供的视频文字跟踪方法中采用的一种基于Yolo-v3网络的文字跟踪网络的第二示意图；

图9为本申请实施例提供的一种视频处理方法的流程示意图；

图10为本申请实施例提供的一种视频处理方法获取关键帧集合的示意图；

图11为本申请实施例中提供的一种视频文字跟踪装置的结构示意图；

图12为本申请实施例中提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不构成对本申请的具体限制。

下面，首先对本申请涉及的技术领域进行介绍：

人工智能(Artificial Intelligence，AI)：该技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例中提供的视频文字跟踪方法，可以用于视频处理的各类应用场景，举例来说，这些应用场景包括但不限于视频内容分析、视频推广以及视频审核等。具体地，以对视频中的文字内容进行审核为例，可以通过该视频文字跟踪方法，先对视频中的某一个视频帧进行检测，确定其中的文字区域，得到文本框，根据文本框在该视频帧中的位置，在与该视频帧相邻的视频帧(可以是该视频帧之前的一个视频帧，也可以是该视频帧之后的一个视频帧)中对应的位置，确定与该文本框相似度最高的一个文本框作为相邻的视频帧中文字区域的位置，从而确定出视频文字的目标跟踪轨迹。当需要提取视频文字的内容时，可以通过目标跟踪轨迹中的位置信息，从对应的文本框中提取得到。

在对视频文字进行提取或者审核时，由于识别的对象是视频帧中的文字，而视频帧的刷新速度一般是比较快的。所以如果直接检测、提取各个视频帧中的文字信息，会出现大量的冗余数据，不利于后续的分析处理。相关技术中，一般采用轨迹跟踪的方式，即确定出哪几个视频帧中存在连续显示的同一个文本信息，对于这部分重复的文本信息提取或者审核时只进行一次即可。但是这种实施方式，在对视频文字进行跟踪时，需要检测每一帧中视频文字所在的位置，然后通过匹配确定视频文字的目标跟踪轨迹，其需要的处理时间很长，且会耗费大量的计算资源，成本较高，应用的收益不高。

有鉴于此，本申请实施例中，通过在视频的第一视频帧中确定文本框，并通过文本框周围的粒子的位置，在与第一视频帧相邻的第二视频帧中确定文本框可能出现的位置，从而实现视频文字轨迹跟踪的匹配。该视频文字跟踪方法对相邻的视频帧处理时，不需要每次都执行如第一视频帧中检测第一文本框的步骤，即不需要从一开始确定每个视频帧中文本框的位置，一方面，能够有效减少视频文字轨迹跟踪处理过程中需要的时间，节省计算资源，提高处理的速度；另一方面，确定视频文字的目标跟踪轨迹后，当需要对视频的文字内容进行提取或者审核时，对视频文字的目标跟踪轨迹所涵盖的任意一个视频帧处理即可，方便了视频内容的分析与审核。需要说明的是，本申请实施例中的视频可以指由多个连续的画面所构成的一个集合体，视频帧指的是该集合体中的其中一个画面，因此可以理解的是该集合体包括但不限于为多媒体平台上所能够播放的内容，MPEG(Moving PictureExperts Group，动态图像专家组)格式、AVI(Audio Video Interleaved，音频视频交错)格式、nAVI(new AVI)格式、ASF(Advanced Streaming Format)格式、MOV格式(软件QuickTime的影片格式)、WMV(Windows Media Video,Windows媒体视频)格式、3GP(3rd GenerationPartnership Project，第三代合作伙伴项目计划)格式、RM(RealMedia,实体媒体)格式、RMVB(RealMedia Variable Bitrate，RM可变比特率)格式、FLV(FLASHVIDEO)格式、MP4(Moving Picture Experts Group4，动态图像专家组)格式等格式的文件，或者动态图、音乐播放过程中歌词变化的多个画面等等。

图1是本申请实施例提供的视频文字跟踪方法一种可选的应用环境示意图。参照图1，本申请实施例提供的视频文字跟踪方法，可以应用于视频文字跟踪系统100，该视频文字跟踪系统100可以包括终端110和服务器120，终端110和服务器120的具体个数可以任意设置。终端110和服务器120可以通过无线网络或有线网络建立通信连接。该无线网络或有线网络使用标准通信技术和/或协议，网络可以设置为因特网，也可以是其它任何网络，例如包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan AreaNetwork，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。终端110可以基于建立的通信连接，将需要进行文字跟踪的视频发送至服务器120，服务器120通过执行本申请实施例提供的视频文字跟踪方法进行相应处理，得到该视频中视频文字的目标跟踪轨迹，然后将处理结果返回给终端110。

在一些实施例中，上述的终端110可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、鼠标、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如该电子产品可以包括但不限于PC(Personal Computer，个人计算机)、手机、智能手机、PDA(Personal Digital Assistant，个人数字助手)、掌上电脑PPC(Pocket PC)、平板电脑等。服务器120可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等服务的云服务器。

应当理解的是，图1所示出的只是本申请实施例视频文字跟踪方法一种可选的实施环境，实际的应用中并不固定通过图1中的视频文字跟踪系统100来实现，例如在一些实施例中，该视频文字跟踪方法可以由终端110在本地独立实现，例如可以通过安装在终端110上的某些应用程序执行视频文字跟踪方法，该应用程序可以是视频播放软件、网页平台等。类似地，该视频文字跟踪方法也可以由服务器120独立地实现。

参照图2，图2是本申请实施例提供的视频文字跟踪方法一个可选的流程图，该方法可以应用于上述的视频文字跟踪系统100中，图2中的方法包括步骤S201-步骤S205。

步骤S201、从视频的第一视频帧中确定第一文本框。

在本申请实施例中，可以预先通过视频流解码技术将一段视频分为连续的多个视频帧，然后从这些视频帧中任意选取一帧作为第一视频帧。然后确定第一视频帧中的文字区域，根据该文字区域划定出文本框，记为第一文本框。具体地，该第一文本框的大小、形状可以根据视频帧中的文字区域来确定。例如，如果是针对视频中的字幕进行检测，则可以将第一文本框设定为矩形框。可以理解的是，第一文本框主要用于表征第一视频帧中文字的位置信息，此处的视频文字既可以是字幕中的文字，也可以是视频画面中任意位置的文字。本申请实施例中的文本框，包括边界框线以及其中文字的文本内容或者基于文字呈现的画面内容。

具体地，本申请实施例中的步骤S201，可以通过步骤S210实现，或者通过步骤S220-步骤S230实现，其中：

S210、对第一视频帧中的文字区域进行检测，得到第一文本框。

在本申请实施例中，文字区域指的是包含文字的区域，如上述的，该区域可以是第一视频帧画面中的任意一个区域。此处，对文字区域的检测，可以采用人工智能技术中的机器学习模型来完成。对于机器学习模型来说，文字区域的检测任务可以看作一个分割任务，即从完整的一个视频帧画面中分割出包含文字的部分画面，然后可以根据这部分画面的外围形状确定第一文本框。具体地，在一些实施例中，可以预先设定好第一文本框的形状，例如将其设置为矩形，第一文本框可以在满足包括分割出的文字画面的前提下，尽可能地小，例如可以取检测得到第一视频帧中的文字区域的最小外切矩形作为第一文本框。在一些实施例中，可以预先设定好第一文本框的形状和大小，然后以检测得到第一视频帧中的文字区域的中心位置作为该第一文本框的中心从而确定得到第一文本框。此处，应当说明的是，文字区域是一些视频文字聚集的区域，当第一视频帧中多个地方均存在文字时，可以同时在第一视频帧中确定出多个文字区域，每个文字区域均可确定出一个对应的第一文本框。

本申请实施例中，可以事先建立初始跟踪轨迹，例如获取与第一视频帧的相邻视频帧，对第一视频帧中的文字区域进行检测得到一个文本框，对相邻视频帧中的文字区域进行检测得到另一个文本框，确定两个文本框之间的相似度，根据相似度确定两个文本框是否匹配，若匹配则根据两个文本框的位置信息建立初始跟踪轨迹。应当说明的是，本申请实施例中，也可以继续获取与上述相邻视频帧相邻的视频帧，通过上述步骤进行识别并确定文本框之间的相似度，并继续根据相似度确定文本框之间的相似度，确定是否加入到初始跟踪轨迹中，即初始跟踪轨迹可以包括两帧或者两帧以上的视频帧中的文本框的位置信息。本申请实施例中，位置信息包括但不限于文本框的坐标，坐标可以为文本框中心的坐标或者各个顶点的坐标。可选地，本申请实施例中还可以设置一个预设阈值，当检测到连续预设阈值帧数的视频帧中，具有同一个匹配的文本框，即建立初始跟踪轨迹；当检测到连续预设阈值帧数的视频帧中没有同一个匹配的文本框，则不建立初始跟踪轨迹。

步骤S220、从视频中获取与第一视频帧相邻的第三视频帧。

在本申请实施例中，相邻的视频帧指的是时间顺序上相邻的视频帧，例如视频的多个视频帧中具有在时间顺序上连续的视频帧A、视频帧B、视频帧C，那么视频帧A、视频帧C均与视频帧B相邻，可以理解的是，第三视频帧在时间顺序上可以位于第一视频帧之前也可以位于第一视频帧之后，第一视频帧位于第二视频帧和第三视频帧之间。其中，第三视频帧可以为上述初始跟踪轨迹中与第一视频帧相邻的相邻视频帧。

步骤S230、将第一视频帧与第三视频帧相匹配的文本框作为第一文本框。

在本申请实施例中，通过对第一视频帧中的文本框与第三视频帧中的文本框进行匹配，确定第一文本框。此处，对第一视频帧与第三视频帧进行匹配的目的是确定视频文字的初始跟踪轨迹。具体地，步骤S230可以通过以下步骤S240-步骤S280实现。

步骤S240、将第一视频帧和第三视频帧输入到第一文字跟踪网络；第一文字跟踪网络包括第一检测分支网络和第二检测分支网络。

如图3所示，以第一视频帧101，第三视频帧102为例进行说明，第一视频帧101与第三视频帧102中均具有文字区域，文字区域内具有文字“XXXXX”，将第一视频帧101与第三视频帧102输入第一文字跟踪网络310。本申请实施例中，第一文字跟踪网络310可以预先进行训练，第一检测分支网络与第二检测分支网络用于对文本框进行检测并输出检测结果。本申请实施例中，第一检测分支网络与第二检测分支网络的结构可以相同，并且可以共享权重。具体地，本申请实施例中，检测分支网络为能够进行文字检测的网络，可以是但不限于Yolo网络(You Only Look Once)、CNN(Convolutional Neural Networks，卷积神经网络)和LSTM(Long-Short Term Memory，长短期记忆人工神经网络)等。

步骤S250、通过第一检测分支网络对第一视频帧进行检测，得到第四文本框。

具体地，将第一视频帧101输入第一检测分支网络中，通过第一检测分支网络的处理得到第四文本框，第四文本框用于表征第一视频帧中文字的位置信息。

步骤S260、通过第二检测分支网络对第三视频帧进行检测，得到第五文本框。

具体地，将第三视频帧102输入第二检测分支网络中，通过第二检测分支网络的处理得到第五文本框，第五文本框用于表征第三视频帧中文字的位置信息。

步骤S270、确定第四文本框和第五文本框的第二相似度。

参照图4，本申请实施例中，第一文字跟踪网络310还可以包括第一跟踪分支网络和第二跟踪分支网络，步骤S270可以包括步骤S301-步骤S303：

步骤S301、通过第一跟踪分支网络对第四文本框进行提取，得到第一特征向量。

具体地，本申请实施例中，第一跟踪分支网络与第一检测分支网络连接，第一跟踪分支网络接收第一检测分支网络的输出作为输入，从而对第四文本框进行特征提取，得到第一特征向量。

步骤S302、通过第二跟踪分支网络对第五文本框进行提取，得到第二特征向量。

具体地，第二跟踪分支网络与第二检测分支网络连接，第二跟踪分支网络接收第二检测分支网络的输出作为输入，从而对第五文本框进行特征提取，得到第二特征向量。本申请实施例中，第一跟踪分支网络与第二跟踪分支网络的结构可以相同，并且可以共享权重。

步骤S303、根据第一特征向量和第二特征向量，确定第二相似度。

具体地，第二相似度可以通过第一特征向量和第二特征向量的欧氏距离、曼哈顿距离、明可夫斯基距离或者余弦相似度等确定。

步骤S280、当第二相似度大于第一阈值，将第四文本框确定为第一文本框。

可以理解的是，第一阈值可以根据需要进行调整，当第二相似度大于第一阈值，将第四文本框确定为第一文本框。如图3所示，在将第四文本框与第五文本框进行相似度匹配得到第二相似度之后，将第二相似度与第一阈值进行比较，当第二相似度大于第一阈值则得到识别结果，即将第四文本框确定为第一文本框。

参照图5，具体地，步骤S230也可以通过步骤S310-步骤S360实现。

步骤S310、将第一视频帧和第三视频帧输入到第二文字跟踪网络；第二文字跟踪网络包括第三检测分支网络和第四检测分支网络；第三检测分支网络包括第一子网络和第二子网络，第四检测分支网络包括第三子网络和第四子网络。

具体地，图5中，仍以前述的第一视频帧101，第三视频帧102为例进行说明，将第一视频帧101与第三视频帧102输入第二文字跟踪网络320。类似地，第二文字跟踪网络同样可以预先进行训练，第三检测分支网络中的第一子网络和第二子网络、第四检测分支网络中的第三子网络和第四子网络均用于对文本框进行检测，并输出检测结果。其中，第一子网络和第二子网络可以接收相同的输入信息，第三子网络和第四子网络可以接收相同的输入信息。本申请实施例中，第三检测分支网络与第四检测分支网络的结构以及权重参数也可以设置为相同。需要说明的是，本申请实施例中，第三检测分支网络和第四检测分支网络还可以分别包括两个以上的子网络，而且第三检测分支网络和第四检测分支网络中的子网络的数量可以相同也可以不相同。

步骤S320、通过第一子网络对第一视频帧进行检测，得到第六文本框，通过第二子网络对第一视频帧进行检测，得到第七文本框；

具体地，步骤S320可以通过步骤S401-步骤S402实现：

步骤S401、通过第一子网络降采样第一倍数，以对第一视频帧进行特征提取，检测得到第六文本框；

步骤S402、通过第二子网络降采样第二倍数，以对第一视频帧进行特征提取，检测得到第七文本框。

本申请实施例中，降采样是进行图像压缩的一种处理方式，经过降采样操作后图像尺寸会缩小，缩小的程度与降采样的采样周期相关。本申请实施例中，降采样第一倍数和第二倍数进行特征提取，目的是在不同的图像尺度下提取不同深度的图像特征用于文字区域的检测。具体地，第一倍数和第二倍数之间的差异可以根据实际需要进行调整，在此不作限制。可以理解的是，当子网络的数量为两个以上，还可以通过设置与第一倍数和第二倍数都不相同的第三倍数等对第一视频帧进行特征提取，以得到更多不同的文本框检测结果，用于提高匹配的准确性。

步骤S330、通过第三子网络对第三视频帧进行检测，得到第八文本框，通过第四子网络对第三视频帧进行检测，得到第九文本框；

具体地，步骤S330可以通过步骤S403-步骤S404实现：

步骤S403、通过第三子网络降采样第一倍数，以对第三视频帧进行特征提取，检测得到第八文本框；

步骤S404、通过第四子网络降采样第二倍数，以对第三视频帧进行特征提取，检测得到第九文本框。

本申请实施例中，在对第三视频帧提取特征时，也可以使用不同采样倍数的第三子网络和第四子网络，并且，第三子网络的采样倍数和前述第一子网络的采样倍数可以一样，第四子网络的采样倍数和前述第二子网络的采样倍数也可以一样，以方便用于后续的匹配。

步骤S340、确定第六文本框和第八文本框的第三相似度，确定第七文本框和第九文本框的第四相似度；

本申请实施例中，确定第六文本框和第八文本框的第三相似度，以及确定第七文本框和第九文本框的第四相似度时，可以通过如步骤S270的方式实现。

步骤S350、根据第三相似度和第四相似度，确定第五相似度；

具体地，步骤S350可以通过步骤S501-步骤S504实现：

步骤S501、获取第六文本框、第七文本框、第八文本框和第九文本框的置信度；

步骤S502、根据第六文本框和第八文本框的平均置信度，确定第一权重；

具体地，根据第六文本框的置信度以及第八文本框的置信度，进行平均值的计算，得到第六文本框和第八文本框的平均置信度，作为第一权重。

步骤S503、根据第七文本框和第九文本框的平均置信度，确定第二权重；

具体地，根据第七文本框的置信度以及第九文本框的置信度，进行平均值的计算，得到第七文本框和第九文本框的平均置信度，作为第二权重。

步骤S504、根据第一权重和第二权重，对第三相似度和第四相似度进行加权求和，得到第五相似度。

具体地，第五相似度可以通过以下公式计算得到：

为第三检测分支网络第i个子网络的文本框b₁的置信度，

为第四检测分支网络第i个子网络的文本框b₂的置信度，

为b₁,b₂在对应的第i个子网络的相似度，

为b₁,b₂的相似度结果。

例如，当i＝1，

为第三检测分支网络第1个子网络的文本框b₁的置信度(即第一子网络中第六文本框的置信度)，

为第四检测分支网络第1个子网络的文本框b₁的置信度(即第三子网络中第八文本框的置信度)，

为第六文本框和第八文本框的相似度(第三相似度)，当i＝2时同理，不再赘述。

可以理解的是，当第三检测分支网络与第四检测分支网络具有两个以上的子网络，也可以根据步骤S501-步骤S504，确定不同文本框的置信度，并确定不同文本框之间的平均置信度和权重，利用上述公式进行加权求和，以确定第五相似度。

其中，在确定上述初始跟踪轨迹时，当视频文字在连续的两帧视频帧中均具有两个以上的文本框时，可以先检测出两个视频帧中所有的文本框，并计算一帧视频帧中的每一文本框与另一视频帧中的每一文本框的相似度，并结合文本框之间的交并比，形成相似度矩阵，采用二分图最大权匹配法对文本框组合进行配对，使得配对结果满足相似度与交并比之和的总和最大，从而完成各个文本框的配对。应当说明的是，也可以通过设置配对阈值，当配对的文本框的相似度与交并比之和大于等于配对阈值认为配对成功，即成功匹配。其中，两两文本框的相似度指的是通过步骤S503中的计算公式确定的相似度结果。

步骤S360、当第五相似度大于第二阈值，将第六文本框或者第七文本框确定为第一文本框。

可以理解的是，第二阈值可以根据实际情况进行调整，当第五相似度大于第二阈值可以随机将第六文本框或者第七文本框中的一个作为第一文本框，或者也可以进一步根据第六文本框和第七文本框的置信度，将置信度更高的文本框作为第一文本框。

步骤S202、在视频的第二视频帧中与第一文本框对应的位置生成多个粒子；第一视频帧和第二视频帧相邻。

可以理解的是，当第一文本框通过步骤S220确定时，第一视频帧、第二视频帧、第三视频帧的先后顺序可以为第三视频帧、第一视频帧、第二视频帧，或者为第二视频帧、第一视频帧、第三视频帧。

本申请实施例中，在对应的位置生成多个粒子，包括但不限于在对应的位置内生成，或者在对应的位置周围生成，或者以对应的位置的边角为中心生成。例如当第一文本框为矩形，则可以在第二视频帧中与第一文本框对应的矩形的位置内生成多个粒子，或者在矩形的位置的周围生成，或者在矩形的位置的四个边角位置之一为中心生成。可以理解的是，粒子的生成数量可以进行调整，粒子可以用于表征文本框的位置信息，例如粒子包括但不限于表征文本框的其中一个顶点的坐标或者文本框的中心坐标；粒子的尺寸、形状等可以根据需要进行调整。

步骤S203、根据各个粒子的位置，在第二视频帧中确定多个第二文本框。

具体地，步骤S203可以通过以下步骤确定：

以各个粒子的位置为文本框的中点或者任一顶点，在第二视频帧中确定多个第二文本框。

具体地，将各个粒子的位置作为文本框的中点或者文本框的任一顶点，结合第一文本框的尺寸信息，尺寸信息包括但不限于长度和宽度，从而在第二视频帧中确定多个第二文本框，应当说明的是，第二文本框的尺寸与第一文本框的尺寸相同。

如图6所示，图6中示出了通过第一视频帧101的第一文本框1011，在第二视频帧103中生成粒子1031的示意图。以第一视频帧101中的第一文本框1011为矩形为例进行说明，在第二视频帧103中与第一文本框1011对应的矩形的位置处，生成多个粒子1031。具体地，例如可以是在矩形左上角的顶点周围生成多个粒子1031，此时每一粒子1031可以表征矩形文本框的左上角的顶点的坐标，结合第一文本框1011的尺寸信息，即可确定每一粒子1031对应的第二文本框。应当说明的是，生成粒子1031时可以根据预设规则进行生成或者随机进行生成，预设规则包括但不限于以左上角为中心形成的图形内生成。可以理解的是，也可以在矩形的中心位置生成粒子1031或者在矩形的其他顶点位置生成粒子1031，相应地，粒子1031对应表征矩形文本框的中心坐标，或者矩形文本框其他顶点的坐标。

步骤S204、确定第一文本框与各个第二文本框的第一相似度，将第一相似度最高的第二文本框作为第三文本框；

本申请实施例中，第一相似度通过步骤S504中公式的计算结果确定，可以理解的是第一相似度也可以通过步骤S270中的方式确定。

步骤S205、根据第一文本框和第三文本框，确定视频文字的目标跟踪轨迹，目标跟踪轨迹用于表征视频文字的位置信息。

具体地，步骤S205可以包括步骤S601或者步骤S602。

步骤S601、当第一文本框和第三文本框的第一相似度大于第三阈值，将第三文本框的位置信息加入目标跟踪轨迹。

步骤S602、当第一文本框和第三文本框的第一相似度小于第四阈值，结束视频文字的轨迹跟踪，得到目标跟踪轨迹。

本申请实施例中，针对第一文本框和第三文本框之间的第一相似度，可以设定两个阈值，记为第三阈值和第四阈值，第三阈值和第四阈值可以同时设置，且第三阈值的大小应当大于或者等于第四阈值。举例来说，以百分比作为相似度的衡量方式，当第一文本框和第三文本框之间的第一相似度为100％时，说明第一文本框和第三文本框完全相同，第三阈值可以设置为80％，第四阈值可以设置为50％。当然，以上的数值只是为了方便举例说明，实际的阈值大小可以根据需要灵活调整。

当第一文本框和第三文本框的第一相似度大于第三阈值时，例如第一文本框和第三文本框的第一相似度为90％，说明第二视频帧中的第二文本框中存在和第一文本框很相似的文本框，即第三文本框中的内容很可能是和第一文本框中的内容是一致的。因此，可以认为这些文字内容既存在于第一视频帧，也存在于第二视频帧，所以可以将第三文本框的位置信息加入该文字的目标跟踪轨迹。具体地，本申请实施例中，目标跟踪轨迹指的是视频文字在连续的各个视频帧序列中的位置信息，其包含两个方面，第一方面是视频文字分布在哪些视频帧中；第二方面是视频文字在各个视频帧中的具体位置。

反之，当第一文本框和第三文本框的第一相似度小于第四阈值时，例如第一文本框和第三文本框的第一相似度为30％，说明第二视频帧中的第二文本框中，即使和第一文本框最相似的文本框(即第三文本框)，和第一文本框实质的相似程度也不是很高。因此，可以认为此时第二视频帧中的对应位置，已经不再存在第一视频帧中的第一文本框中的文字内容，即该视频文字最后存在的一帧画面就是第一视频帧。此时则结束该第一文本框内视频文字的轨迹跟踪，认为对第一文本框内的视频文字的轨迹跟踪完成，可以得到目标跟踪轨迹。

应当说明的是，本申请实施例中的步骤S601以及步骤S602，针对的处理对象可以理解为目标跟踪轨迹处理过程中的任一对视频帧。举例来说，例如某个视频文字的目标跟踪轨迹中表征该视频文字连续存在于一段视频的第15帧视频帧到第25帧视频帧。通过本申请实施例中的视频文字跟踪方法确定目标跟踪轨迹时，假设按照视频帧的标号从第15帧开始处理，则对于第17帧和第18帧组成的一对视频帧，可以从第17帧中确定出包括该视频文字的第一文本框，第18帧中确定第三文本框，通过对比可以得知第18帧的第三文本框与第17帧的第一文本框的第一相似度大于第三阈值，因此可以将第18帧的第三文本框的位置信息添加到视频文字的目标跟踪轨迹。

而对于第25帧和第26帧组成的一对视频帧，可以从第25帧中确定出包括该视频文字的第一文本框，第26帧中确定第三文本框，通过对比可以得知第25帧的第三文本框与第26帧视频帧的第一文本框的第一相似度小于第四阈值，因此此时可以认为该视频文字的轨迹跟踪完成，从完成处的第一视频帧(即第25帧)倒推到开始识别的起点帧(即第15帧)，即可得到该视频文字的目标跟踪轨迹。并且，需要补充说明的是，除了开始识别的起点帧外，其余各帧在确定第一文本框时都可以以前一次识别中的第三文本框作为下一次识别的第一文本框，例如对于第18帧和第19帧组成的一对视频帧，可以将之前对第17帧和第18帧识别时确定的第18帧中的第三文本框，作为本次识别时第18帧中的第一文本框。

下面，结合具体的应用实施例，对本申请的技术方案进行详细说明，应当理解的是，下文所采用的模型种类以及模型结构，并不构成对本申请实际应用的限制。

本申请实施例中，可以使用Yolo-v3(You Only Look Once-v3)网络来作为检测分支网络搭建文字跟踪网络。具体地，Yolo-v3网络是目标检测领域的一种经典神经网络，该网络为一个全卷积网络，网络中大量使用残差机制的跳层连接，特征图之间通过使用步长为2的卷积进行降采样。在图像特征提取的方面，Yolo-v3网络采用了Darknet-53(含有53个卷积层)的部分网络结构，且值得关注的是，Yolo-v3网络可以分别在32倍降采样，16倍降采样和8倍降采样时对目标进行检测，即在52*52、26*26和13*13三种尺度的特征图上识别出目标的位置，生成目标框的特征表示，即目标框部分的特征图。对于本申请实施例而言，文字所在的区域即为Yolo-v3网络需要检测、框出的部分，也就是目标文本框，该目标文本框在三种尺度预测下会产生三种特征图的预测结果，每个特征图的预测过程都可以代表一次检测文本框的过程。

参照图7，图7中示出的是以Yolo-v3网络检测分支网络搭建的文字跟踪网络在处理文字跟踪任务时的部分示意图。在图7中，视频帧401和视频帧402为相邻的两帧视频帧，分别被输入到文字跟踪网络中，以视频帧401的处理流程为例，通过第一Yolo-v3网络对视频帧401进行处理，可以得到三种尺度下的检测结果，例如，本申请实施例中，将8倍降采样时检测生成的目标文本框特征图记为特征图A1，将16倍降采样时检测生成的目标文本框特征图记为特征图A2，将32倍降采样时检测生成的目标文本框特征图记为特征图A3。此处，可以通过ROI Align(目标区域对齐层)对这三个特征图进行对齐，使得特征图的大小一致，例如均对齐为14*14。然后对特征图A1提取特征向量，即将特征图映射到一个向量空间，得到的特征向量记为特征向量C1，同时对特征图A2和特征图A3进行相同的处理，得到特征向量分别记为特征向量C2和特征向量C3。

对于视频帧402的处理过程和视频帧401较为类似，只是通过另一个Yolo-v3网络对其进行检测，该网络记为第二Yolo-v3网络。此处，需要说明的是，也可以采用同一个Yolo-v3网络对视频帧402进行处理，而采用另一个Yolo-v3网络对视频帧402进行处理的目的是为了实现视频帧401和视频帧402的同步处理，即不需要等待视频帧401处理完毕再对视频帧402进行处理，从而大大缩短处理所需的时间。

第一Yolo-v3网络和第二Yolo-v3网络之间可以权重共享，即第一Yolo-v3网络和第二Yolo-v3网络中的网络参数可以设置为相同，以减少网络参数差异对得到的识别结果的干扰。类似地，第二Yolo-v3网络对视频帧402进行检测后，产生三种特征图的检测结果，将8倍降采样时检测生成的目标文本框特征图记为特征图B1，将16倍降采样时检测生成的目标文本框特征图记为特征图B2，将32倍降采样时检测生成的目标文本框特征图记为特征图B3。然后分别提取特征图B1、特征图B2和特征图B3的特征向量，得到特征向量D1、特征向量D2和特征向量D3。此处，提取特征图B1、特征图B2和特征图B3所采用的网络可以与前述提取特征图A1、特征图A2和特征图A3所采用的网络结构、参数设置为相同，目的同样是为了减少网络结构、参数差异对得到的识别结果的干扰。

当提取得到特征向量C1、特征向量C2、特征向量C3以及特征向量D1、特征向量D2和特征向量D3后，分别对特征向量C1和特征向量D1、特征向量C2和特征向量D2、特征向量C3和特征向量D3进行相似度匹配。将特征向量C1和特征向量D1之间的相似度记为相似度S1，将特征向量C2和特征向量D2之间的相似度记为相似度S2，将特征向量C3和特征向量D3之间的相似度记为相似度S3。此处，由于第一Yolo-v3网络和第二Yolo-v3网络之间的结构和网络参数相同，而提取特征向量C1和特征向量D1的网络结构、参数也相同，因此特征向量C1和特征向量D1之间的相似度S1的大小，可以有效反映出视频帧401和视频帧402中文本框的相似度大小，同理，相似度S2、相似度S3也均可以有效反映出视频帧401和视频帧402中文本框的相似度大小。因此，本申请实施例中，可以基于相似度S1、相似度S2和相似度S3来综合判断视频帧401和视频帧402中文本框的相似度，将该相似度记为X，在一些实施例中，相似度X可以根据相似度S1、相似度S2和相似度S3的平均值确定得到，这样均衡考虑了不同尺度下神经网络对文本框的检测结果，得到的相似度X能够减少神经网络单次预测不够准确所造成的负面影响。在一些实施例中，也可以获取Yolo-v3网络在各个预测尺度下产生的检测结果的置信度信息，根据这些置信度来确定相似度S1、相似度S2和相似度S3的可靠性。举例来说，例如在生成特征图A1的预测尺度下，第一Yolo-v3网络的置信度为0.8，在生成特征图A2的预测尺度下，第一Yolo-v3网络的置信度为0.9，在生成特征图A3的预测尺度下，第一Yolo-v3网络的置信度为0.85，由于本申请实施例中的第二Yolo-v3网络和第一Yolo-v3网络结构、参数完全一致，因此可认为第二Yolo-v3网络的置信度和第一Yolo-v3网络相同。由于特征图A1的置信度和特征图B1的置信度为0.85，那么也就说明相似度S1的可靠性，可以通过置信度0.8来表征；同理，相似度S2和相似度S3的可靠性，可以分别通过置信度0.9和0.85来表征，所以可以基于这三个置信度的大小确定相似度S1、相似度S2和相似度S3的权重，以相似度S1、相似度S2和相似度S3的权重之和为1为例，则相似度X的计算公式可以表示为：

X＝0.314*S1+0.353*S2+0.333*S3

上式中的S1、S2和S3分别代表相似度S1、相似度S2和相似度S3的大小；X代表相似度X的大小。

当然，可以理解的是，当文字跟踪网络的两个检测分支网络结构或者参数不同时，也可以采用类似的方式确定各个相似度的权重，只需对对应的置信度求均值即可。例如，当第一Yolo-v3网络和第二Yolo-v3网络的结构或者参数不同时，可以根据特征图A1的置信度与特征图B1的置信度的均值，作为衡量相似度S1的可靠性的判断依据。

应当说明的是，本申请实施例中，对于两个连续的视频帧中，识别的文本框既可以是字幕的文本框，也可以是画面内容中文字的文本框。当两个连续的视频帧中存在多组可能是含有同样文字内容的文本框需要识别时，既可以采用前述实施例中的方法对每组文本框依序进行识别，也可以同时对多组文本框一同识别。

参照图8，图8中示出的是以Yolo-v3网络检测分支网络搭建的文字跟踪网络，以及第一跟踪分支网络和第二跟踪分支网络的其中一种具体结构，并根据输出的特征向量得到相似度示意图，具体地，第一跟踪分支网络包括ROI Align层501(目标区域对齐层)、ROIAlign层502、ROI Align层503，层601、层602、层603，连接层701、连接层702、连接层703，其中层601、层602、层603均包括一个卷积层和一个平均池化层。类似地，第二跟踪分支网络包括ROI Align层504、ROI Align层505、ROI Align层506，层604、层605、层606，连接层704、连接层705、连接层706，其中层604、层605、层606均包括一个卷积层和一个平均池化层。

在本申请实施例中，同样地，视频帧401和视频帧402为相邻的两帧视频帧，分别被输入到文字跟踪网络中，分别通过第一尺度检测、第二尺度检测和第三尺度检测同样能够得到特征图A1、特征图A2、特征图A3、特征图B1、特征图B2和特征图B3，将特征图A1输入到ROI Align层501、将ROI Align层501输出结果输入到层601，然后将层601的输出结果输入到连接层701，即能够得到上述的特征向量C1；同样地，将特征图A2输入到ROI Align层502、将ROI Align层502输出结果输入到层602，然后将层602的输出结果输入到连接层702，即能够得到上述的特征向量C2；将特征图A3输入到ROI Align层503、将ROI Align层503输出结果输入到层603，然后将层603的输出结果输入到连接层703，即能够得到上述的特征向量C3；将特征图A4输入到ROI Align层504、将ROI Align层504输出结果输入到层604，然后将层604的输出结果输入到连接层704，即能够得到上述的特征向量D1；将特征图A5输入到ROIAlign层505、将ROI Align层505输出结果输入到层605，然后将层605的输出结果输入到连接层705，即能够得到上述的特征向量D2；将特征图A6输入到ROI Align层606、将ROI Align层606输出结果输入到层606，然后将层606的输出结果输入到连接层706，即能够得到上述的特征向量D3。然后将特征向量C1与特征向量D1输入到连接层801，得到相似度S1，将特征向量C2与特征向量D2输入到连接层802，得到相似度S2，将特征向量C3与特征向量D3输入到连接层803，得到相似度S3。

参照图9，本申请实施例中，还提供一种视频处理方法，该视频处理方法可应用于终端中，也可应用于服务器中，还可以应用于终端或服务器中的软件，用于实现一部分的软件功能。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑或者台式计算机等；服务器可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务以及大数据和人工智能平台等服务的云服务器；软件可以是视频播放的应用程序等，但并不局限于以上形式。图9中示出的是本申请实施例中提供的视频处理方法一个可选的流程示意图，该方法主要包括步骤701至步骤703：

步骤701、获取视频的多个连续视频帧；

步骤702、通过前述的视频文字跟踪方法，得到视频中多个视频文字的跟踪轨迹；

步骤703、根据跟踪轨迹，对视频帧进行抽取，得到视频的关键帧集合。

本申请实施例中，提供一种视频处理方法，通过该方法可以有效抽取视频的关键帧集合。此处，关键帧集合指的是能够反映、描述视频内容的视频帧集合。举例来说，视频的台词对于帮助理解视频内容非常有帮助，将字幕里面每次呈现的一段文本作为一句台词，可以挑选出涵盖每句台词的视频帧作为关键帧集合，方便用于视频内容的审核或者推荐。举例来说，参照图10，例如某段视频片段包括了50帧连续的视频帧，这些视频帧中一共显示有五句台词，第一句台词T1分布在第1帧至第15帧，第二句台词T2分布在第16帧到第21帧，第三句台词T3分布在第22帧到第37帧，第四句台词T4分布在第37帧到第42帧，第五句台词分布在第43帧到第50帧。则通过前述的视频文字跟踪方法，此处，台词即为视频文字的跟踪目标，可以跟踪得到五句台词的五个跟踪轨迹，第一个跟踪轨迹记录了第一句台词T1的位置信息，该位置信息表征了第一句台词T1分布在哪些视频帧中，即第一帧至第十五帧。因此，可以根据第一句台词T1的跟踪轨迹，从该跟踪轨迹涵盖的视频帧中抽取一帧，反映第一句台词T1的文字内容。类似地，针对第二句台词T2到第五句台词T5，均从其对应的跟踪轨迹所涵盖的视频帧中抽取一帧，反映对应台词的文字内容，从而将这些抽取得到的视频帧作为关键帧集合。举例来说，例如前述的50帧连续的视频帧，可以抽取得到其中第10帧、第18帧、第29帧、第41帧和第44帧视频帧得到该段视频的关键帧集合。可以理解的是，本申请实施例中对视频的帧数、关键帧的挑选，仅为方便举例说明，实际实施过程中可以根据需要灵活调整。

上述视频处理方法中，主要应用了视频文字的目标跟踪轨迹来确定视频文字分布在哪些视频帧中，从而可以从中挑选一帧视频帧用于分析和审核视频内容。在另一些实施例中，也可以应用视频文字的目标跟踪轨迹来确定视频文字在各个视频帧中的具体位置，例如，当某段视频中的画面里面发现有文字不符合相关规范需要做遮挡处理时，可以根据该视频文字的目标跟踪轨迹迅速确定到其在各个视频帧中的具体位置，方便工作人员及时打码处理。

参照图11，本申请实施例还公开了一种视频文字跟踪装置，包括：

第一处理模块910，用于从视频的第一视频帧中确定第一文本框；

粒子生成模块920，用于在视频的第二视频帧中与第一文本框对应的位置生成多个粒子；第一视频帧和第二视频帧相邻；

第二处理模块930，用于根据各个粒子的位置，在第二视频帧中确定多个第二文本框；

相似度确定模块940，用于确定第一文本框与各个第二文本框的第一相似度，将第一相似度最高的第二文本框作为第三文本框；

轨迹确定模块950，用于根据第一文本框和第三文本框，确定视频文字的目标跟踪轨迹；目标跟踪轨迹用于表征视频文字的位置信息。

可以理解的是，图2所示的视频文字跟踪方法实施例中的内容均适用于本视频文字跟踪装置实施例中，本视频文字跟踪装置实施例所具体实现的功能与图2所示的视频文字跟踪方法实施例相同，并且达到的有益效果与图2所示的视频文字跟踪方法实施例所达到的有益效果也相同。

参照图12，本申请实施例还公开了一种电子设备，包括：

至少一个处理器1010；

至少一个存储器1020，用于存储至少一个程序；

当至少一个程序被至少一个处理器1010执行，使得至少一个处理器1010实现如图2所示的视频文字跟踪方法实施例或者图7所示的视频处理方法实施例。

可以理解的是，如图2所示的视频文字跟踪方法实施例或者图9所示的视频处理方法实施例中的内容均适用于本电子设备实施例中，本电子设备实施例所具体实现的功能与如图2所示的视频文字跟踪方法实施例或者图9所示的视频处理方法实施例相同，并且达到的有益效果与如图2所示的视频文字跟踪方法实施例或者图9所示的视频处理方法实施例所达到的有益效果也相同。

本申请实施例还公开了一种计算机可读存储介质，其中存储有处理器可执行的程序，处理器可执行的程序在由处理器执行时用于实现如图2所示的视频文字跟踪方法实施例或者图9所示的视频处理方法实施例。

可以理解的是，图2所示的视频文字跟踪方法实施例或者图9所示的视频处理方法实施例中的内容均适用于本计算机可读存储介质实施例中，本计算机可读存储介质实施例所具体实现的功能与图2所示的视频文字跟踪方法实施例或者图9所示的视频处理方法实施例相同，并且达到的有益效果与图2所示的视频文字跟踪方法实施例或者图9所示的视频处理方法实施例所达到的有益效果也相同。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在上述的计算机可读存储介质中；图12所示的电子设备的处理器可以从上述的计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行图2所示的视频文字跟踪方法实施例或者图9所示的视频处理方法实施例。

可以理解的是，图2所示的视频文字跟踪方法实施例或者图9所示的视频处理方法实施例中的内容均适用于本计算机程序产品或计算机程序实施例中，本计算机程序产品或计算机程序实施例所具体实现的功能与图2所示的视频文字跟踪方法实施例或者图9所示的视频处理方法实施例相同，并且达到的有益效果与图2所示的视频文字跟踪方法实施例或者图9所示的视频处理方法实施例所达到的有益效果也相同。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外，在本申请的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本申请，但应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本申请的范围，本申请的范围由所附权利要求书及其等同方案的全部范围来决定。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施方式，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

以上是对本申请的较佳实施进行了具体说明，但本申请并不限于实施例，熟悉本领域的技术人员在不违背本申请精神的前提下可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种视频文字跟踪方法，其特征在于，包括以下步骤：

从视频的第一视频帧中确定第一文本框；

2.根据权利要求1所述的方法，其特征在于，所述从视频的第一视频帧中确定第一文本框，包括：

对所述第一视频帧中的文字区域进行检测，得到所述第一文本框。

3.根据权利要求1所述的方法，其特征在于，所述从视频的第一视频帧中确定第一文本框，包括：

从所述视频中获取与所述第一视频帧相邻的第三视频帧，所述第一视频帧位于所述第二视频帧和所述第三视频帧之间；

将所述第一视频帧与所述第三视频帧相匹配的文本框确定为所述第一文本框。

4.根据权利要求3所述的方法，其特征在于，所述将所述第一视频帧与所述第三视频帧相匹配的文本框确定为所述第一文本框，包括：

将所述第一视频帧和所述第三视频帧输入到第一文字跟踪网络；所述第一文字跟踪网络包括第一检测分支网络和第二检测分支网络；

通过所述第一检测分支网络对所述第一视频帧进行检测，得到第四文本框；

通过所述第二检测分支网络对所述第三视频帧进行检测，得到第五文本框；

确定所述第四文本框和所述第五文本框的第二相似度；

当所述第二相似度大于第一阈值，将所述第四文本框确定为所述第一文本框。

5.根据权利要求4所述的方法，其特征在于，所述第一文字跟踪网络还包括第一跟踪分支网络和第二跟踪分支网络；所述确定所述第四文本框和所述第五文本框的第二相似度，包括：

通过所述第一跟踪分支网络对所述第四文本框进行提取，得到第一特征向量；

通过所述第二跟踪分支网络对所述第五文本框进行提取，得到第二特征向量；

根据所述第一特征向量和所述第二特征向量，确定所述第二相似度。

6.根据权利要求3所述的方法，其特征在于，所述将所述第一视频帧与所述第三视频帧相匹配的文本框确定为所述第一文本框，包括：

将所述第一视频帧和所述第三视频帧输入到第二文字跟踪网络；所述第二文字跟踪网络包括第三检测分支网络和第四检测分支网络；所述第三检测分支网络包括第一子网络和第二子网络，所述第四检测分支网络包括第三子网络和第四子网络；

通过所述第一子网络对所述第一视频帧进行检测，得到第六文本框，通过所述第二子网络对所述第一视频帧进行检测，得到第七文本框；

通过所述第三子网络对所述第三视频帧进行检测，得到第八文本框，通过所述第四子网络对所述第三视频帧进行检测，得到第九文本框；

确定所述第六文本框和所述第八文本框的第三相似度，确定所述第七文本框和所述第九文本框的第四相似度；

根据所述第三相似度和所述第四相似度，确定第五相似度；

当所述第五相似度大于第二阈值，将所述第六文本框或者所述第七文本框确定为所述第一文本框。

7.根据权利要求6所述的方法，其特征在于，所述通过所述第一子网络对所述第一视频帧进行检测，得到第六文本框，通过所述第二子网络对所述第一视频帧进行检测，得到第七文本框，包括：

通过所述第一子网络降采样第一倍数，以对所述第一视频帧进行特征提取，检测得到所述第六文本框；

通过所述第二子网络降采样第二倍数，以对所述第一视频帧进行特征提取，检测得到所述第七文本框。

8.根据权利要求7所述的方法，其特征在于，所述通过所述第三子网络对所述第三视频帧进行检测，得到第八文本框，通过所述第四子网络对所述第三视频帧进行检测，得到第九文本框，包括：

通过所述第三子网络降采样所述第一倍数，以对所述第三视频帧进行特征提取，检测得到所述第八文本框；

通过所述第四子网络降采样所述第二倍数，以对所述第三视频帧进行特征提取，检测得到所述第九文本框。

9.根据权利要求6-8中任一项所述的方法，其特征在于，所述根据所述第三相似度和所述第四相似度，确定第五相似度，包括：

获取所述第六文本框、所述第七文本框、所述第八文本框和所述第九文本框的置信度；

根据所述第六文本框和所述第八文本框的平均置信度，确定第一权重；

根据所述第七文本框和所述第九文本框的平均置信度，确定第二权重；

根据所述第一权重和所述第二权重，对所述第三相似度和所述第四相似度进行加权求和，得到所述第五相似度。

10.根据权利要求1所述的方法，其特征在于，所述根据各个所述粒子的位置，在所述第二视频帧中确定多个第二文本框，包括：

以各个所述粒子的位置为文本框的中点或者任一顶点，在所述第二视频帧中确定多个所述第二文本框。

11.根据权利要求1所述的方法，其特征在于，所述根据所述第一文本框和所述第三文本框，确定所述视频文字的目标跟踪轨迹，包括：

当所述第一文本框和所述第三文本框的所述第一相似度大于第三阈值，将所述第三文本框的位置信息加入所述目标跟踪轨迹；

或者，

当所述第一文本框和所述第三文本框的所述第一相似度小于第四阈值，结束所述视频文字的轨迹跟踪，得到所述目标跟踪轨迹。

12.一种视频处理方法，其特征在于，包括以下步骤：

获取视频的多个连续视频帧；

通过权利要求1-11中任一项所述的视频文字跟踪方法，得到所述视频中多个视频文字的目标跟踪轨迹；

13.一种视频文字跟踪装置，其特征在于，包括：

第一处理模块，用于从所述视频的第一视频帧中确定第一文本框；

14.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-12中任一项所述的方法。

15.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于：所述处理器可执行的程序在由处理器执行时用于实现如权利要求1-12中任一项所述的方法。