CN112232260A

CN112232260A - 字幕区域识别方法、装置、设备及存储介质

Info

Publication number: CN112232260A
Application number: CN202011165751.0A
Authority: CN
Inventors: 黄杰; 王书培
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-01-15
Also published as: US20230027412A1; WO2022089170A1

Abstract

本申请公开了一种字幕区域识别方法、装置、设备及存储介质，涉及人工智能的计算机视觉技术。该方法包括：识别视频中的文字得到文本列表，文本列表包括至少一条文本数据，文本数据包括文字内容、文字区域和显示时长，文字内容包括位于文字区域上的至少一个文字；将文字区域归整为n个候选字幕区域，属于第i个候选字幕区域的文字区域与第i个候选字幕区域的位置偏差小于偏差阈值；根据字幕区域筛选策略从n个候选字幕区域中筛选得到字幕区域；字幕区域筛选策略用于将n个候选字幕区域中文字内容的重复率低于重复率阈值且显示总时长最长的候选字幕区域确定为字幕区域。该方法可以节省字幕区域识别所需的人力资源。

Description

字幕区域识别方法、装置、设备及存储介质

技术领域

本申请涉及人工智能的计算机视觉技术领域，特别涉及一种字幕区域识别方法、装置、设备及存储介质。

背景技术

随着短视频的普及，在多种场景下都需要应用到视频中的字幕提取技术，例如，在语音转文字模型的训练过程中，需要使用视频中的字幕作为训练样本。

相关技术中，由于短视频中的文字信息不一定都是字幕的文字，还可能包括品牌水印文字、视频标题文字等等。因此，对于短视频中字幕的提取，是通过人工进行字幕区域标注，然后使用OCR(Optical Character Recognition，光学字符识别)技术对标注位置进行文字识别得到字幕。例如，人工对视频进行截图，然后用图像查看软件打开截图，将鼠标移动至字幕的左上角以及右下角位置，可以得到两个位置的坐标，进而得到字幕的位置。

相关技术中的方法，需要耗费大量人力进行字幕的提取。

发明内容

本申请实施例提供了一种字幕区域识别方法、装置、设备及存储介质，可以自动进行字幕提取，节省人力资源。所述技术方案如下。

根据本申请的一个方面，提供了一种字幕区域识别方法，所述方法包括：

识别视频中的文字得到文本列表，所述文本列表包括至少一条文本数据，所述文本数据包括文字内容、文字区域和显示时长，所述文字内容包括位于所述文字区域上的至少一个文字；

将所述文字区域归整为n个候选字幕区域，属于第i个候选字幕区域的所述文字区域与所述第i个候选字幕区域的位置偏差小于偏差阈值，n为正整数，i为小于或等于n的正整数；

根据字幕区域筛选策略从所述n个候选字幕区域中筛选得到所述字幕区域；所述字幕区域筛选策略用于将所述n个候选字幕区域中所述文字内容的重复率低于重复率阈值且显示总时长最长的候选字幕区域确定为所述字幕区域，所述显示总时长为属于所述候选字幕区域的全部文字内容的所述显示时长之和。

根据本申请的另一方面，提供了一种字幕识别装置，所述装置包括：

识别模块，用于识别视频中的文字得到文本列表，所述文本列表包括至少一条文本数据，所述文本数据包括文字内容、文字区域和显示时长，所述文字内容包括位于所述文字区域上的至少一个文字；

候选模块，用于将所述文字区域归整为n个候选字幕区域，属于第i个候选字幕区域的所述文字区域与所述第i个候选字幕区域的位置偏差小于偏差阈值，n为正整数，i为小于或等于n的正整数；

筛选模块，用于根据字幕区域筛选策略从所述n个候选字幕区域中筛选得到所述字幕区域；所述字幕区域筛选策略用于将所述n个候选字幕区域中所述文字内容的重复率低于重复率阈值且显示总时长最长的候选字幕区域确定为所述字幕区域，所述显示总时长为属于所述候选字幕区域的全部文字内容的所述显示时长之和。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的字幕区域识别方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上方面所述的字幕区域识别方法。

根据本公开实施例的另一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述可选实现方式中提供的字幕区域识别方法。

本申请实施例提供的技术方案带来的有益效果至少包括如下的有益效果。

通过使用字幕区域筛选策略，对从视频中识别出的文本列表中的文字区域进行筛选得到字幕区域，从而可以根据字幕区域提取到待识别视频的字幕，相比于使用人工对字幕区域进行标注的方法，该方法节省了字幕识别所需要的人力资源，加快字幕识别速度和效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的计算机系统的框图；

图2是本申请一个示例性实施例提供的字幕区域识别方法的方法流程图；

图3是本申请另一个示例性实施例提供的字幕区域识别方法的视频帧图像示意图；

图4是本申请另一个示例性实施例提供的字幕区域识别方法的视频帧图像示意图；

图5是本申请另一个示例性实施例提供的字幕区域识别方法的方法流程图；

图6是本申请另一个示例性实施例提供的字幕区域识别方法的视频帧图像示意图；

图7是本申请另一个示例性实施例提供的字幕区域识别方法的文字区域的示意图；

图8是本申请另一个示例性实施例提供的字幕区域识别方法的方法流程图；

图9是本申请另一个示例性实施例提供的字幕区域识别方法的方法流程图；

图10是本申请另一个示例性实施例提供的字幕识别装置的框图；

图11是本申请另一个示例性实施例提供的服务器的结构示意图；

图12是本申请另一个示例性实施例提供的终端的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请实施例涉及的若干个名词进行简介。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(Three Dimensional，三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

OCR是英文Optical Character Recognition的缩写，意思是光学字符识别，也可简单地称为文字识别，是文字自动输入的一种方法。它通过扫描和摄像等光学输入方式获取纸张上的文字图像信息，利用各种模式识别算法分析文字形态特征可以将票据、报刊、书籍、文稿及其它印刷品转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。

图1示出了本申请一个示例性实施例提供的计算机系统的结构示意图，该计算机系统包括终端120和服务器140。

终端120与服务器140之间通过有线或者无线网络相互连接。

终端120包括智能手机、笔记本电脑、台式电脑、平板电脑、智能音箱、智能机器人中的至少一种。在一种可选的实现方式中，由终端将需要进行字幕识别的视频上传到服务器，服务器对终端上传的视频进行字幕识别。在另一种可选的方式中，服务器也可以对本地存储的视频进行字幕识别。在另一种可选的方式中，终端也可以对本地存储的视频进行字幕识别。在另一种可选的方式中，终端也可以通过网络下载视频，对下载的视频进行字幕识别。

示例性的，终端120还包括显示器；显示器用于显示视频的画面。

终端120包括第一存储器和第一处理器。第一存储器中存储有第一程序；上述第一程序被第一处理器调用执行以实现本申请提供的字幕区域识别方法。第一存储器可以包括但不限于以下几种：随机存取存储器(Random Access Memory，RAM)、只读存储器(ReadOnly Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)、以及电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)。

第一处理器可以是一个或者多个集成电路芯片组成。可选地，第一处理器可以是通用处理器，比如，中央处理器(Central Processing Unit，CPU)或者网络处理器(NetworkProcessor，NP)。可选地，第一处理器可以通过调用字幕识别算法来实现本申请提供的字幕区域识别方法。

服务器140包括第二存储器和第二处理器。第二存储器中存储有第二程序，上述第二程序被第二处理器调用来实现本申请提供的字幕区域识别方法。示例性的，第二存储器中存储有字幕识别算法。在一种可选的实现方式中，服务器接收终端发送的视频，使用字幕识别算法来进行字幕识别。可选地，第二存储器可以包括但不限于以下几种：RAM、ROM、PROM、EPROM、EEPROM。可选地，第二处理器可以是通用处理器，比如，CPU或者NP。

服务器140可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

示意性的，本申请提供的字幕区域识别方法可以应用于视频字幕提取、语音转文本模型的训练样本的获取等场景中。以使用本申请提供的字幕区域识别方法获取语音转文本模型的训练样本为例，在得到视频的字幕区域后，获取属于字幕区域的文字区域，以及文字区域对应的文本数据，文本数据中的文字内容即为训练样本的文字部分，根据文本数据中的显示时长(起始时刻和终止时刻)从视频中截取对应时间的音频，该音频为训练样本的语音部分，将文字部分和语音部分对应存储为训练样本。

图2示出了本申请一个示例性实施例提供的字幕区域识别方法的流程图。该方法可以由计算机设备来执行，例如，如图1所示的终端或服务器来执行。所述方法包括如下步骤。

步骤201，识别视频中的文字得到文本列表，文本列表包括至少一条文本数据，文本数据包括文字内容、文字区域和显示时长，文字内容包括位于文字区域上的至少一个文字。

示例性的，视频可以是任意类型的视频文件，例如，短视频、电视剧、电影、综艺节目等。示例性的，视频中包括字幕。以短视频为例，在短视频画面中的文字，不仅包含字幕，还可能包含其他文字信息，例如，短视频应用程序的水印文字、短视频发布者的用户昵称、短视频的视频名称等等。因此，仅仅通过OCR技术进行文字识别是无法准确获得短视频的字幕的，而人工对字幕区域进行标注，再对标注位置进行文字识别得到字幕的方式又需要耗费大量人力，因此，本申请提供了一种字幕识别方式，可以从视频中多个文字信息中准确识别出字幕，节省了人工标注字幕区域的步骤提高了字幕提取的效率。

示例性的，视频的获取方式可以是任意的，视频可以是计算机设备本地存储的视频文件，也可以是通过其他计算机设备获取的视频文件。例如，当计算机设备是服务器时，服务器可以接收由终端上传的视频文件；当计算机设备是终端时，终端也可以通过网络下载服务器上存储的视频文件。以计算机设备是服务器为例，在终端上可以安装有具有字模提取功能的客户端，用户可以在客户端的用户界面上选择本地存储的视频文件，并点击上传控件将视频文件上传至服务器，服务器对视频文件进行后续的字幕区域识别处理。

示例性的，计算机设备对视频进行文字识别，得到文本列表。示例性的，文本列表可以是一个数据表格，其中的每一行代表一条文本数据，每一列为文本数据的具体内容：文字内容、文字区域以及显示时长。对于视频的一帧视频帧图像，图像上的不同区域可能包含不同的文字内容，对于视频的多帧视频帧图像，图像上的相同区域也可能在不同时间显示不同的文字内容，因此，将视频中文字区域不同、显示时间不同的多个文字内容提取出来，可以得到多条文本数据，组成文本列表。示例性的，如果视频中在相同文字区域的不同时间段内显示了相同的文字内容，则这两个文字内容分别属于两个文本数据，即，如果在连续的视频帧图像上的相同文字区域显示有相同的文字内容，则该文字内容属于一条文本数据，该连续地视频帧图像持续的时长即为该文本数据中的显示时长(文字内容的显示时长)。例如，在第1-3s(秒)的视频帧图像上的第一区域显示了第一文字内容，在第3-4s的视频帧图像上的第一区域没有显示文字，在第4-5s的视频帧图像上的第一区域又显示了第一文字内容，则这两个第一文字内容分别对应两条文本数据，两条文本数据中的显示时长分别为2s和1s。

示例性的，文本列表还可以是由多个文本数据组成的数据集、数据库、文档文件等。

示例性的，文字区域包括用于框出文字的文字框的位置。示例性的，文字框是矩形框，文字框的位置可以用四条线(上边线、下边线、左边线和右边线)的位置来表达、也可以用文字框四个顶点的坐标来表达、也可以用文字框斜对角的两个顶点的坐标来表达。

步骤202，将文字区域归整为n个候选字幕区域，属于第i个候选字幕区域的文字区域与第i个候选字幕区域的位置偏差小于偏差阈值，n为正整数，i为小于或等于n的正整数。

示例性的，归整是指按照文字区域的位置分布对文字区域进行归类，将位置偏差小于偏差阈值的多个文字区域归为同一类文字区域，即，同一个候选字幕区域。

示例性的，在得到文本列表后，文本列表中包括了多个文字区域，由于视频的字幕通常都显示在同一个区域位置，因此，将这些文字区域进行归整得到多个候选字幕区域。示例性的，由于不同字幕文字内容不同，其显示的区域范围可能也有些许差异，例如，如图3中的(1)和(2)分别为视频的两个视频帧图像，在两个视频帧图像上分别有位于第一文字区域501的第一文字内容和位于第二文字区域502的第二文字内容，这两个为文字内容都是字幕，但由于文字内容的字数以及行数不同，这两个文字内容的文字区域有些许差异，但这两个文字区域都为字幕区域，因此，在归整候选字幕区域时需要设定一个偏差阈值，若两个文字区域的位置偏差小于偏差阈值，则应该认为这两个文字区域属于同一个候选字幕区域，如此，便可以对文本列表中的多个文字区域进行归整，最终得到几个候选字幕区域。

示例性的，以计算第一文字区域和第二文字区域的位置偏差为例，第一文字区域包括第一上边线、第一下边线、第一左边线、第一右边线，第二文字区域包括第二上边线、第二下边线、第二左边线、第二右边线，位置偏差包括：第一上边线与第二上边线的偏差、第一下边线与第二下边线的偏差、第一左边线与第二左边线的偏差和第一右边线与第二右边线的偏差中的至少一种。示例性的，由于字幕通常为横向显示的字幕，则由于文字内容字数多少的不同，文字区域在左右方向上的位置差异较大，在上下方向上的位置差异较小，则位置偏差可以包括两个文字区域的两个上边线的偏差和两个下边线的偏差，即，将纵向位置相差不多的文字区域归为同一个候选字幕区域。示例性的，由于部分字幕是纵向显示的字幕，则位置偏差也可以包括两个文字区域的两个左边线的偏差和两个右边线的偏差，即，将横向位置相差不多的文字区域归为同一个候选字幕区域。

示例性的，偏差阈值的具体数值可以是任意的。示例性的，在经过反复试验后得出偏差阈值取30像素-50像素较佳，例如，偏差阈值设定为40像素，则将两个文字区域的两个上边线的偏差小于40像素，且两个下边线的偏差也小于40像素的两个文字区域归为同一个候选字幕区域。

示例性的，候选字幕区域具有一个区域位置，即，该候选字幕区域位于哪里，示例性的，候选字幕区域的区域位置为属于该候选字幕区域的最大文字区域。示例性的，候选字幕区域的区域位置为属于该候选字幕区域的高度最大的文字区域(对应横向显示的字幕)，或，候选字幕区域的区域位置为属于该候选字幕区域的宽度最大的文字区域(对应纵向显示的字幕)。

示例性的，将文字区域归整为多个候选字幕区域后，可以在文本列表中增加一列候选字幕区域的数据，则每条文本数据中增加了一个所属候选字幕区域的数据，则，每个文字内容对应一个文字区域对应一个显示时长还对应一个候选字幕区域。

步骤203，根据字幕区域筛选策略从n个候选字幕区域中筛选得到字幕区域；字幕区域筛选策略用于将n个候选字幕区域中文字内容的重复率低于重复率阈值且显示总时长最长的候选字幕区域确定为字幕区域，显示总时长为属于候选字幕区域的全部文字内容的显示时长之和。

示例性的，在得到候选字幕区域，计算机设备可以调用字幕区域筛选策略的算法从候选字幕区域中识别出该视频的字幕区域。示例性的，由于视频中可能出现的部分干扰文字(非字幕文字)包括视频标题、应用程序水印、用户昵称等，而这些干扰文字具有显示时间长，且显示的文字单一不变的特点，因此，可以根据干扰文字的这些特征从文本数据中筛选出字幕区域。

示例性的，字幕区域筛选策略是根据干扰文字的显示特征和字幕的显示特征设定的。字幕具有显示时间长、位置固定、文字内容多样等特征。

本申请提供的字幕区域筛选策略，首先，分别判断每个候选字幕区域上是否显示单一的文字内容，若是单一的文字内容，则该候选字幕区域不是字幕区域。然后在剩下的候选字幕区域中选出显示总时长最长的候选字幕区域作为字幕区域。由于部分干扰文字，例如，电视剧标题文字，只会在视频开始的前几秒有显示，之后就不会再显示。例如，如图4所示，在视频帧图像上显示有视频标题401和字幕402，视频标题401在显示一会儿之后就会消失，该位置上不会再显示文字，而字幕402的位置会长时间地显示有文字。所以，从剩下的候选字幕区域中选出显示总时长最长的候选字幕区域作为字幕区域。

综上所述，本实施例提供的方法，通过使用字幕区域筛选策略，对从视频中识别出的文本列表中的文字区域进行筛选得到字幕区域，从而可以根据字幕区域提取到视频的字幕，相比于使用人工对字幕区域进行标注的方法，该方法节省了字幕识别所需要的人力资源，加快字幕识别速度和效率。

示例性的，给出一种根据字幕区域筛选策略进行字幕区域筛选的示例性实施例。

图5示出了本申请一个示例性实施例提供的字幕区域识别方法的流程图。该方法可以由计算机设备来执行，例如，如图1所示的终端或服务器来执行。在图2所示的示例性实施例的基础上，步骤201还包括步骤2011至步骤2012，步骤202还包括步骤2021至步骤2025，步骤203还包括步骤2031至步骤2034。

步骤2011，周期性截取视频的视频帧图像。

示例性的，首先需要对视频进行截帧处理，截帧处理即为周期性地从视频中截取视频帧图像，将其顺序地存储。示例性的，从视频中截取视频帧图像的时间间隔(周期)可以是任意的，例如，每秒钟截取2张视频帧图像。示例性的，也可以将视频的每一帧画面都截取为视频帧图像。示例性的，一个视频可以截取到多帧视频帧图像。

步骤2011，识别视频帧图像中的文字得到文本列表。

示例性的，计算机设备对每一帧视频帧图像进行文字识别得到文本列表。

示例性的，调用光学字符识别OCR模型识别视频帧图像，得到视频帧图像中的候选文字内容和候选文字内容的文字区域，根据视频帧图像的显示时刻得到候选文字内容的显示时刻；对候选文字内容进行去重得到文字内容；去重包括将显示时刻连续、文字区域相同、候选文字内容相同的多个候选文字内容中显示时刻最早的候选文字内容确定为文字内容，根据多个候选文字内容的显示时刻计算文字内容的显示时长；根据文字内容、文字内容的文字区域和显示时长生成文本列表。

示例性的，调用OCR模型来识别视频帧图像中的文字，OCR模型输出视频帧图像中的候选文字内容以及候选文字内容的文字区域。如此，可以得到一个包含：候选文字内容、文字区域、显示时刻的数据表。

其中，视频帧图像的显示时刻是指该视频帧图像在视频中显示的时刻。从视频帧图像上提取出的候选文字内容的显示时刻与该视频帧图像的显示时刻相同。

OCR模型用于对视频帧图像进行文字识别，识别出视频帧图像中的文字，输出文字以及文字区域。示例性的，OCR模型为神经网络模型，可以采用任意一种已知的OCR模型。

例如，如图6所示，在视频的一帧视频帧图像中，显示有三条文字：第一文字301、第二文字302、第三文字303，OCR模型识别这三条文字输出：第一文字301的候选文字内容：“《三十**》妈妈能为孩子拼尽全力”，文字区域：第一文字框304左边界位置x1＝2、右边界位置x2＝8、上边界位置y1＝10、下边界位置y2＝8；第二文字302的候选文字内容：“怎怎么喝酒了”，文字区域：第二文字框305左边界位置x3＝3、右边界位置x4＝7、上边界位置y3＝6、下边界位置y4＝5；第三文字303的候选文字内容：“WS电视剧”，文字区域：第三文字框306左边界位置x5＝4、右边界位置x6＝6、上边界位置y5＝3、下边界位置y6＝2。

示例性的，视频帧图像对应有在视频中的显示时刻。截取视频帧图像时，会将视频帧图像按照时间顺序进行存储，并存储有该视频帧图像在视频中对应的显示时刻，例如，截取视频中第1s的视频帧得到第1s的视频帧图像，将该视频帧图像与第1s对应地进行存储。

因此，从每个视频帧图像中识别出的候选文字内容也可以对应该视频帧图像在视频中的显示时刻。对于一个候选文字内容，可以顺序地在后续视频帧图像中寻找是否存在与该候选文字内容相同且文字区域相同的候选文字内容，若存在，则确定这些候选文字内容为同一个文字内容，根据该候选文字内容第一次出现时的视频帧图像对应的显示时刻和最后一次出现时的视频帧图像对应的显示时刻即可得到该文字内容的显示时长。示例性的，这种寻找是连续性的，当在下一帧视频帧图像中未寻找到该候选文字内容，则停止寻找。即，将时间连续、文字区域相同、候选文字内容相同的多个候选文字内容合并为一个文字内容。

例如，如表一所示，经过OCR模型的文字识别后，从1s至7s共7个视频帧图像中识别得到了7个候选文字内容。其中，第一个“你好”从第1s至第4s都出现在(1,1)，(2,2)文字区域，则确定这四个候选文字内容“你好”为同一文字内容，根据其出现的第一个时刻1s和最后一个时刻4s可以求出该文字内容的显示时长为3s；同理可以得到第二个“你好”的显示时长为1s，对于只有一帧视频帧图像上显示的候选文字内容，直接将其作为文字内容，其显示时长可以设置为视频帧图像截取的时间间隔，例如：1s，因此，合并候选文字内容后可以得到如表二所示的文字内容。

表一

表二

文字内容	文字区域	显示时长
			你好	(1,1)，(2,2)	3s
hi	(1,1)，(2,2)	1s
			你好	(1,1)，(2,2)	1s

示例性的，文本列表包括至少一个文字内容的至少一条文本数据，一个文字内容对应一个文字区域对应一个显示时长。

示例性的，文本列表中的显示时长还需要包括显示的起始时刻和终止时刻，即，将起始时刻和终止时刻作为显示时长进行存储，显示时长可以根据起始时刻和终止时刻计算得到。例如，如计算机设备在得到视频后，将视频生成一个视频链接，然后识别视频中的文字得到如表三所示的文本列表。其中，文字区域是以矩形的左边线x1、右边线x2、上边线y1、下边线y2来描述的，显示时长是以起始时刻“startTime”和终止时刻“endTime”来描述的。

表三

步骤2021，从m个文字区域中抽出一个文字区域作为第1个文字区域，将第1个文字区域确定为第1个候选字幕区域，将第1个候选字幕区域加入候选字幕区域列表。

步骤2022，循环执行步骤2022至步骤2023，直至m个文字区域的剩余数量为0：从剩下的m-k+1个文字区域中抽出一个文字区域作为第k个文字区域。

步骤2023，判断第k个文字区域与候选字幕区域的位置偏差是否大于偏差阈值，若大于(或等于)则进行步骤2025，若小于(或等于)则进行步骤2024。

步骤2024，响应于第k个文字区域与候选字幕区域列表中的第w个候选字幕区域的第一位置偏差小于偏差阈值，将第k个文字区域归为第w个候选字幕区域。

示例性的，在将第k个文字区域归为第w个候选字幕区域之后，计算第k个文字区域的第一高度，第一高度为第k个文字区域的上边线与下边线之差；

计算第w个候选字幕区域的第二高度，第二高度为第w个候选字幕区域的上边线与下边线之差；响应于第一高度大于第二高度，将第k个文字区域确定为第w个候选字幕区域；其中，k为小于等于m的正整数，w为小于等于n的正整数，n、m为正整数。

步骤2025，响应于第k个文字区域与候选字幕区域列表中的全部候选字幕区域的第二位置偏差都大于偏差阈值，将第k个文字区域确定为第y个候选字幕区域，将第y个候选字幕区域加入候选字幕区域列表。

其中，第一位置偏差包括两个上边线之差和两个下边线之差，第二位置偏差包括两个上边线之差或两个下边线之差，y为小于或等于n的正整数，k为小于等于m的正整数，w为小于等于n的正整数，m、n为正整数。

示例性的，步骤2021至步骤2025是对文字区域进行归整得到候选字幕区域的方法步骤，以文本列表中包括m个文本数据，文字区域是以矩形的上边线和下边线位置进行描述的为例。

示例性的，可以根据文本列表中文本数据的排列顺序(可以是任意排序方式)从第一个文字区域依次开始读取，将第一个文字区域直接作为候选字幕区域放入候选字幕区域列表中，然后从第二个文字区域开始先与候选字幕区域列表中现有的候选字幕区域作比较，是否能与现有的候选字幕区域相匹配(两个区域上边线之差要小于偏差阈值并且下边线的偏差也要小于偏差阈值)，若存在相匹配的候选字幕区域，则将该文字区域归属到这个候选字幕区域中；若不存在相匹配的候选字幕区域，则将该文字区域作为新的候选字幕区域存入候选字幕区域列表中；如此遍历文本列表中的每一个文字区域，得到存放在候选字幕区域列表中的候选字幕区域。

示例性的，一个候选字幕区域可能包含多个文字区域，但候选字幕区域的区域位置(包括上边线和下边线)只有一个，候选字幕区域的区域位置是归属该候选字幕区域的文字区域中高度最高的那个文字区域(上边线和下边线)。

因此，在将一个文字区域归属到一个候选字幕区域中后，需要判断新加入的文字区域的高度是否大于候选字幕区域目前的区域位置的高度，若新加入的文字区域的高度更大，则将新加入的文字区域更新为候选字幕区域的区域位置。若新加入的文字区域的高度差小于候选字幕区域目前的区域位置，则保持候选字幕区域目前的区域位置不变。

示例性的，在另一种可选的实现方式中，首先计算一下每个文字区域的高度差，然后将文字区域按照高度差从小到大排序得到文字区域顺序列表，根据文字区域顺序列表的顺序来从第一个文字区域开始读取和确定候选字幕区域。这种方式可以解决候确定的选字幕区域不准确的问题。例如，如图7所示，以第一文字区域701、第二文字区域702、第三文字区域703为例，其中，第一文字区域701小于第三文字区域703小于第二文字区域702，并且第一文字区域701与第二文字区域702的位置偏差大于偏差阈值，第二文字区域702与第三文字区域703的位置偏差小于偏差阈值，第一文字区域701与第三文字区域703的位置偏差小于偏差阈值，若按照第一文字区域701、第二文字区域702、第三文字区域703的顺序对文字区域进行抽取，则在抽取到第二文字区域702时，由于第二文字区域702与第一文字区域701的位置偏差大于偏差阈值，则会将第二文字区域702作为新的候选字幕区域，会导致候选字幕区域的识别结果不准确；但若按照高度差对文字区域进行排序后，则会在抽取第一文字区域701之后先抽取第三文字区域703，第三文字区域703与第一文字区域701的位置偏差小于偏差阈值，且第三文字区域703的高度差大于第一文字区域701，则该候选字幕区域的区域位置会被更新为第三位子区域703，然后再抽取第二文字区域702时，由于第二文字区域702与第三文字区域703的位置偏差小于偏差阈值，第二文字区域702也会被归到该候选字幕区域中，并将第二文字区域702更新为该候选字幕区域的区域位置。

示例性的，由于惯有的阅读顺序，字幕大部分都是横向字幕，步骤2021至步骤2025就是以横向的字幕为例，将上边线与下边线作为文字区域；同理，若要识别纵向的字幕，则将上述的上边线与下边线变更为左边线与右边线，即，文字区域为左边线与右边线。

步骤2031，计算候选字幕区域的重复率，重复率为累计时长与视频的视频总时长之比，累计时长为相同的文字内容的显示时长之和。

示例性的，给出一种计算重复率的方法：获取对应第j个候选字幕区域的第j组文本数据，第j组文本数据中的文字区域属于第j个候选字幕区域，j为小于等于n的正整数，n为正整数；将第j组文本数据中文字内容相同的文本数据归为同一个文本数据集合，得到至少一个文本数据集合；计算每个文本数据集合中的显示时长之和，得到至少一个累计时长；计算最大的累计时长与视频的视频总时长之比得到重复率；重复上述四个步骤计算得到每个候选字幕区域的重复率。

即，将获取属于该候选字幕区域的全部文本数据，然后将其中文字内容相同的文本数据进行合并：文字内容保留一个，显示时长进行累加得到累计时长，这里不需要用到文字位置所以可以去掉；合并后的文本数据没有重复的文字内容，取合并后的文本数据中最大的累计时长与视频的视频总时长相除即可得到重复率。

重复率是在候选字幕区域上显示出同一种文字内容的显示累计时长占视频总时长的比例，若在一个位置上总是显示相同的文字内容，则该位置很有可能是干扰文字(视频标题、水印等)。

步骤2032，将文字内容的重复率低于重复率阈值的候选字幕区域确定为初筛字幕区域。

示例性的，重复率阈值可以任意设置。示例性的，重复率阈值可以取10％。

示例性的，重复率高于重复率阈值的候选字幕区域可能为水印所在的文字区域、视频标题所在的文字区域或其他视频中文字固定不变(变换很少)的文字内容所在的字幕区域。

步骤2033，计算初筛字幕区域的显示总时长。

示例性的，给出一种计算显示总时长的方法：计算对应初筛字幕区域的文本数据的显示时长之和，得到初筛字幕区域的显示总时长。

示例性的，在对候选字幕区域进行初筛得到初筛字幕区域后，计算每个初筛字幕区域的显示总时长，显示总时长即为在该初筛字幕区域上显示文字内容的总时长，由于在视频中，某些位置可能会短暂显示文字，例如，电视剧开头会在画面中间位置显示当前是第几集，或，在视频中可能会短暂拍摄到一些带有文字的画面，这些文字所在的区域都不是字幕区域，字幕区域上会长期显示有文字内容，因此，将初筛字幕区域中显示总时长最长的初筛字幕区域作为字幕区域。

例如，在第一初筛字幕区域，第一文字内容显示了1s、第二文字内容显示了2s、第三文字内容显示了6s，则第一初筛字幕区域的显示总时长为1+2+6＝9s。

步骤2034，将初筛字幕区域中，显示总时长最长的初筛字幕区域确定为字幕区域。

示例性的，当然还可以采用一些其他字幕区域筛选策略来筛选字幕区域。

例如，在根据文字区域确定候选字幕区域时，可以将文字区域的上边线或下边线的倾斜角度大于角度阈值的文字区域直接去除不作为候选字幕区域，由于字幕通常为规整方向的(横向或纵向)，则可以将不规整方向的文本数据直接去除。

再如，由于字幕通常为白色或黑色字体，则在识别得到文本列表后，可以将显示为其他颜色的文字内容对应的文本数据从文本列表中删除，用删除后的文本列表采用本申请提供的方法来识别字幕区域。

示例性的，在得到视频的字幕区域后，计算机设备可以根据属于字幕区域中的文字内容识别视频的字幕。

例如，将字幕区域对应的文本数据中的文字内容进行修整，将其作为视频的字幕。

综上所述，本实施例提供的方法，通过先获取视频的视频帧图像，然后对视频帧图像采用OCR模型进行文字识别，对文字识别得到的候选文字内容进行去重后得到包含文字内容的文本列表，从而提取到视频中的文本数据，便于根据文本数据来判别字幕区域。

本实施例提供的方法，首先根据文字区域来规整得到候选字幕区域，将经过文字识别得到的多个文字区域进行规则，得到字幕区域的几个大概区域，便于之后根据字幕区域识别策略进行字幕区域的识别。

本实施例提供的方法，通过计算每个候选字幕区域上显示的文字内容的重复率，来判别该候选字幕区域是否是用来显示水印、视频标题等显示时间长且显示内容单一的区域，并将这些候选字幕区域去除，得到初筛字幕区域。

本实施例提供的方法，通过计算每个初筛字幕区域的显示总时长，来从初筛字幕区域中去除只短时间显示文字内容的区域，由于字幕区域通常长时间显示文字内容，则根据这一特征可以将初筛字幕区域中显示总时长最长的初筛字幕区域确定为字幕区域。

示例性的，给出一种采用本申请提供的方法获取语音转文字模型的训练样本的示例性实施例。

图8示出了本申请一个示例性实施例提供的字幕区域识别方法的流程图。该方法可以由计算机设备来执行，例如，如图1所示的终端或服务器来执行。该方法包括以下步骤。

步骤601，计算机设备进行数据获取。

示例性的，首先获取视频应用程序中热门用户帐号的视频，热门用户帐号是粉丝量较多或视频点击量较多或排行榜上前几位的用户账号。示例性的，获取这些热门帐号下的全部视频作为待识别字幕区域的视频。

步骤602，计算机设备进行字幕提取服务。

示例性的，采用本申请提供的字幕区域识别方法，来识别视频中的字幕区域。例如，如图9所示，首先对UGC(User Generated Content，用户生成内容)进行视频OCR截帧处理802(截取视频帧图像，对视频帧图像进行文字识别得到识别结果，对识别结果进行候选文字内容去重得到文本列表)得到文字内容、文字内容的显示时长803以及文字内容的文字区域804，然后对文字区域804进行归整得到多个候选字幕区域，计算每个候选字幕区域的重复率，进行重复文字判断805选出重复率低于重复率阈值的初筛字幕区域，然后计算初筛字幕区域的显示总时长，进行持续时间判断806：选出显示总时长(持续时间)最长的初筛字幕区域作为字幕区域807。

步骤603，计算机设备对字幕区域中的文字内容进行后处理。

例如，后处理包括短句合并、特殊符号剥离、文字密度剥离、文字字数剥离、重复识别合并、单个字母和数字剔除中的至少一种。示例性的，短句合并用于将文字内容中的超短句(例如：啊、好的)进行合并。特殊符号剥离用于剔除文字内容用的非文字数据(例如：表情)。文字密度剥离用于从文字内容中剔除超长语句。文字字数剥离用于根据剥离字数对文字内容进行剥离，例如，每隔2-14个文字进行剥离。重复识别合并用于合并重复文字内容的数据。单个字母和数字剔除用于从文字内容中剔除其他非目标语言(例如，汉语)的单个字母或者数字。

步骤604，计算机设备验证交付质量。

示例性的，计算机设备使用人工对视频字幕的标注结果来对自动识别得到的字幕进行验证。示例性的，对得到的字幕识别结果进行抽样检测，随机抽取识别结果构建测试集，进行置信度验证，若置信度在95±3％的区间内，则确定识别结果准确，将识别结果进行数据交付605。将识别结果中的文字内容与视频中对应时间段的音频作为语音转文字模型的训练样本。示例性的，置信度等于：字幕识别结果中正确识别的字数与字幕识别结果总字数之比。

综上所述，本实施例提供的方法，通过使用本申请提供的字幕区域识别方法，来进行字幕的识别，可以准确识别到视频中的字幕内容，然后根据识别到的字幕内容与视频中对应时段的音频，就可以得到语音转文字模型的训练样本，根据字幕内容与音频训练语音转文字模型，可以节省样本获取过程中的人力资源，提高样本获取效率。

以下为本申请的装置实施例，对于装置实施例中未详细描述的细节，可以结合参考上述方法实施例中相应的记载，本文不再赘述。

图10示出了本申请的一个示例性实施例提供的字幕识别装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分，该装置包括如下装置。

识别模块901，用于识别视频中的文字得到文本列表，所述文本列表包括至少一条文本数据，所述文本数据包括文字内容、文字区域和显示时长，所述文字内容包括位于所述文字区域上的至少一个文字；

候选模块902，用于将所述文字区域归整为n个候选字幕区域，属于第i个候选字幕区域的所述文字区域与所述第i个候选字幕区域的位置偏差小于偏差阈值，n为正整数，i为小于或等于n的正整数；

筛选模块903，用于根据字幕区域筛选策略从所述n个候选字幕区域中筛选得到所述字幕区域；所述字幕区域筛选策略用于将所述n个候选字幕区域中所述文字内容的重复率低于重复率阈值且显示总时长最长的候选字幕区域确定为所述字幕区域，所述显示总时长为属于所述候选字幕区域的全部文字内容的所述显示时长之和。

在一个可选的实施例中，所述装置还包括：

计算模块904，用于计算所述候选字幕区域的所述重复率，所述重复率为累计时长与所述视频的视频总时长之比，所述累计时长为相同的所述文字内容的所述显示时长之和；

所述筛选模块903，还用于将所述文字内容的所述重复率低于所述重复率阈值的所述候选字幕区域确定为初筛字幕区域；

所述计算模块904，还用于计算所述初筛字幕区域的所述显示总时长；

所述筛选模块903，还用于将所述初筛字幕区域中，所述显示总时长最长的所述初筛字幕区域确定为所述字幕区域。

在一个可选的实施例中，所述计算模块904，还用于获取对应第j个候选字幕区域的第j组文本数据，所述第j组文本数据中的所述文字区域属于所述第j个候选字幕区域，j为小于等于n的正整数，n为正整数；

所述计算模块904，还用于将所述第j组文本数据中所述文字内容相同的所述文本数据归为同一个文本数据集合，得到至少一个文本数据集合；

所述计算模块904，还用于计算每个所述文本数据集合中的所述显示时长之和，得到至少一个所述累计时长；

所述计算模块904，还用于计算最大的所述累计时长与所述视频的所述视频总时长之比得到所述重复率；

所述计算模块904，还用于重复上述四个步骤计算得到每个所述候选字幕区域的所述重复率。

在一个可选的实施例中，所述计算模块904，还用于计算对应所述初筛字幕区域的所述文本数据的所述显示时长之和，得到所述初筛字幕区域的所述显示总时长。

在一个可选的实施例中，所述文本列表包括m个文本数据，所述文字区域包括矩形的上边线和下边线，m为正整数；

所述候选模块902，还用于从m个文字区域中抽出一个文字区域作为第1个文字区域，将所述第1个文字区域确定为第1个候选字幕区域，将所述第1个候选字幕区域加入候选字幕区域列表；

所述候选模块902，还用于循环执行以下步骤，直至所述m个文字区域的剩余数量为0：从剩下的m-k+1个文字区域中抽出一个文字区域作为第k个文字区域，响应于所述第k个文字区域与所述候选字幕区域列表中的第w个候选字幕区域的第一位置偏差小于所述偏差阈值，将所述第k个文字区域归为所述第w个候选字幕区域；

响应于所述第k个文字区域与所述候选字幕区域列表中的全部候选字幕区域的第二位置偏差都大于所述偏差阈值，将所述第k个文字区域确定为第y个候选字幕区域，将所述第y个候选字幕区域加入所述候选字幕区域列表；

其中，所述第一位置偏差包括两个所述上边线之差和两个所述下边线之差，所述第二位置偏差包括两个所述上边线之差或两个所述下边线之差，y为小于或等于n的正整数，k为小于等于m的正整数，w为小于等于n的正整数，n为正整数。

在一个可选的实施例中，所述候选模块902，还用于计算所述第k个文字区域的第一高度，所述第一高度为所述第k个文字区域的所述上边线与所述下边线之差；计算所述第w个候选字幕区域的第二高度，所述第二高度为所述第w个候选字幕区域的所述上边线与所述下边线之差；响应于所述第一高度大于所述第二高度，将所述第k个文字区域确定为所述第w个候选字幕区域；

其中，k为小于等于m的正整数，w为小于等于n的正整数，n、m为正整数。

在一个可选的实施例中，所述装置还包括：

获取模块905，用于周期性截取所述视频的视频帧图像；

所述识别模块901，还用于识别所述视频帧图像中的文字得到所述文本列表。

在一个可选的实施例中，所述识别模块901，还用于调用光学字符识别OCR模型识别所述视频帧图像，得到所述视频帧图像中的候选文字内容和所述候选文字内容的所述文字区域，根据所述视频帧图像的显示时刻得到所述候选文字内容的显示时刻；

所述识别模块901，还用于对所述候选文字内容进行去重得到所述文字内容；所述去重包括将所述显示时刻连续、所述文字区域相同、所述候选文字内容相同的多个候选文字内容中所述显示时刻最早的所述候选文字内容确定为所述文字内容，根据所述多个候选文字内容的所述显示时刻计算所述文字内容的所述显示时长；

所述识别模块901，还用于根据所述文字内容、所述文字内容的所述文字区域和所述显示时长生成所述文本列表。

在一个可选的实施例中，所述装置还包括：

字幕模块906，用于根据属于所述字幕区域中的所述文字内容识别所述视频的字幕。

图11是本申请一个实施例提供的服务器的结构示意图。具体来讲：服务器1000包括中央处理单元(英文：Central Processing Unit，简称：CPU)1001、包括随机存取存储器(英文：Random Access Memory，简称：RAM)1002和只读存储器(英文：Read-Only Memory，简称：ROM)1003的系统存储器1004，以及连接系统存储器1004和中央处理单元1001的系统总线1005。服务器1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1006，和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中显示器1008和输入设备1009都通过连接到系统总线1005的输入/输出控制器1010连接到中央处理单元1001。基本输入/输出系统1006还可以包括输入/输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入/输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1007及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说，大容量存储设备1007可以包括诸如硬盘或者只读光盘(英文：Compact Disc Read-Only Memory，简称：CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(英文：Erasable Programmable Read-Only Memory，简称：EPROM)、电可擦除可编程只读存储器(英文：Electrically Erasable Programmable Read-Only Memory，简称：EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(英文：Digital Versatile Disc，简称：DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。

根据本申请的各种实施例，服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在系统总线1005上的网络接口单元1011连接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。

本申请还提供了一种终端，该终端包括处理器和存储器，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的字幕区域识别方法。需要说明的是，该终端可以是如下图12所提供的终端。

图12示出了本申请一个示例性实施例提供的终端1100的结构框图。该终端1100可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1100包括有：处理器1101和存储器1102。

处理器1101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1101可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1101还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1101所执行以实现本申请中方法实施例提供的字幕区域识别方法。

在一些实施例中，终端1100还可选包括有：外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地，外围设备包括：射频电路1104、显示屏1105、摄像头组件1106、音频电路1107、定位组件1108和电源1109中的至少一种。

外围设备接口1103可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中，处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上；在一些其他实施例中，处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1104用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。示例性的，射频电路1104包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1104还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1105用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时，显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时，显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1105可以为一个，设置终端1100的前面板；在另一些实施例中，显示屏1105可以为至少两个，分别设置在终端1100的不同表面或呈折叠设计；在再一些实施例中，显示屏1105可以是柔性显示屏，设置在终端1100的弯曲表面上或折叠面上。甚至，显示屏1105还可以设置成非矩形的不规则图形，也即异形屏。显示屏1105可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件1106用于采集图像或视频。示例性的，摄像头组件1106包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1101进行处理，或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1107还可以包括耳机插孔。

定位组件1108用于定位终端1100的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1108可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1109用于为终端1100中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于：加速度传感器1111、陀螺仪传感器1112、压力传感器1113、指纹传感器1114、光学传感器1115以及接近传感器1116。

加速度传感器1111可以检测以终端1100建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号，控制显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1112可以检测终端1100的机体方向及转动角度，陀螺仪传感器1112可以与加速度传感器1111协同采集用户对终端1100的3D动作。处理器1101根据陀螺仪传感器1112采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1113可以设置在终端1100的侧边框和/或显示屏1105的下层。当压力传感器1113设置在终端1100的侧边框时，可以检测用户对终端1100的握持信号，由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在显示屏1105的下层时，由处理器1101根据用户对显示屏1105的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1114用于采集用户的指纹，由处理器1101根据指纹传感器1114采集到的指纹识别用户的身份，或者，由指纹传感器1114根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1101授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1114可以被设置终端1100的正面、背面或侧面。当终端1100上设置有物理按键或厂商Logo时，指纹传感器1114可以与物理按键或厂商Logo集成在一起。

光学传感器1115用于采集环境光强度。在一个实施例中，处理器1101可以根据光学传感器1115采集的环境光强度，控制显示屏1105的显示亮度。具体地，当环境光强度较高时，调高显示屏1105的显示亮度；当环境光强度较低时，调低显示屏1105的显示亮度。在另一个实施例中，处理器1101还可以根据光学传感器1115采集的环境光强度，动态调整摄像头组件1106的拍摄参数。

接近传感器1116，也称距离传感器，通常设置在终端1100的前面板。接近传感器1116用于采集用户与终端1100的正面之间的距离。在一个实施例中，当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变小时，由处理器1101控制显示屏1105从亮屏状态切换为息屏状态；当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变大时，由处理器1101控制显示屏1105从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图12中示出的结构并不构成对终端1100的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的字幕区域识别方法。

本申请还提供一种计算机设备，该计算机设备包括：处理器和存储器，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的字幕区域识别方法。

本申请还提供一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的字幕区域识别方法。

本申请还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述可选实现方式中提供的字幕区域识别方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种字幕区域识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据字幕区域筛选策略从所述n个候选字幕区域中筛选得到所述字幕区域，包括：

计算所述候选字幕区域的所述重复率，所述重复率为累计时长与所述视频的视频总时长之比，所述累计时长为相同的所述文字内容的所述显示时长之和；

将所述文字内容的所述重复率低于所述重复率阈值的所述候选字幕区域确定为初筛字幕区域；

计算所述初筛字幕区域的所述显示总时长；

将所述初筛字幕区域中，所述显示总时长最长的所述初筛字幕区域确定为所述字幕区域。

3.根据权利要求2所述的方法，其特征在于，所述计算所述候选字幕区域的所述重复率，包括：

获取对应第j个候选字幕区域的第j组文本数据，所述第j组文本数据中的所述文字区域属于所述第j个候选字幕区域，j为小于等于n的正整数，n为正整数；

将所述第j组文本数据中所述文字内容相同的所述文本数据归为同一个文本数据集合，得到至少一个文本数据集合；

计算每个所述文本数据集合中的所述显示时长之和，得到至少一个所述累计时长；

计算最大的所述累计时长与所述视频的所述视频总时长之比得到所述重复率；

重复上述四个步骤计算得到每个所述候选字幕区域的所述重复率。

4.根据权利要求2所述的方法，其特征在于，所述计算所述初筛字幕区域的所述显示总时长，包括：

计算对应所述初筛字幕区域的所述文本数据的所述显示时长之和，得到所述初筛字幕区域的所述显示总时长。

5.根据权利要求1至4任一所述的方法，其特征在于，所述文本列表包括m个文本数据，所述文字区域包括矩形的上边线和下边线，m为正整数；

所述将所述文字区域归整为n个候选字幕区域，包括：

从m个文字区域中抽出一个文字区域作为第1个文字区域，将所述第1个文字区域确定为第1个候选字幕区域，将所述第1个候选字幕区域加入候选字幕区域列表；

循环执行以下步骤，直至所述m个文字区域的剩余数量为0：从剩下的m-k+1个文字区域中抽出一个文字区域作为第k个文字区域，响应于所述第k个文字区域与所述候选字幕区域列表中的第w个候选字幕区域的第一位置偏差小于所述偏差阈值，将所述第k个文字区域归为所述第w个候选字幕区域；

6.根据权利要求5所述的方法，其特征在于，所述响应于所述第k个文字区域与所述候选字幕区域列表中的第w个候选字幕区域的第一位置偏差小于偏差阈值，将所述第k个文字区域归为所述第w个候选字幕区域之后，还包括：

计算所述第k个文字区域的第一高度，所述第一高度为所述第k个文字区域的所述上边线与所述下边线之差；

计算所述第w个候选字幕区域的第二高度，所述第二高度为所述第w个候选字幕区域的所述上边线与所述下边线之差；

响应于所述第一高度大于所述第二高度，将所述第k个文字区域确定为所述第w个候选字幕区域；

7.根据权利要求1至4任一所述的方法，其特征在于，所述识别视频中的文字得到文本列表，包括：

周期性截取所述视频的视频帧图像；

识别所述视频帧图像中的文字得到所述文本列表。

8.根据权利要求7所述的方法，其特征在于，所述识别所述视频帧图像中的文字得到所述文本列表，包括：

调用光学字符识别OCR模型识别所述视频帧图像，得到所述视频帧图像中的候选文字内容和所述候选文字内容的所述文字区域，根据所述视频帧图像的显示时刻得到所述候选文字内容的显示时刻；

对所述候选文字内容进行去重得到所述文字内容；所述去重包括将所述显示时刻连续、所述文字区域相同、所述候选文字内容相同的多个候选文字内容中所述显示时刻最早的所述候选文字内容确定为所述文字内容，根据所述多个候选文字内容的所述显示时刻计算所述文字内容的所述显示时长；

根据所述文字内容、所述文字内容的所述文字区域和所述显示时长生成所述文本列表。

9.根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：

根据属于所述字幕区域中的所述文字内容识别所述视频的字幕。

10.一种字幕区域识别装置，其特征在于，所述装置包括：

11.一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行，以实现如权利要求1至9任一项所述的字幕区域识别方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行，以实现如权利要求1至9任一项所述的字幕区域识别方法。