CN112749696B

CN112749696B - 一种文本检测方法及装置

Info

Publication number: CN112749696B
Application number: CN202010906380.0A
Authority: CN
Inventors: 王书培; 徐耀; 袁星宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2024-07-05
Anticipated expiration: 2040-09-01
Also published as: CN112749696A

Abstract

本申请实施例提供了一种文本检测方法及装置，涉及图像处理技术领域，该方法包括：先获取待处理图像帧，然后对待处理图像帧进行文本显示增强，获得检测帧，再确定检测帧中的文本显示区域，之后再对检测帧中的文本显示区域进行文本信息识别，获得目标文本信息。通过对待处理图像帧进行文本显示增强，使获得的检测帧突出了文本信息的显示，弱化了背景的显示，从而减少了背景以及清晰度对文本检测的影响，提高了文本检测的精度。其次，在进行文本检测之前，先确定文本显示区域，减小了文本检测的范围，通过对文本显示区域进行文本信息识别，获得目标文本信息，提高了文本检测的准确性和效率。

Description

一种文本检测方法及装置

技术领域

本发明实施例涉及图像处理技术领域，尤其涉及一种文本检测方法及装置。

背景技术

随着数字化网络化的发展，数字图像和视频越来越多。由于图像或视频中的文字能够提供直接的语义信息，因此，对文字进行检测有助于理解和管理视频图像。目前对图像数据进行扫描，获取图像中包含的文字信息时，视频或图像的复杂背景和清晰度的问题影响文本检测的准确性。

发明内容

本申请实施例提供了一种文本检测方法及装置，用于提高文本检测的准确性。

一方面，本申请实施例提供了一种文本检测方法，该方法包括：

获取待处理图像帧；

对所述待处理图像帧进行文本显示增强，获得检测帧；

确定所述检测帧中的文本显示区域；

对所述检测帧中的文本显示区域进行文本信息识别，获得目标文本信息。

一方面，本申请实施例提供了一种文本检测装置，该装置包括：

获取模块，用于获取待处理图像帧；

处理模块，对所述待处理图像帧进行文本显示增强，获得检测帧；

定位模块，用于确定所述检测帧中的文本显示区域；

识别模块，用于对所述检测帧中的文本显示区域进行文本信息识别，获得目标文本信息。

可选地，所述处理模块具体用于：

对所述处理图像帧进行灰度处理，将所述待处理图像帧转化为灰度图像；

调整所述灰度图像的对比度参数和亮度调整参数，获得对比度增强图像；

调整所述对比度增强图像的锐化参数，获得检测帧。

可选地，所述定位模块具体用于：

获取参考图像的文本显示区域的上边界位置信息和下边界位置信息；

根据所述上边界位置信息和所述下边界位置信息，从所述检测帧中确定文本显示区域。

可选地，所述待处理图像帧为待处理视频中的视频帧，所述目标文本信息为视频帧中的字幕信息；

所述识别模块还用于：

根据待处理视频中每个视频帧在待处理视频中的时间戳，确定每个视频帧中的字幕信息的时间戳；

根据每个视频帧中的字幕信息的时间戳，确定每个视频帧中的字幕信息在所述待处理视频中对应的时间区间；

对各个时间区间内的字幕信息进行清洗，去除非文本信息以及重复的字幕信息，获得各个时间区间内的目标字幕信息。

可选地，所述识别模块还用于：

针对各个时间区间内的目标字幕信息，保留文字密度位于预设密度范围内的目标字幕信息，删除文字密度不位于预设密度范围内的目标字幕信息；或者

针对各个时间区间内的目标字幕信息，保留文字数量位于预设数量范围内的目标字幕信息，删除文字数量不位于预设数量范围内的目标字幕信息。

可选地，所述识别模块还用于：

从所述待处理视频对应的音频数据库中，获取与每个时间区间内的目标字幕信息匹配的目标音频数据。

一方面，本申请实施例提供了一种语音识别模型的训练装置，该装置包括：

获取模块，用于获取待处理视频中的视频帧；

处理模块，用于对各个视频帧进行文本显示增强，获得检测帧；

定位模块，用于确定各个检测帧中的字幕显示区域；

识别模块，用于对各个检测帧中的字幕显示区域进行文本信息识别，获得目标字幕信息；从所述待处理视频对应的音频数据中，获取与所述目标字幕信息匹配的目标音频数据；

训练模块，用于以所述目标字幕信息和所述目标音频数据为训练样本，训练语音识别模型。

可选地，所述识别模块具体用于：

对各个检测帧中的字幕显示区域进行文本信息识别，获得各个视频帧中的字幕信息；

可选地，所述识别模块还用于：

一方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述文本检测方法的步骤或上述语音识别模型的训练方法的步骤。

一方面，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行上述文本检测方法的步骤或上述语音识别模型的训练方法的步骤。

本申请实施例中，对待处理图像帧进行文本显示增强，使获得的检测帧突出了文本信息的显示，弱化了背景的显示，从而减少了背景以及清晰度对文本检测的影响，提高了文本检测的精度。其次，在进行文本检测之前，先确定文本显示区域，减小了文本检测的范围，通过对文本显示区域进行文本信息识别，获得目标文本信息，提高了文本检测的准确性和效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种字幕信息的示意图；

图2为本申请实施例提供的一种字幕信息的示意图；

图3为本申请实施例提供的一种系统架构的示意图；

图4为本申请实施例提供的一种文本检测方法的流程示意图；

图5为本申请实施例提供的一种字幕显示区域的示意图；

图6为本申请实施例提供的一种弹幕显示区域的示意图；

图7为本申请实施例提供的一种新闻标题显示区域的示意图；

图8为本申请实施例提供的一种文本显示增强方法的流程示意图；

图9为本申请实施例提供的一种文本显示增强方法的流程示意图；

图10为本申请实施例提供的一种字幕显示区域的示意图；

图11为本申请实施例提供的一种字幕显示区域的边界位置信息的示意图；

图12为本申请实施例提供的一种弹幕显示区域的示意图；

图13为本申请实施例提供的一种弹幕显示区域的边界位置信息的示意图；

图14为本申请实施例提供的一种文本检测方法的流程示意图；

图15为本申请实施例提供的一种文本检测装置的结构示意图；

图16为本申请实施例提供的一种语音识别模型的训练装置的结构示意图；

图17为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了方便理解，下面对本发明实施例中涉及的名词进行解释。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，简称OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。比如，本申请实施例中，采用计算机视觉技术对检测帧中的文本显示区域进行文本信息识别，获得目标文本信息。

光学字符识别(Optical Character Recognition，简称OCR)：指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。比如，本申请实施例中，采用OCR技术对检测帧中的文本显示区域进行文本信息识别，获得目标文本信息。

自动语音识别技术(Automatic Speech Recognition，简称ASR)：其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。在音转文识别服务中，其目标是将音频文件转化成音频相对应的文字信息。比如，采用本申请实施例中的文本检测方法获得的字幕信息可以用于训练ASR的语音识别模型。

Cer：错字率，采用以下公式(1)计算错字率：

S(substitution)表示替换的字符数目，D(deletion)表示删除的字符数目，I(insertion)表示插入的字符数目，N表示参考序列中字符总数。

下面对本申请实施例的设计思想进行介绍。

目前对图像数据进行扫描，获取图像中包含的文字信息时，视频或图像的复杂背景和清晰度的问题影响文本检测的准确性。比如，采用OCR提取影视剧中的字幕时，由于影视剧场景下背景和光照复杂，有些字幕清晰度不高，从而导致字幕提取的准确性不高，可能将背景识别为文本信息，或者将字幕识别为近似字等。示例性地，如图1所示，影视剧中的字幕为“琛琛，你说呢”，而OCR识别的结果为“#琛琛，你觉得呢”，将背景识别为文本信息“#”。示例性地，如图2所示，影视剧中的字幕为“你别说了”，而OCR识别的结果为“你剔说了”，将字幕中的“别”识别为了“剔”字。另外，通过对整体错字率进行统计，发现错字率Cer＞5％，即文本检测的准确性不高。

通过分析发现，影响文本检测的准确性的原因是图像中的复杂背景以及清晰度等问题，若能降低图像中的复杂背景以及清晰度等问题的干扰，突出文本的显示，将有利于提高文本检测的准确性。鉴于此，本申请实施例提供了一种文本检测方法，该方法包括：先获取待处理图像帧，然后对待处理图像帧进行文本显示增强，获得检测帧，再确定检测帧中的文本显示区域，之后再对检测帧中的文本显示区域进行文本信息识别，获得目标文本信息。

下面对本申请实施例中文本检测方法所适用的场景进行示例介绍。

场景一、字幕检测场景。

首先获取影视剧视频，然后对影视剧视频中的每个待处理视频帧进行字幕信息检测，具体为：对待处理视频帧进行文本显示增强获得检测帧，然后确定检测帧中的字幕显示区域。对检测帧中的字幕显示区域进行文本信息识别，获得字幕信息。之后再根据字幕信息的时间戳从音频数据库中，获取与字幕信息匹配的目标音频数据。后续可以使用字幕信息和与字幕信息匹配的目标音频数据作为训练样本，训练语音识别模型。

场景二、弹幕检测场景。

首先获取直播视频，然后对直播视频中的每个待处理视频帧进行弹幕信息检测，具体为：对待处理视频帧进行文本显示增强获得检测帧，然后确定检测帧中的弹幕显示区域。对检测帧中的弹幕显示区域进行文本信息识别，获得弹幕信息。

需要说明的是，本申请实施例中的文本检测方法的应用场景并不仅限于上述两种，还可以是购物场景、外卖场景、广告场景等以文本信息为载体的场景，对此，本申请不做具体限定。

参考图3，其为本申请实施例适用的一种系统架构图，该系统架构至少包括终端设备301和服务器302。

终端设备301预先安装用于文本检测的目标应用，目标应用可以是预先安装的客户端应用、网页版应用、小程序等。终端设备301可以包括一个或多个处理器3011、存储器3012、与服务器302交互的I/O接口3013以及显示面板3014等。终端设备301可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

服务器302为目标应用对应的后台服务器，为目标应用提供服务。服务器302可以包括一个或多个处理器3021、存储器3022以及与终端设备301交互的I/O接口3023等。此外，服务器302还可以配置数据库3024。服务器302可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备301与服务器302可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

文本检测方法可以由终端设备301执行，也可以由服务器302交互执行。

第一种情况，文本检测方法由终端设备301执行。

终端设备301中的目标应用获取待处理图像帧，然后对待处理图像帧进行文本显示增强，获得检测帧，再确定检测帧中的文本显示区域，之后再对检测帧中的文本显示区域进行文本信息识别，获得目标文本信息。

第二种情况，文本检测方法由服务器302执行。

终端设备301中的目标应用获取待处理图像帧，然后将待处理图像帧发送给服务器302，服务器302对待处理图像帧进行文本显示增强，获得检测帧，然后确定检测帧中的文本显示区域，对检测帧中的文本显示区域进行文本信息识别，获得目标文本信息。服务器302将目标文本信息发送给终端设备301。

基于图3所示的系统架构图，本申请实施例提供了一种文本检测方法的流程，如图4所示，该方法的流程由可以由文本检测装置执行，文本检测装置可以是图3所示终端设备301或服务器302，包括以下步骤：

步骤S401，获取待处理图像帧。

具体地，待处理图像帧可以是视频帧，比如影视剧视频中的任意一个视频帧，或者按照预设规则从影视剧视频中抽取的部分视频帧；待处理图像帧也可以是照片，比如手机拍摄的人物照片、风景照片等；待处理图像帧也可以是截图，比如网页截图、应用界面截图等；待处理图像帧还可以是其他类型的图像，对此，本申请不做具体限定。

步骤S402，对待处理图像帧进行文本显示增强，获得检测帧。

具体地，文本显示增强包括但不限于灰度处理、对比度增强处理、锐化处理、亮度处理、饱和度处理、二值化处理。

步骤S403，确定检测帧中的文本显示区域。

具体地，文本显示区域为图像中预设的显示文本的区域，可以是图像中的一个或多个固定区域。

示例性地，如图5所示，设定图像为影视剧视频中的视频帧，文本显示区域为字幕显示区域。在影视剧视频中，为了防止字幕遮挡视频中的画面，字幕一般在视频帧的底部显示，即字幕显示区域501位于视频帧的底部。

示例性地，如图6所示，设定图像为直播视频中的视频帧，文本显示区域为弹幕显示区域。若视频帧中包括三条弹幕通道，则视频帧对应包括三个弹幕显示区域，分别为图6所示的601、602和603。

示例性地，如图7所示，设定图像为新闻页面截图，文本显示区域为新闻标题显示区域。在新闻页面中，新闻标题一般位于新闻页面的上端，即新闻标题显示区域701位于新闻页面截图的上端。

步骤S404，对检测帧中的文本显示区域进行文本信息识别，获得目标文本信息。

具体实施中，先提取文本显示区域中的文本信息的特征，然后将文本信息的特征与特征数据库中的候选文本的特征进行比对，获得目标文本信息。文本信息的特征包括统计特征和/或结构特征，其中，统计特征可以是文本显示区域内的黑/白点数比；当文本显示区域为多个时，可以将多个文本显示区域的黑/白点数比进行融合。结构特征可以是字的笔划端点、交叉点的数量及位置，也可以是笔划段。

将文本信息的特征与特征数据库进行比对时，可以根据不同的特征，选用不同的数学距离函数，然后采用数学距离函数确定文本信息的特征与特征数据库中的候选文本的特征之间的距离，之后再基于距离从候选文本中确定目标文本信息。

可选地，在上述步骤S402中，对待处理图像帧进行文本显示增强，获得检测帧时，本申请实施例至少提供以下几种实施方式：

实施方式一，如图8所示，对待处理图像帧依次进行灰度处理、对比度增强处理以及锐化处理，获得检测帧。

具体地，先对处理图像帧进行灰度处理，将待处理图像帧转化为灰度图像，具体实施中，待处理图像帧一般为彩色图像，比如影视剧的视频帧、直播视频的视频帧、拍摄的照片等均为彩色图像，彩色图像由红、绿、蓝三原色组成，每个像素点的颜色可以表示为RGB(R，G，B)。由于彩色图像所含信息量过于巨大，且彩色背景影响文本检测的准确性，鉴于此，本申请中先对待处理图像帧进行灰度处理，将原来的颜色RGB(R，G，B)中的R、G、B统一用Gray(灰度值)替换，形成新的颜色RGB(Gray，Gray，Gray)，获得待处理图像帧对应的灰度图像，其中，Gray可以采用以下几种方式获得：

方法一、浮点方法，具体采用以下公式(2)获得Gray：

Gray＝R*0.3+G*0.59+B*0.11…………………………(2)

方法二、整数方法，具体采用以下公式(3)获得Gray：

Gray＝(R*30+G*59+B*11)/100………………………(3)

方法三、平均值法，具体采用以下公式(4)获得Gray：

Gray＝(R+G+B)/3………………………(4)

方法四、仅取绿色，具体采用以下公式(5)获得Gray：

Gray＝G………………………(5)

通过对待处理图像帧进行灰度处理，将待处理图像帧转化为灰度图像，从而降低了彩色背景对文本检测的影响，提高文本检测的准确性和效率。

进一步地，获得待处理图像帧对应的灰度图像之后，调整灰度图像的对比度参数和亮度参数，获得对比度增强图像。具体实施中，采用线性变换的方式进行对比度增强，线性变换具体如以下公式(6)所示：

Gray_y＝α*Gray_x+β………………………(6)

其中,Gray_y为调整后的灰度值，Gray_x为调整前的灰度值，α为对比度参数，β为调整参数。

通过改变对比度参数和亮度参数，来调整灰度图像的对比度，获得对比度增强图像。为了使对比度增强处理后的灰度值合理化，将小于0的灰度值设置为0，大于255的灰度值设置为255。另外，为了提高对比度增强处理后的灰度图像的显示效果，可以将灰度图像扩增为3通道图像，即将颜色RGB(Gray，Gray，Gray)扩增为RGB(Gray1，Gray2，Gray3)，其中Gray1、Gray2、Gray3表示的灰度值不同。通过对灰度图像进行对比度增强处理，有效滤除了光照、衣物等背景的干扰，凸显了文本的显示。

需要说明的是，本申请实施例中对比度增强处理的方法并不仅限于上述线性变换的方式，还可以是分段线性变换、伽马变换、直方图正规化、全局直方图均衡化、局部自适应直方图均衡化等，对此，本申请不做具体限定。

进一步地，获得对比度增强图像之后，对对比度增强图像进行锐化处理。锐化处理用于聚焦模糊边缘，提高图像中特定区域的清晰度或者焦距程度，使图像特定区域更加鲜明。具体实施中，调整对比度增强图像的锐化参数，获得检测帧，比如通过调整锐化参数中的数量、半径、边缘遮罩强度等参数，对灰度图像进行锐化处理，其中，数量用于控制锐化效果的轻度，半径用于指定锐化的半径，一般来说，图像的分辨率越高，半径设置应越大。通过对灰度图像进行锐化处理，有效补偿了图像中文本信息的轮廓，增强了文本的边缘及灰度跳变的部分，有效解决了因清晰度低造成的文字识别准确性差的问题。

实施方式二，如图9所示，对待处理图像帧依次进行二值化处理、对比度增强处理以及锐化处理，获得检测帧。

具体地，首先对待处理图像帧进行灰度处理，灰度处理过程在前文中已有介绍，此处不再赘述。然后在灰度值范围0～255之间选取一个灰度值作为阈值，将灰度图像中灰度值大于阈值的像素的灰度值设置为255，将灰度图像中灰度值不大于阈值的像素的灰度值设置为0，获得二值化图像。之后再对二值化图像进行对比度增强处理以及锐化处理，获得检测帧。对比度增强处理以及锐化处理在前文已有介绍，此处不再赘述。

通过对待处理图像帧依次进行二值化处理、对比度增强处理以及锐化处理，降低了待处理图像帧中的背景对文本检测影响，凸显了文本边缘的显示，提高了文本显示的清晰度，进而提高了文本检测的准确性。

需要说明的是，本申请实施例中的文本显示增强的实施方式并不仅限于上述两种，文本显示增强可以是灰度处理、对比度增强处理、锐化处理、亮度处理、饱和度处理、二值化处理等处理方法中任意一种处理方法或者多种处理方法的组合，对此，本申请不做具体限定。

可选地，在上述步骤S403中，本申请实施例提供以下几种确定检测帧中的文本显示区域的实施方式：

实施方式一、获取参考图像的文本显示区域的上边界位置信息和下边界位置信息，然后根据上边界位置信息和下边界位置信息，从检测帧中确定文本显示区域。

具体实施中，上边界位置信息指文本显示区域的上边界与待处理图像帧的上边界之间的距离，或者文本显示区域的上边界与待处理图像帧的下边界之间的距离，下边界位置信息指文本显示区域的下边界与待处理图像帧的上边界之间的距离，或者文本显示区域的下边界与待处理图像帧的下边界之间的距离。

在对待处理图像帧进行文本检测之前，先获取与待处理图像帧同类型、同尺寸的参考图像，然后在参考图像中人工标记文本显示区域。测量文本显示区域的上边界与待处理图像帧的上边界之间的距离，或者文本显示区域的上边界与待处理图像帧的下边界之间的距离，将测量获得的距离作为文本显示区域的上边界位置信息。测量文本显示区域的下边界与待处理图像帧的上边界之间的距离，或者文本显示区域的下边界与待处理图像帧的下边界之间的距离，将测量获得的距离作为文本显示区域的下边界位置信息。

在对待处理图像帧进行文本检测时，先对待处理图像帧进行文本显示增强，获得检测帧，检测帧的尺寸与待处理图像帧的尺寸相同，然后根据参考图像的文本显示区域的上边界位置信息和下边界位置信息，从检测帧中确定文本显示区域。

示例性地，设定待处理图像帧为影视剧视频中的视频帧，文本显示区域为字幕显示区域。在对视频帧进行文本检测之前，通过截图的方式获取影视剧视频中的视频帧，作为参考图像。以参考图像的左上角为坐标原点建立坐标系，人工标记参考图像中的字幕显示区域，字幕显示区域具体如图10所示的1001。字幕显示区域的上边界的纵坐标y1为字幕显示区域的上边界位置信息，字幕显示区域的下边界y2的纵坐标为字幕显示区域的下边界位置信息，具体如图11所示。

在对视频帧进行文本检测时，先对视频帧进行文本显示增强，获得检测帧，检测帧的尺寸与待处理图像帧的尺寸相同。然后以检测帧的左上角为坐标原点建立坐标系，根据参考图像的字幕显示区域的上边界位置信息和下边界位置信息，从检测帧中确定字幕显示区域。

示例性地，设定待处理图像帧为直播视频中的视频帧，文本显示区域为弹幕显示区域。在对视频帧进行文本检测之前，通过截图的方式获取直播视频中的视频帧，作为参考图像。以参考图像的左上角为坐标原点建立坐标系，人工标记参考图像中的弹幕显示区域，具体如图12所示，分别为弹幕显示区域1201、弹幕显示区域1202以及弹幕显示区域1203。弹幕显示区域1201的上边界的纵坐标y11为弹幕显示区域1201的上边界位置信息，弹幕显示区域1201的下边界的纵坐标y12为弹幕显示区域1201的下边界位置信息；弹幕显示区域1202的上边界的纵坐标y21为弹幕显示区域1202的上边界位置信息，弹幕显示区域1202的下边界的纵坐标y22为弹幕显示区域1202的下边界位置信息；弹幕显示区域1203的上边界的纵坐标y31为弹幕显示区域1203的上边界位置信息，弹幕显示区域1203的下边界的纵坐标y32为弹幕显示区域1203的下边界位置信息，具体如图13所示。

在对视频帧进行文本检测时，先对视频帧进行文本显示增强，获得检测帧，检测帧的尺寸与待处理图像帧的尺寸相同。然后以检测帧的左上角为坐标原点建立坐标系，根据参考图像中的弹幕显示区域A的上边界位置信息和下边界位置信息，从检测帧中确定字幕显示区域A；根据参考图像中的弹幕显示区域B的上边界位置信息和下边界位置信息，从检测帧中确定字幕显示区域B；根据参考图像中的弹幕显示区域C的上边界位置信息和下边界位置信息，从检测帧中确定字幕显示区域C。

实施方式二、获取参考图像的文本显示区域的左边界位置信息和右边界位置信息，然后根据左边界位置信息和右边界位置信息，从检测帧中确定文本显示区域。

具体实施中，左边界位置信息指文本显示区域的左边界与待处理图像帧的左边界之间的距离，或者文本显示区域的左边界与待处理图像帧的右边界之间的距离，右边界位置信息指文本显示区域的右边界与待处理图像帧的右边界之间的距离，或者文本显示区域的右边界与待处理图像帧的左边界之间的距离。

在对待处理图像帧进行文本检测之前，先获取与待处理图像帧同类型、同尺寸的参考图像，然后在参考图像中人工标记文本显示区域。测量文本显示区域的左边界与待处理图像帧的左边界之间的距离，或者文本显示区域的左边界与待处理图像帧的右边界之间的距离，将测量获得的距离作为文本显示区域的左边界位置信息。测量文本显示区域的右边界与待处理图像帧的右边界之间的距离，或者文本显示区域的右边界与待处理图像帧的左边界之间的距离，将测量获得的距离作为文本显示区域的右边界位置信息。

在对待处理图像帧进行文本检测时，先对待处理图像帧进行文本显示增强，获得检测帧，检测帧的尺寸与待处理图像帧的尺寸相同，然后根据参考图像的文本显示区域的左边界位置信息和右边界位置信息，从检测帧中确定文本显示区域。

需要说明的是，本申请实施例中确定检测帧中的文本显示区域的实施方式并不仅限于上述两种，也可以是根据上边界位置信息、下边界位置信息、左边界位置信息和右边界位置信息，从检测帧中确定文本显示区域，还可以是采用神经网络模型确定检测帧中的文本显示区域等方式，对此，本申请不做具体限定。

由于在进行文本检测之前，先确定文本显示区域，减小了文本检测的范围，通过对文本显示区域进行文本信息识别，获得目标文本信息，提高了文本检测的准确性和效率。

可选地，当待处理图像帧为待处理视频中的视频帧，目标文本信息为视频帧中的字幕信息时，若对多个视频帧进行检测，可能检测到重复的字幕信息，同时也有可能检测到特殊符号等非文本信息，这些问题将影响后续字幕信息的使用。鉴于此，本申请实施例中，根据待处理视频中每个视频帧在待处理视频中的时间戳，确定每个视频帧中的字幕信息的时间戳。然后根据每个视频帧中的字幕信息的时间戳，确定每个视频帧中的字幕信息在待处理视频中对应的时间区间。之后再对各个时间区间内的字幕信息进行清洗，去除非文本信息以及重复的字幕信息，获得各个时间区间内的目标字幕信息。

具体地，视频帧在待处理视频中的时间戳是指，视频帧在待处理视频的播放时间轴中所处的时间点，例如视频A的时长为5分钟，则视频A的播放时间轴长度为0-5分钟，若视频帧B在视频A的第58秒显示，则视频帧B在视频A中的时间戳为：视频A的播放时间轴中的第58秒。

时间区间对应的时长可以预先设定，比如一个时间区间的时长为0.2s。根据时间区间对应的时长将待处理视频的播放时间轴划分为多个时间区间。例如，视频A的时长为5分钟，时间区间对应的时长为1分钟，则将视频A划分为5个时间区间，分别为时间区间1(0～1分钟)、时间区间2(1分钟～2分钟)、时间区间3(2分钟～3分钟)、时间区间4(3分钟～4分钟)、时间区间4(4分钟～5分钟)。若视频帧B在视频A的第58秒显示，则视频帧B中的字幕信息对应的时间区间为时间区间1(0～1分钟)。

一个时间区间内可能包括多个视频帧，故可以将一个时间区间内的多个视频帧中的字幕信息进行合并，然后去除每个时间区间内的字幕信息中的非文本信息，非文本信息包括数字符号、单位符号、制表符等特殊符号。然后去除每个时间区间内重复的字幕信息，之后再去除各个时间区间之间重复的字幕信息，获得各个时间区间内的目标字幕信息。

通过去除字幕信息中的非文本信息以及重复的字幕信息，实现对字幕信息的清洗，提高获得的字幕信息的质量。

一种可能的实施方式，由于人的语速是在一定范围内的，比如，人的语速一般为3.5字数/秒至5.6字数/秒之间，若超出了范围，说明字幕信息中包括其他干扰信息，或漏检、错检了字幕信息，这类字幕信息将影响后续字幕信息的使用。鉴于此，本申请实施例中，针对各个时间区间内的目标字幕信息，保留文字密度位于预设密度范围内的目标字幕信息，删除文字密度不位于预设密度范围内的目标字幕信息。

具体实施中，文字密度表示单位时间内的文字数量，当时间区间内的目标字幕信息的文字密度大于预设密度范围的上限值时，说明目标字幕信息包括其他干扰信息，比如错将视频帧的背景识别为目标字幕信息，此时，可以直接去除该时间区间内的目标字幕信息。

当时间区间内的目标字幕信息的文字密度小于预设密度范围的下限值时，说明漏检了字幕信息，比如错将字幕信息识别为特殊符号，此时，可以直接去除该时间区间内的目标字幕信息。结合字幕信息的文字密度对目标字幕信息进行筛选，实现对目标字幕信息的清洗，提高获得的目标字幕信息的质量。

另一种可能的实施方式，由于人的语速是在一定范围内的，故字幕信息中包括的文字数量也应该在一定范围内，若超出了范围，说明字幕信息中包括其他干扰信息，或漏检、错检了字幕信息，这类字幕信息将影响后续字幕信息的使用。鉴于此，本申请实施例中，针对各个时间区间内的目标字幕信息，保留文字数量位于预设数量范围内的目标字幕信息，删除文字数量不位于预设数量范围内的目标字幕信息。

具体实施中，当时间区间内的目标字幕信息的文字数量大于预设数量范围的上限值时，说明目标字幕信息包括其他干扰信息，比如错将视频帧的背景识别为字幕信息，此时，可以直接去除该时间区间内的目标字幕信息。

当时间区间内的目标字幕信息的文字数量小于预设数量范围的下限值时，说明漏检了字幕信息，比如错将字幕信息识别为特殊符号，此时，可以直接去除该时间区间内的目标字幕信息。结合字幕信息的文字数量对目标字幕信息进行筛选，实现对目标字幕信息的清洗，提高获得的目标字幕信息的质量。

采用上述任意一种实施方式对字幕信息进行清洗后，本申请实施例中从待处理视频对应的音频数据库中，获取与每个时间区间内的目标字幕信息匹配的目标音频数据。

具体地，音频数据库中保存了待处理视频的音频数据，待处理视频中的字幕信息与待处理视频中的音频数据在播放时间上存在对应关系，故获得每个时间区间内的目标字幕信息之后，可以基于时间区间从音频数据库中获取与时间区间内的目标字幕信息匹配的目标音频数据，然后将目标字幕信息与目标音频数据对应保存。

本申请实施例提供了一种语音识别模型的训练方法的流程，该方法由语音识别模型的训练装置执行，该方法包括：

获取待处理视频中的视频帧，然后对各个视频帧进行文本显示增强，获得检测帧。确定各个检测帧中的字幕显示区域，并对各个检测帧中的字幕显示区域进行文本信息识别，获得目标字幕信息。之后再从待处理视频对应的音频数据中，获取与目标字幕信息匹配的目标音频数据。以目标字幕信息和目标音频数据为训练样本，训练语音识别模型。

具体实施中，基于参考图像的文本显示区域的上边界位置信息和下边界位置信息，从检测帧中确定字幕显示区域，然后对各个检测帧中的字幕显示区域进行文本信息识别，获得各个视频帧中的字幕信息。

获得字幕信息之后，对字幕信息进行清洗，具体包括：根据待处理视频中每个视频帧在待处理视频中的时间戳，确定每个视频帧中的字幕信息的时间戳，然后根据每个视频帧中的字幕信息的时间戳，确定每个视频帧中的字幕信息在待处理视频中对应的时间区间，之后再对各个时间区间内的字幕信息进行清洗，去除非文本信息以及重复的字幕信息，获得各个时间区间内的目标字幕信息。进一步地，针对各个时间区间内的目标字幕信息，保留文字密度位于预设密度范围内的目标字幕信息，删除文字密度不位于预设密度范围内的目标字幕信息。针对各个时间区间内的目标字幕信息，保留文字数量位于预设数量范围内的目标字幕信息，删除文字数量不位于预设数量范围内的目标字幕信息。

通过对视频帧进行文本显示增强，使获得的检测帧突出了字幕信息的显示，弱化了背景的影响。另外，先确定检测帧中的字幕显示区域，然后对字幕显示区域进行文本信息识别，获得字幕信息，从而减小了字幕检测的范围，提高了字幕检测的准确性和效率。以字幕信息和与字幕信息匹配的目标音频数据作为训练样本训练语音识别模型时，提高了语音识别模型的训练效果。

为了更好地解释本申请实施例，下面以影视剧视频中的视频帧为例，介绍本申请实施例提供的一种语音识别模型的训练方法，该方法由语音识别模型的训练装置执行，如图14所示，包括以下步骤：

数据获取阶段：通过批量下载的方式获取影视剧视频，然后从影视剧视频中筛选出包含字幕信息的多个视频帧。

数据预处理阶段：针对每个视频帧，先对视频帧进行预处理，预处理的过程包括：对视频帧依次进行灰度处理、对比度增强处理以及锐化处理，获得检测帧。然后基于参考图像的字幕显示区域的上边界位置信息和下边界位置信息，从检测帧中确定字幕显示区域。

字幕提取阶段：采用OCR对检测帧中的字幕显示区域进行文本信息识别，获得字幕信息。

数据后处理阶段：对获得的字幕信息进行清洗，清洗规则包括：

短句合并，即根据时间区间对应的时长将影视剧视频的播放时间轴划分为多个时间区间，将一个时间区间内的多个视频帧中的字幕信息进行合并。

特殊符号剥离，即去除每个时间区间内的字幕信息中的特殊符号。

文字密度剥离，即判断时间区间内的字幕信息的文字密度是否在第一预设范围内；若是，则保留该时间区间内的字幕信息；否则去除该时间区间内的字幕信息。

文字字数剥离，即判断时间区间内的字幕信息包括的文字数量是否在第二预设范围内；若是，则保留时间区间内的字幕信息；否则去除时间区间内的字幕信息。

重复识别合并，即去除每个时间区间内重复的字幕信息，去除各个时间区间之间重复的字幕信息。

数据交付阶段：对字幕信息进行清洗之后，根据字幕信息的时间戳从影视剧视频对应的音频数据库中，获取与字幕信息匹配的目标音频数据。采用字幕信息和与字幕信息匹配的目标音频数据作为训练样本训练语音识别模型。

本申请实施例中，对视频帧进行文本显示增强，使获得的检测帧突出了字幕信息的显示，弱化了背景的显示，从而减少了背景以及清晰度对字幕检测的影响，提高了字幕检测的精度。其次，在进行字幕检测之前，先确定字幕显示区域，减小了字幕检测的范围，通过对字幕显示区域进行文本信息识别，获得字幕信息，提高了字幕检测的准确性和效率。当以字幕信息和与字幕信息匹配的目标音频数据作为训练样本训练语音识别模型时，能有效提高语音识别模型的识别精度。

基于相同的技术构思，本申请实施例提供了一种文本检测装置，如图15所示，该装置1500包括：

获取模块1501，用于获取待处理图像帧；

处理模块1502，对待处理图像帧进行文本显示增强，获得检测帧；

定位模块1503，用于确定检测帧中的文本显示区域；

识别模块1504，用于对检测帧中的文本显示区域进行文本信息识别，获得目标文本信息。

可选地，处理模块1502具体用于：

对待处理图像帧依次进行灰度处理、对比度增强处理以及锐化处理，获得检测帧。

可选地，处理模块1502具体用于：

对处理图像帧进行灰度处理，将待处理图像帧转化为灰度图像；

调整灰度图像的对比度参数和亮度调整参数，获得对比度增强图像；

调整对比度增强图像的锐化参数，获得检测帧。

可选地，定位模块1503具体用于：

根据上边界位置信息和下边界位置信息，从检测帧中确定文本显示区域。

可选地，待处理图像帧为待处理视频中的视频帧，目标文本信息为视频帧中的字幕信息；

识别模块1504还用于：

根据每个视频帧中的字幕信息的时间戳，确定每个视频帧中的字幕信息在待处理视频中对应的时间区间；

可选地，识别模块1504还用于：

从待处理视频对应的音频数据库中，获取与每个时间区间内的目标字幕信息匹配的目标音频数据。

基于相同的技术构思，本申请实施例提供了一种语音识别模型的训练装置，如图16所示，该装置1600包括：

获取模块1601，用于获取待处理视频中的视频帧；

处理模块1602，用于对各个视频帧进行文本显示增强，获得检测帧；

定位模块1603，用于确定各个检测帧中的字幕显示区域；

识别模块1604，用于对各个检测帧中的字幕显示区域进行文本信息识别，获得目标字幕信息；从待处理视频对应的音频数据中，获取与目标字幕信息匹配的目标音频数据；

训练模块1605，用于以目标字幕信息和目标音频数据为训练样本，训练语音识别模型。

可选地，识别模块1604具体用于：

可选地，识别模块1604还用于：

基于相同的技术构思，本申请实施例提供了一种计算机设备，如图17所示，包括至少一个处理器1701，以及与至少一个处理器连接的存储器1702，本申请实施例中不限定处理器1701与存储器1702之间的具体连接介质，图17中处理器1701和存储器1702之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中，存储器1702存储有可被至少一个处理器1701执行的指令，至少一个处理器1701通过执行存储器1702存储的指令，可以执行前述文本检测方法，或前述语音识别模型的训练方法中所包括的步骤。

其中，处理器1701是计算机设备的控制中心，可以利用各种接口和线路连接计算机设备的各个部分，通过运行或执行存储在存储器1702内的指令以及调用存储在存储器1702内的数据，从而进行文本检测或训练语音识别模型。可选的，处理器1701可包括一个或多个处理单元，处理器1701可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1701中。在一些实施例中，处理器1701和存储器1702可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器1701可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器1702作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1702可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器1702是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器1702还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于同一发明构思，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当程序在计算机设备上运行时，使得计算机设备执行上述文本检测方法或上述语音识别模型的训练方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种文本检测方法，其特征在于，包括：

获取待处理图像帧；

对所述待处理图像帧依次进行灰度处理、对比度增强处理以及锐化处理，获得检测帧；

确定所述检测帧中的文本显示区域；

提取所述文本显示区域中的文本信息的特征；

将所述文本信息的特征与特征数据库中的候选文本的特征进行比对，获得目标文本信息，其中，所述文本信息的特征包括：统计特征和/或结构特征，所述统计特征包括：所述文本显示区域内的黑/白点数比；所述结构特征包括：字的笔划端点、交叉点的数量及位置；所述待处理图像帧为待处理视频中的视频帧，所述目标文本信息为所述视频帧中的字幕信息；

根据所述待处理视频中每个视频帧在所述待处理视频中的时间戳，确定每个视频帧中的字幕信息的时间戳；

将每个时间区间内的多个视频帧中的字幕信息进行合并后，去除每个时间区间内的非文本信息以及重复的字幕信息，去除各个时间区间之间重复的字幕信息，获得各个时间区间内的目标字幕信息；

针对各个时间区间内的目标字幕信息，删除文字密度不位于预设密度范围内的目标字幕信息；以及，删除文字数量不位于预设数量范围内的目标字幕信息；

从所述待处理视频对应的音频数据库中，获取与每个时间区间内的目标字幕信息匹配的目标音频数据；

采用各个时间区间内的目标字幕信息以及匹配的目标音频数据作为训练样本训练语音识别模型。

2.如权利要求1所述的方法，其特征在于，所述对所述待处理图像帧依次进行灰度处理、对比度增强处理以及锐化处理，获得检测帧，包括：

调整所述灰度图像的对比度参数和亮度参数，获得对比度增强图像；

调整所述对比度增强图像的锐化参数，获得检测帧。

3.如权利要求1至2任一项所述的方法，其特征在于，所述确定所述检测帧中的文本显示区域，包括：

4.一种语音识别模型的训练方法，其特征在于，包括：

获取待处理视频中的视频帧；

对各个视频帧依次进行灰度处理、对比度增强处理以及锐化处理，获得相应的检测帧；

确定各个检测帧中的文本显示区域；

针对每个检测帧，提取所述检测帧的文本显示区域中的文本信息的特征；将所述文本信息的特征与特征数据库中的候选文本的特征进行比对，获得字幕信息，其中，所述文本信息的特征包括：统计特征和/或结构特征，所述统计特征包括：所述文本显示区域内的黑/白点数比；所述结构特征包括：字的笔划端点、交叉点的数量及位置；

根据所述待处理视频中每个视频帧在所述待处理视频中的时间戳，确定每个视频帧中的字幕信息的时间戳；根据每个视频帧中的字幕信息的时间戳，确定每个视频帧中的字幕信息在所述待处理视频中对应的时间区间；将每个时间区间内的多个视频帧中的字幕信息进行合并后，去除每个时间区间内的非文本信息以及重复的字幕信息，去除各个时间区间之间重复的字幕信息，获得各个时间区间内的目标字幕信息；针对各个时间区间内的目标字幕信息，删除文字密度不位于预设密度范围内的目标字幕信息；以及，删除文字数量不位于预设数量范围内的目标字幕信息；

从所述待处理视频对应的音频数据中，获取与所述目标字幕信息匹配的目标音频数据；

以所述目标字幕信息和所述目标音频数据为训练样本，训练语音识别模型。

5.一种文本检测装置，其特征在于，包括：

获取模块，用于获取待处理图像帧；

处理模块，用于对所述待处理图像帧依次进行灰度处理、对比度增强处理以及锐化处理，获得检测帧；

定位模块，用于确定所述检测帧中的文本显示区域；

识别模块，用于提取所述文本显示区域中的文本信息的特征；将所述文本信息的特征与特征数据库中的候选文本的特征进行比对，获得目标文本信息，其中，所述文本信息的特征包括：统计特征和/或结构特征，所述统计特征包括：所述文本显示区域内的黑/白点数比；所述结构特征包括：字的笔划端点、交叉点的数量及位置，所述待处理图像帧为待处理视频中的视频帧，所述目标文本信息为所述视频帧中的字幕信息；根据所述待处理视频中每个视频帧在所述待处理视频中的时间戳，确定每个视频帧中的字幕信息的时间戳；根据每个视频帧中的字幕信息的时间戳，确定每个视频帧中的字幕信息在所述待处理视频中对应的时间区间；将每个时间区间内的多个视频帧中的字幕信息进行合并后，去除每个时间区间内的非文本信息以及重复的字幕信息，去除各个时间区间之间重复的字幕信息，获得各个时间区间内的目标字幕信息；针对各个时间区间内的目标字幕信息，删除文字密度不位于预设密度范围内的目标字幕信息；以及，删除文字数量不位于预设数量范围内的目标字幕信息；从所述待处理视频对应的音频数据库中，获取与每个时间区间内的目标字幕信息匹配的目标音频数据；采用各个时间区间内的目标字幕信息以及匹配的目标音频数据作为训练样本训练语音识别模型。

6.一种语音识别模型的训练装置，其特征在于，包括：

获取模块，用于获取待处理视频中的视频帧；

处理模块，用于对各个视频帧依次进行灰度处理、对比度增强处理以及锐化处理，获得相应的检测帧；

定位模块，用于确定各个检测帧中的文本显示区域；

识别模块，用于针对每个检测帧，提取所述检测帧的文本显示区域中的文本信息的特征；将所述文本信息的特征与特征数据库中的候选文本的特征进行比对，获得字幕信息，其中，所述文本信息的特征包括：统计特征和/或结构特征，所述统计特征包括：所述文本显示区域内的黑/白点数比；所述结构特征包括：字的笔划端点、交叉点的数量及位置；根据所述待处理视频中每个视频帧在所述待处理视频中的时间戳，确定每个视频帧中的字幕信息的时间戳；根据每个视频帧中的字幕信息的时间戳，确定每个视频帧中的字幕信息在所述待处理视频中对应的时间区间；将每个时间区间内的多个视频帧中的字幕信息进行合并后，去除每个时间区间内的非文本信息以及重复的字幕信息，去除各个时间区间之间重复的字幕信息，获得各个时间区间内的目标字幕信息；针对各个时间区间内的目标字幕信息，删除文字密度不位于预设密度范围内的目标字幕信息；以及，删除文字数量不位于预设数量范围内的目标字幕信息；从所述待处理视频对应的音频数据中，获取与所述目标字幕信息匹配的目标音频数据；

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1~3任一项权利要求或者权利要求4所述方法的步骤。

8.一种计算机可读存储介质，其特征在于，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行权利要求1~3任一项或者权利要求4所述方法的步骤。