[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111027560B - 文本检测方法以及相关装置 - Google Patents

文本检测方法以及相关装置 Download PDF

Info

Publication number
CN111027560B
CN111027560B CN201911084168.4A CN201911084168A CN111027560B CN 111027560 B CN111027560 B CN 111027560B CN 201911084168 A CN201911084168 A CN 201911084168A CN 111027560 B CN111027560 B CN 111027560B
Authority
CN
China
Prior art keywords
text
target
target area
region
candidate region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911084168.4A
Other languages
English (en)
Other versions
CN111027560A (zh
Inventor
赵诗云
陈媛媛
熊剑平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN201911084168.4A priority Critical patent/CN111027560B/zh
Publication of CN111027560A publication Critical patent/CN111027560A/zh
Application granted granted Critical
Publication of CN111027560B publication Critical patent/CN111027560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种文本检测方法以及相关装置。其中,文本检测方法包括:获取摄像器件对待检测场景拍摄得到的原始图像;利用文本检测模型检测原始图像,得到候选区域;剔除候选区域中超出原始图像的图像边界的部分;对剔除之后的候选区域进行分析,确定待检测场景中与文本相关的目标区域。上述方案,能够提高文本检测的准确性。

Description

文本检测方法以及相关装置
技术领域
本申请涉及信息技术领域,特别是涉及一种文本检测方法以及相关装置。
背景技术
随着城市建设的推进,城市管理的压力越来越大,而在城市管理的各种业务需求中,由于乱贴的广告,或者非法喷涂的广告等文本内容严重影响了市容市貌,故此,对于上述文本内容的检查又是城市管理的重点之一。
目前,监控相机等摄像器件愈发密集地布控于城市的小区、商业街等场所,城市监控系统得以不断完善。有赖于此,城市管理正在从繁重的人力成本压力中解放出来,且智能化水平也在不断提升,在此基础上,对于文本内容的检查也得以依赖于不断完善的城市监控系统。在此情形下,如何提高文本检测的准确性成为亟待解决的问题。
发明内容
本申请主要解决的技术问题是提供一种文本检测方法以及相关装置,能够提高文本检测的准确性。
为了解决上述问题,本申请第一方面提供了一种文本检测方法,包括:获取摄像器件对待检测场景拍摄得到的原始图像;利用文本检测模型检测原始图像,得到候选区域;剔除候选区域中超出原始图像的图像边界的部分;对剔除之后的候选区域进行分析,确定待检测场景中与文本相关的目标区域。
为了解决上述问题,本申请第二方面提供了一种文本检测装置,包括相互耦接的存储器和处理器;处理器用于执行存储器存储的程序指令,以实现上述第一方面中的文本检测方法。
为了解决上述问题,本申请第三方面提供了一种存储装置,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的文本检测方法。
上述方案,通过获取摄像器件对待检测场景拍摄得到的原始图像,并利用文本检测模型检测原始图像,得到候选区域,并剔除候选区域中超出原始图像的图像边界的部分,从而对剔除之后的候选区域进行分析,确定待检测场景中与文本相关的目标区域,进而能够纠正所检测到的候选区域,特别是靠近图像边界的候选区域可能存在的越界问题,能够为后续的分析提供准确的基础,有利于提高文本检测的准确性。
附图说明
图1是本申请文本检测方法一实施例的流程示意图;
图2是原始图像一实施例的示意图;
图3是剔除候选区域超出原始图像的图像边界的部分一实施例的示意图;
图4是图1中步骤S14一实施例的流程示意图;
图5是图1中步骤S14另一实施例的流程示意图;
图6是图1中步骤S14又一实施例的流程示意图;
图7是本申请文本检测装置一实施例的框架示意图;
图8是本申请文本检测装置另一实施例的框架示意图;
图9是本申请存储装置一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请文本检测方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S11:获取摄像器件对待检测场景拍摄得到的原始图像。
本实施例中,待检测场景可以根据具体的应用场景而进行设置,例如,对于商铺应用场景,待检测场景可以是商铺的橱窗;对于街道应用场景,待检测场景可以是街道的墙壁;对于道路应用场景,待检测场景可以是电线杆、公交站台,本实施例在此不再一一举例。
本实施例中,摄像器件可以根据具体的应用场景而进行设置,例如,针对室外应用场景中,摄像器件可以是防水摄像机;对于室内应用场景,摄像器件可以是普通的网络摄像机,本实施例在此不做具体限制。
在一个实施场景中,为了实现对待检测场景的实时检测,可以实时获取摄像器件对待检测场景拍摄得到的多帧原始图像,具体地,可以通过RTSP(Real Time StreamingProtocol,实时流协议)传输协议获取多帧原始图像。在另一个实施场景中,还可以通过离线的方式获取摄像器件在一段时间内对待检测场景累积的多帧原始图像,本实施例在此不做具体限制。
步骤S12:利用文本检测模型检测原始图像,得到候选区域。
本实施例中,候选区域是指疑似包含文本的区域。在一个实施场景中,为了提高文本检测的准确性,文本检测模型可以是基于深度学习的文本检测模型,例如以下任意一者:基于pixelLink的文本检测模型、基于textboxes的文本检测模型、基于textboxes++的文本检测模型,此外,基于深度学习的文本检测模型也可以是其他模型,例如,segLink模型、EAST模型等等,本实施例在此不做具体限制。
在自然场景下,文本内容大概率是倾斜于水平面的,在此情形下,本实施中,为了与疑似为文本的目标对象的方向匹配,从而尽可能地减少候选区域中所包含的与检测到的目标对象无关的图像数据,以降低无关图像数据的干扰,进而提高后续分析的准确性,还可以对利用文本检测模型对原始图像进行检测所得到的与目标对象对应的初始区域进行预测回归,从而得到与目标对象的方向匹配的候选区域。
在一个具体的实施场景中,当文本检测模型为基于textboxes++的文本检测模型时,由于基于textboxes++的文本检测模型本身已经包含上述预测回归的处理,故当利用基于textboxes++的文本检测模型检测原始图像时,能够得到与疑似为文本的目标对象的方向匹配的候选区域。
在另一个具体的实施场景中,当文本检测模型为基于textboxes++的文本检测模型之外的其他文本检测模型时,在利用文本检测模型对原始图像进行检测,得到与疑似为文本的目标对象对应的初始区域之后,对得到的初始区域进行预测回归,也能够得到与疑似为文本的目标对象的方向匹配的候选区域。具体地,请结合参阅图2,图2是原始图像一实施例的示意图,如图2所示,虚线框是检测得到的初始区域,箭头方向是回归方向,实线框是经过预测回归之后输出的候选区域,在一个具体的实施场景中,初始区域可以表示为b0=(x0,y0,w0,h0),其中,(x0,y0)表示初始区域的中心,w0表示初始区域的宽,h0表示初始区域的高,则采用初始区域可以用其四个角点的坐标表示为其中各个参数之间的关系可以用下式表示:
此外,在对得到的初始区域进行预测回归时,文本检测模型还能得到预测回归信息,对于上述采用四个角点进行表示的情况,预测回归信息可以表示为(Δx,Δy,Δw,Δh,Δx1,Δy1,Δx2,Δy2,Δx3,Δy3,Δx4,Δy4,c),其中,c表示置信度,最终输出的候选区域中各个参数可以采用下式进行计算得到:
此外,除了采用四个角点坐标的表达方式,还可以采用左上点、右上点和旋转矩形的高这种表达方式,并最终根据预测回归信息计算得到候选区域左上点、右上点和旋转矩形的高,从而确定得到候选区域,具体计算过程在此不再赘述。
步骤S13:剔除候选区域中超出原始图像的图像边界的部分。
如图2所示,检测得到的候选区域,特别是靠近于图像边界的候选区域,极易发生超出图像边界的情况,为了给后续基于候选区域的分析提供准确的数据基础,本实施例中,将候选区域中超出图像边界的部分剔除。具体地,请结合参阅图3,图3是剔除候选区域超出原始图像的图像边界的部分一实施例的示意图,如图3所述,候选区域abcd超出原始图像的上边界,则可以求取ab和bc与上边界的交点,并将超出部分裁剪,剩余aefcd部分。当候选区域超出原始图像的其他图像边界时,可以以此类推,本实施例在此不再一一举例。
步骤S14:对剔除之后的候选区域进行分析,确定待检测场景中与文本相关的目标区域。
本实施例中,对于剔除之后的候选区域的分析,可以是基于纹理的分析算法,具体地,可以在多个尺度上对剔除之后的候选区域的图像数据进行扫描,然后利用诸如:高密度的边缘、灰度变化、波形分布等文本特性来对像素点进行分类;或者,还可以是基于区域的分析算法,具体地,可以利用像素存在着相似性的特性(如颜色)来组织像素成连通域,然后利用几何或者纹理信息来排除那些不可能是文本的连通域;或者,还可以是基于笔画宽度变换的分析算法,具体地,可以首先计算剔除之后的候选区域的图像数据的canny边缘,然后根据边缘的方向信息计算图像的笔画宽度,根据笔画宽度信息将像素聚集成连通域,利用几何推理(如连通域的高宽比、连通域笔画的方差、均值、中值等)来过滤连通域,从而确定待检测场景中与文本相关的目标区域。
上述方案,通过获取摄像器件对待检测场景拍摄得到的原始图像,并利用文本检测模型检测原始图像,得到候选区域,并剔除候选区域中超出原始图像的图像边界的部分,从而对剔除之后的候选区域进行分析,确定待检测场景中与文本相关的目标区域,进而能够纠正所检测到的候选区域,特别是靠近图像边界的候选区域可能存在的越界问题,能够为后续的分析提供准确的基础,有利于提高文本检测的准确性。
请参阅图4,图4是图1中步骤S14一实施例的流程示意图。具体地,可以包括如下步骤:
步骤S41:采用非极大值抑制方式对剔除之后的候选区域进行筛选。
在实际应用过程中,对原始图像进行检测,并进行剔除处理之后而得到的候选区域可能不止1个,此时为了获得与疑似为文本的目标对象最匹配的候选区域,以提高文本检测的准确性,还可以采用非极大值抑制方式(Non-Maximum Suppression,NMS)对剔除之后的候选区域进行筛选。
举例来说,原始图像中存在2个疑似为文本的目标对象,本实施例中,分别称之为目标对象A和目标对象B,且目标对象A对应有剔除之后的候选区域01、候选区域02、候选区域03,目标对象B对应有剔除之后的候选区域04、候选区域05,筛选时,在上述剔除之后的候选区域中选择置信度最高的候选区域,例如,置信度最高的候选区域为候选区域01,再分别判断剔除之后的候选区域02、候选区域03、候选区域04、候选区域05与剔除之后的候选区域01的重叠率IoU(Intersection-over-Union,交并比)是否大于一个预设阈值,若是,则将对应的候选区域剔除,并保留、标记候选区域,本实施例中,由于剔除之后的候选区域02。候选区域03和剔除之后的候选区域01均是对应于目标对象A的候选区域,故重叠率大概率会大于上述预设阈值,假设两者的重叠率大于上述预设阈值,则可以将候选区域02和候选区域03剔除,并保留、标记候选区域01,此时还剩下候选区域04和候选区域05,则从其中选取置信度最高的候选区域,例如,两者中置信度最高的候选区域为候选区域04,则再判断剔除之后的候选区域05与剔除之后的候选区域04的重叠率是否大于预设阈值,若是,则剔除候选区域05,并保留、标记候选区域04,从而最终能够保留分别与目标对象A对应的候选区域01,以及与目标对象B对应的候选区域04。
步骤S42:将筛选得到的候选区域作为疑似包含文本的目标区域。
将筛选得到的候选区域作为疑似包含文本的目标区域,从而能够保留分别与疑似为文本的目标对象对应的目标区域。
区别于前述实施例,采用非极大值抑制方式对剔除之后的候选区域进行筛选,从而能够更加准确地对候选区域进行筛选,从而能够准确地对文本,特别是靠近图像边界的文本进行检测。
请参阅图5,图5是图1中步骤S14另一实施例的流程示意图。具体地,可以包括如下步骤:
步骤S51:采用非极大值抑制方式对剔除之后的候选区域进行筛选。
具体请参阅上述实施例中的步骤S41。
步骤S52:将筛选得到的候选区域作为疑似包含文本的目标区域。
具体请参阅上述实施例中的步骤S42。
步骤S53:采用最大稳定极值区域方式在目标区域各像素点中进行筛选,得到目标像素点。
在实际应用过程中,目标区域中除了疑似为文本的目标对象之外,还可能包含诸如花纹、纹理等与文本无关的对象,本实施例中,采用最大稳定极值区域方式在目标区域各像素点中进行筛选,从而得到目标像素点,本实施例中的目标像素点是大概率与文本有关的像素点。
在一个具体的实施场景中,在采用最大稳定极值区域方式在目标区域各像素点中进行筛选之前,还可以对目标区域的图像数据进行灰度处理,从而得到与目标区域的图像数据对应的灰度图像。具体地,可以对上述灰度图像(灰度值为0~255)取阈值进行二值化处理,阈值从0到255依次递增,阈值递增过程中,有些连通区域面积随着阈值上升变化很小,这种区域就是最大稳定极值区域,请参阅下式:
其中,Qi表示第i个连通域的面积,Δ表示微小的阈值变化。
当vi小于预设阈值时,则可以认为第i个连通域为最大稳定极值区域,连通域中的像素点也就是本实施例中的目标像素点。
步骤S54:基于筛选得到的目标像素点,更新疑似包含文本的目标区域。
具体地,可以获取筛选得到的目标像素点的最小外接矩形,并将最小外接矩形更新为目标区域,从而能够将与目标对象无关的像素点滤除,进而提高文本检测的准确性。
区别于前述实施例,通过采用非极大值抑制而筛选得到的候选区域作为疑似包含文本的目标区域之后,进一步采用最大稳定极值区域方式在目标区域各像素点中进行筛选,得到目标像素点,并基于筛选得到的目标像素点,更新疑似包含文本的目标区域,能够减少对花纹和纹理等的误检,提高文本检测的准确性。
请参阅图6,图6是图1中步骤S14又一实施例的流程示意图。具体地,可以包括如下步骤:
步骤S61:采用非极大值抑制方式对剔除之后的候选区域进行筛选。
具体请参阅上述实施例中的步骤S41。
步骤S62:将筛选得到的候选区域作为疑似包含文本的目标区域。
具体请参阅上述实施例中的步骤S42。
步骤S63:采用最大稳定极值区域方式在目标区域各像素点中进行筛选,得到目标像素点。
具体请参阅上述实施例中的步骤S53。
步骤S64:基于筛选得到的目标像素点,更新疑似包含文本的目标区域。
具体请参阅上述实施例中的步骤S54。
步骤S65:统计更新之后的目标区域中所有像素点的梯度值。
具体地,可以利用sobel卷积因子对更新之后的目标区域的图像数据进行卷积处理,得到更新之后的目标区域中所有像素点的梯度值。
步骤S66:基于统计得到的梯度值,确定更新之后的目标区域中是否包含文本。
具体地,筛选更新之后的目标区域中梯度值大于第一预设阈值的像素点,并判断筛选得到的像素点的梯度值的均值是否大于第二预设阈值,若是,则确定更新之后的目标区域中包含文本,否则可以确定更新之后的目标区域中不包含文本。本实施例中,第一预设阈值和第二预设阈值可以根据具体情况而进行设置,在此不做具体限制。
区别于前述实施例,在更新目标区域之后,进一步统计更新之后的目标区域中所有像素点的梯度值,并基于统计得到的梯度值,确定更新之后的目标区域中是否包含文本,能够进一步对包含纹理和花纹的区域进行排除,从而进一步减少对花纹和纹理等非文本对象的误检,进而提高文本检测的准确性。
请参阅图7,图7是本申请文本检测装置70一实施例的框架示意图。文本检测装置70包括图像获取模块71、文本检测模块72、越界剔除模块73和图像分析模块74,图像获取模块71用于获取摄像器件对待检测场景拍摄得到的原始图像,文本检测模块72用于利用文本检测模型检测原始图像,得到候选区域,越界剔除模块73用于剔除候选区域中超出原始图像的图像边界的部分,图像分析模块74用于对剔除之后的候选区域进行分析,确定待检测场景中与文本相关的目标区域。
上述方案,通过获取摄像器件对待检测场景拍摄得到的原始图像,并利用文本检测模型检测原始图像,得到候选区域,且剔除候选区域中超出原始图像的图像边界的部分,从而对剔除之后的候选区域进行分析,确定待检测场景中与文本相关的目标区域,进而能够纠正所检测到的候选区域,特别是靠近图像边界的候选区域可能存在的越界问题,能够为后续的分析提供准确的基础,有利于提高文本检测的准确性。
在一些实施例中,图像分析模块74包括第一筛选子模块,用于采用非极大值抑制方式对剔除之后的候选区域进行筛选,图像分析模块74还包括第一更新子模块,用于将筛选得到的候选区域作为疑似包含文本的目标区域。
区别于前述实施例,采用非极大值抑制方式对剔除之后的候选区域进行筛选,从而能够更加准确地对候选区域进行筛选,从而能够准确地对文本,特别是靠近图像边界的文本进行检测。
在一些实施例中,图像分析模块74还包括第二筛选子模块,用于采用最大稳定极值区域方式在目标区域各像素点中进行筛选,得到目标像素点,图像分析模块74还包括第二更新子模块,用于基于筛选得到的目标像素点,更新疑似包含文本的目标区域。
区别于前述实施例,通过采用非极大值抑制而筛选得到的候选区域作为疑似包含文本的目标区域之后,进一步采用最大稳定极值区域方式在目标区域各像素点中进行筛选,得到目标像素点,并基于筛选得到的目标像素点,更新疑似包含文本的目标区域,能够减少对花纹和纹理等的误检,提高文本检测的准确性。
在一些实施例中,第二更新子模块具体用于获取筛选得到的目标像素点的最小外接矩形,并将最小外接矩形更新为目标区域。
在一些实施例中,图像分析模块74还包括梯度统计子模块,用于统计更新之后的目标区域中所有像素点的梯度值,图像分析模块74还包括确定子模块,用于基于统计得到的梯度值,确定更新之后的目标区域中是否包含文本。
区别于前述实施例,在更新目标区域之后,进一步统计更新之后的目标区域中所有像素点的梯度值,并基于统计得到的梯度值,确定更新之后的目标区域中是否包含文本,能够进一步对包含纹理和花纹的区域进行排除,从而进一步减少对花纹和纹理等非文本对象的误检,进而提高文本检测的准确性。
在一些实施例中,确定子模块包括像素筛选单元,用于筛选更新之后的目标区域中梯度值大于第一预设阈值的像素点,确定子模块还包括梯度判断单元,用于判断筛选得到的像素点的梯度值的均值是否大于第二预设阈值,梯度判断单元还用于在判断筛选得到的像素点的梯度值的均值大于第二预设阈值时,确定更新之后的目标区域中包含文本,梯度判断单元还用于在判断筛选得到的像素点的梯度值的均值不大于第二预设阈值时,确定更新之后的目标区域中不包含文本。
在一些实施例中,梯度统计子模块具体用于利用sobel卷积因子对更新之后的目标区域的图像数据进行卷积处理,得到更新之后的目标区域中所有像素点的梯度值。
请参阅图8,图8是本申请文本检测装置80一实施例的框架示意图。文本检测装置80包括相互耦接的存储器81和处理器82,处理器82用于执行存储器81存储的程序指令,以实现上述任一文本检测方法实施例中的步骤。
具体而言,处理器82用于控制其自身以及存储器81以实现上述任一文本检测方法实施例中的步骤。处理器82还可以称为CPU(Central Processing Unit,中央处理单元)。处理器82可能是一种集成电路芯片,具有信号的处理能力。处理器82还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器82可以由多个集成电路芯片共同实现。
本实施例中,处理器82用于获取摄像器件对待检测场景拍摄得到的原始图像,处理器82还用于利用文本检测模型检测原始图像,得到候选区域,处理器82还用于剔除候选区域中超出原始图像的图像边界的部分,处理器82还用于对剔除之后的候选区域进行分析,确定待检测场景中与文本相关的目标区域。
上述方案,通过获取摄像器件对待检测场景拍摄得到的原始图像,并利用文本检测模型检测原始图像,得到候选区域,且剔除候选区域中超出原始图像的图像边界的部分,从而对剔除之后的候选区域进行分析,确定待检测场景中与文本相关的目标区域,进而能够纠正所检测到的候选区域,特别是靠近图像边界的候选区域可能存在的越界问题,能够为后续的分析提供准确的基础,有利于提高文本检测的准确性。
在一些实施例中,处理器82用于采用非极大值抑制方式对剔除之后的候选区域进行筛选,处理器82用于将筛选得到的候选区域作为疑似包含文本的目标区域。
区别于前述实施例,采用非极大值抑制方式对剔除之后的候选区域进行筛选,从而能够更加准确地对候选区域进行筛选,从而能够准确地对文本,特别是靠近图像边界的文本进行检测。
在一些实施例中,处理器82还用于采用最大稳定极值区域方式在目标区域各像素点中进行筛选,得到目标像素点,处理器82还用于基于筛选得到的目标像素点,更新疑似包含文本的目标区域。
区别于前述实施例,通过采用非极大值抑制而筛选得到的候选区域作为疑似包含文本的目标区域之后,进一步采用最大稳定极值区域方式在目标区域各像素点中进行筛选,得到目标像素点,并基于筛选得到的目标像素点,更新疑似包含文本的目标区域,能够减少对花纹和纹理等的误检,提高文本检测的准确性。
在一些实施例中,处理器82还用于获取筛选得到的目标像素点的最小外接矩形,处理器82还用于将最小外接矩形更新为目标区域。
在一些实施例中,处理器82还用于统计更新之后的目标区域中所有像素点的梯度值,处理器82还用于基于统计得到的梯度值,确定更新之后的目标区域中是否包含文本。
区别于前述实施例,在更新目标区域之后,进一步统计更新之后的目标区域中所有像素点的梯度值,并基于统计得到的梯度值,确定更新之后的目标区域中是否包含文本,能够进一步对包含纹理和花纹的区域进行排除,从而进一步减少对花纹和纹理等非文本对象的误检,进而提高文本检测的准确性。
在一些实施例中,处理器82还用于筛选更新之后的目标区域中梯度值大于第一预设阈值的像素点,处理器82还用于判断筛选得到的像素点的梯度值的均值是否大于第二预设阈值,处理器82还用于在判断筛选得到的像素点的梯度值的均值大于第二预设阈值时,确定更新之后的目标区域中包含文本,处理器82还用于在判断筛选得到的像素点的梯度值的均值不大于第二预设阈值时,确定更新之后的目标区域中不包含文本。
在一些实施例中,处理器82还用于利用sobel卷积因子对更新之后的目标区域的图像数据进行卷积处理,得到更新之后的目标区域中所有像素点的梯度值。
在一些实施例中,文本检测装置80还包括摄像器件,用于对待检测场景拍摄得到的原始图像。
请参阅图9,图9为本申请存储装置90一实施例的框架示意图。存储装置90存储有能够被处理器运行的程序指令901,程序指令901用于实现上述任一文本检测方法实施例中的步骤。
上述方案,通过获取摄像器件对待检测场景拍摄得到的原始图像,并利用文本检测模型检测原始图像,得到候选区域,且剔除候选区域中超出原始图像的图像边界的部分,从而对剔除之后的候选区域进行分析,确定待检测场景中与文本相关的目标区域,进而能够纠正所检测到的候选区域,特别是靠近图像边界的候选区域可能存在的越界问题,能够为后续的分析提供准确的基础,有利于提高文本检测的准确性。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种文本检测方法,其特征在于,包括:
获取摄像器件对待检测场景拍摄得到的原始图像;
利用文本检测模型检测所述原始图像,得到包含疑似为文本的初始区域;
对所述初始区域进行预测回归,得到与文本方向匹配的候选区域;
剔除所述候选区域中超出所述原始图像的图像边界的部分;
对剔除之后的候选区域进行分析,确定所述待检测场景中与文本相关的目标区域;
其中,所述对剔除之后的候选区域进行分析,确定所述待检测场景中与文本相关的目标区域包括:
计算剔除之后的候选区域的图像数据的canny边缘;
根据所述边缘的方向信息计算图像的笔画宽度;
根据所述笔画宽度将像素聚集成连通域,利用几何推理过滤连通域,确定待检测场景中与文本相关的目标区域。
2.根据权利要求1所述的文本检测方法,其特征在于,所述对剔除之后的候选区域进行分析,确定所述待检测场景中与文本相关的目标区域还包括:
采用非极大值抑制方式对剔除之后的候选区域进行筛选;
将筛选得到的候选区域作为疑似包含文本的目标区域。
3.根据权利要求2所述的文本检测方法,其特征在于,所述将筛选得到的候选区域作为疑似包含文本的目标区域之后,所述方法还包括:
采用最大稳定极值区域方式在所述目标区域各像素点中进行筛选,得到目标像素点;
基于筛选得到的目标像素点,更新疑似包含文本的目标区域。
4.根据权利要求3所述的文本检测方法,其特征在于,所述基于筛选得到的目标像素点,更新疑似包含文本的目标区域包括:
获取筛选得到的目标像素点的最小外接矩形;
将所述最小外接矩形更新为所述目标区域。
5.根据权利要求3所述的文本检测方法,其特征在于,所述基于筛选得到的目标像素点,更新疑似包含文本的目标区域之后,所述方法还包括:
统计更新之后的目标区域中所有像素点的梯度值;
基于统计得到的梯度值,确定更新之后的目标区域中是否包含文本。
6.根据权利要求5所述的文本检测方法,其特征在于,所述基于统计得到的梯度值,确定更新之后的目标区域中是否包含文本包括:
筛选更新之后的目标区域中梯度值大于第一预设阈值的像素点;
若筛选得到的像素点的梯度值的均值大于第二预设阈值,则确定更新之后的目标区域中包含文本;
若筛选得到的像素点的梯度值的均值不大于所述第二预设阈值,则确定更新之后的目标区域中不包含文本。
7.根据权利要求5所述的文本检测方法,其特征在于,所述统计更新之后的目标区域中所有像素点的梯度值包括:
利用sobel卷积因子对更新之后的目标区域的图像数据进行卷积处理,得到更新之后的目标区域中所有像素点的梯度值。
8.一种文本检测装置,其特征在于,包括相互耦接的存储器和处理器;
所述处理器用于执行所述存储器存储的程序指令,以实现权利要求1至7任一项所述的文本检测方法。
9.根据权利要求8所述的文本检测装置,其特征在于,所述文本检测装置还包括摄像器件,用于对待检测场景拍摄得到的原始图像。
10.一种存储装置,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至7任一项所述的文本检测方法。
CN201911084168.4A 2019-11-07 2019-11-07 文本检测方法以及相关装置 Active CN111027560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911084168.4A CN111027560B (zh) 2019-11-07 2019-11-07 文本检测方法以及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911084168.4A CN111027560B (zh) 2019-11-07 2019-11-07 文本检测方法以及相关装置

Publications (2)

Publication Number Publication Date
CN111027560A CN111027560A (zh) 2020-04-17
CN111027560B true CN111027560B (zh) 2023-09-29

Family

ID=70201169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911084168.4A Active CN111027560B (zh) 2019-11-07 2019-11-07 文本检测方法以及相关装置

Country Status (1)

Country Link
CN (1) CN111027560B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191293B (zh) * 2021-05-11 2023-04-07 创新奇智(重庆)科技有限公司 广告检测方法、装置、电子设备、系统及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6466340B1 (en) * 1998-03-02 2002-10-15 Konica Corporation Image reading apparatus
CN102201053A (zh) * 2010-12-10 2011-09-28 上海合合信息科技发展有限公司 一种文本图像的切边方法
CN102842119A (zh) * 2012-08-18 2012-12-26 湖南大学 一种基于抠像和边缘增强的快速文本图像超分辨率方法
US8731297B1 (en) * 2007-09-28 2014-05-20 Amazon Technologies, Inc. Processing a digital image of content to remove border artifacts
CN105868758A (zh) * 2015-01-21 2016-08-17 阿里巴巴集团控股有限公司 图像中文本区域检测方法、装置及电子设备
CN110363785A (zh) * 2019-07-15 2019-10-22 腾讯科技(深圳)有限公司 一种文本超框检测方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04154368A (ja) * 1990-10-18 1992-05-27 Fujitsu Ltd 文書画像の領域分割方式
US20030198386A1 (en) * 2002-04-19 2003-10-23 Huitao Luo System and method for identifying and extracting character strings from captured image data
US20090086275A1 (en) * 2007-09-28 2009-04-02 Jian Liang Processing a digital image of content
AU2008229847A1 (en) * 2008-10-09 2010-04-29 Canon Kabushiki Kaisha Automated image cropping
KR101023389B1 (ko) * 2009-02-23 2011-03-18 삼성전자주식회사 문자 인식 성능을 향상시키기 위한 장치 및 방법
CN102254171A (zh) * 2011-07-13 2011-11-23 北京大学 一种基于文本边界的中文文档图像畸变校正方法
US8837830B2 (en) * 2012-06-12 2014-09-16 Xerox Corporation Finding text in natural scenes
CN105005764B (zh) * 2015-06-29 2018-02-13 东南大学 自然场景多方向文本检测方法
CN107220579B (zh) * 2016-03-21 2020-02-04 杭州海康威视数字技术股份有限公司 一种车牌检测方法及装置
CN108171104B (zh) * 2016-12-08 2022-05-10 腾讯科技(深圳)有限公司 一种文字检测方法及装置
CN108470172B (zh) * 2017-02-23 2021-06-11 阿里巴巴集团控股有限公司 一种文本信息识别方法及装置
KR101831204B1 (ko) * 2017-04-11 2018-02-22 주식회사 한글과컴퓨터 문서 영역 분할 방법 및 장치
RU2680765C1 (ru) * 2017-12-22 2019-02-26 Общество с ограниченной ответственностью "Аби Продакшн" Автоматизированное определение и обрезка неоднозначного контура документа на изображении
CN108304835B (zh) * 2018-01-30 2019-12-06 百度在线网络技术(北京)有限公司 文字检测方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6466340B1 (en) * 1998-03-02 2002-10-15 Konica Corporation Image reading apparatus
US8731297B1 (en) * 2007-09-28 2014-05-20 Amazon Technologies, Inc. Processing a digital image of content to remove border artifacts
CN102201053A (zh) * 2010-12-10 2011-09-28 上海合合信息科技发展有限公司 一种文本图像的切边方法
CN102842119A (zh) * 2012-08-18 2012-12-26 湖南大学 一种基于抠像和边缘增强的快速文本图像超分辨率方法
CN105868758A (zh) * 2015-01-21 2016-08-17 阿里巴巴集团控股有限公司 图像中文本区域检测方法、装置及电子设备
CN110363785A (zh) * 2019-07-15 2019-10-22 腾讯科技(深圳)有限公司 一种文本超框检测方法及装置

Also Published As

Publication number Publication date
CN111027560A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
Bianco et al. On the use of deep learning for blind image quality assessment
US8340420B2 (en) Method for recognizing objects in images
WO2022088620A1 (zh) 相机镜头的状态检测方法、装置、设备及存储介质
CN111723644A (zh) 一种监控视频遮挡检测方法及系统
CN111210399B (zh) 一种成像质量评价方法、装置及设备
CN110415208A (zh) 一种自适应目标检测方法及其装置、设备、存储介质
CN113449606B (zh) 一种目标对象识别方法、装置、计算机设备及存储介质
CN111767822B (zh) 垃圾检测方法以及相关设备、装置
CN112149476B (zh) 目标检测方法、装置、设备和存储介质
CN111144337B (zh) 火灾检测方法、装置及终端设备
CN113658192A (zh) 一种多目标行人的轨迹获取方法、系统、装置及介质
CN113780110A (zh) 一种图像序列中弱小目标实时检测方法及设备
WO2024016632A1 (zh) 亮点定位方法、亮点定位装置、电子设备及存储介质
CN114973057B (zh) 基于人工智能的视频图像检测方法及相关设备
CN111027560B (zh) 文本检测方法以及相关装置
WO2023019793A1 (zh) 一种确定方法、清洁机器人和计算机存储介质
CN114724119A (zh) 车道线提取方法、检测设备及存储介质
CN106778822B (zh) 基于漏斗变换的图像直线检测方法
CN110276260B (zh) 一种基于深度摄像头的商品检测方法
CN101567088B (zh) 一种运动物体检测的方法和装置
CN111797832A (zh) 一种图像感兴趣区域自动生成方法及系统及图像处理方法
CN117576634A (zh) 基于密度检测的异常分析方法、设备以及存储介质
CN112785550B (zh) 图像质量值确定方法、装置、存储介质及电子装置
CN116863458A (zh) 车牌识别方法、装置、系统及存储介质
CN111695374A (zh) 监控视角中斑马线区域的分割方法、系统、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant