[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN108549893B - 一种任意形状的场景文本端到端识别方法 - Google Patents

一种任意形状的场景文本端到端识别方法 Download PDF

Info

Publication number
CN108549893B
CN108549893B CN201810294058.XA CN201810294058A CN108549893B CN 108549893 B CN108549893 B CN 108549893B CN 201810294058 A CN201810294058 A CN 201810294058A CN 108549893 B CN108549893 B CN 108549893B
Authority
CN
China
Prior art keywords
text
network
character
region
rcnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810294058.XA
Other languages
English (en)
Other versions
CN108549893A (zh
Inventor
白翔
吕鹏原
廖明辉
姚聪
储佳佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201810294058.XA priority Critical patent/CN108549893B/zh
Publication of CN108549893A publication Critical patent/CN108549893A/zh
Priority to PCT/CN2019/080354 priority patent/WO2019192397A1/zh
Application granted granted Critical
Publication of CN108549893B publication Critical patent/CN108549893B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种任意形状的场景文本端到端识别方法,通过特征金字塔网络提取文本特征,用于区域提取网络生成候选文本框;然后通过快速区域分类回归分支调整候选文本框位置得到更准确的文本包围盒位置信息;其次将包围盒位置信息输入分割分支,通过像素投票算法得到预测字符序列;最后通过加权编辑距离算法对预测的字符序列进行处理,找到给定词典中预测序列的最匹配单词得到最终的文本识别结果。该方法可以同时检测和识别自然图像中任意形状的场景文本,包括水平文本、多方向文本和曲形文本,并且可以完全地进行端到端训练。本发明提出的检测识别方法相对于现有技术在准确度和通用性这些方面都取得了卓越的效果,有很强的实际应用价值。

Description

一种任意形状的场景文本端到端识别方法
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种任意形状的场景文本端到端识别方法。
背景技术
在计算机视觉领域中,场景文本检测和识别是一个非常活跃的、具有挑战性的研究方向,很多现实生活中的应用都和它息息相关,例如基于图片的地理定位、实时翻译和盲人帮助等。
场景文本检测和识别方法的目标为同时检测和识别来自自然场景的文本,即分为检测和识别两个任务。在过去的大多数研究中,文本检测和识别都是分开处理的,即第一步使用训练好的检测器检测自然场景图片中的文字区域,第二步则将第一步检测出的文字区域输入识别模块进行识别,获取文字内容。但由于这两个任务是高度相关和互补的,一方面,检测步骤的质量决定了识别的准确性;另一方面,识别的结果也可以为检测提供反馈。这样分开处理可能导致检测和识别无法达到最优性能。
最近,有两种方法提出了用于场景文本识别的端到端可训练框架。鉴于检测和识别之间的互补性,这些统一模型显著优于以前的方法。但是,这两种方法有两个主要缺点,首先,它们都不能完全以端对端的方式进行训练。其次,这些方法只能识别水平文本或定向文本,但实际场景图片中的文本的形状可能会存在显著变化,从水平或定向变为弯曲形式。因此需要设计一种可以处理任意形状的场景文本的端到端识别方法。
发明内容
本发明的目的在于提供一种任意形状的场景文本端到端识别方法,该识别方法由一个基于实例分割的文本检测器和一个基于字符分割的文本识别器组成。通过分割实例文本区域的方法实现检测任意形状的文本;通过二维空间中的语义分割来识别文本,实现识别不规则文本实例。该方法可以检测和识别任意形状的文本实例并可以完全地进行端到端训练。
为实现上述目的,本发明从一个全新的视角来解决场景文字检测识别问题,提供了一种任意形状的场景文本的端到端识别方法,包括下述步骤:
(1)训练任意形状的场景文本端到端识别网络模型,包括如下子步骤:
(1.1)对原始数据集中所有图片的多方向文本进行单词级别的标注,标签为单词级别的文本包围盒的多边形顺时针顶点坐标和文本的单词字符序列,得到带标注的标准训练数据集;
(1.2)定义任意形状的场景文本端到端识别网络模型,所述检测识别网络模型由特征金字塔结构网络,区域提取网络、快速区域分类回归分支网络,分割分支网络组成。根据(1.1)带标注的标准训练数据集,计算训练标签,并设计损失函数,利用反向传导方法训练该任意形状的场景文本端到端识别网络,得到任意形状的场景文本端到端识别网络模型;具体包括如下子步骤:
(1.2.1)构建任意形状的场景文本端到端识别网络模型,所述识别网络模型由特征金字塔结构网络、区域提取网络、快速区域分类回归分支网络和分割分支网络组成;其中,所述特征金字塔结构网络如图3所示,以ResNet-50深度卷积神经网络为基础网络,通过增加一个自底向上的连接,一个自顶向下的连接和一个横向连接组成,用于从输入标准数据集图片中提取融合不同分辨率的特征;将提取的不同尺度的特征输入到区域提取网络得到候选文本区域,经过感兴趣区域对齐操作后,得到固定尺度的候选文本区域,分别输入到快速区域分类回归分支和分割分支网络;将区域提取网络提取的分辨率为7×7的候选文本区域输入快速区域分类回归网络,通过分类分支预测输入的候选文本区域为正样本的概率,提供更准确的候选文本区域,通过回归分支计算候选文本区域相对于真实文本区域的偏移量,调整候选文本区域位置;分割分支网络如图4所示,由四个卷积层Conv1、Conv2、Conv3、Conv4、一个反卷积层DeConv和一个最终的卷积层Conv5构成,将区域提取网络提取的分辨率为16×64的候选文本区域输入分割分支,通过卷积与反卷积操作,最终生成38个分辨率为32×128的目标分割图层;其中包括1个全局文本实例分割图层用于预测文本区域的具体位置,36个字符分割图层和1个字符背景分割图层通过过像素投票算法得到预测字符序列。
(1.2.2)根据带标注的标准训练数据集和特征图在原图上产生水平初始包围盒,为所述识别网络模型中区域提取网络、快速区域分类回归分支网络和分割分支网络模块生成训练标签:对于带标注的标准训练数据集Itr,输入图片真实标签包含表示文本区域的多边形P={p1,p2…pm}和表示字符的类别和位置的字符标签C={c1=(cc1,cl1),c2=(cc2,cl2),…,cn=(ccn,cln)},对于输入图片Itri,其中,Pi是图片Itri中文本区域的多边形包围盒,pij=(xij,yij)是多边形Pi第j个顶点的坐标,m表示多边形文本标注框的数目,cck和clk分别是文本中第k个字符的类别和位置,在本发明中,C不是对于所有训练样本都是必需的。
对于所给的标准数据集Itr,首先将数据集标签中的多边形P={p1,p2…pm}转换为多边形文本标注框的最小水平矩形包围盒,以矩形的中心点(x,y)以及高度h和宽度w来表示该矩形包围盒Gd(x,y,h,w);对于区域提取网络,根据标注数据集的标注包围盒Gd(x,y,h,w),以特征金字塔输出的待提取特征图中的每张特征图上的每个像素对应到原图,根据区域提取网络预测的候选文本区域产生许多初始包围盒,计算初始包围盒Q0相对于标注数据集的标注包围盒Gd的位置偏移量和类别,当所有的标注包围盒Gd与初始包围盒Q0的Jaccard系数均小于0.5,那么,初始包围盒Q0被标记为负类非文本,类别标签Prpn取值为0;否则,即至少存在一个标注包围盒Gd与Q0的Jaccard系数不小于0.5,Q0被标记为正类文本,类别标签Prpn取值为1,并相对于Jaccard系数最大的标注盒来计算位置偏移量,公式如下:
x=x0+w0Δx
y=y0+h0Δy
w=w0exp(Δw)
h=h0exp(Δh)
其中,x0、y0分别为初始包围盒Q0的中心点的横坐标、纵坐标,w0、h0分别为初始包围盒Q0的宽度和高度,Δx、Δy分别为Q0的中心点相对于Gd的中心点的横、纵坐标位置偏移量,exp为指数运算,即可得区域提取网络的训练标签为:
gtrpn=(Δxrpn,Δyrpn,Δhrpn,Δwrpn,Prpn)
对于快速区域分类回归分支网络,同理,可计算得训练标签为:gtrcnn=(Δxrcnn,Δyrcnn,Δhrcnn,Δwrcnn,Prcnn)
对于分割分支网络,需生成两种类型的目标标签:用于文本实例分割的全局标签和用于字符语义分割的字符标签;对于给定的一个正候选文本框r,首先最佳匹配的水平矩形,进一步获得匹配的多边形以及字符框,接下来,将匹配的多边形和字符框进行移位和调整大小,以便将候选文本框r和预设高度为H以及预设宽度为W的目标标签按照以下公式进行对齐:
Figure BDA0001618307750000051
By=(By0-min(ry))×H/(max(ry))
其中,(rx,ry)为候选文本框r的顶点,(Bx,By)和(Bx0,By0)是多边形和所有字符框的更新顶点和原始顶点,具体地,rx分别为候选文本框r的所有顶点的横坐标的集合,ry为候选文本框r的所有顶点的纵坐标的集合,Bx,Bx0,By,By0同理,随后,通过在零初始化的掩膜上绘制标准多边形并将值填充为1生成目标全局标签Xg,对于字符标签,通过以中心为原点,缩小标准化字符框至原点框尺寸的八分之一,避免字符掩膜相互重叠,再通过在零初始化掩膜上绘制缩小的字符框并使用它们相应的类别索引填充来生成字符标签Xc,如果C不存在,则字符图层中的所有像素均设置为-1,并且在优化时将被忽略,最终得到分割分支整体标签gtmask=X,综合上述标签gtrpn,gtrcnn,gtmask,生成最终的训练标签为:
gt={Δxrpn,Δyrpn,Δhrpn,Δwrpn,Prpn,Δxrcnn,Δyrcnn
Δhrcnn,Δwrcnn,Prcnn,X};
(1.2.3)以标准训练数据集Itr作为识别网络模型的输入,利用特征金字塔网络模块提取特征:将标准训练数据集Itr中的图片输入特征金字塔网络自底向上的ResNet-50网络结构中,以网络中不改变特征图大小的卷积层单元定义为一个层级,即层级{P2,P3,P4,P5,P6},提取出每个层级的最后输出的卷积特征F;特征金字塔网络模块中自顶向下的连接对ResNet-50的输出卷积特征进行上采样生成多尺度上采样特征,特征金字塔网络模块中横向连接结构将自顶向下过程上采样的每个层级的特征和自底向上过程生成的特征进行融合生成最终的特征{F2,F3,F4,F5,F6},过程如图3所示。
(1.2.4)将特征金字塔网络提取的特征输入区域提取网络,经过锚点分配,利用感兴趣区域对齐方法调整特征图,生成候选文本框:
对于输入图片Itrk,经过特征金字塔网络提取出5个阶段特征{F2,F3,F4,F5,F6},根据阶段{P2,P3,P4,P5,P6}定义锚在不同阶段特征尺度为{322,642,1282,2562,5122},而每个尺度层都有3个长宽比{1:2,1:1,2:1};即可提取出不同尺度和比例的15个特征图{Ftr1,Ftr2,…,Ftr15},记为Ftrp,下标p=1,…,15;
通过感兴趣区域对齐操作,对特征Ftrp生成固定尺度的候选文本区域,其中,为区域提取网络生成分辨率为7×7候选文本区域Rrcnn,为分割分支生成分辨率为16×64的候选文本区域Rmask;并通过分类预测每个候选文本框为正确文本区域包围盒的概率Prpn,通过回归预测候选文本框偏移量:
Yrpn=(Δxrpn,Δyrpn,Δhrpn,Δwrpn)。
(1.2.5)将区域提取网络生成的尺寸为(7*7)的候选文本区域Rrcnn输入快速区域分类回归分支网络模块,经过分类和回归两个分支,计算损失函数,并反向传导,最终生成预测文本包围盒:区域提取网络分为分类和回归两个网络分支,将大小为7×7的候选文本区域Rrcnn输入分类分支,通过卷积操作输出预测包围盒的分类得分Prcnn,即预测包围盒为正类文本框的概率,取值为[0,1]之间的小数;将Rrcnn输入回归分支,输出4个[0,1]之间的小数组成的预测回归偏移量Yrcnn=(Δxrcnn,Δyrcnn,Δhrcnn,Δwrcnn),作为预测包围盒Gq被预测为正类文本框时中心点的横坐标、纵坐标和文本框的高度和宽度相对于标注包围盒Gd中心点的横坐标、纵坐标和文本框的高度和宽度的预测位置偏移量。
(1.2.6)将区域提取网络生成的尺寸为(16*64)的候选文本区域Rmask输入分割分支网络模块,基于实例分割和语义分割操作生成38张目标分割图层:分割分支网络模块包括4个卷积层Conv1,Conv2,Conv3,Conv4,一个反卷积层DeConv,和一个最终卷积层Conv5;区域提取网络生成的尺寸为16×64的候选文本框Rmask输入分割分支模块,经过卷积、反卷积等操作最终生成尺度为32×128的38个目标分割图层{Mglobal,M1,M2,…,M36,Mbackground},输出图层中每个像素的像素值X,取值在[0,1]之间。输出图层中全局分割图层Mglobal可直接预测出文本区域多边形Pm={pm1,pm2…pmn},字符分割图层{M1,M2,…,M36}和字符背景分割图层Mbackground可根据像素投票算法来预测字符序列Sq
(1.2.7)以训练标签gt为网络期望输出,以预测标签
Figure BDA0001618307750000081
为网络预测输出,针对构建的网络模型,设计期望输出和预测输出之间的目标损失函数:以步骤(1.2.2)中计算得到的训练标签gt为网络期望输出,以步骤(1.2.4)(1.2.5)和(1.2.6)中的预测标签
Figure BDA0001618307750000082
Figure BDA0001618307750000083
为网络预测输出,针对(1.2.1)构建的网络模型,设计期望输出和预测输出之间的目标损失函数,整体目标损失函数由区域提取网络、快速区域分类回归分支网络、分割分支网络损失函数共同组成,整体目标损失函数表达式如下:
L(Prpn,Yrpn,Prcnn,Yrcnn,X)=Lrpn(Prpn,Yrpn)+α1Lrcnn(Prcnn,Yrcnn)+α2Lmask(X)
其中,Lrpn(Prpn,Yrpn)为区域提取网络的损失函数,Lrcnn(Prcnn,Yrcnn)为快速区域分类回归分支网络的损失函数,Lmask(X)为分割分支网络的损失函数。α1,α2分别为损失函数Lrcnn和Lmask的权重系数,简单设置为1;
根据设计的整体目标损失函数,利用反向传播算法对模型进行迭代训练,最小化整体目标损失函数,实现最优网络模型,针对场景文字检测识别任务,在训练过程中首先使用合成文本数据集(SynthText)上迭代训练,得到初始的网络参数;然后在真实数据集上进行训练微调网络参数。
利用上述训练好的模型对待识别文本图片进行文字识别,包括如下子步骤:
(2.1)将待检测识别场景文本图片提取特征输入快速区域分类回归分支网络生成候选文本区域,并对其进行非最大值抑制操作进行过滤,得到更准确的候选文本区域:对于待检测数据集Itst里的第k张图片Itstk,将其输入到步骤(1.2)训练好的模型中,经过特征金字塔网络和区域提取网络后生成初始包围盒再输入快速区域分类回归分支网络,对每个初始包围盒Gq,分类分支会输出由分类得分预测值Prcnn,作为初始包围盒Gq被预测为正类样本的得分;回归分支会输出由4个小数组成的预测回归偏移量Yrcnn(Δxrcnn,Δyrcnn,Δhrcnn,Δwrcnn),作为Gq被预测为正类文本框时中心点横坐标、纵坐标和高度和宽度相对于标注包围盒Gd中心点横坐标、纵坐标和高度和宽度的位置偏移量,根据位置偏移量可以计算网络预测到的四边形文本包围盒位置Qz
对预测的文本包围盒Qz进行非最大值抑制操作进行过滤,得到输出结果:网络模型对特征图Ftstp上每个预测为正类文本的初始包围盒Q0都会回归出水平四边形位置,同一张测试图片Itstk上每个特征图上回归出的正类文本四边形通常会出现彼此重叠的情况,这时就要对所有正类文本四边形位置做非最大值抑制操作,具体步骤是:1)对预测到的的文本包围盒,当且仅当文本分类得分Prcnn≥0.5时,该检测文本框才被保留;2)对上一步保留的文本框,按照Jaccard系数0.2进行非最大值抑制操作(NMS),得到最后保留的正类文本四边形包围盒。
(2.2)将预测的候选文本区域输入分割分支网络进行文本实例分割和字符分割,分别生成全局文本实例分割掩膜和字符分割掩膜,通过计算全局文本实例分割掩膜上文本区域的轮廓,获得多边形单词文本区域,通过在字符分割掩膜利用像素投票算法预测得到字符序列:将预测的四边形文本包围盒位置Qz输入分割分支生成38个目标分割图层,首先通过全局文本实例分割掩膜,直接计算文本区域的轮廓,获得文本区域的多边形。其次,利用像素投票算法生成字符序列Sq
对于36个字符分割图层{M1,M2,…,M36},第i个分割图层上一个像素的值pci(x,y)代表着全局文本分割图层对应位置像素pg(x,y)是字符zi的概率,zi为36个字符{0,1,...,9,a,b,...,z}中的第i个,且36个字符分割图层对应像素位置的概率和为1,即
Figure BDA0001618307750000101
对于字符背景分割图层Mbackground,首先对其进行二值化处理,然后在二值化的背景图上定义背景图层上的字符区域集合为R={r1,r2,,…,rn}其中,ri为字符背景分割图层上第i个字符区域,n为背景分割图层上所有的字符数目;
像素投票算法过程如下:首先,将36张字符分割图层中与字符背景分割图层中的字符区域ri应连通区域集合定义为Ci={ci1,ci2,…,ci36}其中,cij为第j个字符分割图层中与字符背景分割图层第i个字符区域相对应的区域块,则对于区域ri以及对应连通区域Ci,利用像素投票算法求其预测字符步骤为:首先,计算对连接区域Ci内cij所有像素的值求平均值,其次,求出具有最大平均值的那个cij_max所在的字符图层Mj_max对应的字符类别zj_max则为这个字符区域的预测字符,最后,对字符背景分割图层中每个的字符区域ri进行如上操作,得到最终的预测字符序列Sq
(2.3)通过加权编辑距离算法对分割分支预测的字符序列进行处理,找到给定词典中预测序列的最匹配单词,得到最终识别结果:在像素投票阶段,可以获得预测序列中每个字符区域的所有字符类别的概率,根据概率为删除、插入、替换操作定义不同的权重。对于删除操作,成本是字符被预测为当前被删除字符的概率;对于插入操作,成本是与字符插入位置相邻的两个字符的平均概率;对于替换操作,计算成本为:max(1-s1/s2,0),其中s1和s2是候选字符和要替换的预测字符的概率。通过加权编辑距离算法对预测的字符串根据所给字典进行回归,对删除、插入、替换定义不同的权重,对预测的单词进行调整,提高准确率,得到最终的识别结果。
通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下技术效果:
(1)准确度高:该发明针对场景文本中任意形状的文本识别问题,创新性地利用实例分割来检测文本,语义分割识别文本,更精确地检测文本位置和识别文本。
(2)速度快:该发明提出的检测识别模型在保证检测和识别精度的同时,训练速度较快。
(3)通用性强:该发明一个端到端的可训练文本检测识别模型,不仅可以同时检测和识别文本,实现完全端到端训练,还能处理各种形状的文本,包括水平,定向和曲线文本;
(4)鲁棒性强:本发明可以克服文本尺度和形状的变化,能同时检测识别水平,定向和曲线文本。
附图说明
图1是本发明一种任意形状的场景文本端到端识别方法的流程图,其中,实线箭头表示训练,虚线箭头表示测试;
图2是本发明任意形状的场景文本端到端识别网络模型图;
图3是本发明任意形状的场景文本端到端识别模型中特征金字塔结构模块的网络结构示意图;
图4是本发明任意形状的场景文本端到端识别模型中分割分支网络结构图;
图5是本发明测试部分像素投票算法示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
以下首先就本发明的技术术语进行解释和说明:
ResNet-50:一种可用于分类的神经网络,该网络主要由50层卷积层、池化层、shortcut连接层组成。卷积层用于提取图片特征;池化层的作用是降低卷积层输出的特征向量的维度,减少过拟合;shortcut连接层用于传递梯度解决消失和爆炸梯度问题。网络参数可以通过反向传导算法,进行更新;
区域提取网络:一种用于生成候选文本区域的网络,通过使用一个滑动窗口在提取特征图上生成高度为特定维度的全连接特征,并据此生成两个全连接分支分类和回归候选文本区域,最终根据不同的锚点和比例为后续网络生成不同尺度比例的候选文本区域。
Jaccard系数:Jaccard系数用于比较有限样本集之间的相似性与差异性,在文本检测领域,Jaccard系数被默认为等同于IOU,即两个框的相交面积/合并面积,描述模型产生的预测文本框和原来标注文本框的交叠率,IOU越大,重叠度越高,检测越准确。
非最大值抑制(NMS):非最大值抑制是一种在计算机视觉检测领域中被广泛应用的后处理算法,它按照设定的阈值,通过排序、遍历和剔除来循环迭代实现对重叠检测框的过滤,去掉冗余的检测框,得到最终的检测结果。
如图1所示,本发明任意形状的场景文本端到端识别方法包括以下步骤:
(1)训练任意形状的场景文本端到端识别网络模型,包括如下子步骤:
(1.1)对原始数据集中所有图片的多方向文本进行单词级别的标注,标签为单词级别的文本包围盒的多边形顺时针顶点坐标和文本的单词字符序列,得到带标注的标准训练数据集;
(1.2)定义任意形状的场景文本端到端识别网络模型,所述检测识别网络模型由特征金字塔结构网络,区域提取网络、快速区域分类回归分支网络,分割分支网络组成。根据(1.1)带标注的标准训练数据集,计算训练标签,并设计损失函数,利用反向传导方法训练该任意形状的场景文本端到端识别网络,得到任意形状的场景文本端到端识别网络模型;具体包括如下子步骤:
(1.2.1)构建任意形状的场景文本端到端识别网络模型,所述识别网络模型由特征金字塔结构网络、区域提取网络、快速区域分类回归分支网络和分割分支网络组成;其中,所述特征金字塔结构网络如图3所示,以ResNet-50深度卷积神经网络为基础网络,通过增加一个自底向上的连接,一个自顶向下的连接和一个横向连接组成,用于从输入标准数据集图片中提取融合不同分辨率的特征;将提取的不同尺度的特征输入到区域提取网络得到候选文本区域,经过感兴趣区域对齐操作后,得到固定尺度的候选文本区域,分别输入到快速区域分类回归分支和分割分支网络;将区域提取网络提取的分辨率为7×7的候选文本区域输入快速区域分类回归网络,通过分类分支预测输入的候选文本区域为正样本的概率,提供更准确的候选文本区域,通过回归分支计算候选文本区域相对于真实文本区域的偏移量,调整候选文本区域位置;分割分支网络如图4所示,由四个卷积层Conv1、Conv2、Conv3、Conv4、一个反卷积层DeConv和一个最终的卷积层Conv5构成,将区域提取网络提取的分辨率为16×64的候选文本区域输入分割分支,通过卷积与反卷积操作,最终生成38个分辨率为32×128的目标分割图层;其中包括1个全局文本实例分割图层用于预测文本区域的具体位置,36个字符分割图层和1个字符背景分割图层通过过像素投票算法得到预测字符序列。
(1.2.2)根据带标注的标准训练数据集和特征图在原图上产生水平初始包围盒,为所述识别网络模型中区域提取网络、快速区域分类回归分支网络和分割分支网络模块生成训练标签:对于带标注的标准训练数据集Itr,输入图片真实标签包含表示文本区域的多边形P={p1,p2…pm}和表示字符的类别和位置的字符标签C={c1=(cc1,cl1),c2=(cc2,cl2),…,cn=(ccn,cln)},对于输入图片Itri,其中,Pi是图片Itri中文本区域的多边形包围盒,pij=(xij,yij)是多边形Pi第j个顶点的坐标,m表示多边形文本标注框的数目,cck和clk分别是文本中第k个字符的类别和位置,在本发明中,C不是对于所有训练样本都是必需的。
对于所给的标准数据集Itr,首先将数据集标签中的多边形P={p1,p2…pm}转换为多边形文本标注框的最小水平矩形包围盒,以矩形的中心点(x,y)以及高度h和宽度w来表示该矩形包围盒Gd(x,y,h,w);对于区域提取网络,根据标注数据集的标注包围盒Gd(x,y,h,w),以特征金字塔输出的待提取特征图中的每张特征图上的每个像素对应到原图,根据区域提取网络预测的候选文本区域产生许多初始包围盒,计算初始包围盒Q0相对于标注数据集的标注包围盒Gd的位置偏移量和类别,当所有的标注包围盒Gd与初始包围盒Q0的Jaccard系数均小于0.5,那么,初始包围盒Q0被标记为负类非文本,类别标签Prpn取值为0;否则,即至少存在一个标注包围盒Gd与Q0的Jaccard系数不小于0.5,Q0被标记为正类文本,类别标签Prpn取值为1,并相对于Jaccard系数最大的标注盒来计算位置偏移量,公式如下:
x=x0+w0Δx
y=y0+h0Δy
w=w0exp(Δw)
h=h0exp(Δh)
其中,x0、y0分别为初始包围盒Q0的中心点的横坐标、纵坐标,w0、h0分别为初始包围盒Q0的宽度和高度,Δx、Δy分别为Q0的中心点相对于Gd的中心点的横、纵坐标位置偏移量,exp为指数运算,即可得区域提取网络的训练标签为:
gtrpn=(Δxrpn,Δyrpn,Δhrpn,Δwrpn,Prpn)
对于快速区域分类回归分支网络,同理,可计算得训练标签为:
gtrcnn=(Δxrcnn,Δyrcnn,Δhrcnn,Δwrcnn,Prcnn)
对于分割分支网络,需生成两种类型的目标标签:用于文本实例分割的全局标签和用于字符语义分割的字符标签;对于给定的一个正候选文本框r,首先最佳匹配的水平矩形,进一步获得匹配的多边形以及字符框,接下来,将匹配的多边形和字符框进行移位和调整大小,以便将候选文本框r和预设高度为H以及预设宽度为W的目标标签按照以下公式进行对齐:
Figure BDA0001618307750000161
By=(By0-min(ry))×H/(max(ry))
其中,(rx,ry)为候选文本框r的顶点,(Bx,By)和
Figure BDA0001618307750000162
是多边形和所有字符框的更新顶点和原始顶点,具体地,rx分别为候选文本框r的所有顶点的横坐标的集合,ry为候选文本框r的所有顶点的纵坐标的集合,
Figure BDA0001618307750000163
同理,随后,通过在零初始化的掩膜上绘制标准多边形并将值填充为1生成目标全局标签Xg,对于字符标签,通过以中心为原点,缩小标准化字符框至原点框尺寸的八分之一,避免字符掩膜相互重叠,再通过在零初始化掩膜上绘制缩小的字符框并使用它们相应的类别索引填充来生成字符标签Xc,如果C不存在,则字符图层中的所有像素均设置为-1,并且在优化时将被忽略,最终得到分割分支整体标签gtmask=X,综合上述标签gtrpn,gtrcnn,gtmask,生成最终的训练标签为:
gt={Δxrpn,Δyrpn,Δhrpn,Δwrpn,Prpn,Δxrcnn,Δyrcnn
Δhrcnn,Δwrcnn,Prcnn,X};
(1.2.3)以标准训练数据集Itr作为识别网络模型的输入,利用特征金字塔网络模块提取特征:将标准训练数据集Itr中的图片输入特征金字塔网络自底向上的ResNet-50网络结构中,以网络中不改变特征图大小的卷积层单元定义为一个层级,即层级{P2,P3,P4,P5,P6},提取出每个层级的最后输出的卷积特征F;特征金字塔网络模块中自顶向下的连接对ResNet-50的输出卷积特征进行上采样生成多尺度上采样特征,特征金字塔网络模块中横向连接结构将自顶向下过程上采样的每个层级的特征和自底向上过程生成的特征进行融合生成最终的特征{F2,F3,F4,F5,F6},过程如图3所示。
(1.2.4)将特征金字塔网络提取的特征输入区域提取网络,经过锚点分配,利用感兴趣区域对齐方法调整特征图,生成候选文本框:
对于输入图片Itrk,经过特征金字塔网络提取出5个阶段特征{F2,F3,F4,F5,F6},根据阶段{P2,P3,P4,P5,P6}定义锚在不同阶段特征尺度为{322,642,1282,2562,5122},而每个尺度层都有3个长宽比{1:2,1:1,2:1};即可提取出不同尺度和比例的15个特征图{Ftr1,Ftr2,…,Ftr15},记为Ftrp,下标p=1,…,15;
通过感兴趣区域对齐操作,对特征Ftrp生成固定尺度的候选文本区域,其中,为区域提取网络生成分辨率为7×7候选文本区域Rrcnn,为分割分支生成分辨率为16×64的候选文本区域Rmask;并通过分类预测每个候选文本框为正确文本区域包围盒的概率Prpn,通过回归预测候选文本框偏移量:
Yrpn=(Δxrpn,Δyrpn,Δhrpn,Δwrpn)。
(1.2.5)将区域提取网络生成的尺寸为(7*7)的候选文本区域Rrcnn输入快速区域分类回归分支网络模块,经过分类和回归两个分支,计算损失函数,并反向传导,最终生成预测文本包围盒:区域提取网络分为分类和回归两个网络分支,将大小为7×7的候选文本区域Rrcnn输入分类分支,通过卷积操作输出预测包围盒的分类得分Prcnn,即预测包围盒为正类文本框的概率,取值为[0,1]之间的小数;将Rrcnn输入回归分支,输出4个[0,1]之间的小数组成的预测回归偏移量Yrcnn=(Δxrcnn,Δyrcnn,Δhrcnn,Δwrcnn),作为预测包围盒Gq被预测为正类文本框时中心点的横坐标、纵坐标和文本框的高度和宽度相对于标注包围盒Gd中心点的横坐标、纵坐标和文本框的高度和宽度的预测位置偏移量。
(1.2.6)将区域提取网络生成的尺寸为(16*64)的候选文本区域Rmask输入分割分支网络模块,基于实例分割和语义分割操作生成38张目标分割图层:分割分支网络模块包括4个卷积层Conv1,Conv2,Conv3,Conv4,一个反卷积层DeConv,和一个最终卷积层Conv5;区域提取网络生成的尺寸为16×64的候选文本框Rmask输入分割分支模块,经过卷积、反卷积等操作最终生成尺度为32×128的38个目标分割图层{Mglobal,M1,M2,…,M36,Mbackground},输出图层中每个像素的像素值X,取值在[0,1]之间。输出图层中全局分割图层Mglobal可直接预测出文本区域多边形Pm={pm1,pm2…pmn},字符分割图层{M1,M2,…,M36}和字符背景分割图层Mbackground可根据像素投票算法来预测字符序列Sq
(1.2.7)以训练标签gt为网络期望输出,以预测标签
Figure BDA0001618307750000181
为网络预测输出,针对构建的网络模型,设计期望输出和预测输出之间的目标损失函数:以步骤(1.2.2)中计算得到的训练标签gt为网络期望输出,以步骤(1.2.4)(1.2.5)和(1.2.6)中的预测标签
Figure BDA0001618307750000191
Figure BDA0001618307750000192
为网络预测输出,针对(1.2.1)构建的网络模型,设计期望输出和预测输出之间的目标损失函数,整体目标损失函数由区域提取网络、快速区域分类回归分支网络、分割分支网络损失函数共同组成,整体目标损失函数表达式如下:
L(Prpn,Yrpn,Prcnn,Yrcnn,X)=Lrpn(Prpn,Yrpn)
1Lrcnn(Prcnn,Yrcnn)+α2Lmask(X)
其中,Lrpn(Prpn,Yrpn)为区域提取网络的损失函数,Lrcnn(Prcnn,Yrcnn)为快速区域分类回归分支网络的损失函数,Lmask(X)为分割分支网络的损失函数。α1,α2分别为损失函数Lrcnn和Lmask的权重系数,简单设置为1;
根据设计的整体目标损失函数,利用反向传播算法对模型进行迭代训练,最小化整体目标损失函数,实现最优网络模型,针对场景文字检测识别任务,在训练过程中首先使用合成文本数据集(SynthText)上迭代训练,得到初始的网络参数;然后在真实数据集上进行训练微调网络参数。
利用上述训练好的模型对待识别文本图片进行文字识别,包括如下子步骤:
(2.1)将待检测识别场景文本图片提取特征输入快速区域分类回归分支网络生成候选文本区域,并对其进行非最大值抑制操作进行过滤,得到更准确的候选文本区域:对于待检测数据集Itst里的第k张图片Itstk,将其输入到步骤(1.2)训练好的模型中,经过特征金字塔网络和区域提取网络后生成初始包围盒再输入快速区域分类回归分支网络,对每个初始包围盒Gq,分类分支会输出由分类得分预测值Prcnn,作为初始包围盒Gq被预测为正类样本的得分;回归分支会输出由4个小数组成的预测回归偏移量Yrcnn(Δxrcnn,Δyrcnn,Δhrcnn,Δwrcnn),作为Gq被预测为正类文本框时中心点横坐标、纵坐标和高度和宽度相对于标注包围盒Gd中心点横坐标、纵坐标和高度和宽度的位置偏移量,根据位置偏移量可以计算网络预测到的四边形文本包围盒位置Qz
对预测的文本包围盒Qz进行非最大值抑制操作进行过滤,得到输出结果:网络模型对特征图Ftstp上每个预测为正类文本的初始包围盒Q0都会回归出水平四边形位置,同一张测试图片Itstk上每个特征图上回归出的正类文本四边形通常会出现彼此重叠的情况,这时就要对所有正类文本四边形位置做非最大值抑制操作,具体步骤是:1)对预测到的的文本包围盒,当且仅当文本分类得分Prcnn≥0.5时,该检测文本框才被保留;2)对上一步保留的文本框,按照Jaccard系数0.2进行非最大值抑制操作(NMS),得到最后保留的正类文本四边形包围盒。
(2.2)将预测的候选文本区域输入分割分支网络进行文本实例分割和字符分割,分别生成全局文本实例分割掩膜和字符分割掩膜,通过计算全局文本实例分割掩膜上文本区域的轮廓,获得多边形单词文本区域,通过在字符分割掩膜利用像素投票算法预测得到字符序列:将预测的四边形文本包围盒位置Qz输入分割分支生成38个目标分割图层,首先通过全局文本实例分割掩膜,直接计算文本区域的轮廓,获得文本区域的多边形。其次,利用像素投票算法生成字符序列Sq
对于36个字符分割图层{M1,M2,…,M36},第i个分割图层上一个像素的值pci(x,y)代表着全局文本分割图层对应位置像素pg(x,y)是字符zi的概率,zi为36个字符{0,1,...,9,a,b,...,z}中的第i个,且36个字符分割图层对应像素位置的概率和为1,即
Figure BDA0001618307750000211
对于字符背景分割图层Mbackground,首先对其进行二值化处理,然后在二值化的背景图上定义背景图层上的字符区域集合为R={r1,r2,,…,rn}其中,ri为字符背景分割图层上第i个字符区域,n为背景分割图层上所有的字符数目;
像素投票算法过程如下:首先,将36张字符分割图层中与字符背景分割图层中的字符区域ri应连通区域集合定义为Ci={ci1,ci2,…,ci36}其中,cij为第j个字符分割图层中与字符背景分割图层第i个字符区域相对应的区域块,则对于区域ri以及对应连通区域Ci,利用像素投票算法求其预测字符步骤为:首先,计算对连接区域Ci内cij所有像素的值求平均值,其次,求出具有最大平均值的那个cij_max所在的字符图层Mj_max对应的字符类别zj_max则为这个字符区域的预测字符,最后,对字符背景分割图层中每个的字符区域ri进行如上操作,得到最终的预测字符序列Sq
(2.3)通过加权编辑距离算法对分割分支预测的字符序列进行处理,找到给定词典中预测序列的最匹配单词,得到最终识别结果:在像素投票阶段,可以获得预测序列中每个字符区域的所有字符类别的概率,根据概率为删除、插入、替换操作定义不同的权重。对于删除操作,成本是字符被预测为当前被删除字符的概率;对于插入操作,成本是与字符插入位置相邻的两个字符的平均概率;对于替换操作,计算成本为:max(1-s1/s2,0),其中s1和s2是候选字符和要替换的预测字符的概率。通过加权编辑距离算法对预测的字符串根据所给字典进行回归,对删除、插入、替换定义不同的权重,对预测的单词进行调整,提高准确率,得到最终的识别结果。

Claims (10)

1.一种任意形状的场景文本端到端识别方法,其特征在于,所述方法包括下述步骤:
(1)训练任意形状的场景文本端到端识别网络模型,包括如下子步骤:
(1.1)对原始数据集中所有图片的多方向文本进行单词级别的标注,标签为单词级别的文本包围盒的多边形顺时针顶点坐标和文本的单词字符序列,得到带标注的标准训练数据集;
(1.2)定义任意形状的场景文本端到端识别网络模型,根据(1.1)带标注的标准训练数据集,计算训练标签,并设计损失函数,利用反向传导方法训练该场景文本端到端识别网络,得到场景文本端到端识别网络模型;包括:
(1.2.1)构建任意形状的场景文本端到端识别网络模型,所述识别网络模型由特征金字塔结构网络、区域提取网络、快速区域分类回归分支和分割分支组成;
(1.2.2)根据特征图在原图上产生水平初始包围盒,为所述识别网络模型中区域提取网络、快速区域分类回归分支网络和分割分支网络模块生成训练标签;
(1.2.3)以标准训练数据集Itr作为识别网络模型的输入,利用特征金字塔网络模块提取特征;
(1.2.4)将特征金字塔网络提取的特征输入区域提取网络,经过锚点分配,利用感兴趣区域对齐方法调整特征图,生成候选文本框;
(1.2.5)将候选文本框输入快速区域分类回归网络模块,经过分类和回归两个分支,计算损失函数并反向传导,最终生成预测文本包围盒;
(1.2.6)将候选文本框输入分割分支网络模块,基于实例分割和语义分割,生成目标分割图层;
(1.2.7)以训练标签gt为网络期望输出,以预测标签
Figure FDA0002357710800000021
为网络预测输出,针对构建的网络模型,设计期望输出和预测输出之间的目标损失函数;
(2)利用上述训练好的模型对待检测识别场景文本图片进行文字检测识别,包括如下子步骤:
(2.1)将待检测识别场景文本图片提取特征输入快速区域分类回归分支网络生成候选文本区域,并对其进行非最大值抑制操作进行过滤,得到更准确的候选文本区域;
(2.2)将预测的候选文本区域输入分割分支网络进行文本实例分割和字符分割,分别生成全局文本实例分割掩膜和字符分割掩膜,通过计算全局文本实例分割掩膜上文本区域的轮廓,获得多边形单词文本区域,通过在字符分割掩膜利用像素投票算法预测得到字符序列;
(2.3)通过加权编辑距离算法对分割分支预测的字符序列进行处理,找到给定词典中预测序列的最匹配单词,得到最终识别结果。
2.根据权利要求1所述的一种任意形状的场景文本端到端识别方法,其特征在于,所述步骤(1.2.1)中的检测识别网络模型具体为:
所述识别网络模型由特征金字塔结构网络、区域提取网络、快速区域分类回归分支网络和分割分支网络组成;其中,所述特征金字塔结构网络以ResNet-50深度卷积神经网络为基础网络,通过增加一个自底向上的连接,一个自顶向下的连接和一个横向连接组成,用于从输入标准训练数据集图片中提取融合不同分辨率的特征;将提取的不同尺度的特征输入到区域提取网络得到候选文本区域,经过感兴趣区域对齐操作后,得到固定尺度的候选文本区域,分别输入到快速区域分类回归分支和分割分支网络;将区域提取网络提取的分辨率为7×7的候选文本区域输入快速区域分类回归网络,通过分类分支预测输入的候选文本区域为正样本的概率,提供更准确的候选文本区域,通过回归分支计算候选文本区域相对于真实文本区域的偏移量,调整候选文本区域位置;分割分支网络由四个卷积层Conv1、Conv2、Conv3、Conv4、一个反卷积层DeConv和一个最终的卷积层Conv5构成,将区域提取网络提取的分辨率为16×64的候选文本区域输入分割分支,通过卷积与反卷积操作,最终生成38个分辨率为32×128的目标分割图层;其中包括1个全局文本实例分割图层用于预测文本区域的具体位置,36个字符分割图层和1个字符背景分割图层通过像素投票算法得到预测字符序列。
3.根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法,其特征在于,所述步骤(1.2.2)具体为:
对于带标注的标准训练数据集Itr,输入图片真实标签包含表示文本区域的多边形P={p1,p2…pm}和表示字符的类别和位置的字符标签C={c1=(cc1,cl1),c2=(cc2,cl2),…,cn=(ccn,cln)},对于输入图片
Figure FDA0002357710800000031
其中,Pi是图片
Figure FDA0002357710800000032
中文本区域的多边形包围盒,pij=(xij,yij)是多边形Pi第j个顶点的坐标,m表示多边形文本标注框的数目,cck和clk分别是文本中第k个字符的类别和位置;
对于所给的标准训练数据集Itr,首先将数据集标签中的多边形P={p1,p2…pm}转换为多边形文本标注框的最小水平矩形包围盒,以矩形的中心点(x,y)以及高度h和宽度w来表示该矩形包围盒Gd(x,y,h,w);对于区域提取网络,根据标准训练数据集的标注包围盒Gd(x,y,h,w),以特征金字塔输出的待提取特征图中的每张特征图上的每个像素对应到原图,根据区域提取网络预测的候选文本区域产生许多初始包围盒,计算初始包围盒Q0相对于标准训练数据集的标注包围盒Gd的位置偏移量和类别,当所有的标注包围盒Gd与初始包围盒Q0的Jaccard系数均小于0.5,那么初始包围盒Q0被标记为负类非文本,类别标签Prpn取值为0;否则,即至少存在一个标注包围盒Gd与Q0的Jaccard系数不小于0.5,Q0被标记为正类文本,类别标签Prpn取值为1,并相对于Jaccard系数最大的标注盒来计算位置偏移量,公式如下:
x=x0+w0Δx
y=y0+h0Δy
w=w0exp(Δw)
h=h0exp(Δh)
其中,x0、y0分别为初始包围盒Q0的中心点的横坐标、纵坐标,w0、h0分别为初始包围盒Q0的宽度和高度,Δx、Δy分别为Q0的中心点相对于Gd的中心点的横、纵坐标位置偏移量,exp为指数运算,即可得区域提取网络的训练标签为:
gtrpn=(Δxrpn,Δyrpn,Δhrpn,Δwrpn,Prpn)
对于快速区域分类回归分支网络,同理,可计算得训练标签为:
gtrcnn=(Δxrcnn,Δyrcnn,Δhrcnn,Δwrcnn,Prcnn);
对于分割分支网络,需生成两种类型的目标标签:用于文本实例分割的全局标签和用于字符语义分割的字符标签;对于给定的一个正候选文本框r,首先最佳匹配的水平矩形,进一步获得匹配的多边形以及字符框,接下来,将匹配的多边形和字符框进行移位和调整大小,以便将候选文本框r和预设高度为H以及预设宽度为W的目标标签按照以下公式进行对齐:
Figure FDA0002357710800000054
Figure FDA0002357710800000055
其中,(rx,ry)为候选文本框r的顶点,(Bx,By)和
Figure FDA0002357710800000051
是多边形和所有字符框的更新顶点和原始顶点,具体地,rx分别为候选文本框r的所有顶点的横坐标的集合,ry为候选文本框r的所有顶点的纵坐标的集合,Bx,
Figure FDA0002357710800000052
By,
Figure FDA0002357710800000053
同理,随后,通过在零初始化的掩膜上绘制标准多边形并将值填充为1生成目标全局标签Xg,对于字符标签,通过以中心为原点,缩小标准化字符框至原点框尺寸的八分之一,避免字符掩膜相互重叠,再通过在零初始化掩膜上绘制缩小的字符框并使用它们相应的类别索引填充来生成字符标签Xc,如果C不存在,则字符图层中的所有像素均设置为-1,并且在优化时将被忽略,最终得到分割分支整体标签gtmask=X,综合上述标签gtrpn,gtrcnn,gtmask,生成最终的训练标签为:
gt={Δxrpn,Δyrpn,Δhrpn,Δwrpn,Prpn,Δxrcnn,Δyrcnn,Δhrcnn,Δwrcnn,Prcnn,X}。
4.根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法,其特征在于,所述步骤(1.2.3)具体为:
将标准训练数据集Itr中的图片输入特征金字塔网络自底向上的ResNet-50网络结构中,以网络中不改变特征图大小的卷积层单元定义为一个层级,即层级{P2,P3,P4,P5,P6},提取出每个层级的最后输出的卷积特征F;特征金字塔网络模块中自顶向下的连接对ResNet-50的输出卷积特征进行上采样生成多尺度上采样特征,特征金字塔网络模块中横向连接结构将自顶向下过程上采样的每个层级的特征和自底向上过程生成的特征进行融合生成最终的特征{F2,F3,F4,F5,F6}。
5.根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法,其特征在于,所述步骤(1.2.4)具体为:
对于输入图片Itrk,经过特征金字塔网络提取出5个阶段特征{F2,F3,F4,F5,F6},根据阶段{P2,P3,P4,P5,P6}定义锚在不同阶段特征尺度为{322,642,1282,2562,5122},而每个尺度层都有3个长宽比{1:2,1:1,2:1};即可提取出不同尺度和比例的15个特征图{Ftr1,Ftr2,…,Ftr15},记为Ftrp,下标p=1,…,15;
通过感兴趣区域对齐操作,对特征Ftrp生成固定尺度的候选文本区域,其中为区域提取网络生成分辨率为7×7候选文本区域Rrcnn,为分割分支生成分辨率为16×64的候选文本区域Rmask;并通过分类预测每个候选文本框为正确文本区域包围盒的概率Prpn,通过回归预测候选文本框偏移量Yrpn=(Δxrpn,Δyrpn,Δhrpn,Δwrpn)。
6.根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法,其特征在于,所述步骤(1.2.5)具体为:
区域提取网络分为分类和回归两个网络分支,将大小为7×7的候选文本区域Rrcnn输入分类分支,通过卷积操作输出预测包围盒的分类得分Prcnn,即预测包围盒为正类文本框的概率,取值为[0,1]之间的小数;将Rrcnn输入回归分支,输出4个[0,1]之间的小数组成的预测回归偏移量Yrcnn=(Δxrcnn,Δyrcnn,Δhrcnn,Δwrcnn),作为预测包围盒Gq被预测为正类文本框时中心点的横坐标、纵坐标和文本框的高度和宽度相对于标注包围盒Gd中心点的横坐标、纵坐标和文本框的高度和宽度的预测位置偏移量。
7.根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法,其特征在于,所述步骤(1.2.6)具体为:
分割分支网络模块包括4个卷积层Conv1,Conv2,Conv3,Conv4,一个反卷积层DeConv,和一个最终卷积层Conv5;区域提取网络生成的尺寸为16×64的候选文本框Rmask输入分割分支模块,经过卷积、反卷积等操作最终生成尺度为32×128的38个目标分割图层{Mglobal,M1,M2,…,M36,Mbackground},输出图层中每个像素的像素值X,取值在[0,1]之间,输出图层中全局分割图层Mglobal可直接预测出文本区域多边形Pm={pm1,pm2…pmn},字符分割图层{M1,M2,…,M36}和字符背景分割图层Mbackground可根据像素投票算法来预测字符序列Sq。
8.根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法,其特征在于,所述步骤(1.2.7)具体为:
以步骤(1.2.2)中计算得到的训练标签gt为网络期望输出,以步骤(1.2.4)、(1.2.5)和(1.2.6)中的预测标签
Figure FDA0002357710800000071
Figure FDA0002357710800000072
为网络预测输出,针对(1.2.1)构建的网络模型,设计期望输出和预测输出之间的目标损失函数,整体目标损失函数由区域提取网络、快速区域分类回归分支网络、分割分支网络损失函数共同组成,整体目标损失函数表达式如下:
L(Prpn,Yrpn,Prcnn,Yrcnn,X)=Lrpn(Prpn,Yrpn)+α1Lrcnn(Prcnn,Yrcnn)+α2Lmask(X)
其中,Lrpn(Prpn,Yrpn)为区域提取网络的损失函数,Lrcnn(Prcnn,Yrcnn)为快速区域分类回归分支网络的损失函数,Lmask(X)为分割分支网络的损失函数,α1,α2分别为损失函数Lrcnn和Lmask的权重系数,简单设置为1;
根据设计的整体目标损失函数,利用反向传播算法对模型进行迭代训练,最小化整体目标损失函数,实现最优网络模型,针对场景文字检测识别任务,在训练过程中首先使用合成文本数据集上迭代训练,得到初始的网络参数;然后在真实数据集上进行训练微调网络参数。
9.根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法,其特征在于,所述步骤(2.1)具体为:
对于待检测数据集Itst里的第k张图片Itstk,将其输入到步骤(1.2)训练好的模型中,经过特征金字塔网络和区域提取网络后生成初始包围盒再输入快速区域分类回归分支网络,对每个初始包围盒Gq,分类分支会输出由分类得分预测值Prcnn,作为初始包围盒Gq被预测为正类样本的得分;回归分支会输出由4个小数组成的预测回归偏移量Yrcnn(Δxrcnn,Δyrcnn,Δhrcnn,Δwrcnn),作为Gq被预测为正类文本框时中心点横坐标、纵坐标和高度和宽度相对于标注包围盒Gd中心点横坐标、纵坐标和高度和宽度的位置偏移量,根据位置偏移量可以计算网络预测到的四边形文本包围盒位置Qz
对预测的文本包围盒Qz进行非最大值抑制操作进行过滤,得到输出结果:网络模型对特征图Ftstp上每个预测为正类文本的初始包围盒Q0都会回归出水平四边形位置,同一张测试图片Itstk上每个特征图上回归出的正类文本四边形通常会出现彼此重叠的情况,这时就要对所有正类文本四边形位置做非最大值抑制操作,具体步骤是:1)对预测到的的文本包围盒,当且仅当文本分类得分Prcnn≥0.5时,检测文本框才被保留;2)对上一步保留的文本框,按照Jaccard系数0.2进行非最大值抑制操作,得到最后保留的正类文本四边形包围盒。
10.根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法,其特征在于,所述步骤(2.2)具体为:
将预测的四边形文本包围盒位置Qz输入分割分支生成38个目标分割图层,首先通过全局文本实例分割掩膜,直接计算文本区域的轮廓,获得文本区域的多边形,其次,利用像素投票算法生成字符序列Sq
对于36个字符分割图层{M1,M2,…,M36},第i个分割图层上一个像素的值pci(x,y)代表着全局文本分割图层对应位置像素pg(x,y)是字符zi的概率,zi为36个字符{0,1,...,9,a,b,...,z}中的第i个,且36个字符分割图层对应像素位置的概率和为1,即
Figure FDA0002357710800000091
对于字符背景分割图层Mbackground,首先对其进行二值化处理,然后在二值化的背景图上定义背景图层上的字符区域集合为R={r1,r2,,…,rn}其中,ri为字符背景分割图层上第i个字符区域,n为背景分割图层上所有的字符数目;
像素投票算法过程如下:首先,将36张字符分割图层中与字符背景分割图层中的字符区域ri应连通区域集合定义为Ci={ci1,ci2,…,ci36}其中,cij为第j个字符分割图层中与字符背景分割图层第i个字符区域相对应的区域块,则对于区域ri以及对应连通区域Ci,利用像素投票算法求其预测字符步骤为:首先,计算对连接区域Ci内cij所有像素的值求平均值,其次,求出具有最大平均值的那个cij_max所在的字符图层Mj_max对应的字符类别zj_max则为这个字符区域的预测字符,最后,对字符背景分割图层中每个的字符区域ri进行如上操作,得到最终的预测字符序列Sq
CN201810294058.XA 2018-04-04 2018-04-04 一种任意形状的场景文本端到端识别方法 Active CN108549893B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810294058.XA CN108549893B (zh) 2018-04-04 2018-04-04 一种任意形状的场景文本端到端识别方法
PCT/CN2019/080354 WO2019192397A1 (zh) 2018-04-04 2019-03-29 一种任意形状的场景文本端到端识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810294058.XA CN108549893B (zh) 2018-04-04 2018-04-04 一种任意形状的场景文本端到端识别方法

Publications (2)

Publication Number Publication Date
CN108549893A CN108549893A (zh) 2018-09-18
CN108549893B true CN108549893B (zh) 2020-03-31

Family

ID=63514169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810294058.XA Active CN108549893B (zh) 2018-04-04 2018-04-04 一种任意形状的场景文本端到端识别方法

Country Status (2)

Country Link
CN (1) CN108549893B (zh)
WO (1) WO2019192397A1 (zh)

Families Citing this family (374)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549893B (zh) * 2018-04-04 2020-03-31 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109492672A (zh) * 2018-10-17 2019-03-19 福州大学 一种自然场景下快速、鲁棒的银行卡定位与分类方法
CN109583449A (zh) * 2018-10-29 2019-04-05 深圳市华尊科技股份有限公司 字符识别方法及相关产品
CN109492638A (zh) * 2018-11-07 2019-03-19 北京旷视科技有限公司 文本检测方法、装置及电子设备
CN109299274B (zh) * 2018-11-07 2021-12-17 南京大学 一种基于全卷积神经网络的自然场景文本检测方法
WO2020097909A1 (zh) * 2018-11-16 2020-05-22 北京比特大陆科技有限公司 文本检测方法、装置及存储介质
CN109559300A (zh) * 2018-11-19 2019-04-02 上海商汤智能科技有限公司 图像处理方法、电子设备及计算机可读存储介质
CN109753956A (zh) * 2018-11-23 2019-05-14 西北工业大学 基于分割候选区提取的多方向文本检测算法
CN109544564A (zh) * 2018-11-23 2019-03-29 清华大学深圳研究生院 一种医疗图像分割方法
CN109785359B (zh) * 2018-11-27 2020-12-04 北京理工大学 一种基于深度特征金字塔与跟踪损失的视频目标检测方法
EP3660731B1 (en) * 2018-11-28 2024-05-22 Tata Consultancy Services Limited Digitization of industrial inspection sheets by inferring visual relations
CN111259878A (zh) * 2018-11-30 2020-06-09 中移(杭州)信息技术有限公司 一种检测文本的方法和设备
CN111292335B (zh) * 2018-12-10 2023-06-13 北京地平线机器人技术研发有限公司 一种前景掩模特征图的确定方法、装置及电子设备
CN109753966A (zh) * 2018-12-16 2019-05-14 初速度(苏州)科技有限公司 一种文字识别训练系统及方法
CN109740484A (zh) * 2018-12-27 2019-05-10 斑马网络技术有限公司 道路障碍物识别的方法、装置及系统
CN110008808B (zh) * 2018-12-29 2021-04-09 北京迈格威科技有限公司 全景分割方法、装置和系统及存储介质
CN109886286B (zh) * 2019-01-03 2021-07-23 武汉精测电子集团股份有限公司 基于级联检测器的目标检测方法、目标检测模型及系统
CN111489283B (zh) * 2019-01-25 2023-08-11 鸿富锦精密工业(武汉)有限公司 图片格式转换方法、装置及计算机存储介质
CN109858432B (zh) * 2019-01-28 2022-01-04 北京市商汤科技开发有限公司 一种检测图像中文字信息的方法及装置、计算机设备
CN109829437B (zh) * 2019-02-01 2022-03-25 北京旷视科技有限公司 图像处理方法、文本识别方法、装置和电子系统
CN109977997B (zh) * 2019-02-13 2021-02-02 中国科学院自动化研究所 基于卷积神经网络快速鲁棒的图像目标检测与分割方法
CN110176017B (zh) * 2019-03-01 2024-08-27 北京纵目安驰智能科技有限公司 一种基于目标检测的边缘检测模型、方法和存储介质
CN110008950A (zh) * 2019-03-13 2019-07-12 南京大学 一种对形状鲁棒的自然场景中文本检测的方法
CN109948510B (zh) * 2019-03-14 2021-06-11 北京易道博识科技有限公司 一种文档图像实例分割方法及装置
CN109919239A (zh) * 2019-03-15 2019-06-21 尹显东 一种基于深度学习的农作物病虫害智能检测方法
CN109948533B (zh) * 2019-03-19 2021-02-09 讯飞智元信息科技有限公司 一种文本检测方法、装置、设备及可读存储介质
CN109977949B (zh) * 2019-03-20 2024-01-26 深圳华付技术股份有限公司 边框微调的文本定位方法、装置、计算机设备及存储介质
CN111723627B (zh) * 2019-03-22 2024-07-23 北京搜狗科技发展有限公司 一种图像处理方法、装置和电子设备
CN111753575B (zh) * 2019-03-26 2024-10-18 杭州海康威视数字技术股份有限公司 文本识别方法、装置及设备
CN109977952B (zh) * 2019-03-27 2021-10-22 深动科技(北京)有限公司 基于局部最大值的候选目标检测方法
CN109934229B (zh) * 2019-03-28 2021-08-03 网易有道信息技术(北京)有限公司 图像处理方法、装置、介质和计算设备
CN110135248A (zh) * 2019-04-03 2019-08-16 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN110032969B (zh) * 2019-04-11 2021-11-05 北京百度网讯科技有限公司 用于检测图像中的文本区域的方法、装置、设备以及介质
CN110147786B (zh) 2019-04-11 2021-06-29 北京百度网讯科技有限公司 用于检测图像中的文本区域的方法、装置、设备以及介质
CN110059753A (zh) * 2019-04-19 2019-07-26 北京朗镜科技有限责任公司 模型训练方法、层间隔识别方法、装置、设备及介质
CN110321923B (zh) * 2019-05-10 2021-05-04 上海大学 不同尺度感受野特征层融合的目标检测方法、系统及介质
CN112001406B (zh) * 2019-05-27 2023-09-08 杭州海康威视数字技术股份有限公司 一种文本区域检测方法及装置
CN110147788B (zh) * 2019-05-27 2021-09-21 东北大学 一种基于特征增强crnn的金属板带产品标签文字识别方法
CN110276279B (zh) * 2019-06-06 2020-06-16 华东师范大学 一种基于图像分割的任意形状场景文本探测方法
CN110348445B (zh) * 2019-06-06 2021-07-27 华中科技大学 一种融合空洞卷积和边缘信息的实例分割方法
CN110334705B (zh) * 2019-06-25 2021-08-03 华中科技大学 一种结合全局和局部信息的场景文本图像的语种识别方法
CN110263877B (zh) * 2019-06-27 2022-07-08 中国科学技术大学 场景文字检测方法
CN110276351B (zh) * 2019-06-28 2022-09-06 中国科学技术大学 多语言场景文本检测与识别方法
CN110287960B (zh) * 2019-07-02 2021-12-10 中国科学院信息工程研究所 自然场景图像中曲线文字的检测识别方法
CN110443140B (zh) * 2019-07-05 2023-10-03 平安科技(深圳)有限公司 文本定位的方法、装置、计算机设备及存储介质
CN110443258B (zh) * 2019-07-08 2021-03-02 北京三快在线科技有限公司 文字检测方法、装置、电子设备及存储介质
CN110443141A (zh) * 2019-07-08 2019-11-12 深圳中兴网信科技有限公司 数据集处理方法、数据集处理装置及存储介质
CN110503090B (zh) * 2019-07-09 2021-11-09 中国科学院信息工程研究所 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器
CN110378338B (zh) * 2019-07-11 2024-08-27 腾讯科技(深圳)有限公司 一种文本识别方法、装置、电子设备和存储介质
CN110363140B (zh) * 2019-07-15 2022-11-11 成都理工大学 一种基于红外图像的人体动作实时识别方法
CN110490191B (zh) * 2019-07-16 2022-03-04 北京百度网讯科技有限公司 端到端模型的训练方法与系统、及中文识别方法与系统
CN112241736B (zh) * 2019-07-19 2024-01-26 上海高德威智能交通系统有限公司 一种文本检测的方法及装置
CN110427852B (zh) * 2019-07-24 2022-04-15 北京旷视科技有限公司 文字识别方法、装置、计算机设备和存储介质
CN113159016B (zh) * 2019-07-26 2024-06-18 第四范式(北京)技术有限公司 文本位置定位方法和系统以及模型训练方法和系统
CN110895695B (zh) * 2019-07-31 2023-02-24 上海海事大学 用于文本图片字符切分的深度学习网络、切分方法
CN110503085A (zh) * 2019-07-31 2019-11-26 联想(北京)有限公司 一种数据处理方法、电子设备和计算机可读存储介质
CN110674807A (zh) * 2019-08-06 2020-01-10 中国科学院信息工程研究所 一种基于半监督与弱监督学习的曲形场景文字检测方法
CN110458132A (zh) * 2019-08-19 2019-11-15 河海大学常州校区 一种基于端到端的不定长文本识别方法
CN110516732B (zh) * 2019-08-22 2022-03-15 北京地平线机器人技术研发有限公司 特征金字塔网络的训练方法、提取图像特征的方法和装置
CN110852324A (zh) * 2019-08-23 2020-02-28 上海撬动网络科技有限公司 一种基于深度神经网络集装箱箱号检测方法
CN110598698B (zh) * 2019-08-29 2022-02-15 华中科技大学 基于自适应区域建议网络的自然场景文本检测方法和系统
CN110533113B (zh) * 2019-09-04 2022-11-11 湖南大学 一种数字图像中树状结构的分支点检测方法
CN110533041B (zh) * 2019-09-05 2022-07-01 重庆邮电大学 基于回归的多尺度场景文本检测方法
CN110738207B (zh) * 2019-09-10 2020-06-19 西南交通大学 一种融合文字图像中文字区域边缘信息的文字检测方法
CN110705535A (zh) * 2019-09-19 2020-01-17 安徽七天教育科技有限公司 一种试卷版面文字行自动检测的方法
CN110807764A (zh) * 2019-09-20 2020-02-18 成都智能迭迦科技合伙企业(有限合伙) 一种基于神经网络的肺癌筛查方法
CN110751154B (zh) * 2019-09-27 2022-04-08 西北工业大学 一种基于像素级分割的复杂环境多形状文本检测方法
CN110717427B (zh) * 2019-09-27 2022-08-12 华中科技大学 一种基于顶点滑动的多方向物体检测方法
CN110689012A (zh) * 2019-10-08 2020-01-14 山东浪潮人工智能研究院有限公司 一种端到端的自然场景文本识别方法及系统
CN111626279B (zh) * 2019-10-15 2023-06-02 西安网算数据科技有限公司 一种负样本标注训练方法及高度自动化的票据识别方法
CN111126401B (zh) * 2019-10-17 2023-06-02 安徽清新互联信息科技有限公司 一种基于上下文信息的车牌字符识别方法
CN111062381B (zh) * 2019-10-17 2023-09-01 安徽清新互联信息科技有限公司 一种基于深度学习的车牌位置检测方法
CN110766707B (zh) * 2019-10-22 2022-09-23 河海大学常州校区 一种基于多算子融合边缘检测技术的空化泡图像处理方法
CN111222396B (zh) * 2019-10-23 2023-07-18 江苏大学 一种全天候多光谱行人检测方法
CN110765733A (zh) * 2019-10-24 2020-02-07 科大讯飞股份有限公司 一种文本规整方法、装置、设备及存储介质
CN110837835B (zh) * 2019-10-29 2022-11-08 华中科技大学 一种基于边界点检测的场景文本端到端识别方法
CN110781967B (zh) * 2019-10-29 2022-08-19 华中科技大学 一种基于可微分二值化的实时文本检测方法
CN110796143A (zh) * 2019-10-31 2020-02-14 天津大学 一种基于人机协同的场景文本识别方法
CN112749599A (zh) * 2019-10-31 2021-05-04 北京金山云网络技术有限公司 图像增强方法、装置和服务器
CN110807422B (zh) * 2019-10-31 2023-05-23 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN110956088B (zh) * 2019-10-31 2023-06-30 北京易道博识科技有限公司 基于深度学习的交叠文本行定位分割方法及系统
CN111104962B (zh) * 2019-11-05 2023-04-18 北京航空航天大学青岛研究院 图像的语义分割方法、装置、电子设备及可读存储介质
CN110837796B (zh) * 2019-11-05 2022-08-19 泰康保险集团股份有限公司 图像处理方法及装置
CN112825141B (zh) * 2019-11-21 2023-02-17 上海高德威智能交通系统有限公司 识别文本的方法、装置、识别设备和存储介质
CN111010605B (zh) * 2019-11-26 2021-08-17 杭州东信北邮信息技术有限公司 一种视频画中画窗口的显示方法
CN111062386B (zh) * 2019-11-28 2023-12-29 大连交通大学 基于深度金字塔注意力和特征融合的自然场景文本检测方法
CN110969129B (zh) * 2019-12-03 2023-09-01 山东浪潮科学研究院有限公司 一种端到端税务票据文本检测与识别方法
CN110929678B (zh) * 2019-12-04 2023-04-25 山东省计算中心(国家超级计算济南中心) 外阴阴道假丝酵母菌孢子检测方法
CN111008600B (zh) * 2019-12-06 2023-04-07 中国科学技术大学 一种车道线检测方法
CN111178148B (zh) * 2019-12-06 2023-06-02 天津大学 一种基于无人机视觉系统的地面目标地理坐标定位方法
CN111061904B (zh) * 2019-12-06 2023-04-18 武汉理工大学 一种基于图像内容识别的本地图片快速检测方法
CN110991440B (zh) * 2019-12-11 2023-10-13 易诚高科(大连)科技有限公司 一种像素驱动的手机操作界面文本检测方法
CN112990188A (zh) * 2019-12-13 2021-06-18 华为技术有限公司 一种文本识别方法及装置
CN111104892A (zh) * 2019-12-16 2020-05-05 武汉大千信息技术有限公司 基于目标检测的人脸篡改鉴定方法、模型及其鉴定方法
CN111061915B (zh) * 2019-12-17 2023-04-18 中国科学技术大学 视频人物关系识别方法
CN111079649B (zh) * 2019-12-17 2023-04-07 西安电子科技大学 基于轻量化语义分割网络的遥感图像地物分类方法
CN110991403A (zh) * 2019-12-19 2020-04-10 同方知网(北京)技术有限公司 一种基于视觉深度学习的文档信息碎片化抽取方法
CN111144469B (zh) * 2019-12-20 2023-05-02 复旦大学 基于多维关联时序分类神经网络的端到端多序列文本识别方法
CN111126386B (zh) * 2019-12-20 2023-06-30 复旦大学 场景文本识别中基于对抗学习的序列领域适应方法
CN111008613B (zh) * 2019-12-24 2023-12-19 黑龙江文旅信息科技有限公司 基于场的高密度人流量定位与监测方法
CN111126266B (zh) * 2019-12-24 2023-05-05 上海智臻智能网络科技股份有限公司 文本处理方法、文本处理系统、设备及介质
CN111046840B (zh) * 2019-12-26 2023-06-23 天津理工大学 污染修复环境中基于人工智能的人员安全监测方法及系统
CN111160352B (zh) * 2019-12-27 2023-04-07 创新奇智(北京)科技有限公司 一种基于图像分割的工件金属表面文字识别方法及系统
CN111160242A (zh) * 2019-12-27 2020-05-15 上海眼控科技股份有限公司 图像目标检测方法、系统、电子终端及存储介质
CN111144411B (zh) * 2019-12-27 2024-02-27 南京大学 一种基于显著图的不规则文本修正与识别方法及系统
CN111160372B (zh) * 2019-12-30 2023-04-18 沈阳理工大学 一种基于高速卷积神经网络的大目标识别方法
CN111178358A (zh) * 2019-12-31 2020-05-19 上海眼控科技股份有限公司 文本识别方法、装置、计算机设备和存储介质
CN111126410B (zh) * 2019-12-31 2022-11-18 讯飞智元信息科技有限公司 字符识别方法、装置、设备及可读存储介质
CN111191611B (zh) * 2019-12-31 2023-10-13 同济大学 基于深度学习的交通标志标号识别方法
CN111145202B (zh) * 2019-12-31 2024-03-08 北京奇艺世纪科技有限公司 模型生成方法、图像处理方法、装置、设备及存储介质
CN111178364A (zh) * 2019-12-31 2020-05-19 北京奇艺世纪科技有限公司 一种图像识别方法和装置
CN111242122B (zh) * 2020-01-07 2023-09-08 浙江大学 一种轻量级深度神经网络旋转目标检测方法和系统
CN111242027B (zh) * 2020-01-13 2023-04-14 北京工业大学 一种融合语义信息的无监督学习场景特征快速提取方法
CN111310746B (zh) * 2020-01-15 2024-03-01 支付宝实验室(新加坡)有限公司 文本行检测方法、模型训练方法、装置、服务器及介质
CN111291759A (zh) * 2020-01-17 2020-06-16 北京三快在线科技有限公司 文字检测方法、装置、电子设备及存储介质
CN111310609B (zh) * 2020-01-22 2023-04-07 西安电子科技大学 基于时序信息和局部特征相似性的视频目标检测方法
CN111428749B (zh) * 2020-02-21 2024-07-02 平安科技(深圳)有限公司 一种图像标注任务的预校验方法、装置、设备及存储介质
CN111340784B (zh) * 2020-02-25 2023-06-23 安徽大学 一种基于Mask R-CNN图像篡改检测方法
CN113324864B (zh) * 2020-02-28 2022-09-20 南京理工大学 一种基于深度学习目标检测的受电弓碳滑板磨耗检测方法
CN111461114B (zh) * 2020-03-03 2023-05-02 华南理工大学 一种基于分割的多尺度特征金字塔文本检测方法
CN111368831B (zh) * 2020-03-03 2023-05-23 开放智能机器(上海)有限公司 一种竖排文字的定位系统及方法
CN111353458B (zh) * 2020-03-10 2023-08-18 腾讯科技(深圳)有限公司 文本框标注方法、装置和存储介质
CN113392861A (zh) * 2020-03-12 2021-09-14 北京京东乾石科技有限公司 模型训练方法、地图绘制方法、装置、计算机设备和介质
CN111553361B (zh) * 2020-03-19 2022-11-01 四川大学华西医院 一种病理切片标签识别方法
CN113496223B (zh) * 2020-03-19 2024-10-18 顺丰科技有限公司 文本区域检测模型的建立方法以及装置
CN111414855B (zh) * 2020-03-19 2023-03-24 国网陕西省电力公司电力科学研究院 基于端到端回归模型的电线杆标牌目标检测及识别方法
CN111310861B (zh) * 2020-03-27 2023-05-23 西安电子科技大学 一种基于深度神经网络的车牌识别和定位方法
CN113449760A (zh) * 2020-03-27 2021-09-28 北京沃东天骏信息技术有限公司 一种字符识别方法和装置
CN111476302B (zh) * 2020-04-08 2023-03-24 北京工商大学 基于深度强化学习的Faster-RCNN目标物体检测方法
CN111553204B (zh) * 2020-04-10 2024-05-28 国网内蒙古东部电力有限公司 一种基于遥感影像的输电杆塔检测方法
CN113516673B (zh) * 2020-04-10 2022-12-02 阿里巴巴集团控股有限公司 图像检测方法、装置、设备和存储介质
CN111488883A (zh) * 2020-04-14 2020-08-04 上海眼控科技股份有限公司 车架号识别方法、装置、计算机设备和存储介质
CN111444919B (zh) * 2020-04-17 2023-07-04 南京大学 一种自然场景中的任意形状文本检测方法
CN111461133B (zh) * 2020-04-20 2023-04-18 上海东普信息科技有限公司 快递面单品名识别方法、装置、设备及存储介质
CN111461101B (zh) * 2020-04-20 2023-05-19 上海东普信息科技有限公司 工服标志的识别方法、装置、设备及存储介质
CN111507333B (zh) * 2020-04-21 2023-09-15 腾讯科技(深圳)有限公司 一种图像矫正方法、装置、电子设备和存储介质
CN111582329B (zh) * 2020-04-22 2023-03-28 西安交通大学 一种基于多示例学习的自然场景文本字符检测标注方法
CN111553345B (zh) * 2020-04-22 2023-10-20 上海浩方信息技术有限公司 基于Mask RCNN与正交线性回归实现仪表指针读数识别处理的方法
CN111507292B (zh) * 2020-04-22 2023-05-12 广东光大信息科技股份有限公司 手写板校正方法、装置、计算机设备以及存储介质
CN111553351A (zh) * 2020-04-26 2020-08-18 佛山市南海区广工大数控装备协同创新研究院 一种基于语义分割的场景任意形状的文本检测方法
CN111723841A (zh) * 2020-05-09 2020-09-29 北京捷通华声科技股份有限公司 文本检测方法、装置、电子设备及存储介质
CN111563502B (zh) * 2020-05-09 2023-12-15 腾讯科技(深圳)有限公司 图像的文本识别方法、装置、电子设备及计算机存储介质
CN111640089B (zh) * 2020-05-09 2023-08-15 武汉精立电子技术有限公司 一种基于特征图中心点的缺陷检测方法及装置
CN111597945B (zh) * 2020-05-11 2023-08-18 济南博观智能科技有限公司 一种目标检测方法、装置、设备及介质
CN111524135B (zh) * 2020-05-11 2023-12-26 安徽继远软件有限公司 基于图像增强的输电线路细小金具缺陷检测方法及系统
CN111753653B (zh) * 2020-05-15 2024-05-03 中铁第一勘察设计院集团有限公司 基于注意力机制的高铁接触网紧固件识别与定位方法
CN111553355B (zh) * 2020-05-18 2023-07-28 城云科技(中国)有限公司 基于监控视频的出店经营检测及通知管理店主的方法
CN111783523B (zh) * 2020-05-19 2022-10-21 中国人民解放军93114部队 一种遥感影像旋转目标检测方法
CN111753828B (zh) * 2020-05-19 2022-12-27 重庆邮电大学 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN112001878A (zh) * 2020-05-21 2020-11-27 合肥合工安驰智能科技有限公司 基于二值化神经网络的深度学习矿石尺度测量方法及应用系统
CN111612081B (zh) * 2020-05-25 2024-04-02 深圳前海微众银行股份有限公司 识别模型的训练方法、装置、设备及存储介质
CN111667469B (zh) * 2020-06-03 2023-10-31 北京小白世纪网络科技有限公司 肺部疾病分类方法、装置及设备
CN111932583A (zh) * 2020-06-05 2020-11-13 西安羚控电子科技有限公司 一种基于复杂背景下的时空信息一体化智能跟踪方法
CN111709987B (zh) * 2020-06-11 2023-04-07 上海东普信息科技有限公司 包裹体积测量方法、装置、设备及存储介质
CN111860479B (zh) * 2020-06-16 2024-03-26 北京百度网讯科技有限公司 光学字符识别方法、装置、电子设备及存储介质
CN111783572B (zh) * 2020-06-17 2023-11-14 泰康保险集团股份有限公司 一种文本检测方法和装置
CN111753714B (zh) * 2020-06-23 2023-09-01 中南大学 基于字符分割的多方向自然场景文本检测方法
CN111898597A (zh) * 2020-06-24 2020-11-06 泰康保险集团股份有限公司 处理文本图像的方法、装置、设备和计算机可读介质
CN111915628B (zh) * 2020-06-24 2023-11-24 浙江大学 一种基于预测目标密集边界点的单阶段实例分割方法
CN111985525B (zh) * 2020-06-30 2023-09-22 上海海事大学 基于多模态信息融合处理的文本识别方法
CN111950353B (zh) * 2020-06-30 2024-04-19 深圳市雄帝科技股份有限公司 印章文本识别方法、装置及电子设备
CN111783427B (zh) * 2020-06-30 2024-04-02 北京百度网讯科技有限公司 用于训练模型与输出信息的方法、装置、设备及存储介质
CN111798516B (zh) * 2020-07-01 2023-12-22 广东省特种设备检测研究院珠海检测院 一种桥式起重机设备运行状态量的检测及误差分析方法
CN111783763A (zh) * 2020-07-07 2020-10-16 厦门商集网络科技有限责任公司 基于卷积神经网络的文本定位框校正方法及其系统
CN111931572B (zh) * 2020-07-07 2024-01-09 广东工业大学 一种遥感影像的目标检测方法
CN111783705B (zh) * 2020-07-08 2023-11-14 厦门商集网络科技有限责任公司 一种基于注意力机制的文字识别方法及系统
CN111860264B (zh) * 2020-07-10 2024-01-05 武汉理工大学 一种基于梯度均衡策略的多任务实例级道路场景理解算法
CN111862115A (zh) * 2020-07-10 2020-10-30 武汉善睐科技有限公司 一种基于Mask RCNN遥感影像分割方法
CN111814705B (zh) * 2020-07-14 2022-08-02 广西师范大学 一种基于批次分块遮挡网络的行人再辨识方法
CN112052723A (zh) * 2020-07-23 2020-12-08 深圳市玩瞳科技有限公司 识字卡片、基于图像识别的桌面场景的str方法及装置
CN111798480B (zh) * 2020-07-23 2024-07-26 北京思图场景数据科技服务有限公司 基于单字符及文字间连接关系预测的文字检测方法及装置
CN111860506B (zh) 2020-07-24 2024-03-29 北京百度网讯科技有限公司 识别文字的方法和装置
CN111914727B (zh) * 2020-07-28 2024-04-26 联芯智能(南京)科技有限公司 基于平衡采样与非线性特征融合的小目标人体检测方法
CN111914838B (zh) * 2020-07-28 2024-05-31 同济大学 一种基于文本行识别的车牌识别方法
CN111898610B (zh) * 2020-07-29 2024-04-19 平安科技(深圳)有限公司 卡片缺角检测方法、装置、计算机设备及存储介质
CN111753812A (zh) * 2020-07-30 2020-10-09 上海眼控科技股份有限公司 文本识别方法及设备
CN112016403B (zh) * 2020-08-05 2023-07-21 中山大学 一种视频异常事件检测方法
CN111930622B (zh) * 2020-08-10 2023-10-13 中国工商银行股份有限公司 基于深度学习的界面控件测试方法及系统
CN112069910B (zh) * 2020-08-11 2024-03-01 上海海事大学 一种遥感图像多方向舰船目标检测方法
CN112069907A (zh) * 2020-08-11 2020-12-11 盛视科技股份有限公司 基于实例分割的x光机图像识别方法、装置及系统
CN112200181B (zh) * 2020-08-19 2023-10-10 西安理工大学 一种基于粒子群优化算法的文字形状逼近方法
CN112102250B (zh) * 2020-08-20 2022-11-04 西北大学 训练数据为缺失标注的病理图像检测模型建立、检测方法
CN112926372B (zh) * 2020-08-22 2023-03-10 清华大学 基于序列变形的场景文字检测方法及系统
CN112070082B (zh) * 2020-08-24 2023-04-07 西安理工大学 一种基于实例感知成分合并网络的曲线文字定位方法
CN111985439B (zh) * 2020-08-31 2024-08-13 中移(杭州)信息技术有限公司 人脸检测方法、装置、设备和存储介质
CN112036405B (zh) * 2020-08-31 2024-06-18 浪潮云信息技术股份公司 一种手写文档文本的检测识别方法
CN112052853B (zh) * 2020-09-09 2024-02-02 国家气象信息中心 一种基于深度学习的手写气象档案资料的文本定位方法
CN112085122B (zh) * 2020-09-21 2024-03-15 中国科学院上海微系统与信息技术研究所 一种基于本体的半监督图像场景语义深化方法
CN112101277B (zh) * 2020-09-24 2023-07-28 湖南大学 一种图像语义特征约束的遥感目标检测方法
CN112101386B (zh) * 2020-09-25 2024-04-23 腾讯科技(深圳)有限公司 文本检测方法、装置、计算机设备和存储介质
CN112183322B (zh) * 2020-09-27 2022-07-19 成都数之联科技股份有限公司 一种任意形状的文本检测和矫正方法
CN112085735B (zh) * 2020-09-28 2022-10-25 西安交通大学 一种基于自适应锚框的铝材质图像缺陷检测方法
CN112183545B (zh) * 2020-09-29 2024-05-17 佛山市南海区广工大数控装备协同创新研究院 一种任意形状的自然场景文本识别方法
CN112287977B (zh) * 2020-10-06 2024-02-09 武汉大学 一种基于边界框关键点距离的目标检测方法
CN112036398B (zh) * 2020-10-15 2024-02-23 北京一览群智数据科技有限责任公司 一种文本校正方法及其系统
CN112215235B (zh) * 2020-10-16 2024-04-26 深圳华付技术股份有限公司 一种针对具有大字符间距与局部遮挡的场景文本检测方法
CN112308150B (zh) * 2020-11-02 2022-04-15 平安科技(深圳)有限公司 目标检测模型训练方法、装置、计算机设备和存储介质
CN112419174B (zh) * 2020-11-04 2022-09-20 中国科学院自动化研究所 基于门循环单元的图像文字去除方法、系统及装置
CN112270370B (zh) * 2020-11-06 2023-06-02 北京环境特性研究所 一种车辆表观毁伤评估方法
CN112330646A (zh) * 2020-11-12 2021-02-05 南京优视智能科技有限公司 一种基于二维图像的动车车底异常检测方法
CN112434698A (zh) * 2020-11-23 2021-03-02 泰康保险集团股份有限公司 字符识别方法、装置、电子设备及存储介质
CN112464943B (zh) * 2020-11-25 2023-07-14 创新奇智(南京)科技有限公司 基于少样本的语义分割方法及装置、电子设备、存储介质
CN112418134B (zh) * 2020-12-01 2024-02-27 厦门大学 基于行人解析的多流多标签行人再识别方法
CN112529768B (zh) * 2020-12-04 2023-01-06 中山大学 一种基于生成对抗网络的服装编辑和生成方法
CN112541491B (zh) * 2020-12-07 2024-02-02 沈阳雅译网络技术有限公司 基于图像字符区域感知的端到端文本检测及识别方法
CN112446372B (zh) * 2020-12-08 2022-11-08 电子科技大学 基于通道分组注意力机制的文本检测方法
CN112650832B (zh) * 2020-12-14 2022-09-06 中国电子科技集团公司第二十八研究所 基于拓扑及文献特征的知识关联网络关键节点发现方法
CN112446356B (zh) * 2020-12-15 2024-05-24 西北工业大学 基于多重极坐标的自然场景下任意形状文本的检测方法
CN112633343B (zh) * 2020-12-16 2024-04-19 国网江苏省电力有限公司检修分公司 一种电力设备端子排接线校核方法及装置
CN112598635B (zh) * 2020-12-18 2024-03-12 武汉大学 一种基于对称点生成的点云3d目标检测方法
CN112669446B (zh) * 2020-12-24 2024-04-19 联通(浙江)产业互联网有限公司 楼宇场景的建模方法和装置
CN112528997B (zh) * 2020-12-24 2022-04-19 西北民族大学 一种基于文本中心区域扩增的藏汉双语场景文本检测方法
CN112580738B (zh) * 2020-12-25 2021-07-23 特赞(上海)信息科技有限公司 基于改进的AttentionOCR文本识别方法及装置
CN113435466B (zh) * 2020-12-26 2024-07-05 上海有个机器人有限公司 电梯门位置和开关状态的检测方法、装置、介质和终端
CN112598683B (zh) * 2020-12-27 2024-04-02 北京化工大学 一种基于扫频光学相干层析成像的扫频oct人眼图像分割方法
CN112651948B (zh) * 2020-12-30 2022-04-12 重庆科技学院 一种基于机器视觉的青蒿素萃取智能跟踪与识别方法
CN112862842B (zh) * 2020-12-31 2023-05-12 青岛海尔科技有限公司 图像数据的处理方法和装置、存储介质及电子装置
CN112686245B (zh) * 2021-01-04 2022-05-13 福州大学 基于字符响应的字符和文本并行检测方法
CN112766270A (zh) * 2021-01-08 2021-05-07 中国工商银行股份有限公司 一种图片分割方法、装置及存储介质
CN112686203B (zh) * 2021-01-12 2023-10-31 重庆大学 一种基于空间先验的车辆安全警示装置检测方法
CN112801146B (zh) * 2021-01-13 2024-03-19 华中科技大学 一种目标检测方法及系统
CN113592876B (zh) * 2021-01-14 2024-09-06 腾讯科技(深圳)有限公司 分割网络的训练方法、装置、计算机设备和存储介质
CN112733768B (zh) * 2021-01-15 2022-09-09 中国科学技术大学 基于双向特征语言模型的自然场景文本识别方法及装置
CN112712535B (zh) * 2021-01-18 2024-03-22 长安大学 基于模拟困难样本的Mask-RCNN滑坡分割方法
CN112766361A (zh) * 2021-01-18 2021-05-07 山东师范大学 一种同色系背景下目标果实检测方法及检测系统
CN112651989B (zh) * 2021-01-19 2024-01-19 华东理工大学 基于Mask RCNN实例分割的SEM图像分子筛粒径统计方法和系统
CN112883795B (zh) * 2021-01-19 2023-01-31 贵州电网有限责任公司 一种基于深度神经网络的表格快速自动提取方法
CN112784737B (zh) * 2021-01-21 2023-10-20 上海云从汇临人工智能科技有限公司 结合像素分割和线段锚的文本检测方法、系统及装置
CN112766263B (zh) * 2021-01-21 2024-02-02 西安理工大学 一种针对多层控股关系股份图的识别方法
CN112766262B (zh) * 2021-01-21 2024-02-02 西安理工大学 一种针对单层一对多和多对一股份图的识别方法
CN112766194A (zh) * 2021-01-26 2021-05-07 上海海洋大学 一种海洋中尺度涡检测方法
CN112818975B (zh) * 2021-01-27 2024-09-24 北京金山数字娱乐科技有限公司 文本检测模型训练方法及装置、文本检测方法及装置
CN112801092B (zh) * 2021-01-29 2022-07-15 重庆邮电大学 一种自然场景图像中字符元素检测方法
CN112990211B (zh) * 2021-01-29 2023-07-11 华为技术有限公司 一种神经网络的训练方法、图像处理方法以及装置
CN112766274B (zh) * 2021-02-01 2023-07-07 长沙市盛唐科技有限公司 一种基于Mask RCNN算法的水尺图像水位自动读数方法及系统
CN112946436A (zh) * 2021-02-02 2021-06-11 成都国铁电气设备有限公司 一种车载接触网绝缘器消弧缺断在线智能检测方法
CN112818873B (zh) * 2021-02-04 2023-05-26 苏州魔视智能科技有限公司 车道线检测方法、系统及电子设备
CN112700444B (zh) * 2021-02-19 2023-06-23 中国铁道科学研究院集团有限公司铁道建筑研究所 基于自注意力与中心点回归模型的桥梁螺栓检测方法
CN112883887B (zh) * 2021-03-01 2023-07-18 中央财经大学 一种基于高空间分辨率光学遥感图像的建筑物实例自动提取方法
CN113095319B (zh) * 2021-03-03 2022-11-15 中国科学院信息工程研究所 基于全卷积角点修正网络的多向场景文字检测方法及装置
CN113065401A (zh) * 2021-03-04 2021-07-02 国网河北省电力有限公司 一种全票种报账智能平台
CN113065404B (zh) * 2021-03-08 2023-02-24 国网河北省电力有限公司 基于等宽文字片段的火车票内容检测方法与系统
CN113159021A (zh) * 2021-03-10 2021-07-23 国网河北省电力有限公司 基于上下文信息的文本检测方法
CN113033346B (zh) * 2021-03-10 2023-08-04 北京百度网讯科技有限公司 文本检测方法、装置和电子设备
CN112966678B (zh) * 2021-03-11 2023-01-24 南昌航空大学 一种文本检测方法及系统
CN113011597B (zh) * 2021-03-12 2023-02-28 山东英信计算机技术有限公司 一种回归任务的深度学习方法和装置
CN113052369B (zh) * 2021-03-15 2024-05-10 北京农业智能装备技术研究中心 智能农机作业管理方法及系统
US11682220B2 (en) * 2021-03-15 2023-06-20 Optum Technology, Inc. Overlap-aware optical character recognition
CN113033377B (zh) * 2021-03-16 2024-08-20 北京有竹居网络技术有限公司 字符位置修正方法、装置、电子设备和存储介质
CN112907605B (zh) * 2021-03-19 2023-11-17 南京大学 用于实例分割的数据增强方法
CN113128560B (zh) * 2021-03-19 2023-02-24 西安理工大学 一种基于注意力模块增强的cnn楷体书法风格分类方法
CN112991304B (zh) * 2021-03-23 2024-06-14 湖南珞佳智能科技有限公司 一种基于激光定向能量沉积监测系统的熔池溅射检测方法
CN112733822B (zh) * 2021-03-31 2021-07-27 上海旻浦科技有限公司 一种端到端文本检测和识别方法
CN113052759B (zh) * 2021-03-31 2023-03-21 华南理工大学 基于mask和自动编码器的场景复杂文本图像编辑方法
CN113379614B (zh) * 2021-03-31 2024-09-17 西安理工大学 基于Resnet网络的计算鬼成像重建恢复方法
CN112926692B (zh) * 2021-04-09 2023-05-09 四川翼飞视科技有限公司 基于非均匀混合卷积的目标检测装置、方法和存储介质
CN112927245B (zh) * 2021-04-12 2022-06-21 华中科技大学 一种基于实例查询的端到端实例分割方法
CN113205095A (zh) * 2021-04-13 2021-08-03 北京三快在线科技有限公司 一种训练模型以及字符检测的方法及装置
CN113033540B (zh) * 2021-04-14 2024-08-02 易视腾科技股份有限公司 场景文字的轮廓拟合和校正方法、电子设备及存储介质
CN113033482B (zh) * 2021-04-20 2024-01-30 上海应用技术大学 一种基于区域注意力的交通标志检测方法
CN113177389A (zh) * 2021-04-23 2021-07-27 网易(杭州)网络有限公司 文本处理方法、装置、电子设备及存储介质
CN113139541B (zh) * 2021-04-24 2023-10-24 西安交通大学 一种基于深度学习的配电柜表盘数码管视觉识别方法
CN113269197B (zh) * 2021-04-25 2024-03-08 南京三百云信息科技有限公司 基于语义分割的证件图像顶点坐标回归系统和识别方法
CN113762237B (zh) * 2021-04-26 2023-08-18 腾讯科技(深圳)有限公司 文本图像处理方法、装置、设备及存储介质
CN113159053A (zh) * 2021-04-27 2021-07-23 北京有竹居网络技术有限公司 图像识别方法、装置及计算设备
CN113269045A (zh) * 2021-04-28 2021-08-17 南京大学 自然场景下中文艺术字检测识别方法
CN113191296A (zh) * 2021-05-13 2021-07-30 中国人民解放军陆军炮兵防空兵学院 一种基于yolov5的任意朝向目标五参数检测方法
CN113139625B (zh) * 2021-05-18 2023-12-15 北京世纪好未来教育科技有限公司 一种模型训练方法、电子设备及其存储介质
CN113221773B (zh) * 2021-05-19 2022-09-13 中国电子科技集团公司第二十八研究所 基于遥感影像快速构建飞机分类数据集的方法
CN113516116B (zh) * 2021-05-19 2022-11-22 西安建筑科技大学 一种适用于复杂自然场景的文本检测方法、系统和介质
CN113177511A (zh) * 2021-05-20 2021-07-27 中国人民解放军国防科技大学 基于多数据流的旋转边框智能感知目标检测方法
CN113569620B (zh) * 2021-05-24 2024-09-13 惠州市德赛西威智能交通技术研究院有限公司 一种基于单目视觉的路面标记实例化识别的方法
CN113379761B (zh) * 2021-05-25 2023-04-28 重庆顺多利机车有限责任公司 一种基于人工智能的多agv与自动门的联动方法与系统
CN113159037B (zh) * 2021-05-25 2023-08-08 中国平安人寿保险股份有限公司 图片矫正方法、装置、计算机设备及存储介质
CN113191358B (zh) * 2021-05-31 2023-01-24 上海交通大学 金属零件表面文本检测方法和系统
CN113177553B (zh) * 2021-05-31 2022-08-12 哈尔滨工业大学(深圳) 一种电梯内面板楼层按钮识别方法和装置
CN113313173B (zh) * 2021-06-01 2023-05-30 中山大学 基于图表示和改进Transformer的人体解析方法
CN115457531A (zh) * 2021-06-07 2022-12-09 京东科技信息技术有限公司 用于识别文本的方法和装置
CN113362380B (zh) * 2021-06-09 2024-07-02 北京世纪好未来教育科技有限公司 一种图像特征点检测模型训练方法、装置及其电子设备
CN113343980B (zh) * 2021-06-10 2023-06-09 西安邮电大学 自然场景文本检测方法及系统
CN113609892A (zh) * 2021-06-16 2021-11-05 北京工业大学 深度学习与景区知识图谱融合的手写诗词识别方法
CN113378815B (zh) * 2021-06-16 2023-11-24 南京信息工程大学 一种场景文本定位识别的系统及其训练和识别的方法
CN113345106A (zh) * 2021-06-24 2021-09-03 西南大学 一种基于多尺度多层级转换器的三维点云分析方法及系统
CN113360655B (zh) * 2021-06-25 2022-10-04 中国电子科技集团公司第二十八研究所 一种基于序列标注的航迹点分类及文本生成方法
CN113255669B (zh) * 2021-06-28 2021-10-01 山东大学 任意形状自然场景文本检测方法及系统
CN113569650A (zh) * 2021-06-29 2021-10-29 上海红檀智能科技有限公司 一种基于电力杆塔标牌识别的无人机自主巡检定位方法
CN113343987B (zh) * 2021-06-30 2023-08-22 北京奇艺世纪科技有限公司 文本检测处理方法、装置、电子设备及存储介质
CN113469177B (zh) * 2021-06-30 2024-04-26 河海大学 基于深度学习的排水管道缺陷检测方法及系统
WO2023279186A1 (en) * 2021-07-06 2023-01-12 Orbiseed Technology Inc. Methods and systems for extracting text and symbols from documents
CN113673497B (zh) * 2021-07-21 2024-11-05 浙江大华技术股份有限公司 文本检测方法、终端及其计算机可读存储介质
CN113435542A (zh) * 2021-07-22 2021-09-24 安徽理工大学 一种基于深度学习的煤矸实时检测方法
CN113343990B (zh) * 2021-07-28 2021-12-03 浩鲸云计算科技股份有限公司 一种证件类图片的关键文本检测、分类训练方法
CN113657213A (zh) * 2021-07-30 2021-11-16 五邑大学 文本识别方法、装置和计算机可读存储介质
CN113763326B (zh) * 2021-08-04 2023-11-21 武汉工程大学 一种基于Mask Scoring R-CNN网络的受电弓检测方法
CN113807336B (zh) * 2021-08-09 2023-06-30 华南理工大学 图像文本检测半自动标注方法、系统、计算机设备及介质
CN113780087B (zh) * 2021-08-11 2024-04-26 同济大学 一种基于深度学习的邮政包裹文本检测方法及设备
CN113887282B (zh) * 2021-08-30 2024-07-26 中国科学院信息工程研究所 一种面向场景图像中任意形状邻近文本的检测系统及方法
CN113643136B (zh) * 2021-09-01 2024-06-18 京东科技信息技术有限公司 信息处理方法、系统和装置
CN113807340B (zh) * 2021-09-07 2024-03-15 南京信息工程大学 一种基于注意力机制的不规则自然场景文本识别方法
CN113807351B (zh) * 2021-09-18 2024-01-16 京东鲲鹏(江苏)科技有限公司 一种场景文字检测方法和装置
CN113837168A (zh) * 2021-09-22 2021-12-24 易联众智鼎(厦门)科技有限公司 一种图像文本检测与ocr识别方法、装置及存储介质
CN113850189B (zh) * 2021-09-26 2024-06-21 北京航空航天大学 一种应用于机动平台的嵌入式孪生网络实时跟踪方法
CN113903023B (zh) * 2021-09-28 2024-07-02 南京信息工程大学 基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法
CN113989806B (zh) * 2021-10-11 2024-05-24 康旭科技有限公司 一种可扩展的crnn银行卡号识别方法
CN113989708B (zh) * 2021-10-27 2024-06-04 福州大学 一种基于YOLO v4的校园图书馆疫情防控方法
CN113903046A (zh) * 2021-10-28 2022-01-07 中国工商银行股份有限公司 一种印章文本识别方法、装置及设备
TWI807467B (zh) * 2021-11-02 2023-07-01 中國信託商業銀行股份有限公司 要項偵測模型建立方法、業務導向要項鍵值辨識系統及方法
CN114049625B (zh) * 2021-11-11 2024-02-27 西北工业大学 基于新型图像收缩方法的多方向文本检测方法
CN114155540B (zh) * 2021-11-16 2024-05-03 深圳市联洲国际技术有限公司 基于深度学习的文字识别方法、装置、设备及存储介质
CN113989604B (zh) * 2021-11-18 2024-06-25 广东工业大学 基于端到端深度学习的轮胎dot信息识别方法
CN114049648B (zh) * 2021-11-25 2024-06-11 清华大学 工程图文本检测识别方法、装置及系统
CN114120333B (zh) * 2021-11-29 2024-08-23 武汉大学 一种基于深度学习的自然场景古汉字识别方法及系统
CN114187445A (zh) * 2021-11-29 2022-03-15 北京百度网讯科技有限公司 识别图像中文本的方法、装置、电子设备及存储介质
CN114170099A (zh) * 2021-12-02 2022-03-11 中国科学技术大学 任意形状场景文字擦除方法、系统、设备与存储介质
CN114140786B (zh) * 2021-12-03 2024-05-17 杭州师范大学 基于HRNet编码与双分支解码的场景文本识别方法
CN114283326B (zh) * 2021-12-22 2024-11-05 大连海事大学 一种结合局部感知和高阶特征重构的水下目标重识别方法
CN114220114A (zh) * 2021-12-28 2022-03-22 科大讯飞股份有限公司 文本图像识别方法、装置、设备以及存储介质
CN114332020B (zh) * 2021-12-29 2024-08-13 中国科学技术大学 一种基于可见光图像的光伏板定位与缺陷检测方法及系统
CN114332839B (zh) * 2021-12-30 2024-06-07 福州大学 一种基于多空间联合感知的街景文本检测方法
CN114332841B (zh) * 2021-12-31 2024-08-02 福州大学 一种基于选择性特征融合金字塔的场景文本检测方法
CN114399757B (zh) * 2022-01-13 2024-08-02 福州大学 多路并行位置关联网络的自然场景文本识别方法及系统
CN114067321B (zh) * 2022-01-14 2022-04-08 腾讯科技(深圳)有限公司 一种文本检测模型训练方法、装置、设备及存储介质
CN114550161B (zh) * 2022-01-20 2024-08-09 北京大学 一种端到端的三维目标稀疏检测方法
CN114418001B (zh) * 2022-01-20 2023-05-12 北方工业大学 一种基于参数重构网络的字符识别方法及系统
CN114419020B (zh) * 2022-01-26 2022-10-18 深圳大学 医学图像分割方法、装置、计算机设备及存储介质
CN114550154A (zh) * 2022-02-09 2022-05-27 国网河北省电力有限公司超高压分公司 一种基于机器视觉的图像匹配算法
CN114565789B (zh) * 2022-02-15 2024-05-24 华南理工大学 一种基于集合预测的文本检测方法、系统、装置及介质
CN114201967B (zh) * 2022-02-17 2022-06-10 杭州费尔斯通科技有限公司 一种基于候选实体分类的实体识别方法、系统及装置
CN114549958B (zh) * 2022-02-24 2023-08-04 四川大学 基于上下文信息感知机理的夜间和伪装目标检测方法
CN114863160A (zh) * 2022-02-28 2022-08-05 复旦大学 一种用于机器人分拣的自监督小样本实例分割方法
CN115223171B (zh) * 2022-03-15 2024-07-02 腾讯科技(深圳)有限公司 文本识别方法、装置、设备及存储介质
CN115035538B (zh) * 2022-03-22 2023-04-07 北京百度网讯科技有限公司 文本识别模型的训练方法、文本识别方法及装置
CN114359912B (zh) * 2022-03-22 2022-06-24 杭州实在智能科技有限公司 基于图神经网络的软件页面关键信息提取方法及系统
CN114723946B (zh) * 2022-04-11 2024-02-27 合肥工业大学 一种基于语义分割的择优式方向偏移预警系统和方法
CN114972711B (zh) * 2022-04-14 2024-09-20 重庆邮电大学 一种基于语义信息候选框的改进弱监督目标检测方法
CN114897716B (zh) * 2022-04-22 2024-08-06 上海大学 一种面向目标检测的甲骨文拓片数据增强方法
CN114973123B (zh) * 2022-04-28 2024-09-10 南京信息技术研究院 基于二阶目标检测和语义识别的货车归属识别方法
CN114862648B (zh) * 2022-05-27 2023-06-20 晋城市大锐金马工程设计咨询有限公司 采用a、b两种文档进行交叉水印加密的文档
CN114973267A (zh) * 2022-05-31 2022-08-30 北京智通东方软件科技有限公司 模型训练方法、文本识别方法、装置、介质及设备
CN115019064B (zh) * 2022-06-27 2024-09-10 华中科技大学 一种针对旋翼无人机防控的双阶段关键部位识别方法
CN115243250B (zh) * 2022-07-25 2024-05-28 每日互动股份有限公司 一种获取wifi画像的方法、系统及存储介质
CN114972947B (zh) * 2022-07-26 2022-12-06 之江实验室 一种基于模糊语义建模的深度场景文本检测方法和装置
CN114972710B (zh) * 2022-07-27 2022-10-28 深圳爱莫科技有限公司 一种在图像中实现多形状目标检测的方法及系统
CN115346206B (zh) * 2022-10-20 2023-01-31 松立控股集团股份有限公司 基于改进超分辨的深度卷积特征识别的车牌检测方法
CN115546778B (zh) * 2022-10-22 2023-06-13 清华大学 一种基于多任务学习的场景文本检测方法及系统
CN115909376A (zh) * 2022-11-01 2023-04-04 北京百度网讯科技有限公司 文本识别方法、文本识别模型训练方法、装置及存储介质
CN115422389B (zh) * 2022-11-07 2023-04-07 北京百度网讯科技有限公司 处理文本图像的方法及装置、神经网络的训练方法
CN115497106B (zh) * 2022-11-14 2023-01-24 合肥中科类脑智能技术有限公司 基于数据增强和多任务模型的电池激光喷码识别方法
CN116580388A (zh) * 2023-04-21 2023-08-11 深圳先进技术研究院 一种端到端的文本识别方法
CN116485759A (zh) * 2023-04-25 2023-07-25 什维新智医疗科技(上海)有限公司 一种超声影像中目标边界识别方法、系统及电子设备
CN116701347B (zh) * 2023-05-08 2023-12-05 北京三维天地科技股份有限公司 一种基于类别扩展的数据建模方法及系统
CN116342627B (zh) * 2023-05-23 2023-09-08 山东大学 一种基于多实例学习的肠上皮化生区域图像分割系统
CN116434234B (zh) * 2023-05-25 2023-10-17 珠海亿智电子科技有限公司 一种铸坯字符的检测与识别方法、装置、设备及存储介质
CN116442393B (zh) * 2023-06-08 2024-02-13 山东博硕自动化技术有限公司 基于视频识别的搅拌站智能卸料方法、系统及控制设备
CN116436987B (zh) * 2023-06-12 2023-08-22 深圳舜昌自动化控制技术有限公司 一种IO-Link主站数据报文传输处理方法和系统
CN116524521B (zh) * 2023-06-30 2023-09-15 武汉纺织大学 一种基于深度学习的英文字符识别方法和系统
CN116524529B (zh) * 2023-07-04 2023-10-27 青岛海信信息科技股份有限公司 一种基于图形嵌套关系的图层识别新方法
CN117078901B (zh) * 2023-07-12 2024-04-16 长江勘测规划设计研究有限责任公司 一种钢筋视图单点筋自动标注方法
CN116884013B (zh) * 2023-07-21 2024-07-23 江苏方天电力技术有限公司 一种工程图纸的文字矢量化方法
CN116740688B (zh) * 2023-08-11 2023-11-07 武汉市中西医结合医院(武汉市第一医院) 一种药品识别方法和系统
CN116863482B (zh) * 2023-09-05 2023-12-19 华立科技股份有限公司 一种互感器检测方法、装置、设备及存储介质
CN117037173B (zh) * 2023-09-22 2024-02-27 武汉纺织大学 一种二阶段的英文字符检测与识别方法及系统
CN117409400B (zh) * 2023-10-18 2024-06-07 无锡九霄科技有限公司 基于深度学习网络的复杂条件字符识别方法
CN117221146B (zh) * 2023-11-09 2024-01-23 成都科江科技有限公司 一种梯形图逻辑组态的界面布局系统及布局方法
CN117315702B (zh) * 2023-11-28 2024-02-23 山东正云信息科技有限公司 基于集合预测的文本检测方法、系统及介质
CN117315238B (zh) * 2023-11-29 2024-03-15 福建理工大学 一种车辆目标检测的方法与终端
CN117436442B (zh) * 2023-12-19 2024-03-12 中南大学 一种文本词项多重分割合并标注拆分方法及装置
CN117556806B (zh) * 2023-12-28 2024-03-22 大连云智信科技发展有限公司 一种中医证候名细粒度分割方法
CN117475038B (zh) * 2023-12-28 2024-04-19 浪潮电子信息产业股份有限公司 一种图像生成方法、装置、设备及计算机可读存储介质
CN117560456B (zh) * 2024-01-11 2024-06-21 卓世未来(天津)科技有限公司 一种大模型数据防泄漏方法及系统
CN117975467B (zh) * 2024-04-02 2024-08-13 华南理工大学 一种桥接式的端到端文字识别方法
CN118397602B (zh) * 2024-05-13 2024-10-25 广州引力科视电子设备有限公司 一种智能路牌识别车载摄像头系统
CN118552906B (zh) * 2024-07-25 2024-10-29 华南理工大学 基于语义分割和目标检测的人员违规下水监测方法
CN118552966B (zh) * 2024-07-29 2024-10-29 极术(杭州)科技有限公司 字符分隔值文件的目标对象识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740909A (zh) * 2016-02-02 2016-07-06 华中科技大学 一种基于空间变换的自然场景下文本识别方法
CN106446899A (zh) * 2016-09-22 2017-02-22 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN106897732A (zh) * 2017-01-06 2017-06-27 华中科技大学 一种基于连接文字段的自然图片中多方向文本检测方法
CN107617573A (zh) * 2017-09-30 2018-01-23 浙江瀚镪自动化设备股份有限公司 一种基于多任务深度学习的物流编码识别和分拣方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9245191B2 (en) * 2013-09-05 2016-01-26 Ebay, Inc. System and method for scene text recognition
CN104751153B (zh) * 2013-12-31 2018-08-14 中国科学院深圳先进技术研究院 一种识别场景文字的方法及装置
CN106778757B (zh) * 2016-12-12 2019-06-04 哈尔滨工业大学 基于文本显著性的场景文本检测方法
CN108549893B (zh) * 2018-04-04 2020-03-31 华中科技大学 一种任意形状的场景文本端到端识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740909A (zh) * 2016-02-02 2016-07-06 华中科技大学 一种基于空间变换的自然场景下文本识别方法
CN106446899A (zh) * 2016-09-22 2017-02-22 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN106897732A (zh) * 2017-01-06 2017-06-27 华中科技大学 一种基于连接文字段的自然图片中多方向文本检测方法
CN107617573A (zh) * 2017-09-30 2018-01-23 浙江瀚镪自动化设备股份有限公司 一种基于多任务深度学习的物流编码识别和分拣方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework;Michal Busta et al;《2017 IEEE International Conference on Computer Vision》;20171231;第2223-2231页 *
TextBoxes: A Fast Text Detector with a Single Deep Neural Network;Minghui Liao et al;《Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence》;20171231;第4161-4167页 *
基于卷积神经网络的自然场景中数字识别;周成伟;《计算机技术与发展》;20171130;第27卷(第11期);第101-105页 *

Also Published As

Publication number Publication date
CN108549893A (zh) 2018-09-18
WO2019192397A1 (zh) 2019-10-10

Similar Documents

Publication Publication Date Title
CN108549893B (zh) 一种任意形状的场景文本端到端识别方法
CN110837835B (zh) 一种基于边界点检测的场景文本端到端识别方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN108304835B (zh) 文字检测方法和装置
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN108229303B (zh) 检测识别和检测识别网络的训练方法及装置、设备、介质
US10424072B2 (en) Leveraging multi cues for fine-grained object classification
CN111488826A (zh) 一种文本识别方法、装置、电子设备和存储介质
Alidoost et al. A CNN-based approach for automatic building detection and recognition of roof types using a single aerial image
CN111461039B (zh) 基于多尺度特征融合的地标识别方法
WO2019089578A1 (en) Font identification from imagery
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN112541491B (zh) 基于图像字符区域感知的端到端文本检测及识别方法
CN110751154B (zh) 一种基于像素级分割的复杂环境多形状文本检测方法
CN113591719B (zh) 一种自然场景任意形状文本检测方法、装置和训练方法
CN115131797B (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
Cai et al. IOS-Net: An inside-to-outside supervision network for scale robust text detection in the wild
CN110517270A (zh) 一种基于超像素深度网络的室内场景语义分割方法
El Abbadi Scene Text detection and Recognition by Using Multi-Level Features Extractions Based on You Only Once Version Five (YOLOv5) and Maximally Stable Extremal Regions (MSERs) with Optical Character Recognition (OCR)
Naosekpam et al. UTextNet: a UNet based arbitrary shaped scene text detector
US20230095533A1 (en) Enriched and discriminative convolutional neural network features for pedestrian re-identification and trajectory modeling
Mohammad et al. Contour-based character segmentation for printed Arabic text with diacritics
CN113657196A (zh) Sar图像目标检测方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant