[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111079632A - 文本检测模型的训练方法、装置、计算机设备和存储介质 - Google Patents

文本检测模型的训练方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111079632A
CN111079632A CN201911273182.9A CN201911273182A CN111079632A CN 111079632 A CN111079632 A CN 111079632A CN 201911273182 A CN201911273182 A CN 201911273182A CN 111079632 A CN111079632 A CN 111079632A
Authority
CN
China
Prior art keywords
text
box
detection model
training
text detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911273182.9A
Other languages
English (en)
Inventor
周康明
谈咏东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Eye Control Technology Co Ltd
Original Assignee
Shanghai Eye Control Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Eye Control Technology Co Ltd filed Critical Shanghai Eye Control Technology Co Ltd
Priority to CN201911273182.9A priority Critical patent/CN111079632A/zh
Publication of CN111079632A publication Critical patent/CN111079632A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种文本检测模型的训练方法、装置、计算机设备和存储介质,其中,方法通过获取带有文本标注框的样本图像,对样本图像进行特征提取,将样本特征图输入至初始文本检测模型,得到样本图像的文本预测框以及对应的第二坐标矩阵,根据预设的损失函数以及文本标注框的第一坐标矩阵确定文本预测框对应的第二坐标矩阵的损失值;根据损失值训练初始文本检测模型。由于训练时所使用的样本图像中具有任意角度的多边形文本标注框,因此,在对模型进行训练的过程中可以学习到文本的方向性以及尺度变化,进而在利用模型进行文本定位检测时,可以输出与图像中文本方向相匹配的具有任意角度的目标文本框,从而提高了后续机器的识别精度。

Description

文本检测模型的训练方法、装置、计算机设备和存储介质
技术领域
本申请涉及图像识别技术领域,特别是涉及一种文本检测模型的训练方法、装置、计算机设备和存储介质。
背景技术
随着人工智能技术的发展,越来越多的繁琐工作被机器取代。比如一些文本图像的识别录入,如果仅仅依靠人工来完成,不仅耗时费力,而且会因为疲劳疏忽等原因导致问题的产生。因此,可通过机器自动完成对文本图像中文本的定位和检测。
然而,自然场景及文档类的文本检测定位存在文字尺度变化大、方向多、长宽不定、文本密集等问题,又由于文本检测定位的环境比较复杂,使得自然场景中多方向文本及弯曲倾斜常导致机器误识别,因此,传统的矩形回归已经不能满足实际的文本检测定位需求。
发明内容
基于此,有必要针对上述技术问题,提供一种文本检测模型的训练方法、装置、计算机设备和存储介质。
为了实现上述目的,一方面,本申请实施例提供了一种文本检测模型的训练方法,所述方法包括:
获取带有文本标注框的样本图像,其中,文本标注框为任意角度的多边形框,样本图像中包括文本标注框的第一坐标矩阵,第一坐标矩阵中包括文本标注框各顶点的坐标;
对样本图像进行特征提取,以得到对应的样本特征图;
将样本特征图输入至初始文本检测模型,得到样本图像的文本预测框以及对应的第二坐标矩阵,其中,第二坐标矩阵中包括文本预测框各顶点的坐标;
根据预设的损失函数以及文本标注框的第一坐标矩阵确定文本预测框对应的第二坐标矩阵的损失值;
根据损失值训练初始文本检测模型,得到文本检测模型。
在其中一个实施例中,预设的损失函数至少包括线约束损失函数,其中,线约束损失函数L=f(θ),其中,θ表示文本预测框的相邻两个顶点之间的连线与对应的文本标注框的相邻两个顶点之间的连线的夹角。
在其中一个实施例中,根据损失值训练初始文本检测模型,包括:根据线约束损失函数计算得到的线约束损失调整文本预测框对应的第二坐标矩阵中相应顶点的坐标;并采用反向传播法迭代训练初始文本检测模型;在迭代训练时采用调整后的顶点坐标以及线约束损失函数计算线约束损失,重复上述步骤调整相应顶点的坐标,直至达到迭代次数时停止调整。
在其中一个实施例中,在训练初始文本检测模型的过程中,当达到迭代次数时停止训练,并更新初始文本检测模型的参数,将更新参数后的初始文本检测模型确定为文本检测模型。
第二方面,本申请实施例还提供了一种文本检测方法,所述方法包括:
将待检测的文本图像输入至具有多层输出的特征提取网络中,得到多层特征图,其中,多层特征图之间的尺度不同;
对多层特征图进行融合处理,得到融合特征图;
将融合特征图输入至由上述的方法训练得到的文本检测模型中,得到待检测的文本图像中文本区域的目标文本框。
在其中一个实施例中,特征提取网络由三种不同尺度的卷积层组成;则对多层特征图进行融合处理之前,还包括:对尺度最小的卷积层输出的第一特征图进行下采样,得到第二特征图;对尺度最大的卷积层输出的第三特征图进行上采样,得到第四特征图;第二特征图和第四特征图与位于中间尺度的卷积层输出的第五特征图的大小相同;则对多层特征图进行融合处理,包括:对第二特征图、第四特征图和第五特征图进行融合处理。
第三方面,本申请实施例还提供了文本检测模型的训练装置,所述装置包括:
样本图像获取模块,用于获取带有文本标注框的样本图像,其中,文本标注框为任意角度的多边形框,样本图像中包括文本标注框的第一坐标矩阵,第一坐标矩阵中包括文本标注框各顶点的坐标;
第一特征提取模块,用于对样本图像进行特征提取,以得到对应的样本特征图;
第一检测模块,用于将样本特征图输入至初始文本检测模型,得到样本图像的文本预测框以及对应的第二坐标矩阵,其中,第二坐标矩阵中包括文本预测框各顶点的坐标;
损失确定模块,用于根据预设的损失函数以及文本标注框的第一坐标矩阵确定文本预测框对应的第二坐标矩阵的损失值;
训练模块,用于根据损失值训练初始文本检测模型,得到文本检测模型。
第四方面,本申请实施例还提供了一种文本检测装置,所述装置包括:
第二特征提取模块,用于将待检测的文本图像输入至具有多层输出的特征提取网络中,得到多层特征图,其中,多层特征图之间的尺度不同;
特征融合模块,用于对多层特征图进行融合处理,得到融合特征图;
第二检测模块,用于将融合特征图输入至由上述的方法训练得到的文本检测模型,得到待检测的文本图像中文本区域的目标文本框。
第五方面,本申请实施例还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
第六方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。
上述文本检测模型的训练方法、装置、计算机设备和存储介质,由于训练时所使用的样本图像中具有任意角度的多边形文本标注框,并加入线约束损失,因此,在对初始文本检测模型进行训练的过程中可以学习到文本的方向性以及尺度变化,从而得到文本检测模型,进而在利用文本检测模型进行文本定位检测时,可以输出与待检测的文本图像中文本区域方向相匹配的具有任意角度的目标文本框,从而提高了后续机器的识别精度。
附图说明
图1为一个实施例中文本检测模型的训练方法的流程示意图;
图2为一个实施例中文本标注框与文本预测框的示意图;
图3为一个实施例中文本检测方法的应用环境图;
图4为一个实施例中文本检测方法的流程示意图;
图5为一个实施例中特征提取步骤的流程示意图;
图6为一个实施例中文本检测方法的原理图;
图7为一个实施例中文本检测模型的训练装置的结构框图;
图8为一个实施例中文本检测装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
目前传统的文本检测定位方法主要有两种,一种是基于像素分割的思路,另一种是基于锚框回归的思路。其中,基于像素分割的思路主要是利用场景分割的思路对文本进行检测定位,从而找到边界及顶点;而基于锚框回归的多边形回归主要思路在于回归四个点的坐标或者回归两个顶点。而上述方法都只是在网络层面上回归更多的坐标和增加网络的信息,对于解决四边形目标并没有做针对性优化。而且经过实验表明,利用多边形回归往往使得回归出来的文本框的方向与文本方向不一致,这在很大程度上影响了识别模块利用四边形信息,甚至可能矫正之后的图像比原图更倾斜。目前的解决方式通常是选择网络多回归一些辅助监督的信息,如采用回归外接矩形框的坐标信息加强对四个点回归的约束。但是由于这些操作的影响主要是通过卷积及网络层不断相互影响产生的弱监督及弱约束,虽然一定程度上可以缓解回归方向偏差过大的问题,但是这种约束很多时候并不起作用,尤其对于小角度倾斜的样本。
基于此,本申请提供了一种文本检测模型的训练方法,通过具有任意角度的多边形文本标注框的样本图像对初始文本检测模型进行训练,使其在训练过程中可以学习到文本的方向性以及尺度变化,从而得到文本检测模型,进而在使用文本检测模型进行文本定位检测时,可以输出与待检测的文本图像中文本区域方向相匹配的具有任意角度的目标文本框,从而提高了后续机器的识别精度。
在一个实施例中,提供了一种文本检测模型的训练方法,如图1所示,具体可以包括如下步骤:
步骤102,获取带有文本标注框的样本图像。
其中,样本图像是用于后续对模型进行训练的原始数据,其具体可以是包含有任意文本尺度及方向的文本区域的图像。在本实施例中,为了使得模型可以学习到文本的方向性以及尺度特征,对样本图像中的文本区域进行标注,如通过文本标注框的形式将样本图像中的文本区域标注出来,其中,文本标注框可以为任意角度的多边形框。因此,样本图像中包括文本标注框以及对应的第一坐标矩阵,而第一坐标矩阵中则包括文本标注框中各顶点的坐标。
步骤104,对样本图像进行特征提取,以得到对应的样本特征图。
其中,特征提取可以是基于基本的特征提取网络框架实现的,其中,基本的特征提取网络框架不限于VGG(Visual Geometry Group Network,神经网络)、hourglass network(沙漏网络)或者resnet(分类网络)等网络。在本实施例中,通过基本的特征提取网络框架对样本图像进行特征提取,从而得到对应的样本特征图。
步骤106,将样本特征图输入至初始文本检测模型,得到样本图像的文本预测框以及对应的第二坐标矩阵。
其中,初始文本检测模型可以基于LCRPN(Line Constraint Region ProposalNetwork,基于线约束的提议回归网络)网络框架实现,文本预测框是指经过初始文本检测模型对上述样本特征图进行特征检测后,得到的输出结果,即待检测的文本图像中文本区域的预测框。具体的,通过该初始文本检测模型对样本特征图进行定位检测,从而得到对应样本图像中文本区域的文本预测框以及对应的第二坐标矩阵,其中,第二坐标矩阵中包括文本预测框各顶点的坐标。
步骤108,根据预设的损失函数以及文本标注框的第一坐标矩阵确定文本预测框对应的第二坐标矩阵的损失值。
其中,预设的损失函数中至少包括线约束损失函数,当然,还可以包括其他损失函数,如回归损失函数。在本实施例中,回归损失函数用于表示初始文本检测模型的实际输出结果即文本预测框与期望输出结果即文本标注框之间的坐标差值;线约束损失函数用于表示初始文本检测模型的实际输出结果即文本预测框与期望输出结果即文本标注框之间的线损失梯度(下述也称线约束损失)。具体的,根据预设的损失函数以及文本标注框的第一坐标矩阵从而得到文本预测框对应的第二坐标矩阵的损失值。
步骤110,根据损失值训练初始文本检测模型,得到文本检测模型。
具体的,根据损失值可以调整初始文本检测模型中的参数,若调整后的模型参数收敛,则将调整参数后的初始文本检测模型作为文本检测模型,若调整后的模型参数没有收敛,则基于反向传播法继续对初始文本检测模型进行训练,直到模型参数收敛时,将初始文本检测模型作为文本检测模型。
上述文本检测模型的训练方法,由于训练时所使用的样本图像中具有任意角度的多边形文本标注框,因此,在对初始文本检测模型进行训练的过程中可以学习到文本的方向性以及尺度变化,从而得到文本检测模型,进而在利用文本检测模型进行文本定位检测时,可以输出与待检测的文本图像中文本区域方向相匹配的具有任意角度的目标文本框,从而提高了后续机器的识别精度。
在一个实施例中,预设的损失函数至少包括线约束损失函数,具体的,线约束损失函数L=f(θ),其中,θ表示文本预测框的相邻两个顶点之间的连线与对应的文本标注框的相邻两个顶点之间的连线的夹角。当然,预设的损失函数中还可以包括其他损失函数,如回归损失函数,具体的,回归损失函数可以采用L1,也可以采用其他等同的回归损失函数。在本实施例中以回归损失函数为L1进行说明,具体的,回归损失函数L1=F(Q,P),其中,Q为预先标注的样本图像中文本标注框的第一坐标矩阵;P为初始文本检测模型输出的样本图像的文本预测框的第二坐标矩阵。回归损失函数用于表示初始文本检测模型的实际输出结果即文本预测框与期望输出结果即文本标注框之间的坐标差值;线约束损失函数用于表示初始文本检测模型的实际输出结果即文本预测框与期望输出结果即文本标注框之间的线损失梯度(下述也称线约束损失)。
举例来说,如图2所示,对于样本图像中标注的文本标注框A,其对应的第一坐标矩阵,即各顶点的坐标,包括第一顶点坐标x1、y1,第二顶点坐标x2、y2,第三顶点坐标x3、y3,第四顶点坐标x4、y4。通过初始文本检测模型,则可以得到该样本图像中文本区域的文本预测框B以及对应的第二坐标矩阵,即各顶点的坐标,包括第一顶点坐标x′1、y′1,第二顶点坐标x′2、y′2,第三顶点坐标x′3、y′3,第四顶点坐标x′4、y′4。其中,x表示横坐标,y表示纵坐标。
具体的,由于线约束损失表示初始文本检测模型的实际输出结果即文本预测框与期望输出结果即文本标注框之间的线损失梯度,因此,对于任意顶点的线损失梯度既包括横坐标的损失梯度也包括纵坐标的损失梯度。以下以图2中的第一顶点和第二顶点为例进行说明,由于L=f(θ),则有:
Figure BDA0002314796710000081
Figure BDA0002314796710000082
具体的,根据三角函数可以得到如下关系式:
(1)
Figure BDA0002314796710000083
(2)
Figure BDA0002314796710000084
(3)
Figure BDA0002314796710000091
(4)
Figure BDA0002314796710000092
其中,θ12表示文本标注框A的第一顶点坐标与第二顶点坐标的连线与文本预测框B中第一顶点坐标与第二顶点坐标的连线之间的夹角。则有:
Figure BDA0002314796710000093
Figure BDA0002314796710000094
将其代入上述关系式即可得到对应顶点的线损失梯度。
在本实施例中,根据上述公式求得的线损失梯度可以调整文本预测框对应的第二坐标矩阵中相应顶点的坐标,从而达到优化线损失的目的。例如,对于关系式(1)求得的线损失梯度可以用来调整文本预测框对应的第一顶点坐标x1的值,而调整后的坐标值可以在模型迭代过程中再次代入关系式(1)进行计算,并根据计算结果再次调整对应的坐标值,如此循环,直至达到迭代次数时停止对该坐标值的调整,从而使得网络回归更贴合文本方向。
同理,对于关系式(2)求得的线损失梯度可以用来调整文本预测框对应的第一顶点坐标y1的值,对于关系式(3)求得的线损失梯度可以用来调整文本预测框对应的第二顶点坐标x2的值,对于关系式(4)求得的线损失梯度可以用来调整文本预测框对应的第二顶点坐标y2的值。依此类推,对于文本预测框的第三顶点坐标x3、y3以及第四顶点坐标x4、y4都可以通过上述步骤进行调整,以优化对应的线损失,最终使得文本预测框更贴合文本标注框,从而使得模型可以学习到文本的方向性以及尺度变化。
具体的,在上述迭代过程中,同时利用回归损失函数计算得到的回归损失,并采用反向传播法迭代训练初始文本检测模型,且在训练初始文本检测模型的过程中,当达到迭代次数时停止训练,并更新初始文本检测模型的参数,从而将更新参数后的初始文本检测模型确定为文本检测模型。
经过上述训练后的文本检测模型,可以学习到样本图像中文本区域的各种尺度及方向信息,因此,在利用该文本检测模型进行实际文本检测时,可以得到输入的待检测的文本图像中各种尺度或方向的目标文本框,尤其适用于对具有小角度倾斜的文本进行定位检测,因此,极大的提高了后续机器的识别精度。
在一个实施例中,本申请还提供了一种文本检测方法,可以应用于如图3所示的应用环境中。其中,终端302与服务器304通过网络进行通信,在本实施例中,终端302可以是各种具有图像采集功能的设备,如可以但不限于各种智能手机、平板电脑、相机和便携式图像采集设备,服务器304可以用独立的服务器或者是多个服务器组成的服务器集群来实现。具体的,终端302用于采集待检测的文本图像,并将采集的待检测的文本图像通过网络发送至服务器304,当然待检测的文本图像也可以预先存储在服务器304中。服务器304则将待检测的文本图像输入至具有多层输出的特征提取网络中,得到多层特征图,并对多层特征图进行融合处理,以得到融合特征图,进而将融合特征图输入至文本检测模型,得到待检测的文本图像中文本区域的目标文本框。由于目标文本框是与文本方向相匹配的具有任意角度的多边形框,从而提高了后续机器的识别精度。
在一个实施例中,如图4所示,提供了一种文本检测方法,以该方法应用于图3中的服务器为例进行说明,包括以下步骤:
步骤402,将待检测的文本图像输入至具有多层输出的特征提取网络中,得到多层特征图。
其中,待检测的文本图像是指待通过机器进行文本检测的文本图像。特征提取网络则可以是由多个不同尺度的卷积层组成的网络,每层卷积层可以设置不同的卷积核,以提取不同尺度的特征图。具体的,特征提取网络可以是基于基本的特征提取网络框架实现的,其中,基本的特征提取网络框架不限于VGG(Visual Geometry Group Network,神经网络)、hourglass network(沙漏网络)或者resnet(分类网络)等网络。在本实施例中,待检测的文本图像可以存储在服务器中,当要对服务器中的文本图像进行文本检测时,首先将待检测的文本图像输入至特征提取网络中,从而通过特征提取网络的多个卷积层得到各层对应的特征图,以进行后续的文本检测。
步骤404,对多层特征图进行融合处理,得到融合特征图。
由于特征提取网络是由多个不同尺度的卷积层组成的网络,而每个卷积层输出的特征图的尺度不同,因此,在本实施例中,需要对多个不同尺度的特征图进行融合处理,使得不同尺度的特征图之间,相同位置的特征点可以进行相乘或相加运算,从而得到最终的融合特征图。
步骤406,将融合特征图输入至文本检测模型,得到待检测的文本图像中文本区域的目标文本框。
其中,文本检测模型可以是通过上述训练方法对初始文本检测模型进行训练后得到的,其在训练过程中可以学习到文本的方向性以及尺度变化。在本实施例中,通过上述方法训练得到的文本检测模型对待检测的文本图像的融合特征图进行特征检测后,得到输出结果,即可得到待检测的文本图像中文本区域对应的目标文本框,且该目标文本框是与文本方向相匹配的具有任意角度的多边形框。
上述文本检测方法,通过将待检测的文本图像输入至具有多层输出的特征提取网络中,得到多层特征图,且多层特征图之间的尺度不同,并对多层特征图进行融合处理,得到融合特征图,进而将将融合特征图输入至由上述方法训练得到的文本检测模型中,得到待检测的文本图像中文本区域的目标文本框。由于训练时所使用的样本图像中具有任意角度的多边形文本标注框,因此,在对初始文本检测模型进行训练的过程中可以学习到文本的方向性以及尺度变化,从而得到文本检测模型,进而在利用文本检测模型进行文本定位检测时,可以输出与待检测的文本图像中文本区域方向相匹配的具有任意角度的目标文本框,从而提高了后续机器的识别精度。
在一个实施例中,特征提取网络由三种不同尺度的卷积层组成,则如图5所示,在对多层特征图进行融合处理之前,还包括如下步骤:
步骤502,对尺度最小的卷积层输出的第一特征图进行下采样,得到第二特征图。
步骤504,对尺度最大的卷积层输出的第三特征图进行上采样,得到第四特征图。
具体的,如图6所示,待检测的文本图像(img)首先经过一个特征提取网络,该特征提取网络由三种不同尺度的卷积层(conv3_3、conv4_3以及conv5_3)组成。由于通常较小的卷积核可以感应图像中的高频特征,因此使用较小的卷积核的卷积层输出的特征图中携带有小尺度的文本特征;而较大的卷积核可以感应图像中的低频特征,使用较大的卷积核的卷积层输出的特征图中携带有大尺度的文本特征。因此,得到的多个不同尺度的特征图中携带有各种尺度的文本特征,在本实施例中,对尺度最小的卷积层输出的第一特征图进行下采样,从而得到第二特征图;对尺度最大的卷积层输出的第三特征图进行上采样,从而得到第四特征图,其中,第二特征图和第四特征图与位于中间尺度的卷积层输出的第五特征图的大小相同。例如,对conv3_3产生的特征图进行下采样(即图6中的subsample),其下采样结果与conv4_3产生的特征图大小保持一致;对conv5_3产生的特征图进行上采样(即图6中的upsample),其上采样结果与conv4_3产生的特征图大小保持一致。
进而对第二特征图、第四特征图和第五特征图进行融合处理(即图6中的concatenation),对于由多个特征图进行融合处理后得到的融合特征图中也携带有各种尺度的文本特征,因此,文本检测模型可以检测各种尺度的文本。
在本实施例中,融合处理后的特征图可以用f表示。将f送入LCRPN网络中(即经过上述方法训练后得到的文本检测模型),从而得到多个预测框(corner),并通过非极大值抑制法得到感兴趣区域(Roi Generation),将f作为原始图像,对LCRPN网络产生的感兴趣区域进行池化操作(corner-pooling)。将经过池化操作产生的固定大小的特征图输入全连接层(FC Layers),最终定位出img中的目标文本框(det img)。
应该理解的是,虽然图1-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种文本检测模型的训练装置,包括:样本图像获取模块701、第一特征提取模块702、第一检测模块703、损失确定模块704和训练模块705,其中:
样本图像获取模块701,用于获取带有文本标注框的样本图像,其中,文本标注框为任意角度的多边形框,样本图像中包括文本标注框的第一坐标矩阵,第一坐标矩阵中包括文本标注框各顶点的坐标;
第一特征提取模块702,用于对样本图像进行特征提取,以得到对应的样本特征图;
第一检测模块703,用于将样本特征图输入至初始文本检测模型,得到样本图像的文本预测框以及对应的第二坐标矩阵,其中,第二坐标矩阵中包括文本预测框各顶点的坐标;
损失确定模块704,用于根据预设的损失函数以及文本标注框的第一坐标矩阵确定文本预测框对应的第二坐标矩阵的损失值;
训练模块705,用于根据损失值训练初始文本检测模型,得到文本检测模型。
在一个实施例中,预设的损失函数至少包括线约束损失函数,具体的,线约束损失函数L=f(θ),其中,θ表示文本预测框的相邻两个顶点之间的连线与对应的文本标注框的相邻两个顶点之间的连线的夹角。
在一个实施例中,训练模块705具体用于,根据线约束损失函数计算得到的线约束损失调整文本预测框对应的第二坐标矩阵中相应顶点的坐标;并采用反向传播法迭代训练初始文本检测模型;在迭代训练时采用调整后的顶点坐标以及线约束损失函数计算线约束损失,重复上述步骤调整相应顶点的坐标,直至达到迭代次数时停止调整。
在一个实施例中,在训练初始文本检测模型的过程中,当达到迭代次数时停止训练,并更新初始文本检测模型的参数,将更新参数后的初始文本检测模型确定为文本检测模型。
关于文本检测模型的训练装置的具体限定可以参见上文中对于文本检测模型的训练方法的限定,在此不再赘述。上述文本检测模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,如图8所示,提供了一种文本检测装置,包括:第二特征提取模块801、特征融合模块802以及第二检测模块803,其中:
第二特征提取模块801,用于将待检测的文本图像输入至具有多层输出的特征提取网络中,得到多层特征图,其中,多层特征图之间的尺度不同;
特征融合模块802,用于对多层特征图进行融合处理,得到融合特征图;
第二检测模块803,用于将融合特征图输入至由上述的方法训练得到的文本检测模型,得到待检测的文本图像中文本区域的目标文本框。
在一个实施例中,特征提取网络由三种不同尺度的卷积层组成;则上述装置还包括上采样模块和下采样模块,其中:下采样模块用于对尺度最小的卷积层输出的第一特征图进行下采样,得到第二特征图;上采样模块用于对尺度最大的卷积层输出的第三特征图进行上采样,得到第四特征图,且第二特征图和第四特征图与位于中间尺度的卷积层输出的第五特征图的大小相同;则特征融合模块802用于对第二特征图、第四特征图和第五特征图进行融合处理。
关于文本检测装置的具体限定可以参见上文中对于文本检测方法的限定,在此不再赘述。上述文本检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本图像和待检测的文本图像数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本检测模型的训练方法或一种文本检测方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取带有文本标注框的样本图像,其中,文本标注框为任意角度的多边形框,样本图像中包括文本标注框的第一坐标矩阵,第一坐标矩阵中包括文本标注框各顶点的坐标;
对样本图像进行特征提取,以得到对应的样本特征图;
将样本特征图输入至初始文本检测模型,得到样本图像的文本预测框以及对应的第二坐标矩阵,其中,第二坐标矩阵中包括文本预测框各顶点的坐标;
根据预设的损失函数以及文本标注框的第一坐标矩阵确定文本预测框对应的第二坐标矩阵的损失值;
根据损失值训练初始文本检测模型,得到文本检测模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:预设的损失函数至少包括线约束损失函数,其中,线约束损失函数L=f(θ),其中,θ表示文本预测框的相邻两个顶点之间的连线与对应的文本标注框的相邻两个顶点之间的连线的夹角。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据线约束损失函数计算得到的线约束损失调整文本预测框对应的第二坐标矩阵中相应顶点的坐标;利用回归损失函数计算得到的回归损失采用反向传播法迭代训练初始文本检测模型;在迭代训练时采用调整后的顶点坐标以及线约束损失函数计算线约束损失,重复上述步骤调整相应顶点的坐标,直至达到迭代次数时停止调整。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在训练初始文本检测模型的过程中,当达到迭代次数时停止训练,并更新初始文本检测模型的参数,将更新参数后的初始文本检测模型确定为文本检测模型。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
将待检测的文本图像输入至具有多层输出的特征提取网络中,得到多层特征图,其中,多层特征图之间的尺度不同;
对多层特征图进行融合处理,得到融合特征图;
将融合特征图输入至由上述的方法训练得到的文本检测模型中,得到待检测的文本图像中文本区域的目标文本框。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在对多层特征图进行融合处理之前,对尺度最小的卷积层输出的第一特征图进行下采样,得到第二特征图;对尺度最大的卷积层输出的第三特征图进行上采样,得到第四特征图,且第二特征图和第四特征图与位于中间尺度的卷积层输出的第五特征图的大小相同;对第二特征图、第四特征图和第五特征图进行融合处理。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取带有文本标注框的样本图像,其中,文本标注框为任意角度的多边形框,样本图像中包括由文本标注框各顶点的坐标组成的第一坐标矩阵;
对样本图像进行特征提取,以得到对应的样本特征图;
将样本特征图输入至初始文本检测模型,得到样本图像的文本预测框以及对应的第二坐标矩阵,其中,第二坐标矩阵中包括文本预测框各顶点的坐标;
根据预设的损失函数以及第一坐标矩阵确定文本预测框对应的第二坐标矩阵的损失值;
根据损失值训练初始文本检测模型,得到文本检测模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:预设的损失函数至少包括线约束损失函数,其中,线约束损失函数L=f(θ),其中,θ表示文本预测框的相邻两个顶点之间的连线与对应的文本标注框的相邻两个顶点之间的连线的夹角。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据线约束损失函数计算得到的线约束损失调整文本预测框对应的第二坐标矩阵中相应顶点的坐标;并采用反向传播法迭代训练初始文本检测模型;在迭代训练时采用调整后的顶点坐标以及线约束损失函数计算线约束损失,重复上述步骤调整相应顶点的坐标,直至达到迭代次数时停止调整。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在训练初始文本检测模型的过程中,当达到迭代次数时停止训练,并更新初始文本检测模型的参数,将更新参数后的初始文本检测模型确定为文本检测模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
将待检测的文本图像输入至具有多层输出的特征提取网络中,得到多层特征图,其中,多层特征图之间的尺度不同;
对多层特征图进行融合处理,得到融合特征图;
将融合特征图输入至由上述的方法训练得到的文本检测模型中,得到待检测的文本图像中文本区域的目标文本框。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在对多层特征图进行融合处理之前,对尺度最小的卷积层输出的第一特征图进行下采样,得到第二特征图;对尺度最大的卷积层输出的第三特征图进行上采样,得到第四特征图,且第二特征图和第四特征图与位于中间尺度的卷积层输出的第五特征图的大小相同;对第二特征图、第四特征图和第五特征图进行融合处理。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种文本检测模型的训练方法,其特征在于,所述方法包括:
获取带有文本标注框的样本图像,所述文本标注框为任意角度的多边形框,所述样本图像中包括所述文本标注框的第一坐标矩阵,所述第一坐标矩阵中包括所述文本标注框各顶点的坐标;
对所述样本图像进行特征提取,以得到对应的样本特征图;
将所述样本特征图输入至初始文本检测模型,得到所述样本图像的文本预测框以及对应的第二坐标矩阵,所述第二坐标矩阵中包括所述文本预测框各顶点的坐标;
根据预设的损失函数以及所述文本标注框的第一坐标矩阵确定所述文本预测框对应的第二坐标矩阵的损失值;
根据所述损失值训练所述初始文本检测模型,得到文本检测模型。
2.根据权利要求1所述的文本检测模型的训练方法,其特征在于,所述预设的损失函数至少包括线约束损失函数,所述线约束损失函数L=f(θ),其中,θ表示所述文本预测框的相邻两个顶点之间的连线与对应的所述文本标注框的相邻两个顶点之间的连线的夹角。
3.根据权利要求2所述的文本检测模型的训练方法,其特征在于,所述根据所述损失值训练所述初始文本检测模型,包括:
根据所述线约束损失函数计算得到的线约束损失调整所述文本预测框对应的第二坐标矩阵中相应顶点的坐标;
并采用反向传播法迭代训练所述初始文本检测模型;
在迭代训练时采用调整后的顶点坐标以及所述线约束损失函数计算所述线约束损失,重复上述步骤调整相应顶点的坐标,直至达到迭代次数时停止调整。
4.根据权利要求3所述的文本检测模型的训练方法,其特征在于,在训练所述初始文本检测模型的过程中,当达到迭代次数时停止训练,并更新所述初始文本检测模型的参数,将更新参数后的所述初始文本检测模型确定为文本检测模型。
5.一种文本检测方法,其特征在于,所述方法包括:
将待检测的文本图像输入至具有多层输出的特征提取网络中,得到多层特征图,所述多层特征图之间的尺度不同;
对所述多层特征图进行融合处理,得到融合特征图;
将所述融合特征图输入至由权利要求1至4任一项所述的方法训练得到的文本检测模型中,得到待检测的文本图像中文本区域的目标文本框。
6.根据权利要求5所述的文本检测方法,其特征在于,所述特征提取网络由三种不同尺度的卷积层组成;所述对所述多层特征图进行融合处理之前,还包括:
对尺度最小的卷积层输出的第一特征图进行下采样,得到第二特征图;
对尺度最大的卷积层输出的第三特征图进行上采样,得到第四特征图;
所述第二特征图和所述第四特征图与位于中间尺度的卷积层输出的第五特征图的大小相同;
所述对所述多层特征图进行融合处理,包括:
对所述第二特征图、所述第四特征图和所述第五特征图进行融合处理。
7.一种文本检测模型的训练装置,其特征在于,所述装置包括:
样本图像获取模块,用于获取带有文本标注框的样本图像,所述文本标注框为任意角度的多边形框,所述样本图像中包括所述文本标注框的第一坐标矩阵,所述第一坐标矩阵中包括所述文本标注框各顶点的坐标;
第一特征提取模块,用于对所述样本图像进行特征提取,以得到对应的样本特征图;
第一检测模块,用于将所述样本特征图输入至初始文本检测模型,得到所述样本图像的文本预测框以及对应的第二坐标矩阵,所述第二坐标矩阵中包括所述文本预测框各顶点的坐标;
损失确定模块,用于根据预设的损失函数以及所述文本标注框的第一坐标矩阵确定所述文本预测框对应的第二坐标矩阵的损失值;
训练模块,用于根据所述损失值训练所述初始文本检测模型,得到文本检测模型。
8.一种文本检测装置,其特征在于,所述装置包括:
第二特征提取模块,用于将待检测的文本图像输入至具有多层输出的特征提取网络中,得到多层特征图,所述多层特征图之间的尺度不同;
特征融合模块,用于对所述多层特征图进行融合处理,得到融合特征图;
第二检测模块,用于将所述融合特征图输入至由权利要求1至4任一项所述的方法训练得到的文本检测模型,得到待检测的文本图像中文本区域的目标文本框。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
CN201911273182.9A 2019-12-12 2019-12-12 文本检测模型的训练方法、装置、计算机设备和存储介质 Withdrawn CN111079632A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911273182.9A CN111079632A (zh) 2019-12-12 2019-12-12 文本检测模型的训练方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911273182.9A CN111079632A (zh) 2019-12-12 2019-12-12 文本检测模型的训练方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN111079632A true CN111079632A (zh) 2020-04-28

Family

ID=70314114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911273182.9A Withdrawn CN111079632A (zh) 2019-12-12 2019-12-12 文本检测模型的训练方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111079632A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667011A (zh) * 2020-06-08 2020-09-15 平安科技(深圳)有限公司 损伤检测模型训练、车损检测方法、装置、设备及介质
CN112101356A (zh) * 2020-09-27 2020-12-18 中国建设银行股份有限公司 一种图片中特定文本的定位方法、装置及存储介质
CN112132142A (zh) * 2020-09-27 2020-12-25 平安医疗健康管理股份有限公司 文本区域确定方法、装置、计算机设备及存储介质
CN112232360A (zh) * 2020-09-30 2021-01-15 上海眼控科技股份有限公司 图像检索模型优化方法、图像检索方法、装置及存储介质
CN112307978A (zh) * 2020-10-30 2021-02-02 腾讯科技(深圳)有限公司 目标检测方法、装置、电子设备及可读存储介质
CN112329765A (zh) * 2020-10-09 2021-02-05 中保车服科技服务股份有限公司 文本检测的方法及装置、存储介质及计算机设备
CN112348116A (zh) * 2020-11-30 2021-02-09 长沙理工大学 利用空间上下文的目标检测方法、装置和计算机设备
CN112418344A (zh) * 2020-12-07 2021-02-26 汇纳科技股份有限公司 一种训练方法、目标检测方法、介质及电子设备
CN112446378A (zh) * 2020-11-30 2021-03-05 展讯通信(上海)有限公司 目标检测方法及装置、存储介质、终端
CN112613402A (zh) * 2020-12-22 2021-04-06 金蝶软件(中国)有限公司 文本区域检测方法、装置、计算机设备和存储介质
CN112801097A (zh) * 2021-04-14 2021-05-14 北京世纪好未来教育科技有限公司 文本检测模型的训练方法、装置及可读存储介质
CN112818975A (zh) * 2021-01-27 2021-05-18 北京金山数字娱乐科技有限公司 文本检测模型训练方法及装置、文本检测方法及装置
CN112991168A (zh) * 2021-02-08 2021-06-18 上海电力大学 一种基于目标检测和超分辨率的文本检测方法
CN113011312A (zh) * 2021-03-15 2021-06-22 中国科学技术大学 一种基于弱监督文本引导的动作定位模型的训练方法
CN113283453A (zh) * 2021-06-15 2021-08-20 深圳大学 目标检测方法、装置、计算机设备和存储介质
CN113298054A (zh) * 2021-07-27 2021-08-24 国际关系学院 一种基于嵌入空间像素聚类的文本区域检测方法
CN113378832A (zh) * 2021-06-25 2021-09-10 北京百度网讯科技有限公司 文本检测模型训练方法、文本预测框方法及装置
CN113627456A (zh) * 2020-05-09 2021-11-09 杭州海康威视数字技术股份有限公司 生成基准数据的方法和装置
CN113673497A (zh) * 2021-07-21 2021-11-19 浙江大华技术股份有限公司 文本检测方法、终端及其计算机可读存储介质
CN113762393A (zh) * 2021-09-08 2021-12-07 杭州网易智企科技有限公司 模型训练方法、注视点检测方法、介质、装置和计算设备
CN113762109A (zh) * 2021-08-23 2021-12-07 北京百度网讯科技有限公司 一种文字定位模型的训练方法及文字定位方法
CN114708581A (zh) * 2022-04-11 2022-07-05 深圳市星桐科技有限公司 一种图像处理方法、装置、电子设备和存储介质
CN117423116A (zh) * 2023-12-18 2024-01-19 杭州恒生聚源信息技术有限公司 一种文本检测模型的训练方法、文本检测方法及装置

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627456B (zh) * 2020-05-09 2024-03-19 杭州海康威视数字技术股份有限公司 生成基准数据的方法和装置
WO2021227995A1 (zh) * 2020-05-09 2021-11-18 杭州海康威视数字技术股份有限公司 生成基准数据的方法和装置
CN113627456A (zh) * 2020-05-09 2021-11-09 杭州海康威视数字技术股份有限公司 生成基准数据的方法和装置
CN111667011A (zh) * 2020-06-08 2020-09-15 平安科技(深圳)有限公司 损伤检测模型训练、车损检测方法、装置、设备及介质
CN112101356A (zh) * 2020-09-27 2020-12-18 中国建设银行股份有限公司 一种图片中特定文本的定位方法、装置及存储介质
CN112132142A (zh) * 2020-09-27 2020-12-25 平安医疗健康管理股份有限公司 文本区域确定方法、装置、计算机设备及存储介质
CN112232360A (zh) * 2020-09-30 2021-01-15 上海眼控科技股份有限公司 图像检索模型优化方法、图像检索方法、装置及存储介质
CN112329765A (zh) * 2020-10-09 2021-02-05 中保车服科技服务股份有限公司 文本检测的方法及装置、存储介质及计算机设备
CN112329765B (zh) * 2020-10-09 2024-05-24 中保车服科技服务股份有限公司 文本检测的方法及装置、存储介质及计算机设备
CN112307978A (zh) * 2020-10-30 2021-02-02 腾讯科技(深圳)有限公司 目标检测方法、装置、电子设备及可读存储介质
CN112307978B (zh) * 2020-10-30 2022-05-24 腾讯科技(深圳)有限公司 目标检测方法、装置、电子设备及可读存储介质
CN112446378A (zh) * 2020-11-30 2021-03-05 展讯通信(上海)有限公司 目标检测方法及装置、存储介质、终端
CN112348116B (zh) * 2020-11-30 2024-02-02 长沙理工大学 利用空间上下文的目标检测方法、装置和计算机设备
CN112348116A (zh) * 2020-11-30 2021-02-09 长沙理工大学 利用空间上下文的目标检测方法、装置和计算机设备
CN112418344B (zh) * 2020-12-07 2023-11-21 汇纳科技股份有限公司 一种训练方法、目标检测方法、介质及电子设备
CN112418344A (zh) * 2020-12-07 2021-02-26 汇纳科技股份有限公司 一种训练方法、目标检测方法、介质及电子设备
CN112613402B (zh) * 2020-12-22 2024-09-06 金蝶软件(中国)有限公司 文本区域检测方法、装置、计算机设备和存储介质
CN112613402A (zh) * 2020-12-22 2021-04-06 金蝶软件(中国)有限公司 文本区域检测方法、装置、计算机设备和存储介质
CN112818975A (zh) * 2021-01-27 2021-05-18 北京金山数字娱乐科技有限公司 文本检测模型训练方法及装置、文本检测方法及装置
CN112991168A (zh) * 2021-02-08 2021-06-18 上海电力大学 一种基于目标检测和超分辨率的文本检测方法
CN113011312A (zh) * 2021-03-15 2021-06-22 中国科学技术大学 一种基于弱监督文本引导的动作定位模型的训练方法
CN112801097B (zh) * 2021-04-14 2021-07-16 北京世纪好未来教育科技有限公司 文本检测模型的训练方法、装置及可读存储介质
CN112801097A (zh) * 2021-04-14 2021-05-14 北京世纪好未来教育科技有限公司 文本检测模型的训练方法、装置及可读存储介质
CN113283453A (zh) * 2021-06-15 2021-08-20 深圳大学 目标检测方法、装置、计算机设备和存储介质
CN113283453B (zh) * 2021-06-15 2023-08-08 深圳大学 目标检测方法、装置、计算机设备和存储介质
CN113378832B (zh) * 2021-06-25 2024-05-28 北京百度网讯科技有限公司 文本检测模型训练方法、文本预测框方法及装置
CN113378832A (zh) * 2021-06-25 2021-09-10 北京百度网讯科技有限公司 文本检测模型训练方法、文本预测框方法及装置
CN113673497A (zh) * 2021-07-21 2021-11-19 浙江大华技术股份有限公司 文本检测方法、终端及其计算机可读存储介质
CN113298054B (zh) * 2021-07-27 2021-10-08 国际关系学院 一种基于嵌入空间像素聚类的文本区域检测方法
CN113298054A (zh) * 2021-07-27 2021-08-24 国际关系学院 一种基于嵌入空间像素聚类的文本区域检测方法
CN113762109B (zh) * 2021-08-23 2023-11-07 北京百度网讯科技有限公司 一种文字定位模型的训练方法及文字定位方法
CN113762109A (zh) * 2021-08-23 2021-12-07 北京百度网讯科技有限公司 一种文字定位模型的训练方法及文字定位方法
CN113762393B (zh) * 2021-09-08 2024-04-30 杭州网易智企科技有限公司 模型训练方法、注视点检测方法、介质、装置和计算设备
CN113762393A (zh) * 2021-09-08 2021-12-07 杭州网易智企科技有限公司 模型训练方法、注视点检测方法、介质、装置和计算设备
CN114708581A (zh) * 2022-04-11 2022-07-05 深圳市星桐科技有限公司 一种图像处理方法、装置、电子设备和存储介质
CN117423116A (zh) * 2023-12-18 2024-01-19 杭州恒生聚源信息技术有限公司 一种文本检测模型的训练方法、文本检测方法及装置
CN117423116B (zh) * 2023-12-18 2024-03-22 杭州恒生聚源信息技术有限公司 一种文本检测模型的训练方法、文本检测方法及装置

Similar Documents

Publication Publication Date Title
CN111079632A (zh) 文本检测模型的训练方法、装置、计算机设备和存储介质
CN110517278B (zh) 图像分割和图像分割网络的训练方法、装置和计算机设备
CN110135406B (zh) 图像识别方法、装置、计算机设备和存储介质
CN111797650B (zh) 障碍物的识别方法、装置、计算机设备和存储介质
CN110516541B (zh) 文本定位方法、装置、计算机可读存储介质和计算机设备
WO2019201035A1 (zh) 对图像中的对象节点的识别方法、装置、终端及计算机可读存储介质
CN110674804A (zh) 文本图像的检测方法、装置、计算机设备和存储介质
CN111950329A (zh) 目标检测及模型训练方法、装置、计算机设备和存储介质
CN110889325A (zh) 多任务面部动作识别模型训练和多任务面部动作识别方法
WO2016054779A1 (en) Spatial pyramid pooling networks for image processing
US9384398B2 (en) Method and apparatus for roof type classification and reconstruction based on two dimensional aerial images
CN111242126A (zh) 不规则文本校正方法、装置、计算机设备和存储介质
CN111401472B (zh) 基于深度卷积神经网络的红外目标分类方法和装置
CN109711419A (zh) 图像处理方法、装置、计算机设备及存储介质
CN111160288A (zh) 手势关键点检测方法、装置、计算机设备和存储介质
CN112348116B (zh) 利用空间上下文的目标检测方法、装置和计算机设备
CN110807463B (zh) 图像分割方法、装置、计算机设备和存储介质
CN112001399B (zh) 基于局部特征显著化的图像场景分类方法和装置
CN111178358A (zh) 文本识别方法、装置、计算机设备和存储介质
CN112115860B (zh) 人脸关键点定位方法、装置、计算机设备和存储介质
CN112287730A (zh) 姿态识别方法、装置、系统、存储介质及设备
CN111860582B (zh) 图像分类模型构建方法、装置、计算机设备和存储介质
CN111652245B (zh) 车辆轮廓检测方法、装置、计算机设备及存储介质
Midwinter et al. Unsupervised defect segmentation with pose priors
CN114170231A (zh) 基于卷积神经网络的图像语义分割方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200428