CN116884013B - 一种工程图纸的文字矢量化方法 - Google Patents
一种工程图纸的文字矢量化方法 Download PDFInfo
- Publication number
- CN116884013B CN116884013B CN202310900613.XA CN202310900613A CN116884013B CN 116884013 B CN116884013 B CN 116884013B CN 202310900613 A CN202310900613 A CN 202310900613A CN 116884013 B CN116884013 B CN 116884013B
- Authority
- CN
- China
- Prior art keywords
- text
- contour
- engineering drawing
- prediction model
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012937 correction Methods 0.000 claims abstract description 30
- 230000004927 fusion Effects 0.000 claims abstract description 27
- 238000010586 diagram Methods 0.000 claims abstract description 19
- 230000002708 enhancing effect Effects 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 50
- 238000012360 testing method Methods 0.000 claims description 29
- 230000007246 mechanism Effects 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 18
- 230000000694 effects Effects 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 43
- 238000013461 design Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 125000004122 cyclic group Chemical group 0.000 description 4
- 210000005266 circulating tumour cell Anatomy 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
- G06V30/422—Technical drawings; Geographical maps
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种工程图纸的文字矢量化方法,包括如下步骤:获取待识别的工程图纸光栅图;基于预设的训练好的文字矢量化的预测模型,对待识别的工程图纸光栅图进行文字识别,得到待识别的工程图纸光栅图的矢量化文字;文字识别方法包括:对待识别的工程图纸光栅图进行特征提取和增强,得到融合特征;根据融合特征,得到文本中心和文本框尺寸;根据文本中心和文本框尺寸,得到定向包围盒的轮廓点和角点;根据轮廓点和角点,得到轮廓数据;根据轮廓数据得到矫正数据;根据矫正数据得到待识别的工程图纸光栅图的矢量化文字。最终实现了工程图纸中高精度的文字矢量化预测。
Description
技术领域
本发明涉及一种工程图纸的文字矢量化方法,属于机器学习技术领域。
背景技术
工程图是图形产品的定义,它是基于所拥有的一些特定领域的知识的人类专家、工程技术人员描述设计的对象与设计思想的工具之一。纸质图纸识别过程中,需要检测并提取出纸质图纸扫描图像中字符,然后识别并记录。要实现纸质图纸到CAD图的自动转换,需要将现有图纸图像中信息通过自动识别的方式将其中标注参数由图像信息转换为计算机可识别与处理的字符串文本信息,以便利用计算机代替人工完成一些繁琐耗时的数据处理与分析操作,从而提高生产力。将基于机器视觉的质检与自动提取出的设计参数相结合,有效而高效地从图纸图像识别出正确的文本行,得到机械工件等设计参数信息是促进工业制造和建筑设计智能化的重要方式。
工程图纸文字矢量化可通过OCR(Optical Character Recognition,光学字符识别)实现,其是对图像进行分析识别处理,获取文字和版面信息的过程,通常由文本检测和文本识别两个子任务构成。
文本检测和一般目标检测的主要区别在于,文本作为一个整体是同质的,并且具有其局部性的特征,这与一般的目标检测不同。通过同质性和局部性,表明文本实例的任何部分仍然是文本的属性。
这种特性为文本检测方法的当前流行方法奠定了基础,该分支只预测子文本组件,然后将它们组装成文本。这些方法,就其性质而言,可以更好地适应文本中常见的弯曲、长和定向文本的挑战,利用神经网络预测局部属性或分段,并使用后处理步骤重建文本实例,与传统的多阶段方法相比,它们更多地依赖于神经网络,管道更短。
文本识别模型使用CNN将图像编码到特征空间。主要区别在于文本内容解码模式。两种主要技术是连接主义时间分类(Connectionist Tem-poral Classification,CTC)和编码器-解码器框架。
CTC和编解码器框架最初都是为一维顺序输入数据设计的,因此适用于直线和水平文本的识别,CNN可以在不丢失重要信息的情况下将其编码为一系列特征帧。然而,定向和弯曲文本中的字符分布在二维空间中。为了适应CTC和编码器-解码器框架(其解码需要一维输入),在特征空间中有效地表示定向和弯曲文本仍然是一个挑战。对于有向和弯曲的文本,直接将特征压缩成一维形式可能会丢失相关信息并引入背景噪声,从而导致识别精度降低。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域普通技术人员所公知的现有技术。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种工程图纸的文字矢量化方法,
为达到上述目的,本发明是采用下述技术方案实现的:
本发明公开了一种工程图纸的文字矢量化方法,包括如下步骤:
获取待识别的工程图纸光栅图;
基于预设的训练好的文字矢量化的预测模型,对所述待识别的工程图纸光栅图进行文字识别,得到待识别的工程图纸光栅图的矢量化文字;
其中,所述预测模型的文字识别方法包括:
基于所述预测模型的特征提取及增强模块,对所述待识别的工程图纸光栅图进行特征提取和增强,得到融合特征;
基于所述预测模型的水平文本提议生成模块,根据所述融合特征,进行文本的轴对齐边框的中心和大小预测,得到文本中心和文本框尺寸;
基于所述预测模型的定向文本提议生成模块,根据所述文本中心和文本框尺寸,对定向包围盒的角点进行回归,得到定向包围盒的轮廓点和角点;
基于所述预测模型的任意形状文本轮廓生成模块,根据所述轮廓点和角点,对定向包围盒的轮廓进行演化,得到轮廓点位置和等高线置信度;
基于所述预测模型的文字形状矫正模块,根据所述轮廓点位置和等高线置信度,进行文字形状矫正,得到矫正数据;
基于所述预测模型的文本识别模块,根据所述矫正数据,进行文字识别,得到待识别的工程图纸光栅图的矢量化文字。
进一步的,所述文字矢量化的预测模型的训练方法包括:
获取数据集,所述训练集包括训练集和测试集;
根据所述训练集,对预先构建的文字矢量化的预测模型进行训练,得到训练后的预测模型;
根据所述测试集,测试所述训练后的预测模型的测试效果;
响应于所述测试效果达到预设的效果阈值,则输出该训练后的预测模型作为训练好的文字矢量化的预测模型;否则根据所述测试效果,调整训练后的预测模型的超参数,根据所述训练集对超参数调整后的预测模型进行迭代训练,直至得到训练好的文字矢量化的预测模型。
进一步的,所述数据集的获取方法包括,
利用摄像设备或扫描仪对用于训练的纸质的工程图纸进行扫描,得到工程图纸光栅图;
对所述工程图纸光栅图的文字信息进行标注,得到包括多组数据的数据集;其中,数据集中的每一组数据包括文本定位框及其相对应的文本标注;
基于预设的划分比例,将所述数据集划分为训练集和测试集。
进一步的,所述训练集和测试集的划分比例为8:2。
进一步的,根据所述训练集,对预先构建的文字矢量化的预测模型进行训练,得到训练后的预测模型,包括:
基于预先构建的文字矢量化的预测模型,对训练集中的每一组数据进行数据读取并进行反向传播优化参数;其中,所述反向传播中基于随机梯度下降法对预测模型的模型参数进行优化;
重复数据读取并进行反向传播优化参数的步骤,直至达到预设的训练终止条件,输出训练后的预测模型;
其中,所述数据读取的步骤包括:
基于特征提取及增强模块,对训练集中的任一组数据进行特征提取和增强,得到融合特征;
基于水平文本提议生成模块,根据所述融合特征,进行文本的轴对齐边框的中心和大小预测,得到文本中心和文本框尺寸,并计算文本中心的定位的损失函数和文本框尺寸回归的损失函数;
基于定向文本提议生成模块,根据所述文本中心和文本框尺寸,对定向包围盒的角点进行回归,得到定向包围盒的轮廓点和角点,并计算角点的损失函数;
基于任意形状文本轮廓生成模块,根据所述轮廓点和角点,对定向包围盒的轮廓进行演化,得到轮廓点位置和等高线置信度,并计算等高线位置演化的损失函数和轮廓评分机制的损失函数;
基于文字形状矫正模块,根据所述轮廓点位置和等高线置信度,进行文字形状矫正,得到矫正数据;
基于所述预测模型的文本识别模块,根据所述矫正数据,进行文字识别,得到待识别的工程图纸光栅图的矢量化文字。6.根据权利要求5所述的工程图纸的文字矢量化方法,其特征是,所述反向传播中基于随机梯度下降法对预测模型的模型参数进行优化,优化目标为总损失函数最小,总损失函数为文本中心的定位的损失函数、文本框尺寸回归的损失函数、角点的损失函数、等高线位置演化的损失函数和轮廓评分机制的损失函数之和。
进一步的,所述文本中心的定位的损失函数的表达式如下:
其中,Lcenter表示文本中心的定位的损失函数;Nt表示文本的数量;表示第k个文本中心的预测值;k表示热图上的位置指数;Pk表示第k个文本中心的真值;α表示第一惩罚超参数;β表示第二惩罚超参数;o.ω.表示otherwise,其他情况。
进一步的,所述文本框尺寸回归的损失函数的表达式如下:
其中,Lsize表示文本框尺寸框回归的损失函数;Nt表示文本的数量;表示smooth L1损失;表示第k个中心点的预测尺寸;Qk表示第k个中心点的真值。
进一步的,所述角点的损失函数的表达式如下:
其中,Lcorner表示角点的损失函数;Nt表示文本的数量;Nb表示定向文本提案的角点数量;表示smooth L1损失;表示文本k中的角点p的预测值;表示定向边界框的角点的地面真值。
进一步的,所述等高线位置演化的损失函数的表达式如下:
其中,Levolution表示等高线位置演化的损失函数;Nt表示文本的数量;N0表示单个文本轮廓点的数量;k表示文本数量的索引;m表示单个文本轮廓点数量的索引;表示第k个文本的第m个等高线点的预测值;是第k个文本的第m个等高线点的真值;
所述轮廓评分机制的损失函数的表达式如下:
其中,Lcsm表示轮廓评分机制的损失函数;Nt表示文本的数量;q是轮廓的分类标签,是由属于背景(q=0)或文本(q=1)的第k个轮廓包围的区域的分数。
与现有技术相比,本发明所达到的有益效果:
首先,首先通过特征提取及增强模块进行图像增强,然后利用水平文本提议生成模块、定向文本提议生成模块、任意形状文本轮廓生成模块采用自上而下的方式逐步将最初的文本提案演变为任意形状的文本轮廓。
其次,基于定向文本提议生成模块,为了促进轮廓的渐进演化,设计轮廓信息聚合机制,同时考虑循环拓扑和语义上下文来丰富文本轮廓上的特征表示,提高了对工程图纸文字矢量化的精度。
最后,基于文字形状矫正模块,对输入候选文本区域自适应地变换。最终实现了工程图纸中高精度的文字矢量化预测。
附图说明
图1是实施例提供的预测模型的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本实施例提供了一种工程图纸的文字矢量化方法,包括如下步骤:
获取待识别的工程图纸光栅图;
基于预设的训练好的文字矢量化的预测模型,对待识别的工程图纸光栅图进行文字识别,得到待识别的工程图纸光栅图的矢量化文字;
其中,预测模型的文字识别方法包括:
基于预测模型的特征提取及增强模块,对待识别的工程图纸光栅图进行特征提取和增强,得到融合特征;
基于预测模型的水平文本提议生成模块,根据融合特征,进行文本的轴对齐边框的中心和大小预测,得到文本中心和文本框尺寸;
基于预测模型的定向文本提议生成模块,根据文本中心和文本框尺寸,对定向包围盒的角点进行回归,得到定向包围盒的轮廓点和角点;
基于预测模型的任意形状文本轮廓生成模块,根据轮廓点和角点,对定向包围盒的轮廓进行演化,得到轮廓点位置和等高线置信度;
基于预测模型的文字形状矫正模块,根据轮廓点位置和等高线置信度,进行文字形状矫正,得到矫正数据;
基于预测模型的文本识别模块,根据矫正数据,进行文字识别,得到待识别的工程图纸光栅图的矢量化文字。
本发明的技术构思为:首先,首先通过特征提取及增强模块进行图像增强,然后利用水平文本提议生成模块、定向文本提议生成模块、任意形状文本轮廓生成模块,文本检测模块采用自上而下的方式逐步将最初的文本提案演变为任意形状的文本轮廓;
其次,基于定向文本提议生成模块,为了促进轮廓的渐进演化,设计轮廓信息聚合机制,同时考虑循环拓扑和语义上下文来丰富文本轮廓上的特征表示;
最后,基于文字形状矫正模块,对输入候选文本区域自适应地变换。最终实现了工程图纸中高精度的文字矢量化预测。
文字矢量化的预测模型的训练方法包括如下步骤:
步骤1:获取数据集,训练集包括训练集和测试集。
步骤1.1:利用摄像设备或扫描仪对用于训练的纸质的工程图纸进行扫描,得到工程图纸光栅图;摄像设备包括深度摄像头、测距摄像机,扫描仪包括红外扫描仪。
步骤1.2:对工程图纸光栅图的文字信息进行标注,得到包括多组数据的数据集;其中,数据集中的每一组数据包括文本定位框及其相对应的文本标注;本实施例中标注的文本定位框及其相对应的文本标注为COCO数据集格式;
基于预设的划分比例,将数据集划分为训练集和测试集。本实施例中的训练集和测试集的划分比例为8:2。
步骤2:根据训练集,对预先构建的文字矢量化的预测模型进行训练,得到训练后的预测模型;
预先构建的文字矢量化的预测模型包括6个模块:特征提取及增强模块、水平文本提议生成模块、定向文本提议生成模块、任意形状文本轮廓生成模块、文字形状矫正模块和文本识别模块。
首先通过特征提取及增强模块进行图像增强,然后利用水平文本提议生成模块、定向文本提议生成模块、任意形状文本轮廓生成模块,文本检测模块采用自上而下的方式逐步将最初的文本提案演变为任意形状的文本轮廓;再通过文字形状矫正模块,将输入候选文本区域变换、映射到相对规范的形状外观;最后通过文本识别模块,将矫正后文本区域编码为包含上下文信息的文字特征序列,再从文字特征序列识别出对应的标注文字ID序列。模型的具体训练步骤如下:
步骤2.1:基于特征提取和增强模块,根据步骤2的训练集数据,进行特征提取和增强,得到融合特征Fe。
输入训练集数据的数据图像
使用不同尺度的卷积核对输入的数据图像进行多维度特征进行提取,输出特征计算公式如式(1)(2):
S0=x#(1)
其中,H表示输入的数据图像x的高度,W表示输入的数据图像x的宽度,表示特征Si的通道维度,且S0=x;Si表示第i个特征,i表示特征的序号;fi,j(·)表示一个卷积核;c为第一超参数,用于表示提取每个特征所用的卷积核的数量;l为第二超参数,用于表示特征的总数量。
因为输出特征每个特征Si的宽度和高度都分别是特征Si-1的宽度和高度的二分之一,特征融合时需要先将多个特征的宽度和高度变成一样,即通过上采样,将特征Si放大到和特征Si-1一样的大小,然后沿着通道维度将特征融合。
设一共有l个特征,则先从尺寸最小的特征Sl开始,上采样后和Sl-1融合;然后对上一步融合后新的特征,上采样后和Sl-2融合;依次类推,直到和S1融合完毕,得到融合后的特征Fe。
步骤2.2:基于水平文本提议生成模块(Horizontal Text ProposalGeneration),根据上一特征提取和增强模块的融合特征Fe,预测文本的轴对齐边框的中心和大小,得到文本中心和文本框尺寸
此模块生成图纸场景文字的文本中心和文本框尺寸其中ψc和ψs由几个卷积层组成,数量根据实际可以调整;本实施例中的ψc包括13个卷积层,ψs包括13个卷积层。
将文本中心的定位视为具有焦点损失的像素逻辑回归,输入为文本中心的预测值和真值,输出为文本中心的定位的损失函数,优化目标为损失函数的值最小化,计算公式如式(3)所示:
其中,Lcenter表示文本中心的定位的损失函数;
Nt表示文本的数量;
表示第k个文本中心的预测值;
k表示热图上的位置指数;
Pk表示第k个文本中心的真值;
α表示第一惩罚超参数,本实施例中设为2;
β表示第二惩罚超参数,本实施例中设为4;
o.ω.表示otherwise,其他情况。
此外,文本框尺寸回归只考虑轴对齐边界框的中心点,输入为中心点的预测值和真值,输出为文本框尺寸回归的损失函数,优化目标为损失函数的值最小化,其训练目标如公式(4)所示:
其中,Lsize表示文本框尺寸回归的损失函数;
Nt表示文本的数量;
表示smoothL1损失;
表示第k个中心点的预测尺寸;
Qk表示第k个中心点的真值。
步骤2.3:基于定向文本提议生成模块(Oriented Text Proposal Generation),根据上一水平文本提议生成模块的轮廓数据的文本中心和文本框尺寸对定向包围盒的角点进行回归,得到定向包围盒的轮廓数据的轮廓点X'和角点
本实施例中的定向文本提议生成模块具体包含3个子模块:轮廓定位子模块、轮廓信息聚合子模块、角点生成子模块。
基于轮廓定位子模块,在每个水平文本提议的文本框轮廓上均匀地采样No个采样点,注意水平文本提议用于训练表示真值框,而水平文本提议的轮廓用于测试表示预测框。我们通过轮廓定位机制(ContourLocalization Mechanism,CLM)估计这些采样点的新位置,即在CLM中,轮廓特征提取器将N0个采样点作为初始轮廓点投影到融合特征Fe上,用于生成语义特征 同时,位置信息的轮廓点,表示为其中m表示轮廓点的索引,xmin表示轮廓点的最左上角坐标。语义特征Fsem与轮廓位置信息Floc将被连接以生成原始轮廓特征De表示单个采样点的语义特征维度。
基于轮廓信息聚合(contour information aggregation,CIA)子模块,将原始轮廓特征Fc作为输入,以生成更具代表性的轮廓特征D表示单个轮廓点新的轮廓特征维度。并将轮廓特征Fcia输入偏移预测头(Offset Prediction Head,OPH)以生成轮廓点偏移其中偏移预测头OPH由三个1×1卷积层组成(前两层配备ReLU),其滤波器数量分别为256、64和2。之后,通过初始轮廓点X与轮廓点偏移O相加得到新的轮廓点的位置。
基于角点生成子模块,将每个文本的角点计算为 其中n∈{0,1,…,Nb-1},k=1,…,Nt,Nb是定向文本提案的角点数量,表示向下取整操作,concatenate表示拼接操作。因此,每个图像中所有文本的预测角点可以称为角点 其损失函数如公式(5)所示:
其中,Lcorner表示角点的损失函数;
Nt表示文本的数量;
Nb表示定向文本提案的角点数量;
表示smooth L1损失;
表示文本k中的角点p的预测值;
表示定向边界框的角点的地面真值。
步骤2.4:基于任意形状文本轮廓生成模块(Arbitrary-Shape Text ContourGeneration),根据上一定向文本提议生成模块的轮廓数据轮廓点X'和角点对定向包围盒的轮廓进行演化,得到轮廓点位置和等高线置信度,实现工程图纸中任意形状场景文本的定位:
首先根据上一定向文本提议生成模块的轮廓数据X'和角点进一步使用K次迭代CLMs将定向文本提议轮廓逐步回归到任意形状的文本轮廓。值得注意的是,定向文本提议是训练的真值,而表示从预测的角点构建的框用于测试。考虑到轮廓可能由一些错误检测演变而来,我们利用可靠的轮廓定位机制(Reliable Contour LocalizationMechanism,RCLM)来增加检测轮廓的可信度。根据输入的轮廓点X'和角点RCLM输出新的轮廓点位置与等高线置信度
因此,等高线位置演化的损失函数如公式(6)所示:
其中,Levolution表示等高线位置演化的损失函数;
Nt表示文本的数量;
N0表示单个文本轮廓点的数量;
k表示文本数量的索引;
m表示单个文本轮廓点数量的索引;
表示第k个文本的第m个等高线点的预测值;
是第k个文本的第m个等高线点的真值,它是从任意形状场景文本的轮廓中均匀采样的。此外,轮廓评分机制的训练目标被视为文本/非文本分类任务,如公式(7)所示:
其中,Lcsm表示轮廓评分机制的损失函数;
Nt表示文本的数量;
q是轮廓的分类标签,是由属于背景(q=0)或文本(q=1)的第k个轮廓包围的区域的分数。
步骤2.5:基于文字形状矫正模块,根据上一任意形状文本轮廓生成模块的轮廓点位置与等高线置信度进行文字形状矫正,得到规范化的形状的矫正数据。
具体来说,基于卷积神经网络(CNN)架构,构造和训练文字形状矫正/规范化神经网络模块,预测文字形状TPS变换的控制点,在其基础上将输入候选文本区域自适应地变换、映射到相对规范(水平、矩形)的形状外观,以便于后续识别。
步骤2.6:基于文本识别模块,根据上一文字形状矫正模块的矫正数据,进行文本识别,得到文字序列。
具体来说,基于循环神经网络(RNN)架构或Transformer网络架构,将矫正后文本区域编码为包含上下文信息的文字特征序列,再使用GRU等基于注意力机制的解码神经网络模块,从文字特征序列识别出对应的标注文字ID序列。
步骤2.7:根据文本识别模块预测的文字序列,使用随机梯度下降法进行反向传播优化模型参数,总损失函数L为所有模块损失函数的和,参数优化的目标为使损失函数L最小化,即从文本识别模块反向逐步到特征提取及增强模块,对模型中卷积核参数进行优化。
损失函数使用主要是在模型的训练阶段,每个批次的训练数据送入模型后,通过前向传播输出预测值,然后损失函数会计算出预测值和真实值之间的差异值,也就是损失值。得到损失值之后,模型通过反向传播去更新各个参数,来降低真实值与预测值之间的损失,使得模型生成的预测值往真实值方向靠拢,从而达到学习的目的。
步骤2.8:读取下一组序列的文档图像和文本嵌入信息,跳转步骤2.1,直至将训练集中的数据读取完。
步骤2.9:重复执行步骤2.1至2.8并持续对模型参数进行优化,直至达到预设的训练终止条件,输出训练后的预测模型;预设的训练终止条件为总损失函数L的值收敛到局部最优点,即在局部最优点附近小幅震荡。
步骤3:根据测试集,测试训练后的预测模型的测试效果;
响应于测试效果达到预设的效果阈值,则输出该训练后的预测模型作为训练好的文字矢量化的预测模型;否则根据测试效果,调整训练后的预测模型的超参数,回到步骤2根据训练集对超参数调整后的预测模型进行迭代训练,直至得到训练好的文字矢量化的预测模型。
具体的将测试集部署在的文字矢量化的预测模型上进行测试,检测模型的效果,并根据模型的效果调整超参数信息,如:学习率learning rate,步骤2.1中的第一超参数c,第二超参数l,,步骤2.2中调节误差的第一惩罚超参数α和第二惩罚超参数β等等。然后跳转到步骤2重新训练,直到模型能在测试集上取得满意的效果,通过本步骤可以得到最终的文字矢量化预测模型。
实施例中的预设的效果阈值为中英文标注文本识别率达到50%以上。
文字矢量化的预测模型的文字识别方法包括如下步骤:
1、基于预测模型的特征提取及增强模块,对待识别的工程图纸光栅图进行特征提取和增强,得到融合特征;
2、基于预测模型的水平文本提议生成模块,根据融合特征,进行文本的轴对齐边框的中心和大小预测,得到文本中心和文本框尺寸;
3、基于预测模型的定向文本提议生成模块,根据文本中心和文本框尺寸,对定向包围盒的角点进行回归,得到定向包围盒的轮廓点和角点;
4、基于预测模型的任意形状文本轮廓生成模块,根据轮廓点和角点,对定向包围盒的轮廓进行演化,得到轮廓数据,轮廓数据包括轮廓点位置与等高线置信度;
5、基于预测模型的文字形状矫正模块,根据轮廓数据,进行文字形状矫正,得到矫正数据;
6、基于预测模型的文本识别模块,根据矫正数据,进行文字识别,得到待识别的工程图纸光栅图的矢量化文字。
综上所述,本发明采用自上而下的方式逐步将最初的文本提案演变为任意形状的文本轮廓,同时设计一种轮廓定位机制。
本发明在定向文本提议生成模块为了促进轮廓的渐进演化,设计了一种轮廓信息聚合机制,通过同时考虑循环拓扑和语义上下文来丰富文本轮廓上的特征表示,提高了对工程图纸文字矢量化的精度。
本发明设计一种适用于工程图标注文字的有效识别方法,构造和训练文字形状矫正模块,预测文字形状TPS变换的控制点,对输入候选文本区域自适应地变换。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种工程图纸的文字矢量化方法,其特征是,包括如下步骤:
获取待识别的工程图纸光栅图;
基于预设的训练好的文字矢量化的预测模型,对所述待识别的工程图纸光栅图进行文字识别,得到待识别的工程图纸光栅图的矢量化文字;
其中,所述预测模型的文字识别方法包括:
基于所述预测模型的特征提取及增强模块,对所述待识别的工程图纸光栅图进行特征提取和增强,得到融合特征;
基于所述预测模型的水平文本提议生成模块,根据所述融合特征,进行文本的轴对齐边框的中心和大小预测,得到文本中心和文本框尺寸;
基于所述预测模型的定向文本提议生成模块,根据所述文本中心和文本框尺寸,对定向包围盒的角点进行回归,得到定向包围盒的轮廓点和角点;
基于所述预测模型的任意形状文本轮廓生成模块,根据所述轮廓点和角点,对定向包围盒的轮廓进行演化,得到轮廓点位置和等高线置信度;
基于所述预测模型的文字形状矫正模块,根据所述轮廓点位置和等高线置信度,进行文字形状矫正,得到矫正数据;
基于所述预测模型的文本识别模块,根据所述矫正数据,进行文字识别,得到待识别的工程图纸光栅图的矢量化文字;
其中,所述特征提取及增强模块中,得到融合特征包括:
使用不同尺度的卷积核对输入的工程图纸光栅图进行多维度特征进行提取,输出特征计算公式如下:
S0=x
其中,H表示输入的工程图纸光栅图x的高度,W表示输入的工程图纸光栅图x的宽度,表示特征Si的通道维度,且S0=x;Si表示第i个特征,i表示特征的序号;fi,j(·)表示一个卷积核;c为第一超参数,用于表示提取每个特征所用的卷积核的数量;l为第二超参数,用于表示特征的总数量;
设一共有l个特征,则先从尺寸最小的特征Sl开始,上采样后和Sl-1融合;然后对上一步融合后新的特征,上采样后和Sl-2融合;依次类推,直到和S1融合完毕,得到融合特征Fe;
所述定向文本提议生成模块包括轮廓定位子模块、轮廓信息聚合子模块、角点生成子模块,得到定向包围盒的轮廓点和角点包括:
基于所述轮廓定位子模块,在每个水平文本提议的文本框轮廓上均匀地采样No个采样点;通过轮廓定位机制中的轮廓特征提取器将N0个采样点作为初始轮廓点投影到融合特征Fe上,用于生成语义特征同时,位置信息的轮廓点,表示为其中m表示轮廓点的索引,xmin表示轮廓点的最左上角坐标;语义特征Fsem与轮廓位置信息Floc将被连接以生成原始轮廓特征De表示单个采样点的语义特征维度;
基于所述轮廓信息聚合子模块,将原始轮廓特征Fc作为输入,以生成更具代表性的轮廓特征D表示单个轮廓点新的轮廓特征维度;并将轮廓特征Fcia输入偏移预测头以生成轮廓点偏移其中偏移预测头OPH由三个1×1卷积层组成;之后,通过初始轮廓点X与轮廓点偏移O相加得到定向包围盒的轮廓点
基于所述角点生成子模块,将每个文本的角点计算为 其中n∈{0,1,…,Nb-1},k=1,…,Nt,Nt表示文本的数量;Nb是定向文本提案的角点数量,N0表示采样点的数量;表示向下取整操作,concatenate表示拼接操作;因此,每个图像中所有文本的预测角点称为定向包围盒的角点
所述任意形状文本轮廓生成模块中,得到轮廓点位置和等高线置信度包括:
根据所述轮廓点X'和角点进一步使用K次迭代CLMs将定向文本提议轮廓逐步回归到任意形状的文本轮廓,通过轮廓定位机制RCLM输出新的轮廓点位置与等高线置信度
2.根据权利要求1所述的工程图纸的文字矢量化方法,其特征是,所述文字矢量化的预测模型的训练方法包括:
获取数据集,所述数据集包括训练集和测试集;
根据所述训练集,对预先构建的文字矢量化的预测模型进行训练,得到训练后的预测模型;
根据所述测试集,测试所述训练后的预测模型的测试效果;
响应于所述测试效果达到预设的效果阈值,则输出该训练后的预测模型作为训练好的文字矢量化的预测模型;否则根据所述测试效果,调整训练后的预测模型的超参数,根据所述训练集对超参数调整后的预测模型进行迭代训练,直至得到训练好的文字矢量化的预测模型。
3.根据权利要求2所述的工程图纸的文字矢量化方法,其特征是,所述数据集的获取方法包括,
利用摄像设备或扫描仪对用于训练的纸质的工程图纸进行扫描,得到工程图纸光栅图;
对所述工程图纸光栅图的文字信息进行标注,得到包括多组数据的数据集;其中,数据集中的每一组数据包括文本定位框及其相对应的文本标注;
基于预设的划分比例,将所述数据集划分为训练集和测试集。
4.根据权利要求3所述的工程图纸的文字矢量化方法,其特征是,所述训练集和测试集的划分比例为8:2。
5.根据权利要求2所述的工程图纸的文字矢量化方法,其特征是,根据所述训练集,对预先构建的文字矢量化的预测模型进行训练,得到训练后的预测模型,包括:
基于预先构建的文字矢量化的预测模型,对训练集中的每一组数据进行数据读取并进行反向传播优化参数;其中,所述反向传播中基于随机梯度下降法对预测模型的模型参数进行优化;
重复数据读取并进行反向传播优化参数的步骤,直至达到预设的训练终止条件,输出训练后的预测模型;
其中,所述数据读取的步骤包括:
基于特征提取及增强模块,对训练集中的任一组数据进行特征提取和增强,得到融合特征;
基于水平文本提议生成模块,根据所述融合特征,进行文本的轴对齐边框的中心和大小预测,得到文本中心和文本框尺寸,并计算文本中心的定位的损失函数和文本框尺寸回归的损失函数;
基于定向文本提议生成模块,根据所述文本中心和文本框尺寸,对定向包围盒的角点进行回归,得到定向包围盒的轮廓点和角点,并计算角点的损失函数;
基于任意形状文本轮廓生成模块,根据所述轮廓点和角点,对定向包围盒的轮廓进行演化,得到轮廓点位置和等高线置信度,并计算等高线位置演化的损失函数和轮廓评分机制的损失函数;
基于文字形状矫正模块,根据所述轮廓点位置和等高线置信度,进行文字形状矫正,得到矫正数据;
基于所述预测模型的文本识别模块,根据所述矫正数据,进行文字识别,得到待识别的工程图纸光栅图的矢量化文字。
6.根据权利要求5所述的工程图纸的文字矢量化方法,其特征是,所述反向传播中基于随机梯度下降法对预测模型的模型参数进行优化,优化目标为总损失函数最小,总损失函数为文本中心的定位的损失函数、文本框尺寸回归的损失函数、角点的损失函数、等高线位置演化的损失函数和轮廓评分机制的损失函数之和。
7.根据权利要求5所述的工程图纸的文字矢量化方法,其特征是,所述文本中心的定位的损失函数的表达式如下:
其中,Lcenter表示文本中心的定位的损失函数;Nt表示文本的数量;表示第k个文本中心的预测值;k表示热图上的位置指数;Pk表示第k个文本中心的真值;α表示第一惩罚超参数;β表示第二惩罚超参数;o.ω.表示otherwise,其他情况。
8.根据权利要求7所述的工程图纸的文字矢量化方法,其特征是,所述文本框尺寸回归的损失函数的表达式如下:
其中,Lsize表示文本框尺寸框回归的损失函数;Nt表示文本的数量;表示smooth L1损失;表示第k个中心点的预测尺寸;Qk表示第k个中心点的真值。
9.根据权利要求8所述的工程图纸的文字矢量化方法,其特征是,所述角点的损失函数的表达式如下:
其中,Lcorner表示角点的损失函数;Nt表示文本的数量;Nb表示定向文本提案的角点数量;表示smooth L1损失;表示文本k中的角点p的预测值;表示定向边界框的角点的地面真值。
10.根据权利要求9所述的工程图纸的文字矢量化方法,其特征是,所述等高线位置演化的损失函数的表达式如下:
其中,Levolution表示等高线位置演化的损失函数;Nt表示文本的数量;N0表示单个文本轮廓点的数量;k表示文本数量的索引;m表示单个文本轮廓点数量的索引;表示第k个文本的第m个等高线点的预测值;是第k个文本的第m个等高线点的真值;
所述轮廓评分机制的损失函数的表达式如下:
其中,Lcsm表示轮廓评分机制的损失函数;Nt表示文本的数量;q是轮廓的分类标签,是由属于背景q=0或文本q=1的第k个轮廓包围的区域的分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310900613.XA CN116884013B (zh) | 2023-07-21 | 2023-07-21 | 一种工程图纸的文字矢量化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310900613.XA CN116884013B (zh) | 2023-07-21 | 2023-07-21 | 一种工程图纸的文字矢量化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116884013A CN116884013A (zh) | 2023-10-13 |
CN116884013B true CN116884013B (zh) | 2024-07-23 |
Family
ID=88264149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310900613.XA Active CN116884013B (zh) | 2023-07-21 | 2023-07-21 | 一种工程图纸的文字矢量化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116884013B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147786A (zh) * | 2019-04-11 | 2019-08-20 | 北京百度网讯科技有限公司 | 用于检测图像中的文本区域的方法、装置、设备以及介质 |
CN110837835A (zh) * | 2019-10-29 | 2020-02-25 | 华中科技大学 | 一种基于边界点检测的场景文本端到端识别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549893B (zh) * | 2018-04-04 | 2020-03-31 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110555433B (zh) * | 2018-05-30 | 2024-04-26 | 北京三星通信技术研究有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
CN113971809A (zh) * | 2021-10-25 | 2022-01-25 | 多伦科技股份有限公司 | 一种基于深度学习的文本识别方法、设备及存储介质 |
CN115457565A (zh) * | 2022-09-13 | 2022-12-09 | 北京中电汇智科技有限公司 | 一种ocr文字识别方法、电子设备及存储介质 |
-
2023
- 2023-07-21 CN CN202310900613.XA patent/CN116884013B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147786A (zh) * | 2019-04-11 | 2019-08-20 | 北京百度网讯科技有限公司 | 用于检测图像中的文本区域的方法、装置、设备以及介质 |
CN110837835A (zh) * | 2019-10-29 | 2020-02-25 | 华中科技大学 | 一种基于边界点检测的场景文本端到端识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116884013A (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113343707B (zh) | 一种基于鲁棒性表征学习的场景文本识别方法 | |
US20190180154A1 (en) | Text recognition using artificial intelligence | |
CN111950453B (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN113298151A (zh) | 一种基于多级特征融合的遥感图像语义描述方法 | |
CN112686898B (zh) | 一种基于自监督学习的放疗靶区自动分割方法 | |
CN112580515B (zh) | 一种基于高斯热图回归的轻量级人脸关键点检测方法 | |
CN110647885B (zh) | 基于图片识别的试卷拆分方法、装置、设备以及介质 | |
CN110033008A (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
CN113657414B (zh) | 一种物体识别方法 | |
CN113516152B (zh) | 一种基于复合图像语义的图像描述方法 | |
CN111833282A (zh) | 一种基于改进的DDcGAN模型的图像融合方法 | |
CN113807340B (zh) | 一种基于注意力机制的不规则自然场景文本识别方法 | |
CN116311310A (zh) | 一种结合语义分割和序列预测的通用表格识别方法和装置 | |
Akopyan et al. | Text recognition on images from social media | |
CN111881743A (zh) | 一种基于语义分割的人脸特征点定位方法 | |
CN112990196A (zh) | 基于超参数搜索和二阶段训练的场景文字识别方法及系统 | |
US20230245483A1 (en) | Handwriting recognition method and apparatus, and electronic device and storage medium | |
CN115861614A (zh) | 一种基于羽绒服图像的自动生成语义分割图的方法和装置 | |
CN116884013B (zh) | 一种工程图纸的文字矢量化方法 | |
CN114139011A (zh) | 一种基于编码器-双解码器的图像中文描述生成方法 | |
CN111144469B (zh) | 基于多维关联时序分类神经网络的端到端多序列文本识别方法 | |
CN105069767A (zh) | 基于表征学习与邻域约束嵌入的图像超分辨重构方法 | |
Subramanian et al. | TEYSuR-Text Extraction with YOLO and Super Resolution | |
CN117612151A (zh) | 一种基于结构增强注意力的英文艺术文字识别方法 | |
CN112329389B (zh) | 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |