CN110838105B - 一种业务流程模型图像识别与再构方法 - Google Patents
一种业务流程模型图像识别与再构方法 Download PDFInfo
- Publication number
- CN110838105B CN110838105B CN201911048985.4A CN201911048985A CN110838105B CN 110838105 B CN110838105 B CN 110838105B CN 201911048985 A CN201911048985 A CN 201911048985A CN 110838105 B CN110838105 B CN 110838105B
- Authority
- CN
- China
- Prior art keywords
- bpmn
- business process
- image
- model
- process model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 151
- 230000008569 process Effects 0.000 title claims abstract description 122
- 230000000877 morphologic effect Effects 0.000 claims abstract description 20
- 230000009466 transformation Effects 0.000 claims abstract description 8
- 238000012216 screening Methods 0.000 claims description 23
- 230000009182 swimming Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 20
- 230000000694 effects Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000003628 erosive effect Effects 0.000 claims description 5
- 238000013145 classification model Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 18
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000013528 artificial neural network Methods 0.000 abstract description 4
- 238000012986 modification Methods 0.000 abstract description 4
- 230000004048 modification Effects 0.000 abstract description 4
- 230000003287 optical effect Effects 0.000 abstract description 4
- 239000011159 matrix material Substances 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于图像轮廓识别及图像分类的从BPMN图片中提取业务流程模型信息并再构的方法,步骤包括使用形态学操作对图片进行分割,快速而准确地将业务流程模型图片分割成独立的部分;使用轮廓检测算法替代主流的目标检测深度神经网络算法,在保证准确率的前提下提升元素检测的效率,确定图片中元素的位置和大小;使用霍夫变换来检测图片中的直线,从而完成连接关系的检测,使用特殊递归算法保证复杂的连接关系也能被正确检测;使用光学字符识别技术,识别BPMN图元中的文本信息,使得模型更加完整;能够自动从BPMN图片中构建业务流程模型并导出模型定义文件,便于修改与编辑,大大节省了人工绘制业务流程模型所需要耗费的时间。
Description
技术领域
本发明涉及一种图像信息识别与抽取的方法,具体涉及一种基于图像轮廓识别及图像分类的从BPMN图片中提取业务流程模型信息并再构的方法,属于业务流程管理及计算机视觉技术领域。
背景技术
业务流程建模标记(BPMN)是一种标准化的软件过程建模标记,包含多种图形元素,包括事件,活动,网关,子过程,数据对象,顺序流,消息流,泳池等。使用业务流程建模标记能简洁清晰地描述一个软件过程中的控制流和数据流。这些元素有序地组合之后,可以描述非常复杂的活动执行过程。
和一般的图形化建模标记类似,使用业务流程建模标记绘制的业务流程模型都是用XML格式的文件记录其定义,常以bpmn作为文件后缀名。业务流程图中元素的嵌套关系,相对位置,类型大小,标注文本等具体信息都记录在bpmn文件中。借助主流的BPMN建模工具例如Activiti Designer,Camunda Modeler,GenMyModel等可以方便快捷地绘制业务流程图并导出相应的bpmn文件。
正是由于业务流程建模标记强大的表达能力以及多种成熟建模工具的支持,促使业务流程建模标记在业务流程建模、业务流程管理等多个方面具有非常广泛的应用。有关BPMN的科学研究也有很多,例如H.Leopold 2014提出了一种将业务流程模型转换为自然语言描述的方法,从而促进软件开发人员与客户之间就业务流程快速达成共识;C.DECHSUPA2018提出了一种将BPMN模型转化为着色Petri网的方法,从而使得对业务流程的形式化检验更加便捷。这些应用与研究都是基于业务流程模型的定义文件的。
但是在日常生活和工作中,业务流程模型往往都是以图片的形式展示出来,主流的建模工具也都没有从业务流程模型图片中提取模型,并转换为可编辑形式的功能。如果我们需要借鉴已有的业务流程模型创建新的模型或者是对已有的业务流程模型进行更新与修改,都必须要依照图片,重新绘制和构建业务流程模型。当一个业务流程图比较复杂的时候,即使有建模工具的支持,绘制工作也还是十分繁琐的。在这种情况下,如果需要处理和搜集大批量的业务流程模型,单单靠手工绘制将是十分耗时与低效的。
所以提出了一种基于图像轮廓识别及图像分类的从BPMN图片中提取业务流程模型信息并再构的方法,借助BPMN建模工具就可以实现自动化地将业务流程模型图片转化为可编辑的模型。首先,该方法提升了人工构建和修改业务流程模型的效率,为业务流程模型提供了新的管理方式。其次,它也拓宽了业务流程模型的应用场景,使得现有对BPMN的研究与理论更加的普适。最后,它使得对业务流程模型数据的处理和搜集更加的便利与快速。快速地搜集和处理数据在当今大数据的时代是十分重要的,有了大量的数据,机器学习等数据分析技术也能更好地在业务流程管理领域的研究中得到应用。
本发明专注于识别BPMN图元,BPMN全拼是Business Process ModelingNotation,是业务流程建模的国际规范,业务流程建模是工作流管理的核心技术,主流的开源工作流管理系统引擎,例如JBPM和Activiti都支持BPMN标准,该标准是国际组织对象管理集团OMG(Object Management Group)颁布的一项关于业务过程建模的标准,官方网站是https://www.bpmn.org/。本发明遵循BPMN2.0标准。
本发明的权利要求和说明书,提到若干术语:“泳池”、“泳道”和“泳道轮廓”。以图2为例,该图总共有五个矩形框,最左侧一个狭长竖线的矩形框,右侧有上下四个并列的横向矩形框,“泳池”就是右侧上下下四个并列的横向矩形框的合称,这上下四个并列的横向矩形框,每个横向的矩形框均是一个“泳道”,在图2示例中,有四个“泳道”,所谓“泳道轮廓”,就是横向的每个矩形框的边框线,这是在BPMN业务流程模型的图像识别时必须识别和分割的。
发明内容
本发明是一种业务流程模型图像识别与再构方法,提供一种BPMN图像信息识别和抽取的方法,包括识别图片中的业务流程建模标记,区分其所属的类型以及在图片中的相对位置和嵌套关系;识别图片中元素的连接关系,确定每条连接线的起点、终点和路径;识别图片中的文本信息,将文本信息与元素类别相结合,得到完整的建模标记及其相关信息,从而构建整个业务流程模型;将业务流程模型转换为XML格式定义文件并导出。该方法能有效地识别图片中的元素对象,准确地抽取并复原原始模型,能够提升人工构建和管理业务流程模型的效率,促进业务流程模型的推广与应用,为业务流程管理的研究提供了新的方法。
本发明所述的一种业务流程模型图像识别与再构方法,其特征在于包含以下步骤:
步骤(1)对业务流程模型BPMN的图片进行分割;
步骤(2)识别图片中的BPMN图元的轮廓;
步骤(3)对BPMN图元的轮廓进行筛选,筛选出BPMN图元并构建模型基本框架;
步骤(4)识别业务流程建模标记BPMN图元间的连接关系;
步骤(5)识别业务流程建模标记BPMN图元的类型与相关文本;
步骤(6)构建业务流程模型BPMN的;
步骤(7)输出业务流程模型BPMN的定义文件;
所述步骤(1)中将用业务流程模型标记(BPMN)绘制的业务流程模型图像进行分割,独立每个图形元素,具体子步骤包括:
步骤(1.1)对输入图像进行预处理,将其转换为二值图像,背景为白色,业务流程图元素为黑色;
步骤(1.2)对图像进行膨胀的形态学操作,背景白色区域会膨胀;
步骤(1.3)对图像进行侵蚀的形态学操作,前景黑色区域会膨胀;
步骤(1.4)计算形态学操作后的图像与原始二值图像的差,得到割裂的业务流程图像,每个图元素都是一个独立的部分;
所述步骤(2)中识别步骤(1)中分割图像各个部分的轮廓,具体子步骤包括:
步骤(2.1)对分割后的图像进行预处理,使得图像背景为黑色,前景色为白色,即业务流程图中的元素为白色;
步骤(2.2)对图像进行轮廓检测,检测出图像中所有白色区域的轮廓;
步骤(2.3)计算每个轮廓的最小包围矩形,以该矩形来表示轮廓的位置和大小;
步骤(2.4)把所有轮廓按照拓扑嵌套关系以树的形式组织起来,图像中属于单个独立部分的所有轮廓构成了表示该独立部分的一棵子树;
所述步骤(3)中对提取出来的元素轮廓进行筛选,筛选出BPMN图元并构建模型基本框架,具体子步骤包括:
步骤(3.1)对步骤(2)中的轮廓树进行层次遍历;
步骤(3.2)筛选出业务流程图中泳池轮廓;
步骤(3.3)筛选出属于一个泳池的所有泳道轮廓;
步骤(3.4)筛选出属于一个泳道的所有BPMN图元轮廓和子过程轮廓;
步骤(3.5)将筛选出的轮廓构建成只有泳池与BPMN图元(包括BPMN模型的子过程)的业务流程基本模型;
所述步骤(4)识别业务流程模型图中BPMN图元间的连接关系,识别出每条连接线首部连接的元素,尾部连接的元素以及连接线的路径,具体子步骤包括:
步骤(4.1)对输入图像进行预处理,将其转换为二值图像,背景为黑色,前景为白色;
步骤(4.2)将步骤(3)中我们检测出的所有BPMN图元,从图像中去除,将每个元素的包围矩形所覆盖的部分变为黑色;
步骤(4.3)去除图片中的所有文字,使得图片中仅剩连接元素;
步骤(4.4)识别轮廓中的连接对象,使用霍夫变换,检测出图像中的直线;
步骤(4.5)使用形态学操作,确定图片中箭头的位置,将与箭头直接连接的直线作为初始顺序流,然后不断将与顺序流连接的线段加入顺序流,直到顺序流找到一个起始元素;
所述步骤(5)中对所有检测出的BPMN图元进行分类,同时识别出每个BPMN图元中的文本文字,作为BPMN图元的标签,具体子步骤包括:
步骤(5.1)使用VGG16卷积神经网络架构训练BPMN图元分类器,将标记好的BPMN图元数据集分为训练集和测试集,使用训练集进行VGG16架构的卷积神经网络分类器的训练,使用测试集进行分类器分类效果的评估,训练目标是选择出最优的模型参数来对图片进行特征提取与特征分类,使用RMSProp优化算法来调整参数,使得模型在训练集上的预测误差最小,从而获得训练集上的最优模型参数,构建分类模型;
步骤(5.2)依据检测出的所有元素位置,从原始图像中截取相应元素的图像,使用训练好的分类器识别BPMN图元的类别;
步骤(5.3)将元素图像输入Tesseract文字识别引擎,识别BPMN图元中的文本信息;
所述步骤(6)中将识别出的文本与业务流程建模标记进行匹配,得到所有的模型元素,按照元素嵌套关系及连接关系构建业务流程模型,具体子步骤包括:
步骤(6.1)依据连接对象的起始位置与终止位置,找到其连接的流对象元素,从而将所有流对象元素连接起来,构成连通图;
步骤(6.2)依据连通图,重新构建业务流程模型;
步骤(6.3)将业务流程模型记录成符合BPMN2.0规范的XML格式的定义文件;
所述步骤(7)输出从BPMN图像中提取的业务流程模型定义文件,提取效果通对比生成的业务流程模型定义文件与原图片对应定义文件的一致程度从而进行评估,一致程度从识别出的泳池数量,流对象数量及类型,连接对象数量及连接关系等多个角度进行评价。
本发明与现有技术相比,其显著优点是:现有的建模工具和平台都未提供本发明所实现的功能。本发明所述方法使用了形态学操作对图片进行分割,快速而准确地将业务流程模型图片分割成独立的部分;使用轮廓检测算法替代主流的目标检测深度神经网络算法,在保证准确率的前提下提升元素检测的效率,确定图片中元素的位置和大小;使用霍夫变换来检测图片中的直线,从而完成连接关系的检测,使用特殊递归算法保证复杂的连接关系也能被正确检测;使用光学字符识别技术,识别BPMN图元中的文本信息,使得模型更加完整;能够自动从BPMN图片中构建业务流程模型并导出模型定义文件,便于修改与编辑,大大节省了人工绘制业务流程模型所需要耗费的时间。
附图说明
图1业务流程模型图像识别与再构方法流程图
图2业务流程模型图片示意图
图3 VGG16模型结构图
具体实施方式
为使本发明的目的、技术方案和优点更加清晰,下面将结合附图及具体实施例对本发明进行详细描述。
本发明的目的在于解决业务流程模型图片不可编辑的问题,提出了一种基于图像轮廓识别及图像分类的从BPMN图片中提取业务流程模型信息并再构的方法。通过使用形态学操作对图片进行分割,快速而准确地将业务流程模型图片分割成独立的部分;使用轮廓检测算法替代主流的目标检测深度神经网络算法,在保证准确率的前提下提升元素检测的效率,确定图片中元素的位置和大小;使用霍夫变换来检测图片中的直线,从而完成连接关系的检测,使用特殊递归算法保证复杂的连接关系也能被正确检测;使用光学字符识别技术,识别BPMN图元中的文本信息,使得模型更加完整;能够自动从BPMN图片中构建业务流程模型并导出模型定义文件,便于修改与编辑,大大节省了人工绘制业务流程模型所需要耗费的时间。本发明概括来说主要包括以下步骤:
步骤(1)对业务流程模型BPMN的图片进行分割;
步骤(2)识别图片中的BPMN图元的轮廓;
步骤(3)对BPMN图元的轮廓进行筛选,筛选出BPMN图元并构建模型基本框架;
步骤(4)识别业务流程建模标记BPMN图元间的连接关系;
步骤(5)识别业务流程建模标记BPMN图元的类型与相关文本;
步骤(6)构建业务流程模型BPMN的;
步骤(7)输出业务流程模型BPMN的定义文件。
上述一种基于图像轮廓识别及图像分类的从BPMN图片中提取业务流程模型信息并再构的方法的详细工作流程如图1所示。这里将对上述步骤进行详细描述。
所述步骤(1)中将用业务流程模型标记(BPMN)绘制的业务流程模型图像(如图2所示)进行分割,独立每个图形元素,具体子步骤包括:
步骤(1.1)对输入图像进行预处理。图像以三维矩阵的方式存储,包含红黄绿三个通道,通过公式计算,将彩色三通道图像变为黑色单通道图像,黑白图像以二维矩阵的方式表示,矩阵中的每个值表示一个像素点。黑色部分矩阵值为0,白色部分矩阵值为255,背景为白色,业务流程图元素为黑色。
步骤(1.2)对图像进行膨胀的形态学操作,背景白色区域会膨胀。在形态学操作中我们需要使用结构元素对步骤(1.1)中的黑白二维图像进行类似卷积的操作。结构元素是一个较小的矩阵,我们选择合适大小的矩形结构元素,遍历图像中的每一个像素。结构元素的中心点称为锚点,锚点的坐标为(0,0),对于3×3的结构元素,左上角坐标为(-1,-1),右下角坐标为(1,1)。在操作过程中,锚点覆盖像素点(x,y)时,我们计算图像中被结构元素非零位置覆盖的像素点的最大值,将最大值赋予图像(x,y)像素点。膨胀操作的计算公式是:
dst(x,y)=max(src(x+x′,y+y′)){(x′,y′)|element(x′,y′)≠0}
步骤(1.3)对图像进行侵蚀的形态学操作,前景黑色区域会膨胀;类似步骤(1.2)我们对步骤(1.2)操作后的黑白二维图像进行侵蚀的形态学操作,我们仍然选择和步骤(1.2)相同的矩形结构元素。侵蚀操作的计算公式是:
dst(x,y)=min(src(x+x′,y+y′)){(x′,y′)|element(x′,y′)≠0}
步骤(1.4)计算形态学操作后的图像与原始二值图像的差,得到割裂的业务流程图像,每个图元素都是一个独立的部分。计算公式是:
dst=erode(dilate(src,element)-src
所述步骤(2)中识别步骤(1)中分割图像各个部分的轮廓,具体子步骤包括:
步骤(2.1)对分割后的图像进行预处理,使得图像背景为黑色,前景色为白色,即业务流程图中的元素为白色;
步骤(2.2)对图像进行轮廓检测,检测出图像中所有白色区域的轮廓;
步骤(2.3)计算每个轮廓的最小包围矩形,以该矩形来表示轮廓的位置和大小;
步骤(2.4)把所有轮廓按照拓扑嵌套关系以树的形式组织起来,图像中属于单个独立部分的所有轮廓构成了表示该独立部分的一棵子树。
所述步骤(3)中对提取出来的元素轮廓进行筛选,筛选出BPMN图元并构建模型基本框架,具体子步骤包括:
步骤(3.1)对步骤(2)中的轮廓树进行层次遍历;
步骤(3.2)筛选出业务流程图中泳池轮廓。遍历轮廓树的第一层,筛选是否有泳池轮廓,若有则记录下其位置和大小作为可能的泳池轮廓。若无可能的泳池轮廓,则创建一个可能的泳池轮廓,将轮廓树第一层中的所有轮廓都包含在内
步骤(3.3)筛选出属于一个泳池的所有泳道轮廓。对每一个可能的泳池轮廓,遍历其直接子轮廓,搜寻泳道轮廓,记录其位置和大小。若无泳道轮廓,则将该泳池轮廓作为泳道轮廓,添加泳池头,构成一个泳池。
步骤(3.4)筛选出属于一个泳道的所有BPMN图元轮廓和子过程轮廓。对于每一个泳池中的每一个泳道,遍历其所有的子轮廓,筛选出属于该泳道的BPMN图元的轮廓和子过程轮廓。
步骤(3.5)将筛选出的轮廓构建成只有泳池与BPMN图元(包括BPMN模型的子过程)的业务流程基本模型。
所述步骤(4)识别业务流程模型图中BPMN图元间的连接关系,识别出每条连接线首部连接的元素,尾部连接的元素以及连接线的路径。具体子步骤包括:
步骤(4.1)对输入图像进行预处理,将其转换为二值图像,背景为黑色,前景为白色。
步骤(4.2)将步骤(3)中我们检测出的所有BPMN图元,从图像中去除,将每个元素的包围矩形所覆盖的部分变为黑色。
步骤(4.3)去除图片中的所有文字,使得图片中仅剩连接元素。对步骤(4.2)处理后的图像进行形态学操作,使得图像中仅剩文字区域,通过轮廓检测,获得文字区域的大小和位置,将其从图片中去除。形态学操作包括:
temp=erode(dilate(src,element1)-src
dst=erode(dilate(temp,element2)
步骤(4.4)识别轮廓中的连接对象。使用霍夫直线变换,检测出图像中的直线。在图像空间中一条直线可以用两个参数来表示,在笛卡尔坐标系中我们用参数(k,b)来表示直线,k是直线的斜率,b是直线的偏移量。在极坐标系中我们使用参数(r,theta)来表示直线,r是直线上的点到原点的距离,theta是该点到原点的直线与x轴正方向所成的角度。使用斜率表示直线有一定的局限性,不能表示垂直的直线,所以我们使用极坐标系的形式来表示直线。在检测过程中,我们使用概率霍夫直线变换,得出检测出线段的两个端点。
步骤(4.5)使用形态学操作,确定图片中箭头的位置,将与箭头直接连接的线段作为初始顺序流,然后不断将与顺序流连接的线段加入顺序流,直到顺序流扩展到一个起始元素。若一个箭头没有找到相应的直连线段,则检测箭头的方向。为了检测箭头的方向,将箭头从图片中截取出来,计算其凸包,接着使用旋转卡壳算法计算凸包的直径,获取箭头的轴向,接着分别查找凸包离直径最远的两个点,直径两边个一个,连接这两个点,计算其与直线的交点,通过交点与直径中点的位置关系,判断箭头的方向。
所述步骤(5)中对所有检测出的BPMN图元进行分类,同时识别出每个BPMN图元中的文本文字,作为BPMN图元的标签。具体子步骤包括:
步骤(5.1)使用VGG16卷积神经网络架构(如图3所示)训练BPMN图元分类器。将标记好的BPMN图元数据集分为训练集和测试集,使用训练集进行VGG16架构的卷积神经网络分类器的训练,使用测试集进行分类器分类效果的评估。训练目标是选择出最优的模型参数来对图片进行特征提取与特征分类。使用RMSProp优化算法来调整参数,使得模型在训练集上的预测误差最小,从而获得训练集上的最优模型参数,构建分类模型。
VGG16共包含13个卷积层,3个全连接层,5个池化层,其中卷积层和全连接层具有权重系数。卷积层均采用相同的卷积核尺寸,卷积核宽高均为3。池化层均采用相同的池化核参数,池化层均是减半最大池化。在训练的时候我们将每张图片都放大成150*150的大小,输入VGG16模型进行训练。
步骤(5.2)依据检测出的所有元素位置,从原始图像中截取相应元素的图像,使用训练好的分类器识别BPMN图元的类别。
步骤(5.3)将元素图像输入Tesseract文字识别引擎,识别BPMN图元中的文本信息;
所述步骤(6)中将识别出的文本与业务流程建模标记进行匹配,得到所有的模型元素,按照元素嵌套关系及连接关系构建业务流程模型。具体子步骤包括:
步骤(6.1)依据连接对象的起始位置与终止位置,找到其连接的流对象元素,从而将所有流对象元素连接起来,构成连通图;
步骤(6.2)依据连通图,重新构建业务流程模型;
步骤(6.3)将业务流程模型记录成符合BPMN2.0规范的XML格式的定义文件。
所述步骤(7)输出从BPMN图像中提取的业务流程模型定义文件。提取效果通对比生成的业务流程模型定义文件与原图片对应定义文件的一致程度从而进行评估。一致程度从识别出的泳池数量,流对象数量及类型,连接对象数量及连接关系等多个角度进行评价。
上面已经参考附图对根据本发明实施的一种业务流程模型图像识别与再构方法进行了详细描述。本发明具有如下优点:现有的建模工具和平台都未提供本发明所实现的功能。本发明所述方法使用了形态学操作对图片进行分割,快速而准确地将业务流程模型图片分割成独立的部分;使用轮廓检测算法替代主流的目标检测深度神经网络算法,在保证准确率的前提下提升元素检测的效率,确定图片中元素的位置和大小;使用霍夫变换来检测图片中的直线,从而完成连接关系的检测,使用特殊递归算法保证复杂的连接关系也能被正确检测;使用光学字符识别技术,识别BPMN图元中的文本信息,使得模型更加完整;能够自动从BPMN图片中构建业务流程模型并导出模型定义文件,便于修改与编辑,大大节省了人工绘制业务流程模型所需要耗费的时间。首先,该方法提升了人工构建和修改业务流程模型的效率,为业务流程模型提供了新的管理方式。其次,它也拓宽了业务流程模型的应用场景,使得现有对BPMN的研究与理论更加的普适。最后,它使得对业务流程模型数据的处理和搜集更加的便利与快速。快速地搜集和处理数据在当今大数据的时代是十分重要的,有了大量的数据,机器学习等数据分析技术也能更好地在业务流程管理领域的研究中得到应用。
需要明确,本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且,为了简明起见,这里省略对已知方法技术的详细描述。当前的实例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。
Claims (1)
1.一种业务流程模型图像识别与再构方法,其特征在于包含以下步骤:
步骤(1)对业务流程模型BPMN的图片进行分割;
步骤(2)识别图片中的BPMN图元的轮廓;
步骤(3)对BPMN图元的轮廓进行筛选,筛选出BPMN图元并构建模型基本框架;
步骤(4)识别业务流程建模标记BPMN图元间的连接关系;
步骤(5)识别业务流程建模标记BPMN图元的类型与相关文本;
步骤(6)构建业务流程模型BPMN的;
步骤(7)输出业务流程模型BPMN的定义文件;
所述步骤(1)中将用业务流程模型标记(BPMN)绘制的业务流程模型图像进行分割,独立每个图形元素,具体子步骤包括:
步骤(11)对输入图像进行预处理,将其转换为二值图像,背景为白色,业务流程图元素为黑色;
步骤(1.2)对图像进行膨胀的形态学操作,背景白色区域会膨胀;
步骤(1.3)对图像进行侵蚀的形态学操作,前景黑色区域会膨胀;
步骤(1.4)计算形态学操作后的图像与原始二值图像的差,得到割裂的业务流程图像,每个图元素都是一个独立的部分;
所述步骤(2)中识别步骤(1)中分割图像各个部分的轮廓,具体子步骤包括:
步骤(2.1)对分割后的图像进行预处理,使得图像背景为黑色,前景色为白色,即业务流程图中的元素为白色;
步骤(2.2)对图像进行轮廓检测,检测出图像中所有白色区域的轮廓;
步骤(2.3)计算每个轮廓的最小包围矩形,以该矩形来表示轮廓的位置和大小;
步骤(2.4)把所有轮廓按照拓扑嵌套关系以树的形式组织起来,图像中属于单个独立部分的所有轮廓构成了表示该独立部分的一棵子树;
所述步骤(3)中对提取出来的元素轮廓进行筛选,筛选出BPMN图元并构建模型基本框架,具体子步骤包括:
步骤(3.1)对步骤(2)中的轮廓树进行层次遍历;
步骤(3.2)筛选出业务流程图中泳池轮廓;
步骤(3.3)筛选出属于一个泳池的所有泳道轮廓;
步骤(3.4)筛选出属于一个泳道的所有BPMN图元轮廓和子过程轮廓;
步骤(3.5)将筛选出的轮廓构建成只有泳池与BPMN图元(包括BPMN模型的子过程)的业务流程基本模型;
所述步骤(4)识别业务流程模型图中BPMN图元间的连接关系,识别出每条连接线首部连接的元素,尾部连接的元素以及连接线的路径,具体子步骤包括:
步骤(4.1)对输入图像进行预处理,将其转换为二值图像,背景为黑色,前景为白色;
步骤(4.2)将步骤(3)中我们检测出的所有BPMN图元,从图像中去除,将每个元素的包围矩形所覆盖的部分变为黑色;
步骤(4.3)去除图片中的所有文字,使得图片中仅剩连接元素;
步骤(4.4)识别轮廓中的连接对象,使用霍夫变换,检测出图像中的直线;
步骤(4.5)使用形态学操作,确定图片中箭头的位置,将与箭头直接连接的直线作为初始顺序流,然后不断将与顺序流连接的线段加入顺序流,直到顺序流找到一个起始元素;
所述步骤(5)中对所有检测出的BPMN图元进行分类,同时识别出每个BPMN图元中的文本文字,作为BPMN图元的标签,具体子步骤包括:
步骤(5.1)使用VGG16卷积神经网络架构训练BPMN图元分类器,将标记好的BPMN图元数据集分为训练集和测试集,使用训练集进行VGG16架构的卷积神经网络分类器的训练,使用测试集进行分类器分类效果的评估,训练目标是选择出最优的模型参数来对图片进行特征提取与特征分类,使用RMSProp优化算法来调整参数,使得模型在训练集上的预测误差最小,从而获得训练集上的最优模型参数,构建分类模型;
步骤(5.2)依据检测出的所有元素位置,从原始图像中截取相应元素的图像,使用训练好的分类器识别BPMN图元的类别;
步骤(5.3)将元素图像输入Tesseract文字识别引擎,识别BPMN图元中的文本信息;
所述步骤(6)中将识别出的文本与业务流程建模标记进行匹配,得到所有的模型元素,按照元素嵌套关系及连接关系构建业务流程模型,具体子步骤包括:
步骤(6.1)依据连接对象的起始位置与终止位置,找到其连接的流对象元素,从而将所有流对象元素连接起来,构成连通图;
步骤(6.2)依据连通图,重新构建业务流程模型;
步骤(6.3)将业务流程模型记录成符合BPMN2.0规范的XML格式的定义文件;
所述步骤(7)输出从BPMN图像中提取的业务流程模型定义文件,提取效果通对比生成的业务流程模型定义文件与原图片对应定义文件的一致程度从而进行评估,一致程度从识别出的泳池数量,流对象数量及类型,连接对象数量及连接关系等多个角度进行评价。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911048985.4A CN110838105B (zh) | 2019-10-30 | 2019-10-30 | 一种业务流程模型图像识别与再构方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911048985.4A CN110838105B (zh) | 2019-10-30 | 2019-10-30 | 一种业务流程模型图像识别与再构方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110838105A CN110838105A (zh) | 2020-02-25 |
CN110838105B true CN110838105B (zh) | 2023-09-15 |
Family
ID=69575982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911048985.4A Active CN110838105B (zh) | 2019-10-30 | 2019-10-30 | 一种业务流程模型图像识别与再构方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110838105B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507352B (zh) * | 2020-04-16 | 2021-09-28 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、计算机设备以及存储介质 |
CN111461066A (zh) * | 2020-04-24 | 2020-07-28 | 北京联合普肯工程技术股份有限公司 | 过程工业流程图的识别方法及装置、电子设备 |
CN112287742B (zh) * | 2020-06-22 | 2023-12-26 | 上海柯林布瑞信息技术有限公司 | 文件中的流程图解析方法及装置、计算设备、存储介质 |
CN111753108B (zh) * | 2020-06-28 | 2023-08-25 | 平安科技(深圳)有限公司 | 演示文稿生成方法、装置、设备及介质 |
CN113723230A (zh) * | 2021-08-17 | 2021-11-30 | 山东科技大学 | 业务流程抽取领域过程性视频的过程模型抽取方法 |
CN113392819B (zh) * | 2021-08-17 | 2022-03-08 | 北京航空航天大学 | 一种批量化学术图像自动分割标注装置和方法 |
CN113554012B (zh) * | 2021-09-22 | 2022-01-11 | 江西博微新技术有限公司 | 三维工程中图元模型分类方法、系统、设备及存储介质 |
CN114154463A (zh) * | 2021-10-29 | 2022-03-08 | 北京搜狗科技发展有限公司 | 结构图还原、处理方法、装置、设备及存储介质 |
CN114067325A (zh) * | 2021-11-17 | 2022-02-18 | 深圳证券信息有限公司 | 股权结构图识别方法、系统及其设备 |
CN115147096B (zh) * | 2022-09-06 | 2022-11-18 | 京华信息科技股份有限公司 | 一种基于ocr的流程快速建模方法及系统 |
CN118097639A (zh) * | 2024-03-15 | 2024-05-28 | 天津联想协同科技有限公司 | 基于沙盘和卡牌的流程创建和数字化还原方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5287275A (en) * | 1988-08-20 | 1994-02-15 | Fujitsu Limited | Image recognition apparatus and method for recognizing a pattern within an image |
CN104361312B (zh) * | 2014-10-16 | 2017-11-14 | 北京捷通华声语音技术有限公司 | 一种对图像进行字符识别的方法和装置 |
CN108280430B (zh) * | 2018-01-24 | 2021-07-06 | 陕西科技大学 | 一种流程图像识别方法 |
CN109389050B (zh) * | 2018-09-19 | 2021-11-09 | 陕西科技大学 | 一种流程图连接关系识别方法 |
-
2019
- 2019-10-30 CN CN201911048985.4A patent/CN110838105B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110838105A (zh) | 2020-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110838105B (zh) | 一种业务流程模型图像识别与再构方法 | |
US11830246B2 (en) | Systems and methods for extracting and vectorizing features of satellite imagery | |
Lee et al. | Semantic segmentation of bridge components based on hierarchical point cloud model | |
CN105528614B (zh) | 一种漫画图像版面的识别方法和自动识别系统 | |
Li et al. | An overlapping-free leaf segmentation method for plant point clouds | |
CN114022759B (zh) | 一种融合神经网络时空特性的空域有限像素目标检测系统及方法 | |
CN105574524B (zh) | 基于对白和分镜联合识别的漫画图像版面识别方法和系统 | |
Jarząbek-Rychard et al. | 3D building reconstruction from ALS data using unambiguous decomposition into elementary structures | |
CN110263794B (zh) | 基于数据增强的目标识别模型的训练方法 | |
CN113807301B (zh) | 一种新增建设用地自动提取方法及自动提取系统 | |
CN115797962B (zh) | 基于装配式建筑ai设计的墙柱识别方法及装置 | |
Oka et al. | Vectorization of contour lines from scanned topographic maps | |
CN112883926B (zh) | 表格类医疗影像的识别方法及装置 | |
Jiang et al. | Extracting 3-D structural lines of building from ALS point clouds using graph neural network embedded with corner information | |
Patel | Deep learning models for image segmentation | |
CN111414907A (zh) | 数据集标注方法、数据集标注装置和计算机可读存储介质 | |
Sun et al. | A click-based interactive segmentation network for point clouds | |
Chen et al. | Stingray detection of aerial images with region-based convolution neural network | |
CN112330659A (zh) | 结合lsd直线检测和连通域标记法的几何公差符号分割方法 | |
CN103927533A (zh) | 一种针对早期专利文档扫描件中图文信息的智能处理方法 | |
CN117593420A (zh) | 基于图像处理的平面图纸标注方法、装置、介质及设备 | |
Qiu et al. | Feature-and region-based auto painting for 2D animation | |
Poier et al. | Petrosurf3d–a high-resolution 3d dataset of rock art for surface segmentation | |
Zhang | Data-driven Analysis of Engineering Drawings Using Component-based Graphs | |
CN117593648B (zh) | 基于弱监督学习的遥感目标建筑物提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |