CN114998702B - 基于BlendMask的实体识别、知识图谱生成方法及系统 - Google Patents
基于BlendMask的实体识别、知识图谱生成方法及系统 Download PDFInfo
- Publication number
- CN114998702B CN114998702B CN202210466825.7A CN202210466825A CN114998702B CN 114998702 B CN114998702 B CN 114998702B CN 202210466825 A CN202210466825 A CN 202210466825A CN 114998702 B CN114998702 B CN 114998702B
- Authority
- CN
- China
- Prior art keywords
- entity
- image
- category
- entities
- blendmask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000003709 image segmentation Methods 0.000 claims abstract description 25
- 230000004927 fusion Effects 0.000 claims abstract description 21
- 238000005070 sampling Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 10
- 230000006872 improvement Effects 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 abstract description 6
- 238000007781 pre-processing Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 9
- 241000894007 species Species 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 230000001965 increasing effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 235000013550 pizza Nutrition 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于BlendMask的实体识别、知识图谱生成方法及系统,其中,采用BlendMask改进模型对每张图像依次进行图像预处理、特征融合、图像分割和实体识别操作,从而得到图像中各个实体的分割区域、实体名和精确度;另外,本发明将从文本中提取的实体、类别以及关系信息,与从图像中识别的实体信息结合,以类别和实体作为节点,并以关系为边生成对应的知识图谱。由于本发明对现有的BlendMask模型进行了改进:在特征融合操作中采用7*7的空洞卷积核;空洞卷积核能够在扩大感受野的同时不降低图像分辨率,因此本发明提供的实体识别方法更加精准,对应的图谱生成方法也更加全面。
Description
技术领域
本发明属于实体识别领域,更具体地,涉及一种基于BlendMask的实体识别、知识图谱生成方法及系统。
背景技术
知识图谱是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过将数据粒度从文件级别降到数据级别,聚合大量知识,从而实现知识的快速响应和推理。现有的知识图谱大都是从文本文件中提取三元组,如文本文件中写到中国的首都是北京,我们就可以提取出这样的三元组:中国-首都-北京。随着数字化科技的发展,图像技术越来越成熟,图像的内容也越来越丰富。不同模态通常包含同一对象不同方面的知识,单是从文本文件中获取的信息是片面的,这会造成数据的不准确性,在知识图谱实体对齐、链接预测和关系推理等后续操作中就会带来很多的错误,影响最终的结果。
现有知识图谱的构建大多是从冗余的数据与知识文本中抽取有用信息,然而知识图谱的数据来源不仅仅是文本和结构化数据,也可以是图片、视频和音频等视觉或听觉形式的数据。如果将图片、视频中的实体采用类似于实体链接等技术与知识图谱中的实体进行链接,就可以充分完善知识图谱的信息。
另外,随着人工智能技术的不断发展和图像数量的指数增长,图像检测与识别技术的研究内容越来越广泛,应用角度越来越多样化,实体识别技术成为一个热门研究领域。从数据处理的角度看,现实世界中的客观事物称为实体,它是现实世界中任何可区分、可识别的事物;实体可以指人,如教师、学生等,也可以指物,如书、仓库等。实体识别技术的目的是在图像中标记各个实体的分割区域、实体名和精确度。但是现有对图像的实体识别方法准确度较低。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于BlendMask的实体识别、知识图谱生成方法及系统,旨在解决现有图像实体识别方法准确度低且现有知识图谱构建未结合图像中识别的实体信息的问题。
第一方面,本发明提供了一种基于BlendMask的实体识别方法,包括以下步骤:
确定BlendMask改进模型;所述BlendMask改进模型包括:特征图金字塔网络FPN、图像分割单元以及实体识别单元;所述FPN对接收到的图像进行上采样,以提高图像的分辨率,方便在上采样后进行特征融合,最后通过空洞卷积将融合后的特征输出;所述空洞卷积在卷积核的元素之间加入多个空格,以扩大卷积核的感受野,避免上采样后的图像存在像素不连续或者像素混叠,进而全面提取图像的特征;所述图像分割单元基于所述图像特征将图像分割成多个不重叠且又具备各自特征的子区域,以将待进行实体识别的目标物从背景从分离;所述实体识别单元采用神经网络对所述目标物进行识别,确定所述目标物对应的实体信息;
将待进行实体识别的图像输入到BlendMask改进模型,以对图像中的目标物进行实体识别。
在一个可选的示例中,所述空洞卷积核的尺寸为7*7。
在一个可选的示例中,所述实体识别单元采用神经网络确定的实体信息包括:实体类别、实体名称以及识别精确度。
第二方面,本发明提供了一种基于BlendMask的知识图谱生成方法,包括如下步骤:
确定文本中包含的信息;所述信息包括:实体、类别以及关系;所述类别为具有同种特性的实体构成的集合,所述关系指实体与实体、实体与类别或类别与类别之间的关系;
采用上述第一方面提供的实体识别方法识别图像中的目标物对应的实体信息;
将从文本中提取的实体、类别以及关系信息,与从图像中识别的实体信息结合,以类别和实体作为节点,并以关系为边生成对应的知识图谱。
在一个可选的示例中,所述将从文本中提取的实体、类别以及关系信息,与从图像中提取的实体信息结合,具体为:
根据从图像中提取的实体类别、实体名称和识别精确度信息,确定同一类别下的实体;
若同一类别下两个实体对应的识别精确度差值小于第一阈值,则将两个实体判定为统一物种,并为两个实体增加对应的关系信息;若同一类别下两个实体对应的识别精确度差值在第一阈值和第二阈值之间,则将两个实体判定为相似物种,并为两个实体增加对应的关系信息;若同一类别下两个实体对应的识别精确度差值大于第二阈值,则认为两个实体没有关系;所述第二阈值大于第一阈值;
根据从文本中提取的实体、类别以及关系信息,以及从图像中提取的实体、实体之间的关系信息,生成对应的知识图谱。
第三方面,本发明提供了一种基于BlendMask的实体识别系统,包括:
BlendMask改进模型确定模块,用于确定BlendMask改进模型;所述BlendMask改进模型包括:特征图金字塔网络FPN、图像分割单元以及实体识别单元;所述FPN对接收到的图像进行上采样,以提高图像的分辨率,方便在上采样后进行特征融合,最后通过空洞卷积将融合后的特征输出;所述空洞卷积在卷积核的元素之间加入多个空格,以扩大卷积核的感受野,避免上采样后的图像存在像素不连续或者像素混叠,进而全面提取图像的特征;所述图像分割单元基于所述图像特征将图像分割成多个不重叠且又具备各自特征的子区域,以将待进行实体识别的目标物从背景从分离;所述实体识别单元采用神经网络对所述目标物进行识别,确定所述目标物对应的实体信息;
实体识别模块,用于将待进行实体识别的图像输入到BlendMask改进模型,以对图像中的目标物进行实体识别。
在一个可选的示例中,所述空洞卷积核的尺寸为7*7。
在一个可选的示例中,所述BlendMask改进模型的实体识别单元采用神经网络确定的实体信息包括:实体类别、实体名称以及识别精确度。
第四方面,本发明提供了一种基于BlendMask的知识图谱生成系统,包括:
文本信息确定模块,用于确定文本中包含的信息;所述信息包括:实体、类别以及关系;所述类别为具有同种特性的实体构成的集合,所述关系指实体与实体、实体与类别或类别与类别之间的关系;
图像实体识别模块,用于采用上述第一方面提供的实体识别方法识别图像中的目标物对应的实体信息;
知识图谱生成模块,用于将从文本中提取的实体、类别以及关系信息,与从图像中识别的实体信息结合,以类别和实体作为节点,并以关系为边生成对应的知识图谱。
在一个可选的示例中,所述知识图谱生成模块将从文本中提取的实体、类别以及关系信息,与从图像中提取的实体信息结合,具体为:根据从图像中提取的实体类别、实体名称和识别精确度信息,确定同一类别下的实体;若同一类别下两个实体对应的识别精确度差值小于第一阈值,则将两个实体判定为统一物种,并为两个实体增加对应的关系信息;若同一类别下两个实体对应的识别精确度差值在第一阈值和第二阈值之间,则将两个实体判定为相似物种,并为两个实体增加对应的关系信息;若同一类别下两个实体对应的识别精确度差值大于第二阈值,则认为两个实体没有关系;所述第二阈值大于第一阈值;以及根据从文本中提取的实体、类别以及关系信息,以及从图像中提取的实体、实体之间的关系信息,生成对应的知识图谱。
本发明提供了一种基于BlendMask的实体识别系统,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如上述第一方面提供的实体识别方法。
本发明提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如上述第一方面提供的实体识别方法。
本发明提供了一种基于BlendMask的知识图谱生成系统,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如上述第二方面提供的知识图谱生成方法。
本发明提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如第二方面提供的知识图谱生成方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明提供一种基于BlendMask的实体识别、知识图谱生成方法及系统,由于本发明对现有的BlendMask模型进行了改进:在对图像实体识别的特征融合操作中采用7*7的空洞卷积核;相比BlendMask模型中的卷积核,空洞卷积核能够在扩大感受野的同时不降低图像分辨率;空洞卷积核采用7*7的尺寸,增大了空洞卷积核的感受野,从而解决了像素不连续和像素混叠的问题,使得实体识别精度大大提高,高效的识别出对应的实体。图像识别的结果可以被用来增强知识图谱上实现实体对齐、链接预测和关系推理的效果,使知识图谱更加完善。
需要说明的是,卷集核的感受野与计算量的比值能够用来衡量卷集核的性能,该比值越大,性能越好;实验结果表明:空洞卷积核采用3*3的尺寸时,该比值为4;采用5*5的尺寸时,该比值为16;采用7*7的尺寸时,该比值为55;采用9*9的尺寸时,该比值为6;因此,相比其他尺寸,7*7的空洞卷积核的性能最优。
附图说明
图1是本发明实施例提供的基于BlendMask的实体识别方法流程图。
图2是本发明实施例提供的基于BlendMask的知识图谱生成方法流程图。
图3是本发明实施例提供的基于BlendMask的知识图谱构建示意图。
图4是本发明实施例提供的基于BlendMask的实体识别系统架构图。
图5是本发明实施例提供的基于BlendMask的知识图谱生成系统架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了便于理解本发明,以下对有关术语和相关概念进行解释:
BlendMask模型:BlendMask是一种实例分割网络模型,用于图像识别与实例分割,与其他识别模型相比,它的识别精度更高、运行速度更快。
FPN:中文名为特征图金字塔网络,是2017年提出的一种网络结构,FPN主要解决的是物体检测中的多尺度问题,通过简单的网络连接改变,在基本不增加原有模型计算量的情况下,大幅度提升了小物体检测的性能。
空洞卷积核:一种特殊的卷积核,也叫扩张卷积或者膨胀卷积,简单来说就是在卷积核的元素之间加入一些空格来扩大卷积核,空洞卷积核的目的是为了在扩大感受野的同时,不降低图像分辨率。
图1是本发明实施例提供的基于BlendMask的实体识别方法流程图。如图1所示,包括如下步骤:
S101,确定BlendMask改进模型;所述BlendMask改进模型包括:特征图金字塔网络FPN、图像分割单元以及实体识别单元;所述FPN对接收到的图像进行上采样,以提高图像的分辨率,方便在上采样后进行特征融合,最后通过空洞卷积将融合后的特征输出;所述空洞卷积在卷积核的元素之间加入多个空格,以扩大卷积核的感受野,避免上采样后的图像存在像素不连续或者像素混叠,进而全面提取图像的特征;所述图像分割单元基于所述图像特征将图像分割成多个不重叠且又具备各自特征的子区域,以将待进行实体识别的目标物从背景从分离;所述实体识别单元采用神经网络对所述目标物进行识别,确定所述目标物对应的实体信息;
S102,将待进行实体识别的图像输入到BlendMask改进模型,以对图像中的目标物进行实体识别。
在一个更为具体点的实施例中,本实施例提供了一种基于BlendMask改进模型的实体识别方法,包括以下步骤:
(1)模型输入步骤
将图像集输入BlendMask改进模型;
(2)实体识别步骤
BlendMask改进模型对图像集中的每张图像依次进行图像预处理、特征融合、图像分割和实体识别操作,然后输出对应的带标记的图像;标记为该图像中各个实体的分割区域、实体名和精确度;分割区域用于标记实体在图像中的位置;
BlendMask改进模型在特征融合操作中采用7*7的空洞卷积核。
其中,实体识别步骤中,特征融合操作的具体过程为:7*7的空洞卷积核对FPN输出的特征矩阵进行特征融合,得到融合后的特征。
图像分割操作的具体过程为:根据融合后的特征,通过卷积神经网络对图像中的实体、背景进行标记、定位,然后把实体从背景中分离出来。
实体识别操作的具体过程为:通过全连接神经网络将图像分割操作得到的结果进行实体分类,从而得到图像中各个实体的分割区域、实体名称和精确度。
与现有技术相比,由于本实施例明对现有的BlendMask模型进行了改进:在特征融合操作中采用7*7的空洞卷积核;相比BlendMask模型中的卷积核,空洞卷积核能够在扩大感受野的同时不降低图像分辨率;空洞卷积核采用7*7的尺寸,增大了空洞卷积核的感受野,从而解决了像素不连续和像素混叠的问题。
具体地,卷积的作用是通过卷积核提取图像的特征,卷积核的大小决定了对图像局部加权的范围。若使用3*3的卷积核,能够捕获3*3个像素点的信息,如果某个像素点的结果受周围12个像素点的加权影响很大,那么此时使用3*3的卷积核,卷积核的感受野太小,肯定会丢失掉另外3个像素点的重要信息,从而造成图像信息损失以及像素不连续和像素混叠的问题。
卷集核的感受野与计算量的比值能够用来衡量卷集核的性能,该比值越大,性能越好;实验结果表明:空洞卷积核采用3*3的尺寸时,该比值为4;采用5*5的尺寸时,该比值为16;采用7*7的尺寸时,该比值为55;采用9*9的尺寸时,该比值为6;因此,相比其他尺寸,7*7的空洞卷积核的性能最优。
Backbone可以是ResNet50,也可以是ResNet101。下表为BlendMask模型和BlendMask改进模型的性能对比:
从表中可看出,BlendMask改进模型的各项性能指标均优于BlendMask模型。
具体地,本发明实施例提供的实体识别步骤可描述为如下过程:
1.将图像输入改进后的BlendMask模型;
2.图像预处理(包括对图像大小的裁剪,去除原始图像中明显的噪声干扰等)以及特征提取。
3.结合了本发明首次提出的空洞卷积核后进行特征融合。BlendMask的FPN结构中采用上采样(以p5到p4为例,经过上采样之后会由32*32变为64*64)进行特征融合,但输出的卷积核(256,3,3)是固定的,大小都是3*3,这会造成上层卷积的图像信息损失。为了减小图像信息的损失,获得更多的图像像素特征,我们在FPN的输出阶段采用7*7的空洞卷积核,增大卷积核的感受野(是指原来1个方格可以看到9个,改进后可以看到更多)并解决不连续和混叠(指像素不连续和像素混叠)的问题,从而提取颜色、形状、灰度和纹理等特征。
4.得到图像的颜色、形状、灰度和纹理等特征之后,图像分割把它们分成一些互不重叠而又具有各自特征的子区域,每一区域是像素的一个连续集。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位,然后把目标从背景中分离出来,为进一步的图像识别、分析和理解奠定了基础。
5.图像识别将图像分割得到的结果进行实体的分类,本算法采用目前流行的神经网络方法。神经网络具有非线性映射逼近、大规模并行分布式存储和综合优化处理、容错性强、独特的联想记忆及自组织、自适应和自学习能力等特点,侧重于模拟和实现人的认知过程中的感知觉过程、形象思维、分布式记忆和自学习自组织过程,能够得到高的准确度,从而得到图像中实体的标签和精确度。
图2是本发明实施例提供的基于BlendMask的知识图谱构建方法流程图。如图2所示,包括如下步骤:
S201,确定文本中包含的信息;所述信息包括:实体、类别以及关系;所述类别为具有同种特性的实体构成的集合,所述关系指实体与实体、实体与类别或类别与类别之间的关系;
S202,采用如图1提供的实体识别方法识别图像中的目标物对应的实体信息;
S203,将从文本中提取的实体、类别以及关系信息,与从图像中识别的实体信息结合,以类别和实体作为节点,并以关系为边生成对应的知识图谱。
本发明基于已有的图像识别算法BlendMask,分析其在特征融合过程中存在的特定层卷积核感受野太小导致的不能感受的问题以及不连续、混叠的问题,首次提出结合空洞卷积核思想,在不改变卷积核卷积结果的同时扩大感受野,增加掩码预测的准确度。
基于图像识别结果的目标物体、预测种类、准确度等作为知识图谱的实体和关系,结合知识图谱中现有的数据,进行实体对齐、链接预测和关系推理等操作,对知识图谱进行补充,使知识图谱更加完善。
知识图谱的数据提取大都是在文本文件中提取数据,数据来源比较单一,本发明提出的方案可以把图像的数据利用起来。首先,图像经过我们提出的识别算法之后,能够高效的识别出对应的实体,图像识别的结果可以被用来增强知识图谱上实现实体对齐、链接预测和关系推理的效果,这就好比人类在完成推理任务时,也会充分利用视觉、听觉信号加强认知层的推理能力,这会使知识图谱更加完善。
比如:在文本文件中有:姚某的妻子是叶某,那么我们可以提取出姚某-妻子-叶某三元组,其余的信息我们是无法获取的。假设现有两张图像,我们可以把这两张图像传入本发明中的图像识别算法,第一个图像我们可以得出两个实体,姚某和姚某某,第二个图像我们可以得出两个实体,叶某和姚某某。从现有的知识图谱中我们知道姚某和叶某是夫妻关系,结合图像中的识别结果姚某某和姚某、叶某同时存在着关系,经过实体对齐、链接预测和关系推理等,我们就可以得出这样的三元组:姚某-女儿-姚某某,叶某-女儿-姚某某。通过图像数据对原有的知识图谱进行了扩充。
再比如,要将文本“有人看到李某在北京的一家超市购物”中的实体“李某”链接到知识图谱中。但图谱中可能包含两个不同的李某。一个是网球选手,另外一个是歌手。假如仅仅依靠文本信息,则无法消除这个歧义。但如果这段新闻还配有对应的图像,将图像进行图像识别得到实体之后与知识图谱中李某实体想结合,则能通过图像对齐来提升实体消歧的效果。
在一个具体的实施例中,本发明提供的知识图谱生成方法流程如下:
1.将公共数据集输入改进后的BlendMask模型;
2.图像预处理以及特征提取;
3.结合了本发明首次提出的空洞卷积核后的特征融合;
4.对图像进行分割操作,分割出图像中实体的检测框;
5.对分割的区域进行图像识别,确定图像中的实体属性;
6.将预测的目标物体与准确度作为知识图谱的实体和关系输入;
7.构建图像识别结果的知识图谱。
具体技术说明如下:
BlendMask的FPN结构中采用上采样进行特征融合,但输出的卷积核是固定的,大小都是3*3,这会造成上层卷积的图像信息损失。为了减小图像信息的损失,获得更多的图像像素特征,我们在FPN的输出阶段采用7*7的空洞卷积核,在不改变卷积结果的情况下,增大卷积核的感受野并解决不连续和混叠的问题,增加掩码预测的准确度。
之前的大部分图像识别算法只是一个单一的识别功能,可应用的范围较小。而伴随着人工智能的快速发展,单纯的图像识别算法已经无法满足人们的需求了。伴随着知识表示和存储、大数据和机器学习等技术的发展,知识图谱这种使用事实三元组的形式描述类别、实体及其关系,将类别与实体作为节点并以关系为边建立关联,形成网状的知识结构的方法也逐渐热门起来。因此,本发明提出了将知识图谱推广到更为普适化的图像识别当中去。
具体地,基于图像识别算法得到的目标物体以及预测种类和精确度,将其分别作为知识图谱的实体和关系,具体技术如下:
步骤1.单个图像的信息提取:利用改进的BlendMask模型得到一张图像中不同实例的特征矩阵,同时抽取图像识别结果中实体的标签、精确度,每个不同标签代表一个类别,每个实体有唯一的标签和精确度,基于上述信息完成单个图像的信息抽取;
步骤2.所有图像的信息提取:重复步骤1获取图像识别结果中所有图像的实体特征以及提取构建知识图谱所需要的标签信息和精确的信息。
步骤3.为了方便对提取特征进行融合,本发明在上采样融合后,引入了一条下采样(最大池化算法)的融合方法。池化的作用有降维,减少网络中要学习的参数个数、防止过拟合、扩大感受野采集更多的图像特征、图像不变性,池化旨在得到明确的目标物体边缘形状,而在下采样的过程中,卷积层逐渐降维,纹理特征越来越显著,采用最大池化可以对低维度的特征进行改善,提取相对较为抽象的特征,例如纹理特征等。
步骤4.得到图像的颜色、形状、灰度和纹理等特征之后,图像分割把它们分成一些互不重叠而又具有各自特征的子区域,每一区域是像素的一个连续集。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位,然后把目标从背景中分离出来,为进一步的图像识别、分析和理解奠定了基础。
步骤5.图像识别将图像分割得到的结果进行实体的分类,识别方法采用目前流行的神经网络方法。神经网络具有非线性映射逼近、大规模并行分布式存储和综合优化处理、容错性强、独特的联想记忆及自组织、自适应和自学习能力等特点,侧重于模拟和实现人的认知过程中的感知觉过程、形象思维、分布式记忆和自学习自组织过程,能够得到高的准确度,从而确定实体的正确分类,方便后续知识图谱的搭建。
步骤6.根据标签信息将实体进行分类,将统一类的精确度进行划分,根据精确度的信息最后构建实体之间的关系,从而构建整个图像知识图谱。
完成以上步骤我们已经建立了多个“类别-精确度-实例”的三元关系,在后续阶段我们将进行知识融合。首先根据标签分类,将同一类实体形成简单的三元关系网络。其次在同一类别下,对比各实体的精确度,当两个实体间的精确度差值小于0.01时我们认为两实例为同一物种,例如为他们加上“同一物种”这一关系,当两实例间精确度差值在0.01-0.05之间时,我们认为两实例相似度高,为他们加上“相似物种”这一关系,当实例间精确度大于0.05时我们认为实例间没有进一步的关系。若两个小男孩被识别为人的概率分别人为80%和76%,那么我们就可以认为这两个图像上的物体具有相似物种的关系。同时我们还可以识别图像中存在着相同的实体,来推断实体之间的关系。如图3所示,经过图像实体识别方法识别出儿童,男人和披萨之后,我们可以推测出这样的三元组<儿童,吃,披萨>,<男人,吃,披萨>。从图像识别中可以得出,儿童和男子分享着吃、披萨等实体,这表明孩子和男人可能是相似的,都是代表人。对比全部实体最后搭建成知识图谱<人,吃,披萨>。
图4是本发明实施例提供的基于BlendMask的实体识别系统架构图。如图4所示,包括:
BlendMask改进模型确定模块410,用于确定BlendMask改进模型;所述BlendMask改进模型包括:特征图金字塔网络FPN、图像分割单元以及实体识别单元;所述FPN对接收到的图像进行上采样,以提高图像的分辨率,方便在上采样后进行特征融合,最后通过空洞卷积将融合后的特征输出;所述空洞卷积在卷积核的元素之间加入多个空格,以扩大卷积核的感受野,避免上采样后的图像存在像素不连续或者像素混叠,进而全面提取图像的特征;所述图像分割单元基于所述图像特征将图像分割成多个不重叠且又具备各自特征的子区域,以将待进行实体识别的目标物从背景从分离;所述实体识别单元采用神经网络对所述目标物进行识别,确定所述目标物对应的实体信息;
实体识别模块420,用于将待进行实体识别的图像输入到BlendMask改进模型,以对图像中的目标物进行实体识别。
具体地,图4中各个模块的详细功能实现可参见前述方法实施例中的介绍,在此不做赘述。
图5是本发明实施例提供的基于BlendMask的知识图谱生成系统架构图。如图5所示,包括:
文本信息确定模块510,用于确定文本中包含的信息;所述信息包括:实体、类别以及关系;所述类别为具有同种特性的实体构成的集合,所述关系指实体与实体、实体与类别或类别与类别之间的关系;
图像实体识别模块520,用于采用上述图1提供的实体识别方法识别图像中的目标物对应的实体信息;
知识图谱生成模块530,用于将从文本中提取的实体、类别以及关系信息,与从图像中识别的实体信息结合,以类别和实体作为节点,并以关系为边生成对应的知识图谱。
具体地,图5中各个模块的详细功能实现可参见前述方法实施例中的介绍,在此不做赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于BlendMask的知识图谱生成方法,其特征在于,包括如下步骤:
确定文本中包含的信息;所述信息包括:实体、类别以及关系;所述类别为具有同种特性的实体构成的集合,所述关系指实体与实体、实体与类别或类别与类别之间的关系;
确定BlendMask改进模型;所述BlendMask改进模型包括:特征图金字塔网络FPN、图像分割单元以及实体识别单元;所述FPN对接收到的图像进行上采样,以提高图像的分辨率,方便在上采样后进行特征融合,最后通过空洞卷积将融合后的特征输出;所述空洞卷积在卷积核的元素之间加入多个空格,以扩大卷积核的感受野,避免上采样后的图像存在像素不连续或者像素混叠,进而全面提取图像的特征;所述图像分割单元基于所述图像特征将图像分割成多个不重叠且又具备各自特征的子区域,以将待进行实体识别的目标物从背景中分离;所述实体识别单元采用神经网络对所述目标物进行识别,确定所述目标物对应的实体信息;
将待进行实体识别的图像输入到BlendMask改进模型,以对图像中的目标物进行实体识别;
将从文本中提取的实体、类别以及关系信息,与从图像中识别的实体信息结合,以类别和实体作为节点,并以关系为边生成对应的知识图谱。
2.根据权利要求1所述的知识图谱生成方法,其特征在于,所述将从文本中提取的实体、类别以及关系信息,与从图像中提取的实体信息结合,具体为:
根据从图像中提取的实体类别、实体名称和识别精确度信息,确定同一类别下的实体;
若同一类别下两个实体对应的识别精确度差值小于第一阈值,则将两个实体判定为同一物种,并为两个实体增加对应的关系信息;若同一类别下两个实体对应的识别精确度差值在第一阈值和第二阈值之间,则将两个实体判定为相似物种,并为两个实体增加对应的关系信息;若同一类别下两个实体对应的识别精确度差值大于第二阈值,则认为两个实体没有关系;所述第二阈值大于第一阈值;
根据从文本中提取的实体、类别以及关系信息,以及从图像中提取的实体、实体之间的关系信息,生成对应的知识图谱。
3.根据权利要求1所述的知识图谱生成方法,其特征在于,所述空洞卷积核的尺寸为7*7。
4.根据权利要求1所述的知识图谱生成方法,其特征在于,所述实体识别单元采用神经网络确定的实体信息包括:实体类别、实体名称以及识别精确度。
5.一种基于BlendMask的知识图谱生成系统,其特征在于,包括:
文本信息确定模块,用于确定文本中包含的信息;所述信息包括:实体、类别以及关系;所述类别为具有同种特性的实体构成的集合,所述关系指实体与实体、实体与类别或类别与类别之间的关系;
BlendMask改进模型确定模块,用于确定BlendMask改进模型;所述BlendMask改进模型包括:特征图金字塔网络FPN、图像分割单元以及实体识别单元;所述FPN对接收到的图像进行上采样,以提高图像的分辨率,方便在上采样后进行特征融合,最后通过空洞卷积将融合后的特征输出;所述空洞卷积在卷积核的元素之间加入多个空格,以扩大卷积核的感受野,避免上采样后的图像存在像素不连续或者像素混叠,进而全面提取图像的特征;所述图像分割单元基于所述图像特征将图像分割成多个不重叠且又具备各自特征的子区域,以将待进行实体识别的目标物从背景中分离;所述实体识别单元采用神经网络对所述目标物进行识别,确定所述目标物对应的实体信息;
实体识别模块,用于将待进行实体识别的图像输入到BlendMask改进模型,以对图像中的目标物进行实体识别;
知识图谱生成模块,用于将从文本中提取的实体、类别以及关系信息,与从图像中识别的实体信息结合,以类别和实体作为节点,并以关系为边生成对应的知识图谱。
6.根据权利要求5所述的知识图谱生成系统,其特征在于,所述知识图谱生成模块将从文本中提取的实体、类别以及关系信息,与从图像中提取的实体信息结合,具体为:根据从图像中提取的实体类别、实体名称和识别精确度信息,确定同一类别下的实体;若同一类别下两个实体对应的识别精确度差值小于第一阈值,则将两个实体判定为同一物种,并为两个实体增加对应的关系信息;若同一类别下两个实体对应的识别精确度差值在第一阈值和第二阈值之间,则将两个实体判定为相似物种,并为两个实体增加对应的关系信息;若同一类别下两个实体对应的识别精确度差值大于第二阈值,则认为两个实体没有关系;所述第二阈值大于第一阈值;以及根据从文本中提取的实体、类别以及关系信息,以及从图像中提取的实体、实体之间的关系信息,生成对应的知识图谱。
7.根据权利要求5所述的知识图谱生成系统,其特征在于,所述空洞卷积核的尺寸为7*7。
8.根据权利要求5所述的知识图谱生成系统,其特征在于,所述BlendMask改进模型的实体识别单元采用神经网络确定的实体信息包括:实体类别、实体名称以及识别精确度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210466825.7A CN114998702B (zh) | 2022-04-29 | 2022-04-29 | 基于BlendMask的实体识别、知识图谱生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210466825.7A CN114998702B (zh) | 2022-04-29 | 2022-04-29 | 基于BlendMask的实体识别、知识图谱生成方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114998702A CN114998702A (zh) | 2022-09-02 |
CN114998702B true CN114998702B (zh) | 2024-08-02 |
Family
ID=83025477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210466825.7A Active CN114998702B (zh) | 2022-04-29 | 2022-04-29 | 基于BlendMask的实体识别、知识图谱生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114998702B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117478435B (zh) * | 2023-12-28 | 2024-04-09 | 中汽智联技术有限公司 | 一种整车信息安全攻击路径生成方法和系统 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348445B (zh) * | 2019-06-06 | 2021-07-27 | 华中科技大学 | 一种融合空洞卷积和边缘信息的实例分割方法 |
CN111192277A (zh) * | 2019-12-31 | 2020-05-22 | 华为技术有限公司 | 一种实例分割的方法及装置 |
US11256960B2 (en) * | 2020-04-15 | 2022-02-22 | Adobe Inc. | Panoptic segmentation |
CN111476219B (zh) * | 2020-06-02 | 2024-09-17 | 苏州科技大学 | 智能家居环境中图像目标检测方法 |
CN113486190B (zh) * | 2021-06-21 | 2024-01-12 | 北京邮电大学 | 一种融合实体图像信息和实体类别信息的多模态知识表示方法 |
CN114332107A (zh) * | 2021-12-01 | 2022-04-12 | 石家庄铁路职业技术学院 | 一种改进隧道衬砌渗漏水图像分割方法 |
CN114187442A (zh) * | 2021-12-14 | 2022-03-15 | 深圳致星科技有限公司 | 图像处理方法、存储介质、电子设备及图像处理装置 |
CN114359721A (zh) * | 2021-12-23 | 2022-04-15 | 杭州市规划和自然资源调查监测中心(杭州市地理信息中心) | 一种基于前景感知的遥感影像建筑物提取方法 |
CN115375781A (zh) * | 2022-07-20 | 2022-11-22 | 华为技术有限公司 | 一种数据处理方法及其装置 |
CN116932722A (zh) * | 2023-07-26 | 2023-10-24 | 海南大学 | 一种基于跨模态数据融合的医学视觉问答方法及系统 |
CN118097125A (zh) * | 2023-07-27 | 2024-05-28 | 杭州咸数科技有限公司 | 基于CTAIS-SOLOv2的透明仪器实例分割方法 |
-
2022
- 2022-04-29 CN CN202210466825.7A patent/CN114998702B/zh active Active
Non-Patent Citations (1)
Title |
---|
CMKG: Construction Method of Knowledge Graph for Image Recognition;Lijun Chen 等;《Mathematics》;20231005;第11卷(第19期);第1-12页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114998702A (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106547880B (zh) | 一种融合地理区域知识的多维度地理场景识别方法 | |
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
Wang et al. | FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection | |
CN112734775B (zh) | 图像标注、图像语义分割、模型训练方法及装置 | |
EP4002161A1 (en) | Image retrieval method and apparatus, storage medium, and device | |
Fu et al. | MCFF-CNN: Multiscale comprehensive feature fusion convolutional neural network for vehicle color recognition based on residual learning | |
CN108921198A (zh) | 基于深度学习的商品图像分类方法、服务器及系统 | |
CN111612008A (zh) | 基于卷积网络的图像分割方法 | |
CN102385592B (zh) | 图像概念的检测方法和装置 | |
CN108960260B (zh) | 一种分类模型生成方法、医学影像图像分类方法及装置 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN109299303B (zh) | 基于可变形卷积与深度网络的手绘草图检索方法 | |
CN112528845A (zh) | 一种基于深度学习的物理电路图识别方法及其应用 | |
Jiang et al. | Contour-aware network for semantic segmentation via adaptive depth | |
Zhao et al. | BiTNet: a lightweight object detection network for real-time classroom behavior recognition with transformer and bi-directional pyramid network | |
CN112801107B (zh) | 一种图像分割方法和电子设备 | |
Wei et al. | Food image classification and image retrieval based on visual features and machine learning | |
CN114998702B (zh) | 基于BlendMask的实体识别、知识图谱生成方法及系统 | |
Liu et al. | Student behavior recognition from heterogeneous view perception in class based on 3-D multiscale residual dense network for the analysis of case teaching | |
Ling et al. | A facial expression recognition system for smart learning based on YOLO and vision transformer | |
Shi et al. | Research on aided reading system of digital library based on text image features and edge computing | |
CN118247645A (zh) | 一种新型DDCE-YOLOv8s模型的水下图像目标检测方法 | |
Li et al. | A new algorithm of vehicle license plate location based on convolutional neural network | |
Ren et al. | ERINet: efficient and robust identification network for image copy-move forgery detection and localization: Efficient and robust identification network | |
Anggoro et al. | Classification of Solo Batik patterns using deep learning convolutional neural networks algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |