CN111783457B - 一种基于多模态图卷积网络的语义视觉定位方法及装置 - Google Patents
一种基于多模态图卷积网络的语义视觉定位方法及装置 Download PDFInfo
- Publication number
- CN111783457B CN111783457B CN202010736128.XA CN202010736128A CN111783457B CN 111783457 B CN111783457 B CN 111783457B CN 202010736128 A CN202010736128 A CN 202010736128A CN 111783457 B CN111783457 B CN 111783457B
- Authority
- CN
- China
- Prior art keywords
- semantic
- visual
- features
- graph
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 184
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000008447 perception Effects 0.000 claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 15
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 14
- 238000010586 diagram Methods 0.000 claims description 62
- 238000012512 characterization method Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 8
- 230000001902 propagating effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 241000538562 Banjos Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于多模态图卷积网络的语义视觉定位方法及装置,其中方法包括:获取输入图片以及语料描述;用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征;解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征;融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征;通过图卷积网络传播语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系;进行语义视觉位置推理,获得语义信息的视觉位置。本发明在处理歧义或者二义性语义元素时结合了上下文语义信息,能够利用语义关系信息指导视觉定位。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种基于多模态图卷积网络的语义视觉定位方法及装置。
背景技术
在现实世界中实现人类与机器之间的交流,让机器能够理解自然语言所描述的视觉场景,是人工智能领域的一个基本但十分有挑战性的问题。这一问题的基础是让机器能够在视觉场景中定位语义元素,即给定一个视觉场景的自然语言描述,机器要能够在视觉场景中定位对应的语义元素位置。近年来,语义视觉定位任务受到了广泛的关注,得到了快速发展,取得了优异的性能。然而,现有的解决方案在图片中逐个定位名词短语,没有建模名词短语之间的语义关系,或者仅仅粗略地利用了上下文信息。这些方法没有充分发掘语料中语义的上下文关系,例如,针对语料『A man in bread playing a violin while nextto another man playing a banjo.』,算法往往可以精确定位到没有歧义或者没有二义性的语义元素『violin』,而对『man』这个语义元素则需要结合『man-in-bread』、『next-to-another-man』和『another-man-playing-a-banjo』等语义关系信息进行定位。总体来说,缺乏名词短语之间语义关系建模的方法在处理具有歧义或者二义性的语义元素时往往难以获得理想的视觉定位,需要研究精细的名词短语语义关系建模方法,使得能够在语义结构信息指导下进行语义视觉定位。
现有的解决方案主要关注视觉特征和语料特征的融合、从语料对应的视觉区域重构语料或者粗略地结合语义上下文信息,缺少了对语料中名词短语间的语义关系信息的发掘,因此受限于需要结合上下文以及语义关系等信息进行视觉位置推理的语义元素。
发明内容
本发明旨在提供一种克服上述问题或者至少部分地解决上述问题的基于多模态图卷积网络的语义视觉定位方法及装置。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明的一个方面提供了基于多模态图卷积网络的语义视觉定位方法,包括:获取输入图片以及语料描述;用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征;解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征;融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征;通过图卷积网络传播语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系;进行语义视觉位置推理,获得语义信息的视觉位置。
其中,解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征包括:给定一个语料描述,以及语料描述中的名词短语集合;使用场景图解析器语料描述,提取初始场景图;按照语料描述中的原始顺序对每一个节点进行重排序,得到重排序后的名词短语集合;基于单词的最大重叠数进行名词短语匹配,并用给定的名词短语替换场景图中与之匹配的名词短语;对每一条边基于与之相连的替换后的名词短语增加或删除单词;输出语义结构图,其中,语义结构图中的每个节点表征一个名词短语,语义结构图中的边表征语料描述中提到的名词短语之间的语义关系。
其中,融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征包括:为语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征;融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征。
其中,进行语义视觉位置推理,获得语义信息的视觉位置包括:为语义结构图的每个空间位置匹配三个锚框,选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框,根据预测的回归偏移量调整候选框,得到语义信息的视觉位置。
其中,用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征包括:使用YOLOv3作为基础模型框架,采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络,提取特征金字塔网络的不同空间分辨率输出作为视觉特征,将空间坐标信息嵌入视觉特征获得空间感知视觉特征。
本发明另一方面提供了一种基于多模态图卷积网络的语义视觉定位装置,包括:获取模块,用于获取输入图片以及语料描述;图片表征模块,用于用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征;语料表征模块,用于解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征;多模态特征融合模块,用于融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征;关系信息图传播模块,用于通过图卷积网络传播语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系;视觉位置推理模块,用于进行语义视觉位置推理,获得语义信息的视觉位置。
其中,语料表征模块通过如下方式解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征:语料表征模块,具体用于给定一个语料描述,以及语料描述中的名词短语集合;使用场景图解析器语料描述,提取初始场景图;按照语料描述中的原始顺序对每一个节点进行重排序,得到重排序后的名词短语集合;基于单词的最大重叠数进行名词短语匹配,并用给定的名词短语替换场景图中与之匹配的名词短语;对每一条边基于与之相连的替换后的名词短语增加或删除单词;输出语义结构图,其中,语义结构图中的每个节点表征一个名词短语,语义结构图中的边表征语料描述中提到的名词短语之间的语义关系。
其中,多模态特征融合模块通过如下方式融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征:多模态特征融合模块,具体用于为语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征;融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征。
其中,视觉位置推理模块通过如下方式进行语义视觉位置推理,获得语义信息的视觉位置:视觉位置推理模块,具体用于为语义结构图的每个空间位置匹配三个锚框,选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框,根据预测的回归偏移量调整候选框,得到语义信息的视觉位置。
其中,图片表征模块通过如下方式用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征:图片表征模块,具体用于使用YOLOv3作为基础模型框架,采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络,提取特征金字塔网络的不同空间分辨率输出作为视觉特征,将空间坐标信息嵌入视觉特征获得空间感知视觉特征。
由此可见,通过本发明提供的基于多模态图卷积网络的语义视觉定位方法及装置,将语料通过解析构建语义结构图,在语义信息指导下学习提取多模态特征,提升语义视觉定位任务性能;通过解析语料输入,构建基于语义信息的语义结构图,使用结合视觉特征、空间坐标信息以及语义特征的多模态特征,通过图卷积网络传播语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系,从而缓解歧义或者二义性语义元素带来的影响,更精准的获取语义视觉位置。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的基于多模态图卷积网络的语义视觉定位方法的流程图;
图2为本发明实施例提供的图片和语料表征示意图;
图3为本发明实施例提供的图结构示意图;
图4为本发明实施例提供的关系信息图传播示意图;
图5为本发明实施例提供的语义视觉位置推理示意图;
图6为本发明实施例提供的基于多模态图卷积网络的语义视觉定位装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明的核心在于:提出将语料通过解析构建语义结构图,在语义信息指导下学习提取多模态特征,提升语义视觉定位任务性能。本方法通过解析语料输入,构建基于语义信息的语义结构图,使用结合视觉特征、空间坐标信息以及语义特征的多模态特征,通过图卷积网络传播语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系,从而缓解歧义或者二义性语义元素带来的影响,更精准的获取语义视觉位置。
本发明可划分为三个主要步骤:图片和语料表征(图1步骤S1-S3)、关系信息图传播(图1步骤S4-S5)和语义视觉位置推理(图1步骤S6)。以下,通过图1对本发明实施例提供的基于多模态图卷积网络的语义视觉定位方法进行具体说明,参见图1,本发明实施例提供的基于多模态图卷积网络的语义视觉定位方法,包括:
S1,获取输入图片以及语料描述。
具体地,输入图片以及语料描述可以在同时获取,也可以不同时获取,只要可以获取到,则均应属于本发明的保护范围。
本发明中,将输入的图片和自然语言描述分别表征为空间感知特征和语义图。图片的空间感知特征在通过卷积神经网络提取视觉特征的基础上融合了空间坐标信息,捕捉了图片全局上下文信息。语义图则编码了语料描述的语义结构,引导联系信息在名词短语间传播。具体表征图片和语料的方法如下述步骤S2和S3,值得说明的是,以下步骤S2和S3的执行顺序可以先执行S2后执行S3,也可以先执行S3后执行S2,还可以同时执行,这在本发明中并不做具体限制。以下,结合图1和图2对图片和语料表征的具体方式进行说明。
S2,用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征。
作为本发明实施例的一个可选实施方式,用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征包括:使用YOLOv3作为基础模型框架,采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络,提取特征金字塔网络的不同空间分辨率输出作为视觉特征,将空间坐标信息嵌入视觉特征获得空间感知视觉特征。
具体地,图片编码获取空间感知特征过程如下:
使用YOLOv3作为基础模型框架,采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络。例如给定输入图片,首先使用零填充将图片调整为大小,并保持其长宽比。提取特征金字塔网络的不同空间分辨率输出作为视觉特征,具体包含、和等三种分辨率。为了方便表述,以下采用V表示提取的大小为的视觉特征。
考虑到一个名词短语有时不仅描述目标的外形信息,也会描述目标的位置信息,因此,本发明将空间坐标信息嵌入视觉特征获得图片的空间感知特征。
S3,解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征。
具体地,语料解析构建语义图过程如下:
本发明将自然语言描述编码为语义图,图中的每个节点表征一个名词短语,图中的边表征语料描述中提到的名词短语之间的语义关系,诸如介词或动词短语。
首先解析语料描述构建一个初始的场景图,然后再基于给定的名词短语提炼获得最终的语义图。
作为本发明实施例的一个可选实施方式,解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征包括:给定一个语料描述,以及语料描述中的名词短语集合;使用场景图解析器语料描述,提取初始场景图;按照语料描述中的原始顺序对每一个节点进行重排序,得到重排序后的名词短语集合;基于单词的最大重叠数进行名词短语匹配,并用给定的名词短语替换场景图中与之匹配的名词短语;对每一条边基于与之相连的替换后的名词短语增加或删除单词;输出语义结构图,其中,语义结构图中的每个节点表征一个名词短语,语义结构图中的边表征语料描述中提到的名词短语之间的语义关系。
具体过程如下:
2、首先使用现有的场景图解析器解析语料L,提取一个初始的场景图。具体地,场景图解析器通过将语料描述解析为一棵依赖树,然后依据一些列手工规则将依赖树转化为图结构,以此获得初始场景图。图中的节点为具有修饰的名词,边为名词间的语义联系。例如,短语『a-man-in-beard』通过解析生成图中的两个节点(『aman』-『in』-『beard』),他们之间的边编码了名词节点间的关系。(详细例子如图3所示)。
5、最后,对每一条边基于与之相连的替换后的名词短语增加或删除单词。在调整完场景图中节点和边之后,获得语义图G。
6、输出:语义图G。
为了方便表述,本发明可以采用如下符号定义语义图G。语义图G表示为,其中,表示节点集合,表示边集合。具体地,每个节点对应于由语料L中若干个单词组成的名词短语;每条边是一个三元组。在边对应的三元组中,和分别表示主语节点和宾语节点,与对应的语料L中的介词或者动词短语则是节点和间的语义联系。此外,本发明可以采用表示宾语是的节点集合,用表示主语是的节点集合,用表示节点的度数。
以下,结合图1和图4对关系信息图传播的具体方式进行说明。
S4,融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征。
具体地,在本发明中,通过解析语料构建基于语义关系的图,将名词短语间的关系信息编码嵌入图结构中。使用图卷积进行图中的信息传播,从而在语义结构信息的指导下学习结合视觉特征、空间坐标信息和语义联系的多模态特征,用于语义视觉位置推理。
作为本发明实施例的一个可选实施方式,融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征包括:为语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征;融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征。
具实施过程中,首先,为图G中的每个节点V提取结合视觉特征、空间坐标信息和语义联系的多模态特征。具体地,对每个节点的短语采用词向量编码,每个节点的初始短语编码为节点包含单词的词向量的均值。对由名词短语构成的节点有初始词编码,通过一个非线性变化学习节点的词编码如下:
S5,通过图卷积网络传播语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系。
具体地,提取多模态特征后,通过图卷积发掘短语间的语义联系。在图中的信息传播过程中,每个节点都直接收到邻居节点且间接受到更远节点的影响而改变自己的状态,从而将名词短语间的关联信息嵌入到模型提取的特征中,语义的视觉位置推理在语义的指导下获得更为精确的位置预测。具体地,对图中节点的多模态特征M经过若干层图卷积提取得到,其中每一层实现如下:
其中,为第l层输出的图卷积特征,A为图G的邻接矩阵,D为图G节点的度矩阵。通过引入图自身度矩阵解决自传递问题,即节点的更新信息也参考自身上一个状态的信息;通过对邻接矩阵的归一化操作,缓解了邻居节点较多的节点影响较大的问题。
以下,结合图1和图5对语义视觉位置推理的具体方式进行说明。
S6,进行语义视觉位置推理,获得语义信息的视觉位置。
作为本发明实施例的一个可选实施方式,进行语义视觉位置推理,获得语义信息的视觉位置包括:为语义结构图的每个空间位置匹配三个锚框,选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框,根据预测的回归偏移量调整候选框,得到语义信息的视觉位置。
具体地,语义的视觉位置推理过程与检测任务类似,本发明可以为特征图的每个空间位置匹配三个锚框(anchor box),选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框,在根据预测的回归偏移量调整候选框得到最终的语义视觉位置。对图G中的每个节点预测回归偏移量和置信分数用表示,对于空间分辨率大小的每一个位置计算三个锚框的如下:
推理阶段,本发明基于分类获得的候选框r和回归预测的回归偏移量t’计算得到最终的语义视觉位置:
由此可见,通过本发明实施例提供的基于多模态图卷积网络的语义视觉定位方法,基于语料解析构建语义结构图的方法,从而将语料中语义元素间的关系信息编码到图结构中;提出结合了视觉特征、空间坐标信息以及图节点语义特征的多模态特征融合方法,使得图中每个节点包含信息更丰富的特征;提出使用图卷积进行图中的信息传播,从而在语义结构信息的指导下学习并提取多模态特征,用于语义视觉位置推理。从而能够高效的将语料中语义关系信息构建为图,可以进一步发掘语料中语义元素间的关系信息;融合了视觉特征和空间坐标信息,使得特征具有空间感知能力。同时结合图节点的语义特征,将空间感知特征和语义特征进行融合,联合学习;用图卷积学习图节点间的语义关系信息,可以在语义信息指导下获得更精确的语义视觉定位。
图6示出了本发明实施例提供的基于多模态图卷积网络的语义视觉定位装置的结构示意图,该基于多模态图卷积网络的语义视觉定位装置应用上述方法,以下仅对基于多模态图卷积网络的语义视觉定位装置的结构进行简单说明,其他未尽事宜,请参照上述基于多模态图卷积网络的语义视觉定位方法中的相关描述,参见图6,本发明实施例提供的基于多模态图卷积网络的语义视觉定位装置,包括:
获取模块,用于获取输入图片以及语料描述;
图片表征模块,用于用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征;
语料表征模块,用于解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征;
多模态特征融合模块,用于融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征;
关系信息图传播模块,用于通过图卷积网络传播语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系;
视觉位置推理模块,用于进行语义视觉位置推理,获得语义信息的视觉位置。
作为本发明实施例的一个可选实施方式,图片表征模块通过如下方式用卷积神经网络提取输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征:图片表征模块,具体用于使用YOLOv3作为基础模型框架,采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络,提取特征金字塔网络的不同空间分辨率输出作为视觉特征,将空间坐标信息嵌入视觉特征获得空间感知视觉特征。
作为本发明实施例的一个可选实施方式,语料表征模块通过如下方式解析语料描述构建语义结构图,对语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征:语料表征模块,具体用于给定一个语料描述,以及语料描述中的名词短语集合;使用场景图解析器语料描述,提取初始场景图;按照语料描述中的原始顺序对每一个节点进行重排序,得到重排序后的名词短语集合;基于单词的最大重叠数进行名词短语匹配,并用给定的名词短语替换场景图中与之匹配的名词短语;对每一条边基于与之相连的替换后的名词短语增加或删除单词;输出语义结构图,其中,语义结构图中的每个节点表征一个名词短语,语义结构图中的边表征语料描述中提到的名词短语之间的语义关系。
作为本发明实施例的一个可选实施方式,多模态特征融合模块通过如下方式融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征:多模态特征融合模块,具体用于为语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征;融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征。
作为本发明实施例的一个可选实施方式,视觉位置推理模块通过如下方式进行语义视觉位置推理,获得语义信息的视觉位置:视觉位置推理模块,具体用于为语义结构图的每个空间位置匹配三个锚框,选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框,根据预测的回归偏移量调整候选框,得到语义信息的视觉位置。
由此可见,通过本发明实施例提供的基于多模态图卷积网络的语义视觉定位装置,基于语料解析构建语义结构图的方法,从而将语料中语义元素间的关系信息编码到图结构中;提出结合了视觉特征、空间坐标信息以及图节点语义特征的多模态特征融合方法,使得图中每个节点包含信息更丰富的特征;提出使用图卷积进行图中的信息传播,从而在语义结构信息的指导下学习并提取多模态特征,用于语义视觉位置推理。从而能够高效的将语料中语义关系信息构建为图,可以进一步发掘语料中语义元素间的关系信息;融合了视觉特征和空间坐标信息,使得特征具有空间感知能力。同时结合图节点的语义特征,将空间感知特征和语义特征进行融合,联合学习;用图卷积学习图节点间的语义关系信息,可以在语义信息指导下获得更精确的语义视觉定位。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (8)
1.一种基于多模态图卷积网络的语义视觉定位方法,其特征在于,包括:
获取输入图片以及语料描述;
用卷积神经网络提取所述输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征;
解析所述语料描述构建语义结构图,对所述语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征;
融合所述空间感知视觉特征和所述图节点语义特征得到所述语义结构图中每个节点的多模态特征;
通过图卷积网络传播所述语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系;
进行语义视觉位置推理,获得语义信息的视觉位置;
其中,所述解析所述语料描述构建语义结构图,对所述语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征包括:
给定一个所述语料描述,以及所述语料描述中的名词短语集合;
使用场景图解析器所述语料描述,提取初始场景图;
按照所述语料描述中的原始顺序对每一个节点进行重排序,得到重排序后的名词短语集合;
基于单词的最大重叠数进行名词短语匹配,并用给定的名词短语替换场景图中与之匹配的名词短语;
对每一条边基于与之相连的替换后的名词短语增加或删除单词;
输出所述语义结构图,其中,所述语义结构图中的每个节点表征一个名词短语,所述语义结构图中的边表征所述语料描述中提到的名词短语之间的语义关系。
2.根据权利要求1所述的方法,其特征在于,所述融合所述空间感知视觉特征和所述图节点语义特征得到所述语义结构图中每个节点的多模态特征包括:
为所述语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征;
融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征;
通过图卷积发掘短语间的语义联系,得到视觉语义联系。
3.根据权利要求1所述的方法,其特征在于,所述进行语义视觉位置推理,获得语义信息的视觉位置包括:
为所述语义结构图的每个空间位置匹配三个锚框,选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框,根据预测的回归偏移量调整候选框,得到所述语义信息的视觉位置。
4.根据权利要求1所述的方法,其特征在于,所述用卷积神经网络提取所述输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征包括:
使用YOLOv3作为基础模型框架,采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络,提取所述特征金字塔网络的不同空间分辨率输出作为视觉特征,将所述空间坐标信息嵌入所述视觉特征获得所述空间感知视觉特征。
5.一种基于多模态图卷积网络的语义视觉定位装置,其特征在于,包括:
获取模块,用于获取输入图片以及语料描述;
图片表征模块,用于用卷积神经网络提取所述输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征;
语料表征模块,用于解析所述语料描述构建语义结构图,对所述语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征;
多模态特征融合模块,用于融合所述空间感知视觉特征和所述图节点语义特征得到所述语义结构图中每个节点的多模态特征;
关系信息图传播模块,用于通过图卷积网络传播所述语义结构图中节点的关系信息,在语义关系的指导下学习视觉语义联系;
视觉位置推理模块,用于进行语义视觉位置推理,获得语义信息的视觉位置;
其中,所述语料表征模块通过如下方式解析所述语料描述构建语义结构图,对所述语义结构图中的每个节点词向量编码,通过多层感知机学习图节点语义特征:
语料表征模块,具体用于给定一个所述语料描述,以及所述语料描述中的名词短语集合;使用场景图解析器所述语料描述,提取初始场景图;按照所述语料描述中的原始顺序对每一个节点进行重排序,得到重排序后的名词短语集合;基于单词的最大重叠数进行名词短语匹配,并用给定的名词短语替换场景图中与之匹配的名词短语;对每一条边基于与之相连的替换后的名词短语增加或删除单词;输出所述语义结构图,其中,所述语义结构图中的每个节点表征一个名词短语,所述语义结构图中的边表征所述语料描述中提到的名词短语之间的语义关系。
6.根据权利要求5所述的装置,其特征在于,所述多模态特征融合模块通过如下方式融合所述空间感知视觉特征和所述图节点语义特征得到所述语义结构图中每个节点的多模态特征:
所述多模态特征融合模块,具体用于为所述语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征;融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征。
7.根据权利要求5所述的装置,其特征在于,所述视觉位置推理模块通过如下方式进行语义视觉位置推理,获得语义信息的视觉位置:
所述视觉位置推理模块,具体用于为所述语义结构图的每个空间位置匹配三个锚框,选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框,根据预测的回归偏移量调整候选框,得到所述语义信息的视觉位置。
8.根据权利要求5所述的装置,其特征在于,所述图片表征模块通过如下方式用卷积神经网络提取所述输入图片的多尺度视觉特征,编码嵌入空间坐标信息,得到空间感知视觉特征:
所述图片表征模块,具体用于使用YOLOv3作为基础模型框架,采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络,提取所述特征金字塔网络的不同空间分辨率输出作为视觉特征,将所述空间坐标信息嵌入所述视觉特征获得所述空间感知视觉特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010736128.XA CN111783457B (zh) | 2020-07-28 | 2020-07-28 | 一种基于多模态图卷积网络的语义视觉定位方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010736128.XA CN111783457B (zh) | 2020-07-28 | 2020-07-28 | 一种基于多模态图卷积网络的语义视觉定位方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783457A CN111783457A (zh) | 2020-10-16 |
CN111783457B true CN111783457B (zh) | 2021-05-11 |
Family
ID=72765044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010736128.XA Active CN111783457B (zh) | 2020-07-28 | 2020-07-28 | 一种基于多模态图卷积网络的语义视觉定位方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783457B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515886B (zh) * | 2021-04-28 | 2023-11-24 | 上海科技大学 | 基于地标特征卷积的视觉定位方法、系统、终端及介质 |
CN113343982B (zh) * | 2021-06-16 | 2023-07-25 | 北京百度网讯科技有限公司 | 多模态特征融合的实体关系提取方法、装置和设备 |
CN113722490B (zh) * | 2021-09-06 | 2023-05-26 | 华南理工大学 | 一种基于键值匹配关系的视觉富文档信息抽取方法 |
CN114708419B (zh) * | 2022-03-28 | 2024-08-02 | 湖南大学 | 基于多模态信息交互的零样本视觉定位方法、装置及设备 |
CN114821500A (zh) * | 2022-04-26 | 2022-07-29 | 清华大学 | 基于点云的多源特征融合的重定位方法及装置 |
CN115170449B (zh) * | 2022-06-30 | 2023-09-22 | 陕西科技大学 | 一种多模态融合场景图生成方法、系统、设备和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107833236A (zh) * | 2017-10-31 | 2018-03-23 | 中国科学院电子学研究所 | 一种动态环境下结合语义的视觉定位系统和方法 |
CN109903314A (zh) * | 2019-03-13 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种图像区域定位的方法、模型训练的方法及相关装置 |
CN111310604A (zh) * | 2020-01-21 | 2020-06-19 | 华为技术有限公司 | 一种物体检测方法、装置以及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190354832A1 (en) * | 2018-05-17 | 2019-11-21 | Università della Svizzera italiana | Method and system for learning on geometric domains using local operators |
CN109359568A (zh) * | 2018-09-30 | 2019-02-19 | 南京理工大学 | 一种基于图卷积网络的人体关键点检测方法 |
-
2020
- 2020-07-28 CN CN202010736128.XA patent/CN111783457B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107833236A (zh) * | 2017-10-31 | 2018-03-23 | 中国科学院电子学研究所 | 一种动态环境下结合语义的视觉定位系统和方法 |
CN109903314A (zh) * | 2019-03-13 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种图像区域定位的方法、模型训练的方法及相关装置 |
CN111310604A (zh) * | 2020-01-21 | 2020-06-19 | 华为技术有限公司 | 一种物体检测方法、装置以及存储介质 |
Non-Patent Citations (3)
Title |
---|
Spatial-aware Graph Relation Network for Large-scale Object Detection;Hang Xu,et al;《CVPR 2019》;20191231;第9298-9307页 * |
Visual Semantic Reasoning for Image-Text Matching;Kunpeng Li,et al;《ICCV 2019》;20191231;第4654-4662页 * |
深度学习目标检测方法综述;赵永强,等;《中国图象图形学报》;20200430;第25卷(第4期);第629-654页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111783457A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783457B (zh) | 一种基于多模态图卷积网络的语义视觉定位方法及装置 | |
EP3926531B1 (en) | Method and system for visio-linguistic understanding using contextual language model reasoners | |
CN112883149B (zh) | 一种自然语言处理方法以及装置 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN115221846A (zh) | 一种数据处理方法及相关设备 | |
CN115861995B (zh) | 一种视觉问答方法、装置及电子设备和存储介质 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN115080766B (zh) | 基于预训练模型的多模态知识图谱表征系统及方法 | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
CN117437317A (zh) | 图像生成方法、装置、电子设备、存储介质和程序产品 | |
CN115204301A (zh) | 视频文本匹配模型训练、视频文本匹配方法和装置 | |
CN115862040A (zh) | 文本纠错方法、装置、计算机设备及可读存储介质 | |
CN117934803A (zh) | 一种基于多模态特征对齐的视觉定位方法 | |
CN117453949A (zh) | 一种视频定位方法以及装置 | |
CN112668608A (zh) | 一种图像识别方法、装置、电子设备及存储介质 | |
CN116561272A (zh) | 开放域视觉语言问答方法、装置、电子设备及存储介质 | |
CN110852066A (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN110119754B (zh) | 图像生成描述方法、装置及模型 | |
CN113095072A (zh) | 文本处理方法及装置 | |
CN114639109A (zh) | 一种图像处理方法、装置、电子设备和存储介质 | |
CN117671426B (zh) | 基于概念蒸馏和clip的可提示分割模型预训练方法及系统 | |
CN114328943A (zh) | 基于知识图谱的问题回答方法、装置、设备及存储介质 | |
CN115525263A (zh) | 代码补全模型的训练方法、代码补全方法和装置 | |
Kaddoura | A Primer on Generative Adversarial Networks | |
CN115905591B (zh) | 一种视觉问答方法、系统、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |