CN111949824A - 基于语义对齐的视觉问答方法和系统、存储介质 - Google Patents
基于语义对齐的视觉问答方法和系统、存储介质 Download PDFInfo
- Publication number
- CN111949824A CN111949824A CN202010650475.0A CN202010650475A CN111949824A CN 111949824 A CN111949824 A CN 111949824A CN 202010650475 A CN202010650475 A CN 202010650475A CN 111949824 A CN111949824 A CN 111949824A
- Authority
- CN
- China
- Prior art keywords
- image
- features
- characteristic
- original image
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000000007 visual effect Effects 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims description 19
- 230000007246 mechanism Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 2
- 238000007499 fusion processing Methods 0.000 abstract description 10
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于语义对齐的视觉问答方法和系统、存储介质,涉及视觉问答技术领域。本发明实施例首先通过获取并预处理数据集,根据原始图像提取原始图像特征和目标位置特征,根据目标位置特征产生图像描述语句,继而得到图像描述单词、问题特征和图像描述语句特征,将原始图像特征与图像描述单词进行语义对齐,得到第一图像特征,根据原始图像特征和图像描述语句特征,得到第二图像特征,根据原始图像特征和问题特征,得到第三图像特征,融合上述三个图像特征、图像描述语句特征和问题特征,得到综合特征,预测出最终的回答结果。进而突出图像信息的重要性,完善了特征融合过程涉及的信息,促使最终生成的回答结果更准确。
Description
技术领域
本发明涉及视觉问答技术领域,具体涉及一种基于语义对齐的视觉问答方法和系统、存储介质。
背景技术
视觉问答是一种涉及计算机视觉和自然语言处理的学习任务,就是让计算机学习输入的图片和问题输出一个符合自然语言规则且内容符合逻辑的答案,它根据问题的不同仅聚焦与图片中某一部分的对象,并且某些问题需要一定的常识推理才能得到答案,所以,视觉问答相比于一般的看图说话在对图像的语义理解上要求更高,也面对着更大的挑战。
目前,现有的视觉问答技术通常采用注意力机制实现获取最终的回答结果的目的。例如,申请号为CN201910770172.X的发明《一种基于多重注意力的视觉问答方法及系统》,其主要采用问题与图像两个模态之间的注意力机制,得到注意力特征向量,进而获取回答结果。
但是,上述现有视觉问答技术仅关注图像中的对象信息和问题信息之间的关联,在特征融合过程中仅涉及到原始图像特征和问题特征,信息不够完善,导致最终生成的回答结果不准确。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于语义对齐的视觉问答方法和系统、存储介质,解决了现有视觉问答技术在特征融合过程中仅涉及到原始图像特征和问题特征,信息不够完善,导致最终生成的回答结果不准确的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种基于语义对齐的视觉问答方法,包括:
获取并预处理数据集,得到预处理后的原始图像以及与原始图像信息对应的问答信息,问答信息包括问题和答案;
根据预处理后的原始图像提取原始图像特征和目标位置特征,根据目标位置特征产生图像描述语句;根据问题和图像描述语句,得到图像描述单词、问题特征和图像描述语句特征;
将原始图像特征与图像描述单词进行语义对齐,得到第一图像特征;根据原始图像特征和图像描述语句特征,得到第二图像特征;根据原始图像特征和问题特征,得到第三图像特征;
融合第一图像特征、第二图像特征、第三图像特征、图像描述语句特征和问题特征,得到综合特征;
根据综合特征,在答案中预测出最终的回答结果。
优选的,根据原始图像提取原始图像特征和目标位置特征,具体包括:
将原始图像输入ResNet网络生成原始图像特征;
采用Faster R-CNN框架进行图像区域的目标位置的选取,得到目标位置特征。
优选的,根据目标位置特征产生图像描述语句,具体包括:
将图像区域输入到预训练的卷积神经网络中得到特征向量,将特征向量经过维度转换后输入到LSTM单元序列中,图像区域产生对应的描述语句,得到图像描述语句。
优选的,根据问题和图像描述语句,得到图像描述单词、问题特征和图像描述语句特征,具体包括:
将问题和图像描述语句进行分词,去停用词,根据词频进行筛选得到图像描述单词,最终获取一个词表;
对于词表中的每个图像描述单词,采用glove词向量进行词嵌入,将问题和图像描述语句对应的词嵌入图像描述单词输入到LSTM 单元序列,分别得到问题特征和图像描述语句特征。
优选的,将原始图像特征与图像描述单词进行语义对齐,得到第一图像特征,具体包括:
将原始图像特征与图像描述单词输入一个注意力机制,注意力机制包括第一子层和第二子层,
第一子层采用多头注意力机制,根据原始图像特征与图像描述单词得到注意力权重矩阵;
第二子层采用前馈网络,根据原始图像特征、图像描述单词和注意力权重矩阵,得到第一图像特征。
优选的,根据原始图像特征和图像描述语句特征,得到第二图像特征,具体包括:
将原始图像特征和图像描述语句特征相加,得到新的图像区域特征,最终得到第二图像特征,第二图像特征由新的图像特征组成。
优选的,根据原始图像特征和问题特征,得到第三图像特征,具体包括:采用注意力机制,根据原始图像特征和问题特征,得到第三图像特征。
优选的,综合特征表示为:
h=(I1+I2+I3)*Ques*S
其中,h表示综合特征,I1表示第一图像特征,I2表示第二图像特征, I3表示第三图像特征,Ques表示问题特征,S表示图像描述语句特征。
一种基于语义对齐的视觉问答系统,包括:
获取并预处理模块,用于获取并预处理数据集,得到预处理后的原始图像以及与原始图像信息对应的问答信息,问答信息包括问题;
特征提取模块,用于根据原始图像提取原始图像特征和目标位置特征,根据目标位置特征产生图像描述语句,并根据问题和图像描述语句,得到图像描述单词、问题特征和图像描述语句特征;
语义对齐模块,用于将原始图像特征与图像描述单词进行语义对齐,得到第一图像特征,根据原始图像特征和图像描述语句特征,得到第二图像特征,根据原始图像特征和问题特征,得到第三图像特征;
综合特征获取模块,用于融合第一图像特征、第二图像特征、第三图像特征、图像描述语句特征和问题特征,得到综合特征;
预测模块,用于根据综合特征,预测出最终的回答结果。
一种计算机可读存储介质,其上存储有计算机程序,在处理器执行计算机程序时可实现上述任一项的方法。
(三)有益效果
本发明提供了一种基于语义对齐的视觉问答方法和系统、存储介质。与现有技术相比,具备以下有益效果:
本发明首先通过获取并预处理数据集,根据原始图像提取原始图像特征和目标位置特征,根据目标位置特征产生图像描述语句,继而得到图像描述单词、问题特征和图像描述语句特征,将原始图像特征与图像描述单词进行语义对齐,得到第一图像特征,根据原始图像特征和图像描述语句特征,得到第二图像特征,根据原始图像特征和问题特征,得到第三图像特征,融合上述三个图像特征、图像描述语句特征和问题特征,得到综合特征,预测出最终的回答结果。进而突出图像信息的重要性,完善了特征融合过程涉及的信息,促使最终生成的回答结果更准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中的一种基于语义对齐的视觉问答方法的流程示意图;
图2为本发明实施例中的图像区域产生对应的描述语句的流程示意图;
图3为本发明实施例中的一种基于语义对齐的视觉问答系统的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于语义对齐的视觉问答方法和系统、存储介质,解决了现有视觉问答技术在特征融合过程中仅涉及到原始图像特征和问题特征,信息不够完善,导致最终生成的回答结果不准确的问题,实现了突出图像信息的重要性,完善了特征融合过程涉及的信息,促使最终生成的回答结果更准确的有益效果。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明首先通过获取并预处理数据集,根据原始图像提取原始图像特征和目标位置特征,根据目标位置特征产生图像描述语句,继而得到图像描述单词、问题特征和图像描述语句特征,将原始图像特征与图像描述单词进行语义对齐,得到第一图像特征,根据原始图像特征和图像描述语句特征,得到第二图像特征,根据原始图像特征和问题特征,得到第三图像特征,融合上述三个图像特征、图像描述语句特征和问题特征,得到综合特征,预测出最终的回答结果。进而突出图像信息的重要性,完善了特征融合过程涉及的信息,促使最终生成的回答结果更准确。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例:
如图1所示,本发明实施例提供了一种基于语义对齐的视觉问答方法,包括:
获取并预处理数据集,得到预处理后的原始图像以及与原始图像信息对应的问答信息,所述问答信息包括问题和答案;
根据所述预处理后的原始图像提取原始图像特征和目标位置特征,根据所述目标位置特征产生图像描述语句,并根据所述问题和图像描述语句,得到图像描述单词、问题特征和图像描述语句特征;
将所述原始图像特征与图像描述单词进行语义对齐,得到第一图像特征,根据所述原始图像特征和图像描述语句特征,得到第二图像特征,根据所述原始图像特征和问题特征,得到第三图像特征;
融合所述第一图像特征、第二图像特征、第三图像特征、图像描述语句特征和问题特征,得到综合特征;
根据所述综合特征,在所述答案中预测出最终的回答结果。
其有益效果包括突出图像信息的重要性,完善了特征融合过程涉及的信息,促使最终生成的回答结果更准确。
具体包括:
步骤一:获取并预处理数据集。
数据集从visual question answering官网下载获取,数据集包括图像以及问答对话。
通过json文件进行图像和问答进行联系,令一张图像对应多个问答对话。
预处理图像的操作还包括如下:
(1)首先将图像批量剪切,转换成特定的格式大小,比如224*224 像素大小,方便适应现有的图像特征提取模型。
(2)然后进行缩放操作,对数据的每个维度进行调节,将数据向量处于固定范围之内。
(3)特征标准化,独立地使数据的每个维度都具有0均值和单位方差。
最终获得预处理后的原始图像以及与原始图像信息对应的问答信息,所述问答信息包括问题和答案。
步骤二:根据所述原始图像提取原始图像特征和目标位置特征。
采用神经网络模型对原始图像进行特征提取,特征提取网络一般包括VGG网络,Inception网络,ResNet网络等,为了能够获取到高质量的图像特征,本发明实施例使用残差网络即ResNet网络作为基础用于特征提取。具体包括:
首先将原始图像输入ResNet网络生成原始图像特征I。
然后采用Faster R-CNN框架进行图像区域的目标位置的选取,在ResNet生成的特征上筛选出K个目标的特征图,提取到的原始图像特征表示为K*2048的矩阵。
其中K表示每张图像有K个向量表示,每个向量大小是2048维。即每个图像选取K个区域作为最后的原始图像特征,每个区域是一个 2048维的向量,将原始图像特征定义为I。
利用Faster R-CNN框架还产生了每个图像区域的位置信息,即每个区域在图像中的坐标,表示为(x,y,w,h),其中x,y是区域左上角的坐标,w表示图像宽度,h表示图像长度。
目标位置特征表示为矩阵形式K*4,即每张图像有K个位置向量,每个向量大小为4维,将目标位置特征定义为Spatial。
步骤三:根据目标位置特征产生图像描述语句。
本步骤通过使用上述预处理后的原始图像和目标位置特征Spatial,根据目标位置特征Spatial得到每张图像中的图像区域。
将上述图像区域输入到预训练的卷积神经网络中,得到特征向量,再经过维度转换输入到LSTM单元序列中,图像中的每个区域都能产生对应的描述语句,得到多个图像描述语句。
具体过程如图2所示,其中<start>表示句子的开头标识,<end>表示句子的结束标识。
生成单词的词汇表通过image caption任务的官网数据集产生。
每个LSTM单元输出的结果经过维度映射,从LSTM单元隐藏层维度映射为总的词汇表的维度,经过softmax步骤,产生对于词汇表每个单词的概率值,找出概率值最高的那个单词,就是当前LSTM单元所产生的单词,将所有的单词拼接得到一个图像描述语句。
根据每张图像的位置特征的个数,产生相同个数的图像描述句子语句,即每张图像产生K个句子,将其定义为图像描述语句Sentence。
步骤四:根据所述问题和图像描述语句,得到图像描述单词、问题特征和图像描述语句特征。
本步骤采用Glove编码方式,对上述问答信息和图像描述语句进行编码,其中编码维度为300,对于没有对应编码的单词,使用全零向量代替。具体包括以下内容:
首先将问答信息中的问题以及图像描述语句Sentence进行分词,去停用词,根据词频进行筛选,最终获取一个词表Vocabulary。
对于词表Vocabulary中的每个图像描述单词,采用glove词向量进行词嵌入,然后将所述问题和图像描述语句对应的词嵌入图像描述单词输入到LSTM单元序列,分别得到所述问题特征Ques和图像描述语句特征S。
步骤五:将所述原始图像特征与图像描述单词进行语义对齐,得到第一图像特征
将上述词表Vocabulary进行词嵌入,得到原始单词特征T。
本步骤将原始图像中的对象与由图像描述的单词进行对齐。即将原始图像特征I和原始单词特征T作为输入,重复一个注意力机制,将每个域的局部特征结合起来,从而得到反映图像语义的综合图像表示。
上述注意力机制包括两个子层。
第一子层采用多头注意力机制,通过查询另一个图像区域来学习当前图像区域的相关特征。并且,通常一张图像对应的图像描述单词数量根据图像对象区域个数决定。具体包括:
Q=I*W0 (1)
其中I为原始图像特征,W0是维度转换矩阵,Q作为原始图像信息。
M=T*W1 (2)
其中T为单词特征,W1是维度转换矩阵,M作为图像描述单词信息,用于计算与Q之间的相似度。
V=T*W2 (3)
其中T为原始单词特征,W2是维度转换矩阵,V作为图像描述单词特征信息。
通过Q与M做内积,结合softmax的方式,来计算Q和M之间的相似度。而V和M是一一对应的,因为都是根据T产生的,本质上是为了每个图像的原始图像特征与图像描述单词进行语义对齐,赋予原始图像特征语义信息。
每个子注意力层权重的公式如下:
上式用于计算I和T两者之间的相似度,即原始图像特征具体与哪个图像描述单词对应,其中d为特征的维度,起到调节作用,使得内积不至于太大。
采用多头注意力机制进行求解是基于减少计算的考量。
f=[att1(Q1,M1,V1),...,atth(Qh,Mh,Vh)]*W (5)
其中W表示关联矩阵,用于转换特征的维度。将每个子注意力权重值拼接起来,再乘以一个关联矩阵得出最终的注意力权重矩阵f。
第二个子层采用前馈网络来得出线性的结果。具体包括:
out=norm(f+T) (6)
T1=T+(out*w+b) (7)
其中w,b表示线性变换中的线性映射矩阵和偏移量;norm表示归一化,得到归一化以后的特征out,再通过线性变化后与原始单词特征T相加,得到第一单词特征T1,
同理可得,将公式(1)~(7)中的两个特征参数位置互换,即输入T1、I,可以得到一个新的图像特征,最终产生第一图像特征I1。
步骤六:根据原始图像特征和图像描述语句特征,得到第二图像特征。
上一步骤中所产生的的第一图像特征I1由原始图像特征I和整张图片对应的图像描述单词产生,即每个图像区域和和其他图像区域对应的单词进行对齐。
本步骤是将每个图像区域和该图像区域对应的图像描述语句进行处理,增强图像特征。具体以原始图像特征I为基础,在图像中每个区域特征的基础上,加上每个区域对应单词的特征,其中单词的特征由LSTM单元序列产生。
由步骤二可知,每个原始图像包括K个区域,将每个图像区域特征用ii表示,则原始图像特征I有以下公式表示:
I=(i1,i2...,iK) (8)
将上述图像描述语句特征S用于图像区域对应的图像描述语句。令图像描述语句特征S中的每个子句表示为si,则有:
S=(s1,...,sK) (9)
将每个区域的图像区域特征vi和每个区域对应特征向量si相加,得到新的图像区域特征wi:
wi=ii+si,i=1,…,K
最终得到第二图像特征I2(w1,w2,...,wk)。
步骤七:根据原始图像特征和问题特征,得到第三图像特征。
本步骤采用注意力机制,根据上述原始图像特征I和问题特征 Ques,得到第三图像特征I3。具体如下:
region(I,Ques)=soft max(linear(I*Q)) (10)
其中,linear函数将原始图像特征I与问题特征Ques的维度均转化为1,softmax函数用于得到对应于每个图像区域的注意力权值 region(I,Ques)。
结合原始图像特征I,增强每个图像区域的特征,得到第三图像特征I3。
I3=I*region(I,Ques) (11)
步骤八:融合第一图像特征、第二图像特征、第三图像特征、图像描述语句特征、问题特征,得到综合特征。
融合方式如下公式:
h=(I1+I2+I3)*Ques*S (12)
其中h表示综合特征,作为最后分类预测的输入。
步骤九:根据综合特征,预测出最终的回答结果。
本发明实施例将视觉问答当做一个多分类任务。
由于常见问题的答案存在重尾分布,因此本发明实施例只提取出前3000个答案作为候选答案的集合,并认为该任务是一个分类任务。
首先根据问答信息中的答案选出一定量的候选答案,预测方法如下公式所示:
其中fo是非线性的转换方法,即将综合特征h转换成一维特征, wo表示一个线性矩阵,维度取决于候选答案的数量。
如图3所示,本发明实施例还提供一种基于语义对齐的视觉问答系统,包括:
获取并预处理模块,用于获取并预处理数据集,得到预处理后的原始图像以及与原始图像信息对应的问答信息,所述问答信息包括问题;
特征提取模块,用于根据所述原始图像提取原始图像特征和目标位置特征,根据所述目标位置特征产生图像描述语句,并根据所述问题和图像描述语句,得到图像描述单词、问题特征和图像描述语句特征;
语义对齐模块,用于将所述原始图像特征与图像描述单词进行语义对齐,得到第一图像特征,根据所述原始图像特征和图像描述语句特征,得到第二图像特征,根据所述原始图像特征和问题特征,得到第三图像特征;
综合特征获取模块,用于融合所述第一图像特征、第二图像特征、第三图像特征、图像描述语句特征和问题特征,得到综合特征;
预测模块,用于根据所述综合特征,预测出最终的回答结果。
可理解的是,本发明实施例提供的视觉问答系统与本发明实施例提供的视觉问答方法相对应,其有关内容的解释、举例和有益效果等部分可以参考考虑视觉问答方法中的相应部分,此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,在处理器执行所述计算机程序时可实现上述视觉问答方法。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明实施例首先通过获取并预处理数据集,根据原始图像提取原始图像特征和目标位置特征,根据目标位置特征产生图像描述语句,继而得到图像描述单词、问题特征和图像描述语句特征,将原始图像特征与图像描述单词进行语义对齐,得到第一图像特征,根据原始图像特征和图像描述语句特征,得到第二图像特征,根据原始图像特征和问题特征,得到第三图像特征,融合上述三个图像特征、图像描述语句特征和问题特征,得到综合特征,预测出最终的回答结果。进而突出图像信息的重要性,完善了特征融合过程涉及的信息,促使最终生成的回答结果更准确。
2、本发明实施例将原始图像特征与图像描述单词进行加权,得到增强特征后的第一图像特征,然后将第一图像特征与该图像区域对应的图像描述语句特征进行加权,得到包含语义的第二图像特征,再根据第二图像特征和和问题特征,得到第三图像特征,并最终得到了综合特征。经过数次的图像特征的增强,促使后续生成回答结果更合理更准确。
3、本发明实施例在特征融合过程中,融合了增强后的三个图像特征、图像描述语句特征和问题特征,使最终生成的回答结果与原始图像、问题之间的联系更紧密。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于语义对齐的视觉问答方法,其特征在于,包括:
获取并预处理数据集,得到预处理后的原始图像以及与原始图像信息对应的问答信息,所述问答信息包括问题和答案;
根据所述预处理后的原始图像提取原始图像特征和目标位置特征,根据所述目标位置特征产生图像描述语句;根据所述问题和图像描述语句,得到图像描述单词、问题特征和图像描述语句特征;
将所述原始图像特征与图像描述单词进行语义对齐,得到第一图像特征;根据所述原始图像特征和图像描述语句特征,得到第二图像特征;根据所述原始图像特征和问题特征,得到第三图像特征;
融合所述第一图像特征、第二图像特征、第三图像特征、图像描述语句特征和问题特征,得到综合特征;
根据所述综合特征,在所述答案中预测出最终的回答结果。
2.如权利要求1所述的基于语义对齐的视觉问答方法,其特征在于,所述根据所述原始图像提取原始图像特征和目标位置特征,具体包括:
将所述原始图像输入ResNet网络生成所述原始图像特征;
采用Faster R-CNN框架进行图像区域的目标位置的选取,得到所述目标位置特征。
3.如权利要求2所述的基于语义对齐的视觉问答方法,其特征在于,所述根据所述目标位置特征产生图像描述语句,具体包括:
将所述图像区域输入到预训练的卷积神经网络中得到特征向量,将所述特征向量经过维度转换后输入到LSTM单元序列中,所述图像区域产生对应的描述语句,得到所述图像描述语句。
4.如权利要求1所述的基于语义对齐的视觉问答方法,其特征在于,所述根据所述问题和图像描述语句,得到图像描述单词、问题特征和图像描述语句特征,具体包括:
将所述问题和图像描述语句进行分词,去停用词,根据词频进行筛选得到所述图像描述单词,最终获取一个词表;
对于所述词表中的每个图像描述单词,采用glove词向量进行词嵌入,将所述问题和图像描述语句对应的词嵌入图像描述单词输入到LSTM单元序列,分别得到所述问题特征和图像描述语句特征。
5.如权利要求1所述的基于语义对齐的视觉问答方法,其特征在于,所述将所述原始图像特征与图像描述单词进行语义对齐,得到第一图像特征,具体包括:
将所述原始图像特征与图像描述单词输入一个注意力机制,所述注意力机制包括第一子层和第二子层,
所述第一子层采用多头注意力机制,根据所述原始图像特征与图像描述单词得到注意力权重矩阵;
所述第二子层采用前馈网络,根据所述原始图像特征、图像描述单词和注意力权重矩阵,得到所述第一图像特征。
6.如权利要求1所述的基于语义对齐的视觉问答方法,其特征在于,根据所述原始图像特征和图像描述语句特征,得到第二图像特征,具体包括:
将所述原始图像特征和所述图像描述语句特征相加,得到新的图像区域特征,最终得到所述第二图像特征,所述第二图像特征由所述新的图像特征组成。
7.如权利要求1所述的基于语义对齐的视觉问答方法,其特征在于,所述根据所述原始图像特征和问题特征,得到第三图像特征,具体包括:采用注意力机制,根据所述原始图像特征和问题特征,得到所述第三图像特征。
8.如权利要求1所述的基于语义对齐的视觉问答方法,其特征在于,所述综合特征表示为:
h=(I1+I2+I3)*Ques*S
其中,h表示综合特征,I1表示第一图像特征,I2表示第二图像特征,I3表示第三图像特征,Ques表示问题特征,S表示图像描述语句特征。
9.一种基于语义对齐的视觉问答系统,其特征在于,包括:
获取并预处理模块,用于获取并预处理数据集,得到预处理后的原始图像以及与原始图像信息对应的问答信息,所述问答信息包括问题;
特征提取模块,用于根据所述原始图像提取原始图像特征和目标位置特征,根据所述目标位置特征产生图像描述语句,并根据所述问题和图像描述语句,得到图像描述单词、问题特征和图像描述语句特征;
语义对齐模块,用于将所述原始图像特征与图像描述单词进行语义对齐,得到第一图像特征,根据所述原始图像特征和图像描述语句特征,得到第二图像特征,根据所述原始图像特征和问题特征,得到第三图像特征;
综合特征获取模块,用于融合所述第一图像特征、第二图像特征、第三图像特征、图像描述语句特征和问题特征,得到综合特征;
预测模块,用于根据所述综合特征,预测出最终的回答结果。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,在处理器执行所述计算机程序时可实现权利要求1~8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010650475.0A CN111949824B (zh) | 2020-07-08 | 2020-07-08 | 基于语义对齐的视觉问答方法和系统、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010650475.0A CN111949824B (zh) | 2020-07-08 | 2020-07-08 | 基于语义对齐的视觉问答方法和系统、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111949824A true CN111949824A (zh) | 2020-11-17 |
CN111949824B CN111949824B (zh) | 2023-11-03 |
Family
ID=73341423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010650475.0A Active CN111949824B (zh) | 2020-07-08 | 2020-07-08 | 基于语义对齐的视觉问答方法和系统、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111949824B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651403A (zh) * | 2020-12-02 | 2021-04-13 | 浙江大学 | 基于语义嵌入的零样本视觉问答方法 |
CN112860847A (zh) * | 2021-01-19 | 2021-05-28 | 中国科学院自动化研究所 | 视频问答的交互方法及系统 |
CN113205507A (zh) * | 2021-05-18 | 2021-08-03 | 合肥工业大学 | 一种视觉问答方法、系统及服务器 |
CN113220859A (zh) * | 2021-06-01 | 2021-08-06 | 平安科技(深圳)有限公司 | 基于图像的问答方法、装置、计算机设备及存储介质 |
CN113420833A (zh) * | 2021-07-21 | 2021-09-21 | 南京大学 | 一种基于问题语义映射的视觉问答方法及装置 |
CN115618061A (zh) * | 2022-11-29 | 2023-01-17 | 广东工业大学 | 一种语义对齐的视频问答方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
CN110147457A (zh) * | 2019-02-28 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 图文匹配方法、装置、存储介质及设备 |
CN110168573A (zh) * | 2016-11-18 | 2019-08-23 | 易享信息技术有限公司 | 用于图像标注的空间注意力模型 |
CN110458282A (zh) * | 2019-08-06 | 2019-11-15 | 齐鲁工业大学 | 一种融合多角度多模态的图像描述生成方法及系统 |
EP3629253A1 (en) * | 2018-09-27 | 2020-04-01 | Beijing Baidu Netcom Science and Technology Co., Ltd. | Method and apparatus for generating training data for vqa system, and medium |
-
2020
- 2020-07-08 CN CN202010650475.0A patent/CN111949824B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
CN110168573A (zh) * | 2016-11-18 | 2019-08-23 | 易享信息技术有限公司 | 用于图像标注的空间注意力模型 |
EP3629253A1 (en) * | 2018-09-27 | 2020-04-01 | Beijing Baidu Netcom Science and Technology Co., Ltd. | Method and apparatus for generating training data for vqa system, and medium |
CN110147457A (zh) * | 2019-02-28 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 图文匹配方法、装置、存储介质及设备 |
CN110458282A (zh) * | 2019-08-06 | 2019-11-15 | 齐鲁工业大学 | 一种融合多角度多模态的图像描述生成方法及系统 |
Non-Patent Citations (1)
Title |
---|
马龙龙;韩先培;孙乐;: "图像的文本描述方法研究综述", 中文信息学报, no. 04 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651403A (zh) * | 2020-12-02 | 2021-04-13 | 浙江大学 | 基于语义嵌入的零样本视觉问答方法 |
CN112651403B (zh) * | 2020-12-02 | 2022-09-06 | 浙江大学 | 基于语义嵌入的零样本视觉问答方法 |
CN112860847A (zh) * | 2021-01-19 | 2021-05-28 | 中国科学院自动化研究所 | 视频问答的交互方法及系统 |
CN112860847B (zh) * | 2021-01-19 | 2022-08-19 | 中国科学院自动化研究所 | 视频问答的交互方法及系统 |
CN113205507A (zh) * | 2021-05-18 | 2021-08-03 | 合肥工业大学 | 一种视觉问答方法、系统及服务器 |
CN113205507B (zh) * | 2021-05-18 | 2023-03-10 | 合肥工业大学 | 一种视觉问答方法、系统及服务器 |
CN113220859A (zh) * | 2021-06-01 | 2021-08-06 | 平安科技(深圳)有限公司 | 基于图像的问答方法、装置、计算机设备及存储介质 |
CN113220859B (zh) * | 2021-06-01 | 2024-05-10 | 平安科技(深圳)有限公司 | 基于图像的问答方法、装置、计算机设备及存储介质 |
CN113420833A (zh) * | 2021-07-21 | 2021-09-21 | 南京大学 | 一种基于问题语义映射的视觉问答方法及装置 |
CN113420833B (zh) * | 2021-07-21 | 2023-12-26 | 南京大学 | 一种基于问题语义映射的视觉问答方法及装置 |
CN115618061A (zh) * | 2022-11-29 | 2023-01-17 | 广东工业大学 | 一种语义对齐的视频问答方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111949824B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111949824A (zh) | 基于语义对齐的视觉问答方法和系统、存储介质 | |
CN114639139B (zh) | 一种基于强化学习的情绪化图像描述方法及系统 | |
CN111488931B (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN105631479B (zh) | 基于非平衡学习的深度卷积网络图像标注方法及装置 | |
WO2023065617A1 (zh) | 基于预训练模型和召回排序的跨模态检索系统及方法 | |
CN110390363A (zh) | 一种图像描述方法 | |
CN111026842A (zh) | 自然语言处理方法、自然语言处理装置及智能问答系统 | |
CN109783657A (zh) | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 | |
CN110750959A (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN108830287A (zh) | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 | |
CN108416065A (zh) | 基于层级神经网络的图像-句子描述生成系统及方法 | |
CN112949622B (zh) | 融合文本与图像的双模态性格分类方法及装置 | |
CN111160343A (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
CN113761377B (zh) | 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质 | |
CN110348024A (zh) | 基于法律知识图谱的智能识别系统 | |
CN114419642A (zh) | 一种文档图像中键值对信息的抽取方法、装置及系统 | |
CN115563327A (zh) | 基于Transformer网络选择性蒸馏的零样本跨模态检索方法 | |
CN118051635A (zh) | 基于大语言模型的对话式图像检索方法和装置 | |
CN116341519A (zh) | 基于背景知识的事件因果关系抽取方法、装置及存储介质 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
CN117932161B (zh) | 一种多源多模态数据的可视化搜索方法及系统 | |
CN114281948A (zh) | 一种纪要确定方法及其相关设备 | |
Zhu et al. | Fine-grained bidirectional attentional generation and knowledge-assisted networks for cross-modal retrieval | |
CN112765955B (zh) | 一种中文指代表达下的跨模态实例分割方法 | |
CN114818739A (zh) | 一种利用位置信息优化的视觉问答方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |