CN108509521B

CN108509521B - 一种自动生成文本索引的图像检索方法

Info

Publication number: CN108509521B
Application number: CN201810198490.9A
Authority: CN
Inventors: 吴良超; 苏锦钿
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2020-02-18
Anticipated expiration: 2038-03-12
Also published as: CN108509521A

Abstract

本发明公开了一种自动生成文本索引的图像检索方法，步骤如下：(1)训练自动标注模型，首先通过模型的CNN部分提取图像特征，将特征和图像的描述词作为模型的RNN部分的输入，并以交叉熵损失函数为目标函数进行反向传播；(2)为图像生成文本索引，经过训练得到自动标注模型和词典，对于未标注的图像，通过自动标注模型为其生成描述词序列以及各个词对应的置信度，对置信度进行归一化后，两者共同作为图像的文本索引，用于构建图像检索索引；(3)当查询关键词不在词典中，通过近义词查询词库找到关键词在词典中的近义词；(4)根据关键词或其近义词在图像检索索引中找到相应图像，按照置信度从高到低依次返回。

Description

一种自动生成文本索引的图像检索方法

技术领域

本发明信息检索技术领域，尤其是基于文本的图像检索，具体涉及一种为图像自动生成文本索引的图像检索方法。

背景技术

随着互联网上图像数据的爆发式增长，如何从这些海量数据中筛选出所需数据成为了一个急需解决的问题，因此图像检索受到越来多研究人员的关注。

主流的图像检索按描述图像内容方式的不同可以分为两大类，一类是基于内容的图像检索(Content Based Image Retrieval,CBIR)，另一类是基于文本的图像检索(TextBased Image Retrieval,TBIR)。基于文本的图像检索方法利用文本标注的方式对图像中的内容进行描述，从而为每幅图像形成描述这幅图像内容的关键词，比如图像中的物体、场景等；在进行检索时，用户可以根据自己的兴趣提供查询关键词，检索系统根据用户提供的查询关键词找出那些标注有该查询关键词对应的图片，最后将查询的结果返回给用户。

这种基于文本的图像检索方式直观，对于结果的可解释性较强，查准率也相对较高。但是这种方法的缺陷也是非常明显的：首先，这种方式需要人工介入标注过程，而随着互联网上的图像数量快速增长，要为这些图像完成文本标注显然需要耗费大量的人力与财力；其次，人工标注得到的结果往往是一些图像中出现的物品，即一些表示物品的名词，忽略了物品的数量、动作、状态等信息，且对于结果中各个词语没有区分度，即无法分辨出哪一个词语涵盖更多的图像信息；最后，这种方法只能进行精准检索，即用户的查询关键词必须要在标注中出现过才能返回相应结果，但是表达同一个意思一般可用多个不同词语，且标注数据往往无法涵盖所有词语，这就造成了数据库中有符合要求的内容也无法被检索出来。

发明内容

本发明的目的是为了解决当前基于本文的图像检索中需要人工标注所造成的效率低下、标注结果无法涵盖图像全部内容以及无法检索到不在标注中出现的词语的问题，提供一种自动生成文本索引的图像检索方法。

本发明的目的可以通过采取如下技术方案达到：

一种自动生成文本索引的图像检索方法，所述的图像检索方法包括如下步骤：

S1、学习自动标注模型M，过程如下：

S101、获取已标注的训练数据集和未标注的图像数据集，所述的训练数据集包括训练图像以及与其对应的文本描述，所述的图像数据集仅包括图像，没有与其对应的文本描述；

S102、对所述的训练数据集的所有文本描述进行分词，构建词典D；

S103、通过CNN提取所述的训练数据集中的每幅图像的特征，所述的特征是一个一维向量；

S104、对于所述的训练数据集中的某幅图像i，将其对应的文本描述进行分词，得到w_i1,w_i2,…w_iL共L个词语，同时将从CNN中提取的所述的图像i的特征f_i作为RNN的隐藏单元的初始输入，并在循环神经网络循环的各步中依次输入词语w_i1,w_i2,…w_iL，每步输出的结果经过softmax层后得到词典中每个词在该步输出的概率值，记第t步输入的词语为w_it，输出的概率分布为P_it，则该步输出词语w_it的概率为P_it(w_it)，根据极大似然估计，需要让公式(1)的概率最大化，

S105、针对所述的训练数据集中的所有图像，需要让公式(2)的概率最大化，以该公式为目标函数进行反向传播更新模型的参数，得到自动标注模型M，该模型由以上所述的CNN和RNN组成；

S2、通过所述的自动标注模型M为所有的图像生成文本索引；

对于所述的图像数据集中任意图像i，首先经过自动标注模型M的CNN部分提取出图像特征f_i，作为为自动标注模型M的RNN部分的初始输入，然后依次生成各个词语，生成词语w′_it时依赖于已生成的w′_i1,w′_i2…w′_i(t-1)，每一步选择输出概率值最大的词语作为生成词语，并将该概率值作为该生成词语的在该图像中的置信度，记为z；

当以上步骤生成结尾词或已生成的词语长度到达预设的阈值，则停止继续生成词语；对于以上所述的任意图像i，都可生成一个序列的描述词w′_i1,w′_i2…w′_il以及所述的描述词在该图像中的置信度z_i1,z_i2…z_il，通过公式(3)对置信度进行归一化处理

以上所述的w′_i1,w′_i2…w′_il和z′_i1,z′_i2…z′_il共同构成了所述图像i的文本索引；

S3、通过以上所述的每幅图像的文本索引构建图像检索索引，对于以上所述的词典D中的任意词语w_u，找到该词语所描述的所有图像i₁,i₂…i_o，以及该词语在图像中对应的置信度z′_u1,z′_u2…z′_uo，根据置信度从高到低对图像排序，则对于以上所述的词典D中的任意词语，都通过此方式生成一个根据置信度排序的候选图像集；

S4、建立近义词查询词库，从网络文本数据集中获取无需标注的文本数据，通过word2vec算法训练文本数据，构建词库DB，D∈DB，词库中每个词均有对应的词向量，对于所述的词库DB任意两个词语，计算其意思相近度；当查询关键词w_u没有出现在以上所述的词典D中，通过词库DB找到与词语w_u意义最相近且在词典D中出现的词语w_v，并通过词语w_v检索相关图像；

S5、接收查询关键词进行图像检索，根据步骤S3和步骤S4为词库DB中的任意词语生成一组根据置信度排序的候选图像集，当存在多个查询关键词时，对每个词生成的候选图像集进行组合，对于出现次数大于1的候选图像i，将候选图像i在不同的查询关键词中的所有的置信度进行叠加，作为候选图像i的最终置信度，去掉多余的候选图像i，使候选图像i仅出现一遍；根据叠加后的置信度从高到低对候选图像进行排序，选出前若干个作为返回的结果。

进一步地，所述的步骤S2中，自动标注模型M为图像生成描述词时，同时会为每个描述词生成一个置信度，表示该描述词描述图像的准确度；通过对置信度排序，精准检索出与关键词相关性更大的图像。

进一步地，所述的步骤S4和所述的步骤S5中，当查询关键词没有出现在所述的词典D中，通过构建词库DB为每个词语构建一个词向量，对于任意两个词向量v_e,v_u，通过公式(4)计算两者相似程度，找到出现在词典D中且意义与查询关键词最接近的词语，进而检索出相应的图像，

其中，v_e·v_u表示两个向量的内积，|v_e|×|v_u|表示两个向量长度的乘积，该值越大，表示两者意思越接近。

进一步地，所述的CNN采用ResNet，所述的RNN采用LSTM。

本发明相对于现有技术具有如下的优点及效果：

1、本发明通过学习自动标注模型，能够为图像自动生成若干描述词语，在面对海量图像数据时，本发明能够有效减少人工干预，极大降低所需的人力和财力。

2、本发明为图像生成的描述词语中除了表示物体的名词，还会包含描述物体数量的量词、描述物体状态的形容词、描述物体动作的动词等，从而能够更全面覆盖图像内容，比起传统的人工标注只标出名词的处理方式，能够更加准确地进行图像的检索。

3、本发明能够处理不在图像训练集的文本中出现的查询关键词，通过无监督的方法训练近义词查询词库，能够找到与查询关键词意思相近的词语，避免了精确匹配的方式匹配成功率低的问题。

附图说明

图1是本发明的自动标注模型结构图；

图2是通过自动标注模型生成图像的文本索引示意图；

图3是通过近义词词库找到查询关键词的近义词的过程示意图；

图4是通过本发明进行图像检索的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本发明公开的一种自动生成文本索引的图像检索方法主要应用于互联网图像的检索，如谷歌、必应、百度这一类的搜索引擎。下面是本发明应用的实施步骤：

步骤S1、学习自动标注模型M，具体步骤如下：

步骤S101、从网络图像数据中获取已标注的训练数据集和未标注的图像数据集，首先需要选择具体的语言，这里以中文为例，获取已标注的训练数据集是AI Challenger的图像中文描述数据集，该数据集包含了300000张已标注的图像，每张图像有5句描述的句子。获取的未标注的图像数据集则是ImageNet提供的图片，数量是14197122，同时也可通过爬虫等方式抓取更多的图片。

步骤S102、通过结巴分词对训练数据集中1500000条样本进行分词，统计其中出现的不同的词语并构建词典D，构建出来的词典大小为8233。

步骤S103、通过卷积神经网络(以下简称CNN)提取所述的训练数据集中的图像的特征，这里采用的具体的CNN是ResNet，每幅图像提取出一个维度为2048的特征向量。

步骤S104、对于训练数据集中的某幅图像i，将其对应的文本描述进行分词，得到w_i1,w_i2,…w_iL共L个词语，同时将从CNN中提取的所述的图像i的特征向量作为循环神经网络(以下简称RNN)的隐藏单元的初始输入，这里采用的具体的RNN是LSTM，输入的具体的步长数根据上述的L决定。

在输入前还需要在分词得到的L个词语的首尾分别加上标记词，这里首部标记词记为w_s，尾部标记词记为w_e,这两个标记词对于训练数据集中所有的样本都一样。因此，在RNN循环的各步中需要依次输入词语w_s,w_i1,w_i2,…w_iL,w_e，每一步输出的结果经过softmax层后得到概率分布，在本示例中是一个长度为8233的向量，对应于词典中8233个单词，向量中某一维的值表示这一维对应的单词的概率值。记第t步输入的词语为w_it，输出的概率分布为P_it，则该步输出词语w_it的概率为P_it(w_it)。为了让所述的图像i输出的词语尽可能拟合其输入的词语，根据极大似然估计，需要让公式(1)的概率最大化。

步骤S105、根据步骤S104可以让一副图像的输出拟合其输入，这里为了让整个训练集中的每张图像输出的词语尽可能拟合其输入的词语，需要让公式(2)的概率最大化。但是在训练过程中，往往会在公式(2)前加入负号后作为模型的损失函数，从而将目标改为损失函数极小化，然后进行反向传播更新模型的参数，在训练时，需要划分训练集和验证集，在训练过程中通过观察模型在验证集上的效果，从而判断模型是否收敛，模型收敛后便可得到自动标注模型M，附图1显示了该模型的具体结构。

步骤S2、通过步骤S1中所述的自动标注模型M为所有的图像生成文本索引。

对于以上所述的任意图像i，首先经过自动标注模型M的CNN部分提取出图像特征f_i，图像特征f_i和步骤S104中的首部标记词w_s共同作为自动标注模型M的RNN部分的初始输入，生成描述该图像的第一个词语w′_i1，然后第一个词语w′_i1作为RNN的输入生成第二个描述词语w′_i2。依次类推在生成第t个单词w′_it时依赖于其前面生成的w′_i1,w′_i2…w′_i(t-1)。

在生成每个词时选择RNN输出部分概率值最大的词语，并将该概率值作为该词语的在该图像中的置信度，记为z。当生成步骤S104中的尾部标记词w_e或已生成的词语长度到达预设的阈值时，则停止继续生成词语,记最后生成的词语为w′_il。则对于以上所述的任意图像i，都可生成一个序列的描述词w′_i1,w′_i2…w′_il以及这些词在该图像中的置信度z_i1,z_i2…z_il，通过公式(3)对置信度进行归一化处理，得到归一化的置信度z′_i1,z′_i2…z′_il

以上生成的w′_i1,w′_i2…w′_il和z′_i1,z′_i2…z′_il共同构成了该图像的文本索引，附图2显示了通过自动标注模型生成图像的文本索引的例子。

步骤S3、通过步骤S2为每幅图像生成的文本索引建立所有图像的检索索引，具体步骤为，对于词典中的8233个词语中的任意一个，记为w_u，找到该词语出现过的所有图像i₁,i₂…i_o以及该词语在图像中对应的置信度z′_u1,z′_u2…z′_uo，根据置信度从高到低对图像排序。则对于8233个词语的中的任意一个，都可通过此方式生成一个根据置信度排序的候选图像集。

步骤S4、建立近义词查询词库，用于解决查询关键词没有出现在以上所述的8233个词语中出现的情形。具体步骤为，从网络文本数据集中获取大量无需标注的文本数据，这里获取的是中文维基百科的语料库。中文维基百科语料库中包含了中文维基百科中的每个词条的标题和正文部分，词条数目共984451，经过去除标点符号、繁简转换、分词等预处理步骤后，得到了984451条文本。通过word2vec算法对维基百科的984451条文本和训练集中的150000条文本进行训练，其中的所有的词语构成词库DB，词库大小为408787，则可为DB中每个词语生成词向量，对于任意两个词向量v_e,v_u，通过公式(4)可计算两者相似程度,v_e·v_u表示两个向量的内积，|v_e|×|v_u|表示两个向量长度的乘积，该值越大，表示两者意思越接近

当查询关键词w_u没有出现在以上所述的词典D中，通过词库DB找到与词语w_u意思最相近且在词典D中出现的词语w_v，并通过词语w_v检索相关图像，附图3显示了通过近义词查询词库找到查询关键词的近义词的例子。

步骤S5、接收查询关键词进行图像检索。通过步骤S3、S4可以为词库DB中的任意词语生成一组根据置信度排序的候选图像集。当存在多个查询关键词w₁,w₂,…w_n时，每个关键词首先检索出一组候选图像集<i₁,z₁>,<i₂,z₂>….<i_o,z_o>，对于出现次数大于1的候选图像i，将其所有置信度z叠加作为其最终的置信度，且去掉多余的i，使i仅出现一遍。根据叠加后的置信度从高到低对候选图像进行排序，选出前若干个作为返回的结果。

附图4给出了通过本发明进行图像检索的总流程图，综合了上述各步骤的内容，首先获取文本数据集，训练得到近义词查询词库；获取图像数据集，训练自动标注模型并生成词典，通过自动标注模型为图像生成文本索引，并通过文本索引构建图像检索索引；当用户的查询关键词不在图像数据集的词典时，通过近义词查询词库找到在词典中与查询关键词意义最接近词语，替代查询关键词进行图像检索。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种自动生成文本索引的图像检索方法，其特征在于，所述的图像检索方法包括如下步骤：

S1、学习自动标注模型M，过程如下：

S2、通过所述的自动标注模型M为所有的图像生成文本索引；

2.根据权利要求1所述的一种自动生成文本索引的图像检索方法，其特征在于，所述的步骤S2中，自动标注模型M为图像生成描述词时，同时会为每个描述词生成一个置信度，表示该描述词描述图像的准确度；通过对置信度排序，精准检索出与关键词相关性更大的图像。

3.根据权利要求1所述的一种自动生成文本索引的图像检索方法，其特征在于，所述的步骤S4和所述的步骤S5中，当查询关键词没有出现在所述的词典D中，通过构建词库DB为每个词语构建一个词向量，对于任意两个词向量v_e,v_u，通过公式(4)计算两者相似程度，找到出现在词典D中且意义与查询关键词最接近的词语，进而检索出相应的图像，

4.根据权利要求1所述的一种自动生成文本索引的图像检索方法，其特征在于，所述的CNN采用ResNet，所述的RNN采用LSTM。