CN102902821B

CN102902821B - 基于网络热点话题的图像高级语义标注、检索方法及装置

Info

Publication number: CN102902821B
Application number: CN201210431912.5A
Authority: CN
Inventors: 王晓茹; 余志洪; 杜军平; 维旭光; 孙朝阳; 林晨
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2012-11-01
Filing date: 2012-11-01
Publication date: 2015-08-12
Anticipated expiration: 2032-11-01
Also published as: CN102902821A

Abstract

本发明公开了一种基于网络热点话题的图像高级语义标注方法、检索方法及装置。其中标注方法包括：利用待标注图像的实体语义词，基于文本关键词的搜索引擎，检索与待标注图像实体语义相似的图像以及伴随文本。接着从伴随文本中提取主题，并建立主题与主题、图像与图像、图像与主题之间的关联关系，并基于此，将具有相似主题且视觉特征相似的图像聚为一类，将具有相似视觉特征的图像对应的相似主题聚为一类。从中选择与待标注图像视觉特征最为相似的图像类，将其对应的主题作为热点话题。本发明通过上述过程，实现了对图像的高级语义标注，并且通过去噪使得到的高级语义能够准确的描述待标注图像。

Description

基于网络热点话题的图像高级语义标注、检索方法及装置

技术领域

本发明涉及图像标注及检索领域，具体涉及基于网络热点话题的图像高级语义标注、检索方法及装置。

背景技术

图像是一种复杂的多媒体数据，包含了丰富的语义内容。图像的语义分为三个层次，第一层为底层语义层，即利用图像原始数据抽取得到的颜色、纹理等底层视觉特征；第二层为实体语义层，即利用提取的底层视觉特征，进行一定的逻辑推理，识别出图像中包含的对象类别，围绕图像的对象抽取的实体语义。第三层是抽象语义层即高级语义，包含了场景、行为和情感等高级的语义，是对实体语义的更高级的推理。

随着数字影像技术与互联网技术的发展，用户可以轻松的获得大量的图像。为方便用户从大量的图像中检索到符合需求的图像，图像标注技术应运而生。图像标注是指为图像添加能够描述其语义的关键词的技术。这样用户通过文本检索即搜索关键词就可以从网络上检索到相关图像。随着技术的发展，图像标注由人工标注发展为图像自动标注即通过寻找语义与底层视觉特征之间的关联关系，以此建立关系模型，实现对未知语义图像的标注。

目前，图像自动标注技术主要是指对图像底层语义和实体语义的标注，基于此，用户还无法通过输入高级语义内容的方式对图像进行检索。但随着互联网的发展，用户经常需要检索与高级语义内容相关的图像。比如，用户经常想要检索与网络热点话题相关的图像。此处，网络热点话题是指某一时间段内，网络上发生的(突发)事件或广为讨论的话题。一般体现为网页的点击率急剧上升或图像的查询、上传、下载量增多。

因此，目前急需一种对图像高级语义进行标注的方法，尤其是对图像有关的网络热点话题的标注方法。

发明内容

有鉴于此，本发明的目的在于提供一种基于网络热点话题的图像高级语义标注、检索方法及其装置，为实现用户通过高级语义对图像进行检索提供条件。

本发明实施例提供了一种基于网络热点话题的图像高级语义标注方法，所述方法包括：

一种基于网络热点话题的图像高级语义标注方法，其特征在于，所述方法包括：

以待标注图像的至少一个实体语义词为查询词，利用基于文本关键词的搜索引擎，从网络中检索与所述待标注图像的语义相似的图像和所述语义相似图像的伴随文本；

提取所述伴随文本中的主题，并基于所述伴随文本与所述主题的对应关系建立所述语义相似的图像与所述主题的对应关系；

将视觉特征相似并且具有相似主题的所述语义相似的图像聚合为一类，形成图像类集合；将视觉特征相似的所述语义相似的图像对应的相似主题聚合为一类，形成主题类集合；

建立所述图像类集合和所述主题类集合的对应关系；

根据所述待标注图像的视觉特征，从所述图像类集合中查找与所述待标注图像的视觉特征相似的图像类，并提取所述相似的图像类对应的主题类作为所述待标注图像的网络热点话题；

根据所述网络热点话题对所述待标注图像进行语义标注。

优选的，所述方法还包括预先对所述待标注图像进行实体语义标注的步骤，具体包括：

提取所述待标注图像的视觉特征；

根据所述视觉特征，从有限训练集中查找与所述待标注图像相似的候选图像；

提取所述候选图像的实体语义词，并利用所述实体语义词对所述待标注图像进行实体语义标注。

优选的，在所述提取所述候选图像的实体语义词之后，利用所述实体语义词对所述待标注图像进行实体语义标注之前，所述方法还包括：

根据所述实体语义词将实体语义相似的候选图像聚为一类，形成候选图像类集合；

从所述候选图像类集合中查找与所述待标注图像视觉特征最相似的候选图像类作为邻居图像类；

所述利用所述实体语义词对所述待标注图像进行实体语义标注包括：

利用所述邻居图像类的实体语义词对所述待标注图像进行实体语义标注。

优选的，所述根据所述实体语义词将实体语义相似的候选图像聚为一类，形成候选图像类包括

建立超图模型G(Vs，Ts)，并基于此获得超图模型的相似性矩阵H，其中，所述超图模型以与所述待标注图像相似的候选图像的集合Vs为顶点集，以所述候选图像的实体语义词的集合Ts为超边集；所述矩阵H中的元素Hij代表每个图像Vi与对应的实体语义词Tj的联系以及每个实体语义词与多个候选图像的共生关系；

根据所述相似性矩阵H，利用谱聚类算法，对所述超图模型进行聚类，将共享一定数量超边的候选图像聚为一类，形成所述候选图像类。

优选的，所述方法还包括：

利用公式计算所述邻居图像类中的实体语义词与所述待标注图像的相关度；其中，ii为邻居图像类S中的邻居图像，iq为待标注图像；p(ii/iq)等于ii与所述iq的视觉特征相似度；

所述利用所述邻居图像的实体语义词对所述待标注图像进行实体语义标注包括：

按照所述相关度从大到小的顺序，从所述邻居图像类中选取预设数量的实体语义词对所述待标注图像进行实体语义标注。

优选的，所述提取所述伴随文本中的主题，并基于所述伴随文本与主题的对应关系，建立所述语义相似的图像与所述主题的对应关系包括：

利用所述伴随文本建立LDA模型，基于所述LDA模型提取所述主题并建立图像-主题相关矩阵Rvt；

所述将视觉特征相似并且具有相似主题的所述语义相似的图像聚合为一类，形成图像类集合；将视觉特征相似的所述语义相似的图像对应的相似主题聚合为一类，形成主题类集合包括：

建立所述伴随文本的主题相关矩阵Rt；

利用图像的视觉相似性，计算所述语义相似的图像的视觉相似性矩阵Rv；

利用Rt、Rvt、Rv，建立复杂图模型G(Rv、Rt、Rvt)；

对所述复杂图G(Rv、Rt、Rvt)进行聚类，形成所述图像类集合和所述主题类集合。

优选的，所述根据所述网络热点话题对所述待标注图像进行语义标注包括：

利用开方检验方法χ²提取与所述网络热点话题相关度最高的前K个词对所述待标注图像进行语义标注。

本发明还提供了一种基于网络热点话题的图像高级语义标注装置，所述装置包括：

文本检索单元，用于以待标注图像的至少一个实体语义词为查询词，利用基于文本关键词的搜索引擎，从网络中检索与所述待标注图像的语义相似的图像和所述语义相似图像的伴随文本；

主题提取单元，用于提取所述伴随文本中的主题；

第一关联单元，用于基于所述伴随文本与主题的对应关系，建立所述语义相似的图像与所述主题的对应关系；

聚类单元，用于将视觉特征相似并且具有相似主题的所述语义相似的图像聚合为一类，形成图像类集合；将视觉特征相似的所述语义相似的图像对应的相似主题聚合为一类，形成主题类集合；

第二关联单元，用于建立所述图像类集合和所述主题类集合的对应关系；

第一内容检索单元，用于根据所述待标注图像的视觉特征，从所述图像类集合中查找与所述待标注图像的视觉特征相似的图像类；

热点话题提取单元，用于提取所述相似的图像类对应的主题类作为所述待标注图像的网络热点话题；

热点话题标注单元，用于根据所述网络热点话题对所述待标注图像进行语义标注。

优选的，所述装置还包括实体语义标注单元，用于对所述待标注图像进行实体语义标注；所述实体语义标注单元具体包括：

视觉特征提取单元，用于提取所述待标注图像的视觉特征；

第二内容检索单元，用于根据所述视觉特征，从有限训练集中查找与所述待标注图像相似的候选图像；

实体语义词提取单元，用于提取所述候选图像的实体语义词；

实体语义标注子单元，用于利用所述实体语义词对所述待标注图像进行实体语义标注。

优选的，所述装置还包括去噪单元，用于对所述候选图像进行去噪处理；具体的，所述去噪单元包括：

候选图像聚类单元，用于根据所述实体语义词将实体语义相似的候选图像聚为一类，形成候选图像类集合；

第三内容检索单元，用于从所述候选图像类集合中查找与所述待标注图像视觉特征最相似的候选图像类作为邻居图像类；

所述实体语义标注子单元，具体用于利用所述邻居图像类的实体语义词对所述待标注图像进行实体语义标注。

优选的，所述候选图像聚类单元包括：

超图模型单元，用于建立超图模型G(Vs，Ts)，并基于此获得超图模型的相似性矩阵H，其中，所述超图模型以与所述待标注图像相似的候选图像的集合Vs为顶点集，以所述候选图像的实体语义词的集合Ts为超边集；所述矩阵H中的元素Hij代表每个图像Vi与对应的实体语义词Tj的联系以及每个实体语义词与多个候选图像的共生关系；

谱聚类单元，用于根据所述相似性矩阵H，利用谱聚类算法，对所述超图模型进行聚类，将共享一定数量超边的候选图像聚为一类，形成所述候选图像类。

优选的，所述装置还包括：

相关度计算单元，用于利用公式计算所述邻居图像类中的实体语义词与所述待标注图像的相关度；其中，ii为邻居图像类S中的邻居图像，iq为待标注图像；p(ii/iq)等于ii与所述iq的视觉特征相似度；

所述实体语义标注子单元，具体用于按照所述相关度从大到小的顺序，从所述邻居图像类中选取预设数量的实体语义词对所述待标注图像进行实体语义标注。

优选的，所述主题提取单元，具体用于利用所述伴随文本建立LDA模型，基于所述LDA模型提取所述主题；

所述第一关联单元，具体用于基于所述LDA模型建立图像-主题相关矩阵Rvt；

所述聚类单元包括：

主题相关矩阵单元，用于建立所述伴随文本的主题相关矩阵Rt；

视觉相似性矩阵单元，用于利用图像的视觉相似性，计算所述语义相似的图像的视觉相似性矩阵Rv；

复杂图模型单元，用于利用Rt、Rvt、Rv，建立复杂图模型G(Rv、Rt、Rvt)；

复杂图聚类单元，用于对所述复杂图G(Rv、Rt、Rvt)进行聚类，形成所述图像类集合和所述主题类集合。

优选的，所述热点话题标注单元，具体用于，利用开方检验方法χ²提取与所述网络热点话题相关度最高的前K个词对所述待标注图像进行语义标注。

本发明还提供了一种基于网络热点话题的图像检索方法，其中，所述网络热点话题是利用上述图像标注方法得到的，该检索方法包括：

接收用户输入的图像检索文本；所述图像检索文本至少包含一个网络热点话题词；

抓取互联网上的图像及其所述图像的标注信息；

判断所述图像的标注信息是否与所述图像检索文本相匹配；

如匹配，则将所述相匹配的图像及其标注信息输出。

优选的，当所述图像检索文本中同时包含网络热点话题和实体语义时，所述判断所述图像的标注信息是否与所述图像检索文本相匹配包括：

判断所述图像的标注信息中是否包含所述网络热点话题词。

优选的，所述如匹配，则将所述相匹配的图像及其标注信息输出包括：

如匹配，则将所述相匹配的图像及其标注信息中与所述图像检索文本相关的内容输出。

本发明还提供了一种基于网络热点话题的图像检索装置，其中，所述网络热点话题是利用上述图像标注方法得到的，所述装置包括：

文本接收单元，用于接收用户输入的图像检索文本；所述图像检索文本至少包含一个网络热点话题词；

抓取单元，用于抓取互联网上的图像及其所述图像的标注信息；

判断单元，用于判断所述图像的标注信息是否与所述图像检索文本相匹配；

输出单元，用于在所述图像的标注信息与所述图像检索文本相匹配时，输出所述相匹配的图像及其标注信息输出。

优选的，所述判断单元，具体用于当所述图像检索文本中同时包含网络热点话题和实体语义时，判断所述图像的标注信息中是否包含所述网络热点话题词。

优选的，所述输出单元，具体用于在所述图像的标注信息与所述图像检索文本相匹配时，将所述相匹配的图像及其标注信息中与所述图像检索文本相关的内容输出。

同现有技术相比，本发明具有如下有益效果：

本发明提供了一种基于网络热点话题的图像高级语义的标注方法，首先利用待标注图像的实体语义词，基于文本关键词的搜索引擎，从互联网的海量数据中检索到了与待标注图像实体语义相似的图像以及伴随文本。因训练集是基于互联网的，因此，获取的语义全面且具有实时更新性。接着本发明从伴随文本中提取主题，并建立主题与主题、图像与图像、图像与主题之间的关联关系，并基于此，将具有相似主题且视觉特征相似的图像聚为一类，将具有相似视觉特征的图像对应的相似主题聚为一类。从中选择与待标注图像视觉特征最为相似的图像类，将其对应的主题作为热点话题。通过上述过程，将伴随文本中与对应图像不相关的主题以及与待标注图像视觉特征相似度不高的图像进行了去噪处理，使得得到的高级语义能够准确的描述待标注图像。

附图说明

图1是本发明实施例1基于文本的图像检索方法流程图；

图2A-2C是本发明实施例中待标注图像及基于文本检索到的语义相似图像；

图3是本发明实施例中语义相似图像的去噪处理流程图；

图4是本发明实施例2中基于网络热点话题的高级语义标注方法流程图；

图5是本发明实施例3中预先对待标注图像进行实体语义标注的流程图；

图6是为本发明实施例中超图模型示意图；

图7是本发明实施例5基于热点话题的图像高级语义标注装置结构图；

图8是本发明实施例6基于网络热点话题的图像检索方法流程图；

图9是本发明实施例7基于网络热点话题的图像检索装置结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

为实现对图像网络热点话题的标注，必须确定出图像对应的网络热点话题。我们知道，在网络上，大部分图像都穿插在文本信息中。我们称这些与图像一起出现的文本信息为伴随文本，常见的如网页文本中的文字信息等。图像与伴随文本在很大程度上具有关联性，因此，我们可以初步认为这些伴随文本中所体现的热点话题就是图像对应的热点话题。

我们知道，一幅图像的语义可以从其相似的图像中获得。基于此，本发明需要检索到与待标注图像相似的图像以及这些相似图像的伴随文本，然后从这些伴随文本中提取网络热点话题，这一网络热点话题就是待标注图像对应的热点话题。

检索相似图像以及相似图像的伴随文本可以通过多种方式进行。本发明实施例1提供了一种基于文本关键词的图像检索(TBIR，Text Based ImageRetrieval)方法，参见图1，该方法包括：

S11、以待标注图像的至少一个实体语义词为查询词，基于文本关键词的搜索引擎，从网络中检索与所述待标注图像的语义相似的图像和所述语义相似图像的伴随文本。

本发明中的至少一个实体语义词可以是用户根据待标注图像手动输入的，也可以是系统根据输入的待标注图像标注的实体语义词自动提取的。在实际应用中，待标注图像可能具有多个实体语义词，为最大程度的搜索与待标注图像语义相似的图像，用户或系统可以只选择其中一个或部分实体语义词进行检索。但这样检索到的图像可能包含大量与待标注图像相似度不高的图像。为提高检索到的图像与待标注图像的相似度，在本发明的优选实施例中，可以以待标注图像的所有实体语义词为查询词进行检索。

在本发明中，检索系统可以是百度或google，当然也可以是其他的检索系统。

基于检索到的伴随文本，可以通过提取伴随文本中的主题形成热点话题。但这一热点话题是对应伴随文本的，若基于图像与伴随文本的关联关系，将热点话题与图像直接关联起来，会引入很多噪声，主要体现在两个方面：

首先，图像的伴随文本通常是取自图像所在的网页文本，图像只是网页文本的一部分，因此，网页文本的一部分主题是与图像的语义不相关的。

比如在一讲述手机构造的网页文本中，穿插有手机内扬声器的图像，但在网页文本中，有很大一部分内容都在讲述手机其他部分的结构，与扬声器无关。

其次，所有的伴随文本都是利用相同的查询词搜索得到的，由于词的视觉多义性，这些伴随文本所对应的图像与待标注图像在视觉上可能存在很大差异。

比如，假设图2A为待标注图像，其实体语义词为“苹果”，但若以“苹果”为查询词，会搜索到与图2相似的图像图2B，也会搜索到与图2A完全不同的“苹果手机”的图像。

基于上述原因，在确定待标注图像对应的网络热点话题时，需要利用图像的视觉相似性对语义相似图像进行去噪处理，挑选出与待标注图像最为相似的图像集及其伴随文本集，从而提高选取的热点话题的正确性。其具体去噪过程如图3所示，包括：

S21、提取伴随文本中的主题，建立伴随文本与其主题间的对应关系，并基于伴随文本与主题的对应关系建立图像与主题的对应关系。

S22、建立主题与主题之间的共生关系，建立图像与图像之间的视觉相似性关系。

S23、将视觉特征相似的图像及其对应的相似主题聚合为一类，形成主题类集合，将具有相似主题且具有相似视觉特征的图像聚合为一类，形成图像类集合。并基于上述过程建立上述图像类与主题类之间的对应关系。

S24、在上述图像类集合中查找与待标注图像在视觉特征上相似的图像类，所述视觉特征相似的图像类对应的主题类即为待标注图像的网络热点话题。

在本发明中，可以在上述图像类集合中查找一定数量的与待标注图像在视觉特征上相似的图像类。在本发明的优选实施例中，在上述图像类集合中查找与待标注图像在视觉特征上最相似的图像类。

通过上述过程可以看出，本发明在去噪时需要考虑三种关联关系：主题与主题之间的共生关系，图像与图像之间的相似性关系，图像与主题间的对应关系。因为图像与其伴随文本具有一定的语义关联，因此，图像与主题的对应关系可以近似用伴随文本与主题的对应关系得到。

在本发明中，上述各种关联关系可以基于多种方式得到。

比如，伴随文本与主题之间的对应关系以及主题与主题之间的共生关系可以在主题的提取过程中建立。伴随文本中主题的提取也具有多种方式，比如可以利用现有的主题模型空间向量模型、潜在语义分析模型(LSA)等，本发明中优选LDA(Latent Dirichlet Allocation潜在狄利克雷分配模型)进行主题提取。

LD A模型是一种针对离散型文本进行建模的主题概率模型，是一个文本-主题-单词三层贝叶斯模型，将文本表示为若干主题的概率混合分布，具有更逼近真实数据的文本语义描述能力，可以高效的处理大规模的语料库。LDA模型通过主题建模，将文本的特征向量空间由的词的维度转变为主题的维度，将同义和近义的相关词汇映射至同一主题，实现语义层面的建模。

该模型有两个参数需要估计：一个是“文本-主题”分布概率，另一个是若干个“主题-单词”分布概率。通过这两个参数，我们可以知道文本作者感兴趣的主题，以及每一文本所涵盖的主题比例等。本发明中需要估计出“文本-主题”的关联关系即“文本-主题”分布概率。现有的参数估计方法主要有变分-EM(expectation maximization，期望最大化)算法，还有Gibbs抽样法。本发明优选Gibbs抽样法进行参数估计。利用GibbsLDA，可以得到文本与主题的关联关系其中，α是主题对应Dirichlet分布的参数，T是不同主题的个数，n_j ^dj是文本dj中主题j出现的次数，n^dj是所有主题在文本dj中出现的总次数。

关于主题与主题的共生关系，可以通过建立一个反映主题之间共生关系的矩阵Rt表示，其中，Topic(Zi，Zj)为矩阵的元素，定义如下：

Topic (zi, zj) = p (zi | zj) = \frac{C (zi \cap zj)}{C (zi \cap zj) + C (\bar{z} i \cap \bar{z} j)} * \frac{C (zi \cap zj)}{C (zj)} + \frac{C (\bar{z} i \cap \bar{z} j)}{C (zi \cap zj) + C (\bar{z} i \cap \bar{z} j)} * \frac{C (\bar{z} i \cap \bar{z} j)}{C (\bar{z} j)}

其中，C(zi∩zj)和分别表示了主题zi和主题zj在伴随文本集中共同出现的频次和同时缺席的次数，表示了主题之间的关联关系。

关于图像与图像的视觉相似性关系可以通过计算图像之间的相似度得出。结合现有技术，图像的视觉相似度可以根据每个图像的特征向量计算得到。具体的可以建立图像与图像的相似性关联矩阵H_V。矩阵的元素Sim_v(Ii，Ij)定义如下：

{Sim}_{v} (Ii, Ij) = (Σ_{d = 1}^{n} \min (id, jd) / \max (id, jd)) / n

其中，图像Ii提取的n维特征向量表示为Ii[i1，i2，i3...in]，图像Ij提取的n维特征向量表示为Ij[j1，j2，j3...jn]，id和jd分别表示第d种特征在对应的图像中出现的次数。

每幅图像与其伴随文本都有一定的主题语义关联，因此图像与主题的关联可以近似用图像的伴随文本与主题的关联关系得到。具体的，图像与主题的对应关系可使用概率p(zj|Ii)表示。图像Ii标注关键词Zj的概率如下：

其中，p(zj|Ii)≈p(zj|dj)，由LDA训练得到；p(Ij|Ii)≈Sim_V(Ii，Ij)

本发明中基于上述三种关联关系，可通过多种方式将图像以及主题进行聚类。由于上述三种关联关系中存在图像与主题两种异构顶点，本发明实施例中优选复杂图模型进行聚类。

定义复杂图(Complex graph)G＝{Rv，Rt，Rvt}，其中，Rv、Rt分别表示主题顶点集合和图像顶点集合，边集合Rvt包含两个子集，记为其中，S是Rv中同构连接的边权重矩阵，A表示Rv、Rt之间的异构连接的边权重矩阵。N1、N2分别代表Rv、Rt中的顶点个数。

基于上述复杂图定义，对复杂图进行聚类可以实现对主题顶点集合和图像顶点集合的分别聚类，并且，利用顶点之间的同构和异构连接关联关系，可以建立两个顶点集合类别之间的对应关系，即图像顶点集合Rt中的第i类与主题顶点集合Rv中的第j类的对应关系。

基于上述分析，本发明实施例2提供了一种基于网络热点话题的高级语义标注方法，参见图4，具体流程如下：

S31、输入初始查询词，利用文本的搜索引擎，获取语义相似图像集合和伴随文本集合。

S32、利用图像的视觉相似性，计算语义相似图像之间的视觉相似性矩阵Rv。

S33、利用伴随文本集合建立LDA模型，主题相关矩阵Rt和图像-主题相关矩阵Rvt。

S34、输入Rv，Rt，Rvt，建立复杂图模型G(Rv，Rt，Rvt)。

S35、对复杂图G(Rv，Rt，Rvt)进行聚类，找出与查询图像视觉相似的扩展邻居图像集合，提取其对应的热点话题.

基于现有技术如吴飞，韩亚洪，庄越挺，邵健撰写的《图像-文本相关性挖掘的Web图像聚类方法》中提出的复杂图聚类算法，复杂图G的聚类过程可以转化成求解如下优化问题的最优解的过程。复杂图聚类的优化问题定义为求解目标函数L的最优解：

(\begin{matrix} \arg \min_{C^{(1)}, C^{{(2)}^{L}}} \\ L = \min_{C^{(1)}, C^{(2)} {| | S - C^{(T)} D {(C^{(2)})}^{T} | |}^{2} + {| | A - C^{(1)} B {(C^{(2)})}^{T} | |}^{2}} \\ S, t, C^{(1)} &Element; {(0,1)}^{N_{1} * K_{1}}, C^{(2)} &Element; {(0,1)}^{N_{2} * K_{2}} \end{matrix})

(式1)

其中，矩阵C⁽¹⁾表示Rv内结点的聚类模式，也就是说表示Rv内第i类和第j类之间的链接强度(关联度)。矩阵C⁽²⁾表示Rt内结点的聚类模式，也就是说表示Rt内第i类和第j类之间的链接强度(关联度)。矩阵B表示Rv内结点和Rt内结点的聚类模式，也就是说B(i，j)表示Rv内的i类和Rt内的j类的关联强度，表现为是一种概率。矩阵D代表Rv内顶点的聚类模式，矩阵元素D(i，j)表示Rv内第i类和第j类之间的连接强度，表现为一种概率。

下面给出矩阵D、B的求解公式。若D，B是式(1)的最优解，则有：

(\begin{matrix} D = {({(C^{(1)})}^{T} C^{(1)})}^{- 1} {(C^{(1)})}^{T} {SC}^{(1)} {({(C^{(1)})}^{T} C^{(1)})}^{- 1} \\ B = {({(C^{(1)})}^{T} C^{(1)})}^{- 1} {(C^{(1)})}^{T} {AC}^{(2)} {({(C^{(2)})}^{T} C^{(2)})}^{- 1} \\ S, t, C^{(1)} &Element; {(0,1)}^{N_{1} * K_{1}}, C^{(2)} &Element; {(0,1)}^{N_{2} * K_{2}}, D &Element; R_{+}^{K 1 * K 2}, B &Element; R_{+}^{K 1 * K 2} \end{matrix})

式(2)

基于上述分析，本发明利用复杂图聚类的方法如下：

输入：复杂图G＝(Rv，Rt，Rvt)。设定集合Rv的聚类个数K1，集合Rt的聚类个数K2；

输出：主题聚类结果C⁽¹⁾；图像聚类结果C⁽²⁾；矩阵Pk1＊k2，矩阵元素表示主题顶点集合中聚类后的各个类别与图像集合中聚类后的各个类别的关联关系。

具体计算流程为：

1、给定C⁽¹⁾，C⁽²⁾的初始值，根据式(1)(2)，依次计算D、B、L的初始值，使L_min＝L_init；

2、固定D，B和C⁽²⁾，逐行更新C⁽¹⁾中1的位置，使得每一次更新都保证该次更新得到的L最小，更新L_min。

3、固定D，B和C⁽¹⁾，逐行更新C⁽²⁾中1的位置，使得每一次更新都保证该次更新得到的L最小，更新L_min。

4、根据式(2)依次计算D、B；

5、不断重复2-4直到收敛；

6、根据式P(I|T)＝P(I|T′)*P(T′|T)求得图像类与主题类的关联程度矩阵。其中P(I|T′)代表图像与主题的连接强度矩阵，即B矩阵，P(T′|T)代表主题与主题的连接强度矩阵，即D矩阵。根据第5步求得的最终L所对应的D，B矩阵即可得关联矩阵P(I|T)。

利用复杂图聚类算法分别对图像顶点集和主题顶点集进行聚类，并建立主题顶点集中的类别与图像顶点集中的类一一映射关系。在聚类过程中，三种关联关系互相影响，对于图像的聚类，视觉内容相似并且共有相似主题的图像聚合成一类；对于主题的聚类，相似图像的相关主题聚合成一类，形成了热点话题。例如，当使用”扎克别克”的图像作为初始查询图像时，得到了扎克别克的初始查询词，经过TBIR检索，得到了多幅图像和多个出现了扎克别克的伴随文本，经过复杂图建模和聚类后，形成了与查询图像的相似图像集合，同时对应的形成了“facebook，创始人，社交网络电影，等多个与“扎克别克”相关的的标注词。

基于上述方法提取出的热点话题是与待标注图像最相似的图像类所对应的主题，为进一步提高热点话题的准确性，在本发明的优选实施例中，可以使用开方检验方法χ²提取与话题相关度最高的前K个的词作为该话题的标注词，以对待标注图像进行标注。其中，K大于0小于等于网络热点话题中的单词个数。

x2有时写成CHI，其公式为：

CHI (t, c_{i}) = \frac{N * {(AD - BC)}^{2}}{(A + C) * (B + D) * (A + B) * (C + D)}

其中，t代表单词表中某一单词，ci为某一热点话题，CHI(t，ci)代表t与ci的关联度。N代表所有文档数目，A代表包含单词t且属于主题ci的文档数目，B代表包含单词t但是不属于主题ci的文档数目，C代表不包含单词t但是属于主题ci的文档数目，D代表不包含单词t而且也不属于主题ci的文档数目。

需要说明的是，基于上述过程得到的热点话题中有可能包含图像实体语义的描述词。可见，基于上述过程，利用互联网上相似图像的伴随文本还可以同时扩展对待标注图像的实体语义标注。而且相对现有的有限训练集的方式，本发明以互联网海量数据为训练集，使得标注的语义全面且具有实时更新性。

在本发明的实施例3中，在获取待标注图像的实体语义词之前，本发明的方法还包括预先对待标注图像进行实体语义标注的过程。如图5所示，该过程包括如下步骤：

S41、提取所述待标注图像的视觉特征。

S42、根据所述视觉特征，利用基于内容的图像检索(CBIR，Content BasedImage Retrieval)，从有限训练集中查找与所述待标注图像相似的候选图像。

S43、提取所述候选图像的实体语义词，并利用所述实体语义词对所述待标注图像进行实体语义标注。

需要说明的是，由于语义鸿沟的问题，上述候选图像尽管在视觉上与待标注图像相似，但在语义上可能会有很大差别。比如，输入一个苹果的图像。那么基于CBIR的检索，可能会将类似于苹果的球形物体或人的脑袋等都作为候选图像输出。而基于这些候选图像得到的实体语义词如“球”、“脑袋”等显然不是待标注图像的真实语义。因此，在本发明的优选实施例中，需要对候选图像进行去噪处理，以选取与待标注图像语义更为接近的候选图像。

我们知道，候选图像集中的图像已标注了多个数量不等的实体语义词，这些实体语义词可以看成是对应图像的伴随文本，伴随文本与其对应的图像之间在某种程度上都是语义内容相关的。因此，为了考察这些视觉内容相似的候选图像之间的语义内容的差异性，可以视为每幅图像的语义内容近似等同于其伴随文本的语义内容，从而通过考察这些伴随文本之间的语义差异性，就可间接获得候选图像之间的语义内容差异性。在这些伴随文本之间，越是语义内容相似的伴随文本，其共同拥有的相似实体语义词的数量就越多。

基于此，本发明实施例4提供了一种候选图像的去噪方法，具体包括：

根据实体语义词之间的相似性，将语义相似的伴随文本对应的图像进行聚类，形成候选图像类集合。

然后选取与待标注图像在视觉特征上最为相似的图像类的实体语义词对待标注图像进行标注。

在本发明中，利用超图来影射图像的实体语义词与伴随文本的关联关系。

超图是一种图模型，它的边称之为超边，能够连接两个或两个以上的顶点。也就是说，每条边就是一个顶点子集。在本发明中，超图中的顶点就代表了图像，而超边就是实体语义词(单词)。显然，一个图像可能有多个超边关联着。

比如，当有图像A、B、C、D、E，若图像A的伴随文本的实体语义词为“苹果”、“水果”和“价格”，图像B的伴随文本的实体语义词为“苹果”、“水果”。图像C的伴随文本的实体语义词为“苹果”、“水果”和“光照”，图像D的伴随文本的实体语义词为“乔布斯”和“价格”，图像E的伴随文本的实体语义词为“足球”，即图像A、B、C的伴随文本共享实体语义词“苹果”、“水果”，图像A、D的伴随文本共享实体语义词“价格”，图像E的伴随文本不与任何图像的伴随文本共享实体语义词时，用超图表示上述关系，其具体如图6所示，其中图像A、B、C共享两条超边，图像A、D共享一条超边。图像E为一个孤立的顶点。

在候选图像集中，通常噪音图像与查询图像在语义内容上是有差异的，而噪声图像彼此之间也是语义有差异的，与查询图像语义内容相似的候选图像之间语义也是相似的。从聚类的角度来看，上述情况则表现为多个分散的孤立点往往对应了多个噪声图像，而与查询图像语义相似的图像则形成了数量较大的类。因此，可以在超图上进行聚类分析，从而将候选图像集中的图像按照文本相似性进行分离划分。通过聚类，实现了同类之间的顶点(图像)最大程度的共享多个超边(实体语义词)，而不同类之间差异很大。

经过上述的超图建模和聚类过程，就将搜索得到图像聚成了若干类，利用图像的视觉相似性，就可以找出与查询图像最为相似的图像类，从而在这个图像类中提取实体语义词就可以获得初始的实体语义。

每个图像类对应有多个实体语义词，每个实体语义词与待标注图像的相关度是不同的。为进一步提高待标注图像实体语义标注的准确度，本发明优选实施例中，首先计算出上述最为相似的图像类中每一实体语义词与待标注图像的相关度。然后选取前K个相关度最高的实体语义词对待标注图像进行标注。

其中，最为相似的图像类中每一实体语义词与待标注图像的相关度可利用公式进行计算。其中，S为最为相似的图像类，ti为最为相似的图像类中的实体语义词，ii为最为相似的图像类中的图像，iq为待标注图像，p(ii/iq)≈similary(ii，iq)，similary(ii，iq)表示ii与iq的视觉特征相似度，这一相似度可以利用现有技术中的方法计算得到。此处不再做详细说明。其表示当ii中包含ti时，值为1，否则为0。

综上，本发明提供了一种基于热点话题的图像高级语义的标注方法，首先利用待标注图像的实体语义词，基于文本的图像检索，从互联网的海量数据中检索到了与待标注图像实体语义相似的图像以及伴随文本。因训练集是基于互联网的，因此，获取的语义全面且具有实时更新性。接着本发明从伴随文本中提取主题，并建立主题与主题、图像与图像、图像与主题之间的关联关系，并基于此，将具有相似主题且视觉特征相似的图像聚为一类，将具有相似视觉特征的图像对应的相似主题聚为一类。从中选择与待标注图像视觉特征最为相似的图像，将其对应的主题作为热点话题。通过上述过程，将伴随文本中与对应图像不相关的主题以及与待标注图像视觉特征相似度不高的图像进行了去噪处理，使得得到的高级语义能够准确的描述待标注图像。

对应上述方法，本发明实施例5还提供了一种基于热点话题的图像高级语义标注装置，参见图7，该装置包括：

接收单元11，用于接收用户输入的待标注图像的至少一个实体语义词。

文本检索单元12，用于以所述至少一个实体语义词为查询词，基于文本的图像搜索，从网络中检索与所述待标注图像的语义相似的图像和所述语义相似图像的伴随文本。

在实际应用中，待标注图像可能具有多个实体语义词，为最大程度的搜索与待标注图像语义相似的图像，用户可以只选择其中一个实体语义词输入进行检索。但这样检索到的图像可能包含大量与待标注图像相似度不高的图像。为提高检索到的图像与待标注图像的相似度，在本发明的优选实施例中，可以以待标注图像的所有实体语义词为查询词进行检索。

在本发明中，进行检索的装置可以是百度或google，当然也可以是其他的检索装置。

主题提取单元13，用于提取所述伴随文本中的主题。

根据之前方法实施例部分的分析可知，在确定待标注图像对应的网络热点话题时，需要利用图像的视觉相似性进行去噪处理，挑选出与待标注图像最为相似的图像集及其伴随文本集，从而提高选取的热点话题的正确性。基于此，所述装置还包括：

第一关联单元14，用于基于所述伴随文本与主题的对应关系，建立所述语义相似的图像与所述主题的对应关系。

聚类单元15，用于将视觉特征相似并且具有相似主题的所述语义相似的图像聚合为一类，形成图像类集合；将视觉特征相似的所述语义相似的图像对应的相似主题聚合为一类，形成主题类集合。

第二关联单元16，用于建立所述图像类集合和所述主题类集合的对应关系。

第一内容检索单元17，用于根据所述待标注图像的视觉特征，从所述图像类集合中查找与所述待标注图像的视觉特征相似的图像类。

通过上述过程完成了对从网络上获得的语义相似的图像及其伴随文本的去噪处理。然后，在此基础上提取网络热点话题：

热点话题提取单元18，用于提取所述相似的图像类对应的主题类作为所述待标注图像的网络热点话题。

热点话题标注单元19，用于根据所述网络热点话题对所述待标注图像进行语义标注。

本发明中，主题提取以及图像和主题的聚类可以通过多种装置实现。比如主题的提取可以利用现有的基于主题模型空间向量模型的装置、基于潜在语义分析模型(LSA)的装置等。

本发明实施例提供了一种提取网络热点话题和聚类的装置：

基于LDA(Latent Dirichlet Allocation潜在狄利克雷分配模型)的装置进行主题提取，即主题提取单元具体用于利用所述伴随文本建立LDA模型，基于所述LDA模型提取所述主题。

所述第一关联单元，具体用于基于所述LDA模型建立图像-主题相关矩阵Rvt。

所述聚类单元包括：

主题相关矩阵单元，用于建立所述伴随文本的主题相关矩阵Rt。

视觉相似性矩阵单元，用于利用图像的视觉相似性，计算所述语义相似的图像的视觉相似性矩阵Rv。

复杂图模型单元，用于利用Rt、Rvt、Rv，建立复杂图模型G(Rv、Rt、Rvt)。

基于上述过程提取出的热点话题是与待标注图像最相似的图像类所对应的主题，为进一步提高热点话题的准确性，在本发明的优选实施例中，所述热点话题标注单元，具体用于，利用开方检验方法χ²方法提取与网络热点话题相关度最高的前K个词作为标注词对待标注图像进行标注，K大于0小于等于网络热点话题中的单词个数。其中，关于开方检验方法的具体公式可参见方法实施例部分。

待标注图像的实体语义词是通过实体语义标注实现的，在本发明的具体实施例中，所述装置还包括预先对待标注图像进行实体语义标注的实体语义标注单元。用于对所述待标注图像进行实体语义标注；所述实体语义标注单元具体包括：

视觉特征提取单元，用于提取所述待标注图像的视觉特征；

需要说明的是，由于语义鸿沟的问题，上述候选图像尽管在视觉上与待标注图像相似，但在语义上可能会有很大差别。比如，输入一个苹果的图像。那么基于CBIR的检索，可能会将类似于苹果的球形物体或人的脑袋等都作为候选图像输出。而基于这些候选图像得到的标注词如“球”、“脑袋”等显然不是待标注图像的真实语义。因此，在本发明的优选实施例中，需要对候选图像进行去噪处理，以选取与待标注图像语义更为接近的候选图像。

我们知道，候选图像集中的图像已标注了多个数量不等的标注词，这些标注词可以看成是对应图像的伴随文本，伴随文本与其对应的图像之间在某种程度上都是语义内容相关的。因此，为了考察这些视觉内容相似的候选图像之间的语义内容的差异性，可以视为每幅图像的语义内容近似等同于其伴随文本的语义内容，从而通过考察这些伴随文本之间的语义差异性，就可间接获得候选图像之间的语义内容差异性。在这些伴随文本之间，越是语义内容相似的伴随文本，其共同拥有的相似标注词的数量就越多。

基于此，本发明的装置还包括去噪单元，用于对所述候选图像进行去噪处理；具体的，所述去噪单元包括：

第三内容检索单元，用于从所述候选图像类集合中查找与所述待标注图像视觉特征最相似的候选图像类作为邻居图像；

所实体语义标注子单元，具体用于利用所述邻居图像集的实体语义词对所述待标注图像进行实体语义标注。

候选图像聚类可通过多种装置实现，本发明实施例提供了其中一种，所述候选图像聚类单元包括：

超图模型单元，用于建立超图模型G(Vs，Ts)，并基于此获得超图模型的相似性矩阵H，其中，所述超图模型以与所述待标注图像相似的候选图像的集合Vs为顶点，以所述候选图像的实体语义词的集合Ts为超边；所述矩阵H中的元素Hij代表每个图像Vi与对应的实体语义词Tj的联系以及每个实体语义词与多个候选图像的共生关系；

每个图像类对应有多个实体语义词，每个实体语义词与待标注图像的相关度是不同的。为进一步提高待标注图像实体语义标注的准确度，本发明优选实施例中，所述装置还包括：

相关度计算单元，用于利用公式计算所述邻居图像中的实体语义词与所述待标注图像的相关度；其中，ii为邻居图像类S中的邻居图像，iq为待标注图像；p(ii/iq)等于ii与所述iq的视觉特征相似度；p(ii/ip)为图像ii与所述待标注图像的视觉特征相似度.

所述实体语义标注子单元，具体用于选取相关度最大的前K个实体语义词对所述待标注图像进行实体语义标注。

对应上述标注方法和装置，本发明实施例6还提供了一种基于网络热点话题的图像检索方法，其中，图像的网络热点话题是基于上述实施例中的方法标注得到的。参见图8，所述检索方法包括：

S51、接收用户输入的图像检索文本；所述图像检索文本至少包含一个网络热点话题词。

在检索中，用户可以只输入与网络热点话题相关的文本，也可以同时输入实体语义和与网络热点话题相关的文本。本发明不对此进行限制。

S52、抓取互联网上的图像及其所述图像的标注信息。

本发明中可以利用现有的网络信息抓取方法，如利用spider遍历网络资源，获取互联网上的图像及其标注信息。

S53、判断所述图像的标注信息是否与所述图像检索文本相匹配。

具体的，可以判断标注信息中是否包含了所输入的全部图像检索文本。或者，也可以判断标注信息中是否包含了大于预设阈值数量的图像检索文本词。

比如，当用户输入“北京”、“苹果”、“价格疯长”几个词时，可设置系统在检索到标注信息中包含2个相同的检索词时，即认为图像与文本检索信息相匹配。

在本发明的一个具体实施例中，当文本检索信息同时包含网络热点话题词和实体语义词时，可设置在检索到的标注信息中包含网络热点话题词时，认为图像与文本检索信息相匹配。

S54、如匹配，则将所述相匹配的图像及其标注信息输出。

大多数用户只关注与自己输入的文本检索信息相关的内容，因此，在本发明的优选实施例中，可只输出相匹配的图像和与文本检索信息相关的标注信息。

对应上述检索方法，本发明实施例7还提供了一种基于网络热点话题的图像检索装置，其中所述网络热点话题是利用上述图像标注方法得到的。参见图9，所述装置包括：

文本接收单元21，用于接收用户输入的图像检索文本；所述图像检索文本至少包含一个网络热点话题词。

抓取单元22，用于抓取互联网上的图像及其所述图像的标注信息。

判断单元23，用于判断所述图像的标注信息是否与所述图像检索文本相匹配。

在本发明的一个具体实施例中，当文本检索信息同时包含网络热点话题词和实体语义词时，所述判断单元，可用于判断所述图像的标注信息中是否包含所述网络热点话题词。

输出单元24，用于在所述图像的标注信息与所述图像检索文本相匹配时，输出所述相匹配的图像及其标注信息输出。

大多数用户只关注与自己输入的文本检索信息相关的内容，因此，在本发明的优选实施例中，所述输出单元，具体用于在所述图像的标注信息与所述图像检索文本相匹配时，将所述相匹配的图像及其标注信息中与所述图像检索文本相关的内容输出。

需要说明的是，上述装置实施例是与方法实施例相对应的，因此对装置部分不再详述，相关部分参见方法实施例即可。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及设备；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于网络热点话题的图像高级语义标注方法，其特征在于，所述方法包括：

建立所述图像类集合和所述主题类集合的对应关系；

根据所述网络热点话题对所述待标注图像进行语义标注。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括预先对所述待标注图像进行实体语义标注的步骤，具体包括：

提取所述待标注图像的视觉特征；

3.根据权利要求2所述的方法，其特征在于，在所述提取所述候选图像的实体语义词之后，利用所述实体语义词对所述待标注图像进行实体语义标注之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述实体语义词将实体语义相似的候选图像聚为一类，形成候选图像类包括

5.根据权利要求3或4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述提取所述伴随文本中的主题，并基于所述伴随文本与主题的对应关系，建立所述语义相似的图像与所述主题的对应关系包括：

利用所述伴随文本建立LDA模型，基于所述LDA模型提取所述主题并建立图像—主题相关矩阵Rvt；

建立所述伴随文本的主题相关矩阵Rt；

利用Rt、Rvt、Rv，建立复杂图模型G(Rv、Rt、Rvt)；

7.根据权利要求1所述的方法，其特征在于，所述根据所述网络热点话题对所述待标注图像进行语义标注包括：

利用开方检验方法χ2提取与所述网络热点话题相关度最高的前K个词对所述待标注图像进行语义标注。

8.一种基于网络热点话题的图像高级语义标注装置，其特征在于，所述装置包括：

主题提取单元，用于提取所述伴随文本中的主题；

9.根据权利要求8所述的装置，其特征在于，所述装置还包括实体语义标注单元，用于对所述待标注图像进行实体语义标注；所述实体语义标注单元具体包括：

视觉特征提取单元，用于提取所述待标注图像的视觉特征；

10.根据权利要求9所述的装置，其特征在于，所述装置还包括去噪单元，用于对所述候选图像进行去噪处理；具体的，所述去噪单元包括：

11.根据权利要求10所述的装置，其特征在于，所述候选图像聚类单元包括：

12.根据权利要求10或11所述的装置，其特征在于，所述装置还包括：

13.根据权利要求8所述的装置，其特征在于，所述主题提取单元，具体用于利用所述伴随文本建立LDA模型，基于所述LDA模型提取所述主题；

所述第一关联单元，具体用于基于所述LDA模型建立图像—主题相关矩阵Rvt；

所述聚类单元包括：

14.根据权利要求8所述的装置，其特征在于，所述热点话题标注单元，具体用于，利用开方检验方法χ2提取与所述网络热点话题相关度最高的前K个词对所述待标注图像进行语义标注。

15.一种基于网络热点话题的图像检索方法，其特征在于，所述网络热点话题和图像的标注信息是利用权利要求1-7中任一项方法得到的，所述方法包括：

抓取互联网上的图像及其所述图像的标注信息；

判断所述图像的标注信息是否与所述图像检索文本相匹配；

如匹配，则将所述相匹配的图像及其标注信息输出；

其中，当所述图像检索文本中同时包含网络热点话题和实体语义时，所述判断所述图像的标注信息是否与所述图像检索文本相匹配包括：

判断所述图像的标注信息中是否包含所述网络热点话题词。

16.根据权利要求15所述的方法，其特征在于，所述如匹配，则将所述相匹配的图像及其标注信息输出包括：

17.一种基于网络热点话题的图像检索装置，其特征在于，所述网络热点话题和图像的标注信息是利用权利要求1-7中任一项方法得到的，所述装置包括：

输出单元，用于在所述图像的标注信息与所述图像检索文本相匹配时，输出所述相匹配的图像及其标注信息输出；

其中，所述判断单元，具体用于当所述图像检索文本中同时包含网络热点话题和实体语义时，判断所述图像的标注信息中是否包含所述网络热点话题词。

18.根据权利要求17所述的装置，其特征在于，所述输出单元，具体用于在所述图像的标注信息与所述图像检索文本相匹配时，将所述相匹配的图像及其标注信息中与所述图像检索文本相关的内容输出。