CN110866129A

CN110866129A - 一种基于跨媒体统一表征模型的跨媒体检索方法

Info

Publication number: CN110866129A
Application number: CN201911061277.4A
Authority: CN
Inventors: 王进; 刘汪洋; 曹扬; 张秋悦; 闫盈盈; 宋荣伟; 阚丹会
Original assignee: Division Big Data Research Institute Co Ltd
Current assignee: Division Big Data Research Institute Co Ltd
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2020-03-06

Abstract

本发明针对跨媒体检索问题，提出了一种基于跨媒体统一表征模型的跨媒体检索方法，包括以下步骤：(1)跨媒体数据库构建，建立面向政务新闻领域大跨媒体数据库；(2)跨媒体数据预处理，文本、图像、视频和音频等数据的输入预处理；(3)跨媒体数据原域特征提取，跨媒体数据的原域特征向量提取；(4)跨媒体数据统一表征，跨媒体数据在共同表示空间的特征向量提取；(5)数据检索语义相似度计算与排序，检索目标数据与跨媒体数据库中数据语义相似度计算，并排序输出结果。本发明不仅提出了一种支持四种媒体数据的相互检索方法，同时提出多种媒体数据的统一表征模型，提高了跨媒体语义检索精度，具有关阔的应用前景。

Description

一种基于跨媒体统一表征模型的跨媒体检索方法

技术领域

本发明涉及一种基于跨媒体统一表征模型的跨媒体检索方法，属于自然语言处理、计算机视觉与跨媒体数据检索等技术领域，包括对多媒体数据原域特征提取、跨媒体数据统一表征模型、跨媒体数据库构建、跨媒体数据相似度计算与排序等。

背景技术

伴随着大数据时代的发展，各行各业的数据呈现爆炸式的增长，以5G、物联网为代表的智能应用时刻产生着大量的多媒体数据，包括文本、图像、视频、音频等海量非结构化数据。如何更好的组织和检索查询跨媒体数据成为信息检索领域巨大挑战和研究热点，例如通过文本检索图像、视频和音频；通过视频检索文本、音频等。

对文本、图像、视频和音频等多媒体信息集来说，绝大多数检索系统仍采取文本关键词搜索技术，例如Google的图像和视频检索功能仍是基于文本关键词(keyword)的，基本流程为首先从非结构化数据中提取关键词标签，这些关键词标签可能是图片周围的文本、文件名、数据主题标签、目标检测标签等，也有少量的来自于互联网的人工标注。由于多媒体信息制作者的文化背景不同、专业知识迥异，这些与图片关联的文本信息往往是极不可靠的，我们都能够体会到。对于图像和视频等多媒体信息，一般难以用自然语言进行有效的、精确的描述，无法表达其实质内容和语义关系，所以这种依据文本信息检索图片和视频的解决方案很难满足人们的查询需要，搜索精度很低。

针对跨媒体数据检索问题，基于机器学习、深度学习的语义嵌入方法成为研究重点，VSE++模型通过难例挖掘方法学习到视觉语义嵌入表示，提高了跨媒体检索精度；ACMR和CM-GANs模型通过对抗生成思路进行模型训练，并在Wikipedia和NUSWIDE数据集取得了较好的性能。现有大部分取得较好效果的跨媒体检索方法多采用深度神经网络模型，模型通常可解释性差，同时基于生成对抗思路的模型将数据到共同表示空间的变换假设成为线性可逆变换，从而增加逆变换约束条件，然而这与神经网络的非线性变换性质相矛盾。

发明内容

为解决上述技术问题，本发明提供了一种基于跨媒体统一表征模型的跨媒体检索方法，该基于跨媒体统一表征模型的跨媒体检索方法支持四种媒体数据检索的统一表征模型，并用于跨媒体数据检索，提高检索精度。

本发明通过以下技术方案得以实现。

本发明提供的一种基于跨媒体统一表征模型的跨媒体检索方法，包括以下步骤：

①跨媒体数据库构建：建立面向政务新闻领域的跨媒体数据库；

②跨媒体数据预处理：对跨媒体数据库的输入进行预处理，获取跨媒体数据；

③跨媒体数据原域特征提取：提取跨媒体数据的原域特征向量；

④跨媒体数据统一表征：采用深度神经网络模型，生成对抗思路训练支持四种媒体数据输入的跨媒体统一表征模型，并提取跨媒体统一表征模型输出的公共空间特征向量；

⑤数据检索语义相似度计算与排序：将跨媒体统一表征模型输出的公共空间特征向量与跨媒体数据的原域特征向量计算余弦相似度，并以相似度进行排序，输出相似度最大的前K个数据作为检索结果输出。

所述步骤①中，政务新闻领域包括政务新闻、政治人物、政治事件；所述跨媒体数据库中存有文本、图像、视频、音频四种类型的非结构化数据。

所述步骤②中，对文本、图像、视频和音频的多媒体检索输入数据的数据格式、维度进行预处理，其中，将音频数据变换成频谱图像作为音频数据输入，将文本进行分词，获取分词数组。

所述步骤③中，对文本数据采用word2vec模型提取原域特征向量；对图像数据采用深度卷积网络提取原域特征；对视频数据采用C3D 提取视频原域特征；对语音数据采用深度卷积网络提取原域特征向量。

通过分词获取文本的分词数组。

本发明的有益效果在于：

1、提出了一种支持文本、图像、视频、语音四种媒体数据统一表征的方法，所提出的跨媒体数据统一表征模型采用了基于生成对抗思路的模型训练方法，减少不同媒体数据表示之间的语义鸿沟；

2、提出了一种基于跨媒体统一表征模型的跨媒体数据检索方法，实现了四种媒体数据的相互检索。

附图说明

图1是本明的流程图。

具体实施方式

下面进一步描述本发明的技术方案，但要求保护的范围并不局限于所述。

如图1所示，一种基于跨媒体统一表征模型的跨媒体检索方法，包括以下步骤：

所述步骤③中，对文本数据采用word2vec模型提取原域特征向量，获取词向量表示；对图像数据采用深度卷积网络提取原域特征；对视频数据采用C3D(三维卷积网络)提取视频原域特征，即通过视频采样得到一段固定帧数序列图像，然后采用C3D模型(三维卷积网络)得到视频图像特征；对语音数据采用深度卷积网络提取原域特征向量，即输入音频频谱图像，采用深度卷积网络提取。

通过分词获取文本的分词数组。

具体的，跨媒体数据统一表征模型采用了基于生成对抗思路的模型训练方法，在跨媒体数据统一表征模型的训练中，模态数据判别损失函数表达式为：

其中，L_adv(θ_D)表示不同模态间所有样本的交叉熵损失函数， D(；θ_D)表示一个图像样本或文本样本的被判别成为图像或文本的概率，m_i表示一个样本属于图像还是文本的真实标签；

跨媒体数据表征损失函数为：

L_emd(θ_V,θT_iθ_imd)＝ω₁×L_imi+ω₂×L_imd+L_reg

其中，L_imi为模态间结构不变形损失函数，L_imd为模态内数据类别损失函数，L_reg为模型参数正则化项，ω₁、ω₂为模型超参数；

进一步地，

基于生成对抗思路的模型训练优化函数为：

其中，max的阈值为θ_D。

实施例

如上所述，一种基于跨媒体统一表征模型的跨媒体检索方法，步骤如下：

步骤1：跨媒体数据预处理

文本输入为：“2019年诺贝尔生理学或医学奖授予美国科学家威廉·凯林、格雷格·塞门扎以及英国科学家彼得·拉特克利夫，以表彰他们在“发现细胞如何感知和适应氧气供应”方面所做出的贡献。”

文本分词预处理，分词结果为：[2019年；诺贝尔；生理学；医学奖；授予；美国；科学家；威廉·凯林；格雷格·塞门扎；英国；科学家；彼得·拉特克利夫；表彰；他们；发现；细胞；如何；感知；适应；氧气；供应；方面；所做出；贡献]

步骤2：跨媒体数据原域特征提取

利用word2vec模型得到文本特征向量：Q1＝[1,1,0,0,0,1,0……]；

步骤3：跨媒体数据统一表征

通过跨媒体数据统一表征模型得到文本在共同表示空间的特征向量Q2；

步骤4：数据检索语义相似度计算与排序

将Q2与数据库中所有跨媒体数据的特征向量表示 {V1,V2,V3….T1,T2,….}计算余弦相似度，以相似度大小进行排序输出检索结果。

Claims

1.一种基于跨媒体统一表征模型的跨媒体检索方法，其特征在于：包括以下步骤：

2.如权利要求1所述的基于跨媒体统一表征模型的跨媒体检索方法，其特征在于：所述步骤①中，政务新闻领域包括政务新闻、政治人物、政治事件；所述跨媒体数据库中存有文本、图像、视频、音频四种类型的非结构化数据。

3.如权利要求1所述的基于跨媒体统一表征模型的跨媒体检索方法，其特征在于：所述步骤②中，对文本、图像、视频和音频的多媒体检索输入数据的数据格式、维度进行预处理，其中，将音频数据变换成频谱图像作为音频数据输入，将文本进行分词，获取分词数组。

4.如权利要求1所述的基于跨媒体统一表征模型的跨媒体检索方法，其特征在于：所述步骤③中，对文本数据采用word2vec模型提取原域特征向量；对图像数据采用深度卷积网络提取原域特征；对视频数据采用C3D提取视频原域特征；对语音数据采用深度卷积网络提取原域特征向量。

5.如权利要求3所述的基于跨媒体统一表征模型的跨媒体检索方法，其特征在于：通过分词获取文本的分词数组。