[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN110866129A - 一种基于跨媒体统一表征模型的跨媒体检索方法 - Google Patents

一种基于跨媒体统一表征模型的跨媒体检索方法 Download PDF

Info

Publication number
CN110866129A
CN110866129A CN201911061277.4A CN201911061277A CN110866129A CN 110866129 A CN110866129 A CN 110866129A CN 201911061277 A CN201911061277 A CN 201911061277A CN 110866129 A CN110866129 A CN 110866129A
Authority
CN
China
Prior art keywords
cross
media
data
retrieval
original domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911061277.4A
Other languages
English (en)
Inventor
王进
刘汪洋
曹扬
张秋悦
闫盈盈
宋荣伟
阚丹会
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Division Big Data Research Institute Co Ltd
Original Assignee
Division Big Data Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Division Big Data Research Institute Co Ltd filed Critical Division Big Data Research Institute Co Ltd
Priority to CN201911061277.4A priority Critical patent/CN110866129A/zh
Publication of CN110866129A publication Critical patent/CN110866129A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明针对跨媒体检索问题,提出了一种基于跨媒体统一表征模型的跨媒体检索方法,包括以下步骤:(1)跨媒体数据库构建,建立面向政务新闻领域大跨媒体数据库;(2)跨媒体数据预处理,文本、图像、视频和音频等数据的输入预处理;(3)跨媒体数据原域特征提取,跨媒体数据的原域特征向量提取;(4)跨媒体数据统一表征,跨媒体数据在共同表示空间的特征向量提取;(5)数据检索语义相似度计算与排序,检索目标数据与跨媒体数据库中数据语义相似度计算,并排序输出结果。本发明不仅提出了一种支持四种媒体数据的相互检索方法,同时提出多种媒体数据的统一表征模型,提高了跨媒体语义检索精度,具有关阔的应用前景。

Description

一种基于跨媒体统一表征模型的跨媒体检索方法
技术领域
本发明涉及一种基于跨媒体统一表征模型的跨媒体检索方法,属于自然语言处理、计算机视觉与跨媒体数据检索等技术领域,包括对多媒体数据原域特征提取、跨媒体数据统一表征模型、跨媒体数据库构建、跨媒体数据相似度计算与排序等。
背景技术
伴随着大数据时代的发展,各行各业的数据呈现爆炸式的增长,以5G、物联网为代表的智能应用时刻产生着大量的多媒体数据,包括文本、图像、视频、音频等海量非结构化数据。如何更好的组织和检索查询跨媒体数据成为信息检索领域巨大挑战和研究热点,例如通过文本检索图像、视频和音频;通过视频检索文本、音频等。
对文本、图像、视频和音频等多媒体信息集来说,绝大多数检索系统仍采取文本关键词搜索技术,例如Google的图像和视频检索功能仍是基于文本关键词(keyword)的,基本流程为首先从非结构化数据中提取关键词标签,这些关键词标签可能是图片周围的文本、文件名、数据主题标签、目标检测标签等,也有少量的来自于互联网的人工标注。由于多媒体信息制作者的文化背景不同、专业知识迥异,这些与图片关联的文本信息往往是极不可靠的,我们都能够体会到。对于图像和视频等多媒体信息,一般难以用自然语言进行有效的、精确的描述,无法表达其实质内容和语义关系,所以这种依据文本信息检索图片和视频的解决方案很难满足人们的查询需要,搜索精度很低。
针对跨媒体数据检索问题,基于机器学习、深度学习的语义嵌入方法成为研究重点,VSE++模型通过难例挖掘方法学习到视觉语义嵌入表示,提高了跨媒体检索精度;ACMR和CM-GANs模型通过对抗生成思路进行模型训练,并在Wikipedia和NUSWIDE数据集取得了较好的性能。现有大部分取得较好效果的跨媒体检索方法多采用深度神经网络模型,模型通常可解释性差,同时基于生成对抗思路的模型将数据到共同表示空间的变换假设成为线性可逆变换,从而增加逆变换约束条件,然而这与神经网络的非线性变换性质相矛盾。
发明内容
为解决上述技术问题,本发明提供了一种基于跨媒体统一表征模型的跨媒体检索方法,该基于跨媒体统一表征模型的跨媒体检索方法支持四种媒体数据检索的统一表征模型,并用于跨媒体数据检索,提高检索精度。
本发明通过以下技术方案得以实现。
本发明提供的一种基于跨媒体统一表征模型的跨媒体检索方法,包括以下步骤:
①跨媒体数据库构建:建立面向政务新闻领域的跨媒体数据库;
②跨媒体数据预处理:对跨媒体数据库的输入进行预处理,获取跨媒体数据;
③跨媒体数据原域特征提取:提取跨媒体数据的原域特征向量;
④跨媒体数据统一表征:采用深度神经网络模型,生成对抗思路训练支持四种媒体数据输入的跨媒体统一表征模型,并提取跨媒体统一表征模型输出的公共空间特征向量;
⑤数据检索语义相似度计算与排序:将跨媒体统一表征模型输出的公共空间特征向量与跨媒体数据的原域特征向量计算余弦相似度,并以相似度进行排序,输出相似度最大的前K个数据作为检索结果输出。
所述步骤①中,政务新闻领域包括政务新闻、政治人物、政治事件;所述跨媒体数据库中存有文本、图像、视频、音频四种类型的非结构化数据。
所述步骤②中,对文本、图像、视频和音频的多媒体检索输入数据的数据格式、维度进行预处理,其中,将音频数据变换成频谱图像作为音频数据输入,将文本进行分词,获取分词数组。
所述步骤③中,对文本数据采用word2vec模型提取原域特征向量;对图像数据采用深度卷积网络提取原域特征;对视频数据采用C3D 提取视频原域特征;对语音数据采用深度卷积网络提取原域特征向量。
通过分词获取文本的分词数组。
本发明的有益效果在于:
1、提出了一种支持文本、图像、视频、语音四种媒体数据统一表征的方法,所提出的跨媒体数据统一表征模型采用了基于生成对抗思路的模型训练方法,减少不同媒体数据表示之间的语义鸿沟;
2、提出了一种基于跨媒体统一表征模型的跨媒体数据检索方法,实现了四种媒体数据的相互检索。
附图说明
图1是本明的流程图。
具体实施方式
下面进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。
如图1所示,一种基于跨媒体统一表征模型的跨媒体检索方法,包括以下步骤:
①跨媒体数据库构建:建立面向政务新闻领域的跨媒体数据库;
②跨媒体数据预处理:对跨媒体数据库的输入进行预处理,获取跨媒体数据;
③跨媒体数据原域特征提取:提取跨媒体数据的原域特征向量;
④跨媒体数据统一表征:采用深度神经网络模型,生成对抗思路训练支持四种媒体数据输入的跨媒体统一表征模型,并提取跨媒体统一表征模型输出的公共空间特征向量;
⑤数据检索语义相似度计算与排序:将跨媒体统一表征模型输出的公共空间特征向量与跨媒体数据的原域特征向量计算余弦相似度,并以相似度进行排序,输出相似度最大的前K个数据作为检索结果输出。
所述步骤①中,政务新闻领域包括政务新闻、政治人物、政治事件;所述跨媒体数据库中存有文本、图像、视频、音频四种类型的非结构化数据。
所述步骤②中,对文本、图像、视频和音频的多媒体检索输入数据的数据格式、维度进行预处理,其中,将音频数据变换成频谱图像作为音频数据输入,将文本进行分词,获取分词数组。
所述步骤③中,对文本数据采用word2vec模型提取原域特征向量,获取词向量表示;对图像数据采用深度卷积网络提取原域特征;对视频数据采用C3D(三维卷积网络)提取视频原域特征,即通过视频采样得到一段固定帧数序列图像,然后采用C3D模型(三维卷积网络)得到视频图像特征;对语音数据采用深度卷积网络提取原域特征向量,即输入音频频谱图像,采用深度卷积网络提取。
通过分词获取文本的分词数组。
具体的,跨媒体数据统一表征模型采用了基于生成对抗思路的模型训练方法,在跨媒体数据统一表征模型的训练中,模态数据判别损失函数表达式为:
Figure BDA0002258018080000051
其中,LadvD)表示不同模态间所有样本的交叉熵损失函数, D(;θD)表示一个图像样本或文本样本的被判别成为图像或文本的概率,mi表示一个样本属于图像还是文本的真实标签;
跨媒体数据表征损失函数为:
LemdV,θTiθimd)=ω1×Limi2×Limd+Lreg
其中,Limi为模态间结构不变形损失函数,Limd为模态内数据类别损失函数,Lreg为模型参数正则化项,ω1、ω2为模型超参数;
进一步地,
Figure BDA0002258018080000061
基于生成对抗思路的模型训练优化函数为:
Figure BDA0002258018080000062
Figure BDA0002258018080000063
其中,max的阈值为θD
实施例
如上所述,一种基于跨媒体统一表征模型的跨媒体检索方法,步骤如下:
步骤1:跨媒体数据预处理
文本输入为:“2019年诺贝尔生理学或医学奖授予美国科学家威廉·凯林、格雷格·塞门扎以及英国科学家彼得·拉特克利夫,以表彰他们在“发现细胞如何感知和适应氧气供应”方面所做出的贡献。”
文本分词预处理,分词结果为:[2019年;诺贝尔;生理学;医学奖;授予;美国;科学家;威廉·凯林;格雷格·塞门扎;英国;科学家;彼得·拉特克利夫;表彰;他们;发现;细胞;如何;感知;适应;氧气;供应;方面;所做出;贡献]
步骤2:跨媒体数据原域特征提取
利用word2vec模型得到文本特征向量:Q1=[1,1,0,0,0,1,0……];
步骤3:跨媒体数据统一表征
通过跨媒体数据统一表征模型得到文本在共同表示空间的特征向量Q2;
步骤4:数据检索语义相似度计算与排序
将Q2与数据库中所有跨媒体数据的特征向量表示 {V1,V2,V3….T1,T2,….}计算余弦相似度,以相似度大小进行排序输出检索结果。

Claims (5)

1.一种基于跨媒体统一表征模型的跨媒体检索方法,其特征在于:包括以下步骤:
①跨媒体数据库构建:建立面向政务新闻领域的跨媒体数据库;
②跨媒体数据预处理:对跨媒体数据库的输入进行预处理,获取跨媒体数据;
③跨媒体数据原域特征提取:提取跨媒体数据的原域特征向量;
④跨媒体数据统一表征:采用深度神经网络模型,生成对抗思路训练支持四种媒体数据输入的跨媒体统一表征模型,并提取跨媒体统一表征模型输出的公共空间特征向量;
⑤数据检索语义相似度计算与排序:将跨媒体统一表征模型输出的公共空间特征向量与跨媒体数据的原域特征向量计算余弦相似度,并以相似度进行排序,输出相似度最大的前K个数据作为检索结果输出。
2.如权利要求1所述的基于跨媒体统一表征模型的跨媒体检索方法,其特征在于:所述步骤①中,政务新闻领域包括政务新闻、政治人物、政治事件;所述跨媒体数据库中存有文本、图像、视频、音频四种类型的非结构化数据。
3.如权利要求1所述的基于跨媒体统一表征模型的跨媒体检索方法,其特征在于:所述步骤②中,对文本、图像、视频和音频的多媒体检索输入数据的数据格式、维度进行预处理,其中,将音频数据变换成频谱图像作为音频数据输入,将文本进行分词,获取分词数组。
4.如权利要求1所述的基于跨媒体统一表征模型的跨媒体检索方法,其特征在于:所述步骤③中,对文本数据采用word2vec模型提取原域特征向量;对图像数据采用深度卷积网络提取原域特征;对视频数据采用C3D提取视频原域特征;对语音数据采用深度卷积网络提取原域特征向量。
5.如权利要求3所述的基于跨媒体统一表征模型的跨媒体检索方法,其特征在于:通过分词获取文本的分词数组。
CN201911061277.4A 2019-11-01 2019-11-01 一种基于跨媒体统一表征模型的跨媒体检索方法 Pending CN110866129A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911061277.4A CN110866129A (zh) 2019-11-01 2019-11-01 一种基于跨媒体统一表征模型的跨媒体检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911061277.4A CN110866129A (zh) 2019-11-01 2019-11-01 一种基于跨媒体统一表征模型的跨媒体检索方法

Publications (1)

Publication Number Publication Date
CN110866129A true CN110866129A (zh) 2020-03-06

Family

ID=69654308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911061277.4A Pending CN110866129A (zh) 2019-11-01 2019-11-01 一种基于跨媒体统一表征模型的跨媒体检索方法

Country Status (1)

Country Link
CN (1) CN110866129A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111813967A (zh) * 2020-07-14 2020-10-23 中国科学技术信息研究所 检索方法、装置、计算机设备及存储介质
CN111949806A (zh) * 2020-08-03 2020-11-17 中电科大数据研究院有限公司 一种基于Resnet-Bert网络模型的跨媒体检索方法
CN112528127A (zh) * 2020-05-30 2021-03-19 山东工商学院 一种基于大数据的平面设计作品匹配度分析系统
CN112559820A (zh) * 2020-12-17 2021-03-26 中国科学院空天信息创新研究院 基于深度学习的样本数据集智能出题方法、装置及设备
CN115309941A (zh) * 2022-08-19 2022-11-08 联通沃音乐文化有限公司 一种基于ai的智能标签检索方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104166684A (zh) * 2014-07-24 2014-11-26 北京大学 一种基于统一稀疏表示的跨媒体检索方法
CN105701225A (zh) * 2016-01-15 2016-06-22 北京大学 一种基于统一关联超图规约的跨媒体检索方法
CN108319686A (zh) * 2018-02-01 2018-07-24 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104166684A (zh) * 2014-07-24 2014-11-26 北京大学 一种基于统一稀疏表示的跨媒体检索方法
CN105701225A (zh) * 2016-01-15 2016-06-22 北京大学 一种基于统一关联超图规约的跨媒体检索方法
CN108319686A (zh) * 2018-02-01 2018-07-24 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WANG B ET AL.: "Adversarial Cross-Modal Retrieval", 《ACM》 *
董建锋: "跨模态检索中的相关度计算研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528127A (zh) * 2020-05-30 2021-03-19 山东工商学院 一种基于大数据的平面设计作品匹配度分析系统
CN111813967A (zh) * 2020-07-14 2020-10-23 中国科学技术信息研究所 检索方法、装置、计算机设备及存储介质
CN111813967B (zh) * 2020-07-14 2024-01-30 中国科学技术信息研究所 检索方法、装置、计算机设备及存储介质
CN111949806A (zh) * 2020-08-03 2020-11-17 中电科大数据研究院有限公司 一种基于Resnet-Bert网络模型的跨媒体检索方法
CN112559820A (zh) * 2020-12-17 2021-03-26 中国科学院空天信息创新研究院 基于深度学习的样本数据集智能出题方法、装置及设备
CN115309941A (zh) * 2022-08-19 2022-11-08 联通沃音乐文化有限公司 一种基于ai的智能标签检索方法及系统
CN115309941B (zh) * 2022-08-19 2023-03-10 联通沃音乐文化有限公司 一种基于ai的智能标签检索方法及系统

Similar Documents

Publication Publication Date Title
Kaur et al. Comparative analysis on cross-modal information retrieval: A review
CN110866129A (zh) 一种基于跨媒体统一表征模型的跨媒体检索方法
WO2023065617A1 (zh) 基于预训练模型和召回排序的跨模态检索系统及方法
CN108268600B (zh) 基于ai的非结构化数据管理方法及装置
CN111274790B (zh) 基于句法依存图的篇章级事件嵌入方法及装置
JP2006510114A (ja) 概念モデル空間におけるコンテンツの表現及びこれを検索するための方法及び装置
CN110990597A (zh) 基于文本语义映射的跨模态数据检索系统及其检索方法
CN113392265A (zh) 多媒体处理方法、装置及设备
CN116821696B (zh) 表格问答模型的训练方法、装置、设备及存储介质
CN116702091A (zh) 基于多视图clip的多模态讽刺意图识别方法、装置和设备
CN117173730A (zh) 一种基于多模态信息的文档图像智能分析及处理方法
CN112182273B (zh) 基于语义约束矩阵分解哈希的跨模态检索方法及其系统
CN117688220A (zh) 一种基于大语言模型的多模态信息检索方法及系统
CN117332103A (zh) 基于关键词抽取和多模态特征融合的图像检索方法
Pereira et al. SAPTE: A multimedia information system to support the discourse analysis and information retrieval of television programs
CN107633259B (zh) 一种基于稀疏字典表示的跨模态学习方法
Perdana et al. Instance-based deep transfer learning on cross-domain image captioning
CN105069136A (zh) 一种大数据环境下的图像识别方法
Tian et al. Research on image classification based on a combination of text and visual features
Chivadshetti et al. Content based video retrieval using integrated feature extraction and personalization of results
CN109255098B (zh) 一种基于重构约束的矩阵分解哈希方法
CN115563311B (zh) 一种文档标注和知识库管理方法及知识库管理系统
CN117851654A (zh) 基于人工智能语音与图像识别的档案库资源检索系统
Ronghui et al. Application of Improved Convolutional Neural Network in Text Classification.
CN111506754B (zh) 图片检索方法、装置、存储介质及处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200306

RJ01 Rejection of invention patent application after publication