CN117711001B - 图像处理方法、装置、设备和介质 - Google Patents
图像处理方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN117711001B CN117711001B CN202410155582.4A CN202410155582A CN117711001B CN 117711001 B CN117711001 B CN 117711001B CN 202410155582 A CN202410155582 A CN 202410155582A CN 117711001 B CN117711001 B CN 117711001B
- Authority
- CN
- China
- Prior art keywords
- image
- sample
- features
- text
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 230000004927 fusion Effects 0.000 claims abstract description 216
- 238000001514 detection method Methods 0.000 claims abstract description 198
- 238000012545 processing Methods 0.000 claims abstract description 176
- 238000012549 training Methods 0.000 claims abstract description 116
- 230000000007 visual effect Effects 0.000 claims abstract description 112
- 238000004458 analytical method Methods 0.000 claims abstract description 79
- 238000010191 image analysis Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims description 116
- 238000000605 extraction Methods 0.000 claims description 46
- 238000003860 storage Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 28
- 230000002787 reinforcement Effects 0.000 claims description 20
- 238000009826 distribution Methods 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 230000002238 attenuated effect Effects 0.000 claims 2
- 238000005516 engineering process Methods 0.000 abstract description 29
- 238000013473 artificial intelligence Methods 0.000 abstract description 23
- 241000282472 Canis lupus familiaris Species 0.000 description 27
- 230000000694 effects Effects 0.000 description 11
- 238000003058 natural language processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000001965 increasing effect Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 230000036651 mood Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241000271566 Aves Species 0.000 description 1
- 241000272184 Falconiformes Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000070023 Phoenicopterus roseus Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000010257 thawing Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了图像处理方法、装置、设备和介质,涉及人工智能技术领域,可以应用于云技术、人工智能、智慧交通、辅助驾驶等场景,方法包括本申请的技术方案获取待分析图像的图像特征、检测框特征和图像文本,图像文本至少包括检测框特征对应的框类别文本;对图像文本进行特征嵌入,得到图文特征;基于图像处理模型对图像特征、检测框特征和图文特征进行图像分析,得到图像分析结果,图像分析结果包括多维度内容标签;该图像处理模型是对初始图像处理模型的特征融合网络和视觉语言生成网络进行分析内容生成的训练得到的,视觉语言生成网络基于大型语言模型构建。本申请能够提升图像处理的建模效率、泛化性和实用性。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种图像处理方法、装置、设备和介质。
背景技术
在互联网快速发展的时代,随着内容生产的门槛降低,图像数据上传量以指数级的速度增长,所涉及的推荐场景也迅速扩张,高效且深刻精准的图像内容理解能够在图像数据分发推荐前进行内容审核和分类,以及帮助信息流业务搭建内容和用户的桥梁。
相关技术方案中通过标准化处理以人工标记简单标签信息实现内容理解,但无法满足高级化的个性化推荐需求,且人工标记成本非常高,或者针对每个场景构建包括多分支网络的大模型,以为每个场景单独预测模型结果,该方式同样需要为各个场景单独标记大量的样本数据,成本高昂,且当前的视觉模型通常被训练用于预测和识别有限的物体类别,这种严格的监督训练方式限制了模型的泛化性和实用性。因此,现有的视频内容理解方案在建模效率、成本和扩展方面不能满足业务和场景多样化的需求。
发明内容
本申请提供了一种图像处理方法、装置、设备和介质,可以显著提升图像处理的建模效率、泛化性和实用性。
一方面,本申请提供了一种图像处理方法,所述方法包括:
获取待分析图像的图像特征、检测框特征和图像文本,所述图像文本至少包括所述检测框特征对应的框类别文本,所述框类别文本用于指示所述待分析图像中所述检测框特征所对应图像区域的内容类别;
对所述图像文本进行特征嵌入,得到图文特征;
基于图像处理模型对所述图像特征、所述检测框特征和所述图文特征进行图像分析,得到图像分析结果,所述图像分析结果包括多维度内容标签,所述多维度内容标签用于指示所述待分析图像的多维内容类别;
所述图像处理模型是基于样本图像对应的样本图像特征、样本检测框特征、样本图文特征、样本指令文本对应的指令文本特征、以及样本标签,结合指令微调对初始图像处理模型的特征融合网络进行视觉模态与文本模态的跨模态特征融合和特征空间对齐的训练、以及对所述初始图像处理模型的视觉语言生成网络进行分析内容生成的训练得到的,所述视觉语言生成网络基于预训练大型语言模型构建。
另一方面提供了一种图像处理装置,所述装置包括:
获取模块:用于获取待分析图像的图像特征、检测框特征和图像文本,所述图像文本至少包括所述检测框特征对应的框类别文本,所述框类别文本用于指示所述待分析图像中所述检测框特征所对应图像区域的内容类别;
特征嵌入模块:用于对所述图像文本进行特征嵌入,得到图文特征;
图像分析模块:用于基于图像处理模型对所述图像特征、所述检测框特征和所述图文特征进行图像分析,得到图像分析结果,所述图像分析结果包括多维度内容标签,所述多维度内容标签用于指示所述待分析图像的多维内容类别;
所述图像处理模型是基于样本图像对应的样本图像特征、样本检测框特征、样本图文特征、样本指令文本对应的指令文本特征、以及样本标签,结合指令微调对初始图像处理模型的特征融合网络进行视觉模态与文本模态的跨模态特征融合和特征空间对齐的训练、以及对所述初始图像处理模型的视觉语言生成网络进行分析内容生成的训练得到的,所述视觉语言生成网络基于预训练大型语言模型构建。
另一方面提供了一种计算机设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的图像处理方法。
另一方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的图像处理方法。
另一方面提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的图像处理方法。
另一方面提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的图像处理方法。
另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令被处理器执行时实现如上述的图像处理方法。
本申请提供的图像处理方法、装置、设备、存储介质、服务器、终端、计算机程序和计算机程序产品,具有如下技术效果:
本申请的技术方案获取待分析图像的图像特征、检测框特征和图像文本,图像文本至少包括检测框特征对应的框类别文本,框类别文本用于指示待分析图像中检测框特征所对应图像区域的内容类别;对图像文本进行特征嵌入,得到图文特征;基于图像处理模型对图像特征、检测框特征和图文特征进行图像分析,得到图像分析结果,图像分析结果包括多维度内容标签,多维度内容标签用于指示待分析图像的多维内容类别;该图像处理模型是基于样本图像对应的样本图像特征、样本检测框特征、样本图文特征、样本指令文本对应的指令文本特征、以及样本标签,结合指令微调对初始图像处理模型的特征融合网络进行视觉模态与文本模态的跨模态特征融合和特征空间对齐的训练、以及对初始图像处理模型的视觉语言生成网络进行分析内容生成的训练得到的,视觉语言生成网络基于预训练大型语言模型构建。如此,在图像特征输入之外增加检测框特征和相应的框类别文本,能够使图像处理模型学习到图像内容中的细粒度区域信息,扩大能够刻画和描述的图像内容标签范围,得到覆盖面和准确度更好的内容标签结果,且通过检测框特征和框类别文本等细粒度辅助信息的引入,能够应对预训练大型多模态语言模型在图像处理任务中对诸如位置、数量、小物体等细粒度信息不敏感的瓶颈问题,提升对图像对象和主题的理解程度;并且,上述方案充分利用大型语言模型当中的知识和逻辑推理能力,通过增加细粒度的目标区域检测结果实现图像与文本特征的对齐和提供区域图像的细粒度的理解支持,从而能够支持细粒度的涵盖更多维度的内容理解和多维内容标签的生成,在显著降低处理成本的同时提升图像处理的建模效率、泛化性和实用性。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种应用环境的示意图;
图2是本申请实施例提供的一种图像处理方法的流程示意图;
图3是本申请实施例提供的另一种图像处理方法的流程示意图;
图4是本申请实施例提供的另一种图像处理方法的流程示意图;
图5是本申请实施例提供的另一种图像处理方法的流程示意图;
图6是本申请实施例提供的另一种图像处理方法的流程示意图;
图7是本申请实施例提供的一种图像处理方法的原理框架图;
图8是本申请实施例提供的一种图像处理装置的框架示意图;
图9是本申请实施例提供的一种执行图像处理方法的电子设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或子模块的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或子模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或子模块。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等技术。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、检测和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革,swin-transformer,ViT,V-MOE,MAE等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言,即人们日常使用的语言,与语言学研究密切,同时涉及计算机科学和数学。人工智能领域模型训练的重要技术,预训练模型,即是从NLP领域的大语言模型(Large Language Model)发展而来。经过微调,大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
预训练模型(Pre-training model),也称基石模型、大模型,指具有大参量的深度神经网络(Deep neural network,DNN),在海量未标记的数据上对其进行训练,利用大参量DNN的函数近似能力使PTM在数据上提取共性特征,经微调(fine tune)、参数高效微调(PEFT)、prompt-tuning等技术,适用于下游任务。因此,预训练模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型(ELMO,BERT,GPT)、视觉模型(swin-transformer,ViT,V-MOE)、语音模型(VALL-E)、多模态模型(ViBERT, CLIP,Flamingo,Gato)等,其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容(AIGC)重要工具,也可以作为连接多个具体任务模型的通用接口。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
短视频:即短片视频,是一种互联网内容传播方式,一般是在互联网新媒体上传播的时长在5分钟以内的视频传播内容;随着移动终端普及和网络的提速,短平快的大流量传播内容逐渐获得广泛传播。
LLM:大型语言模型(Large Language Model,LLM)是指能够处理和生成自然语言的计算机模型;它代表着人工智能领域的重大进步,并有望通过习得的知识改变该领域。LLM可以通过学习语言数据的统计规律和语义信息来预测下一个单词或句子,随着输入数据集与参数空间的不断扩大,LLM的能力也会相应提高。它用于多种应用领域,如机器人学、机器学习、机器翻译、语音识别、图像处理等,所以也被称为多模态大型语言模型(MLLM)。
Instruction Tuning:指令微调,是指针对每个任务,单独生成instruction,通过在若干个full-shot任务上进行微调,然后在具体的任务上进行评估泛化能力(zeroshot),通常预训练模型参数是解冻的,通常是在公开的大量的NLP任务数据集合上进行的,用于激发语言模型的理解能力,通过给出更明显的指令,让模型去理解并做出正确的反馈。
Prompt tuning:提示学习,机器学习当中的一类学习方法:在不显著改变预训练语言模型结构和参数的情况下,通过向输入增加“提示信息”、 作为一种信息增强来大幅改善模型的效果,可以看作是一种对任务的指令,同时也是一种对大模型预训练目标的复用,其本质是参数有效性训练的增强,通过单独生成prompt模板,然后在每个任务上进行full-shot微调与评估。
RLHF: (人类反馈强化学习,Reinforcement Learning with Human Feedback)强化学习(RL)的一个扩展,它将人类的反馈纳入训练过程,为机器提供了一种自然的、人性化的互动学习过程。除了奖励信号外,RLHF 代理从人类得到反馈,以更广泛的视角和更高的效率学习,与人类从另一个人的专业知识中学习的方式相似。通过在代理和人类之间架起一座桥梁,RLHF 允许人类直接指导机器,并允许机器掌握明显嵌入人类经验中的决策要素,作为一种有效的对齐技术,RLHF 能够一定程度上帮助减轻大型语言模型(LLM)产生的有害内容并提高信息完整性。
近年来,随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(AIGC)、对话式交互、智能医疗、智能客服、游戏AI等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
请参阅图1,图1是本申请实施例提供的一种应用环境的示意图,如图1所示,该应用环境可以至少包括终端01和服务器02。在实际应用中,终端01和服务器02可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例中的服务器02可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
具体地,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术能够应用于各种领域,如医疗云、云物联、云安全、云教育、云会议、人工智能云服务、云应用、云呼叫和云社交等,云技术基于云计算(cloud computing)商业模式应用,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”,“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务))平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
具体地,上述涉及的服务器02可以包括实体设备,可以具体包括有网络通信子模块、处理器和存储器等等,也可以包括运行于实体设备中的软体,可以具体包括有应用程序等。
具体地,终端01可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能语音交互设备、智能家电、智能可穿戴设备、车载终端设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。
本申请实施例中,终端01可以用于接收上传的图像数据,如视频、图片等,以发送至服务器02进行内容理解等图像处理,服务器02用于对图像数据进行预处理以得到待分析图像,以及待分析图像的图像特征、检测框特征和图像文本,待分析图像可以是视频中的关键内容帧等,图像文本至少包括检测框特征对应的框类别文本,框类别文本用于指示待分析图像中检测框特征所对应图像区域的内容类别,进而通过图像处理模型进行基于图像特征、检测框特征和图像文本对应的图文特征的图像分析,得到图像分析结果。
此外,可以理解的是,图1所示的仅仅是一种图像处理方法的应用环境,该应用环境可以包括更多或更少的节点,本申请在此不做限制。
参考图3,本申请还提供一种图像处理系统,包括多模态特征提取模块、特征融合网络和视觉语言生成网络,多模态特征提取网络用于输入待分析图像和图像文本,以输出图像特征、检测框特征和文本特征,特征融合网络用于基于图像特征、检测框特征和文本特征生成融合特征,视觉语言生成网络用于基于融合特征进行图像分析,得到图像分析结果。
本申请实施例涉及的应用环境,或应用环境中的终端01和服务器02等可以是由客户端、多个节点(接入网络中的任意形式的计算设备,如服务器、用户终端)通过网络通信的形式连接形成的分布式系统。分布式系统可以为区块链系统,该区块链系统可以提供上述的图像处理服务、模型训练服务和相关的数据存储服务等。
在互联网快速发展的时代,随着内容生产的门槛降低,视频等图像数据上传量以指数级的速度增长。这些图像数据源自各种内容创作机构,各个来源的入库峰值日上传量已超过百万级别。目前短视频等图像数据的内容分发流程(从开始上传、到上传成功、再到成功进入用户消费)的过程包括:通过终端拍摄工具拍摄视频,然后通过终端或者B侧上传,视频上传的流程中会经过重转码,将视频文件进行规范化,保存视频的元信息,提升视频在各个平台播放兼容性。然后视频会进行人工审核,人工审核的同时机器也会通过算法对内容进行一些辅助特征的获取比如分类、标签等等,最后推荐引擎基于对象需求,通过推荐算法比如协同推荐、矩阵分解、监督学习算法Logistic Regression模型、基于深度学习的模型、Factorization Machine和GBDT(梯度提升决策树(Gradient Boosting DecisionTree)等进行内容推荐,进而被点击和消费,通过用户与内容的交互操作来沉淀对象信息,进而沉淀在这些图像内容对应的分类和标签信息上。进一步地,短视频是当前图像内容上传、推荐和信息流消费中的重要数据形式,分发场景占比也越来越大,短小视频的内容包含有视频、图文数据等多种形态,图像数据理解变得愈发重要,深刻精准的内容理解能够帮助信息流业务搭建内容和用户的桥梁。
此外,在推荐系统当中,由于用户个性化的需要,推荐系统需要积累对象兴趣模型,需要保留完整的上下文,语义粒度要完整,并能够很好刻画用户兴趣及兴趣倾向。当前技术方案通过标准化处理人工标记的简单标签信息进行传统的内容理解,并不能很好的满足高级化的个性化推荐需求,且人工专门标记标签成本非常高,尤其是不能支持细分的多粒度分类;或者需要为每个场景单独构建模型,或构建一个包括多分支网络的大模型,为每个场景单独预测模型结果,但同样需要为每个场景单独标记大量的细粒度样本数据,成本高昂。同时当前的计算机视觉模型通常被训练用于预测和识别有限的物体类别,这种严格的监督训练方式限制了模型的泛化性和实用性,尤其难以适配图像中一些细粒度对象及相互关系的理解和识别,这样的模型通常还需要额外的标注数据来完成训练时未曾见过的视觉概念,比如很多视觉任务很难用文本来表达,在部分细粒度分类上表现不佳。另外,由于不同场景的标签词语来自于自然语言描述的语词,具有多角度、全方位、体系庞杂、粗细不一的特点,上述方案也无法实现标签的多样化理解和生成。
综上,现有的图像内容理解主要以实体类标签为主,在泛化性、丰富性、成本和丰富度上都无法很好的刻画对象兴趣点和内容标签特性,同时建模效率、成本及扩展方面都不能满足业务和场景多样化的需求。
为解决上述问题中的至少之一,以下基于上述应用环境介绍本申请的技术方案,本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。请参考图2,图2是本申请实施例提供的一种图像处理方法的流程示意图,本说明书提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体地,如图2所示,方法可以包括下述步骤S201-S203:
S201:获取待分析图像的图像特征、检测框特征和图像文本。
具体地,待分析图像可以是需进行内容分析的图片,如可以为是视频封面图、视频的关键视频帧等。图像特征可以是基于多模态特征提取模块的视觉编码器对待分析图像进行图像特征提取生成的,检测框特征可以基于待分析图像的目标检测框的检测框信息生成,检测框信息可以是对待分析图像进行目标检测得到的,用于指示目标检测框在图像中的位置信息。具体可以使用自然语言中的数字来表示对象位置,如使用 [xmin, ymin, xmax,ymax] 表示边界框,使用 [xcenter, ycenter] 表示所处区域中心点,该坐标信息可以是根据图像大小进行归一化后的位置信息,有助于模型学习到图像数据内容当中的实体对象的细粒度位置和数量信息,并且,能够扩大能够刻画和描述的图像内容标签范围,能够得到覆盖面和准确度更好的标签结果;通过细粒度辅助信息引入,能够应对预训练的多模态大型语言模型下游任务应用中对位置、数量、小物体等细粒度信息不敏感的瓶颈,对画面人物和主题的理解更加准确和深刻。
具体地,图像文本至少包括检测框特征对应的框类别文本;框类别文本用于指示待分析图像中检测框特征所对应图像区域的内容类别,可以理解地,检测框能够框定包含图像中实体对象(如前景对象或背景区域)图像区域,检测框特征包括相应图像区域内的像素信息和语义信息等,通过图像检测能够相应得到该检测框对应的实体对象的类别,该类别可以是大类或细分类别,大类可以包括检测框为前景或背景,或相应实体对象的内容大类,如“狗”,细分类别可以是相应实体对象的内容大类下属的细分类别,如“柴犬”;框类别文本可以是基于目标检测框的框类别信息生成的。示例性地,图中目标检测框框定的图像区域包括狗,框类别信息指示类别为“前景”、“狗”和其细分类别“柴犬”,相应地,框类别文本为“前景”、“狗”和“柴犬”。一些实施例中,基于待分析图像的实际数据基础,图像文本还可以包括其它类别的附加文本,可以包括但不限于待分析图像中的识别文本(如基于OCR在待分析图像中识别到的文本)、标题文本(如图片标题或视频标题)、话题标签(Hashtag)文本等。可以理解地,除框类别文本外,待分析图像可以包括上述的其它类别文本中的一个或几个,也可以不包括其它类别的文本,基于图像携带的实际数据确定。
一些实施例中,S201可以包括S301-S305:
S301:对待分析图像进行目标检测,得到图像特征、目标检测框的检测框信息和框类别信息,框类别信息用于指示框类别文本的标识信息;
S303:对检测框信息进行特征表示,得到检测框特征;
S305:基于框类别信息生成框类别文本。
具体地,可以采用训练好的目标检测模型对待分析图像进行目标检测,以得到目标检测结果,该目标检测结果包括检测框信息和框类别信息,目标检测框所标记的图像区域可以包括实体对象,如面部、动物对象、车等物体对象等,检测框信息用于表征目标检测框在图像中的区域位置。框类别信息可以是相应实体对象类别的编码信息或标识信息等,基于框类别信息与类别文本间的对应关系,确定出相应的框类别文本。可以理解地,可以采用不止一个目标检测模型对待分析图像进行目标检测,如可以通过人脸检测模型和物体对象检测模型分别进行人脸检测和其它类别对象检测,以提升对象检测的全面性。
具体地,检测框特征可以直接采用检测框信息的各位置子信息(如边界框坐标和区域中心坐标等)拼接形成,或者也可以是采用视觉编码器对其进行编码得到的。
一些实施例中,可以采用目标检测模型在目标检测过程中提取的图像特征作为图像处理模型的输入,相应地,参考图3,视觉编码器采用目标检测模型构建,以待分析图像作为输入,直接输出图像特征和目标检测结果,再将检测框信息进行特征表示,得到检测框特征。图像特征包括各目标检测框对应的各图像区域各自的区域图像特征,还可以包括待分析图像的整体图像特征。如此,采用视觉编码器进行目标检测和图像特征提取,通过视觉信息的处理引入细粒度的视觉和文本信息,将主要目标的检测框信息(如画面中的物体、面部、背景等)序列化后加入图像处理模型,扩大能够刻画和描述的图像内容标签范围,得到覆盖面和准确度更好的标签结果。
另一些实施例中,也可以是采用图像处理系统之外的目标检测模型对待分析图像进行目标检测的预处理,以得到相应的目标检测结果,再将待分析图像和目标检测结果输出图像处理系统的视觉编码器进行图像特征提取、检测框信息的特征表示,以生成用于输入图像处理模型的图像特征和检测框特征。
可以理解地,图像特征和检测框特征拼接后输入图像处理模型。
S203:对图像文本进行特征嵌入,得到图文特征。
具体地,参考图3,通过文本嵌入网络对图像文本进行文本编码,以得到其向量化表示,得到图像文本特征,如对框类别文本进行特征表示,得到框类别文本特征。如上的,图像文本还可以包括附加文本,相应地,采用文本嵌入网络对各附加文本进行特征嵌入,得到对应的附加文本特征,将框类别文本特征与附加特征拼接后得到图文特征,作为图像处理模型的输入。附加文本包括待处理图像的图像内容中携带的文本和待处理图像的随附描述文本中的至少之一,携带的文本可以包括但不限于待处理图像中的识别文本(如基于OCR在待处理图像中识别到的文本),随附描述文本可以为待处理图像携带的额外的描述词或语句,包括但不限于标题文本(如图片标题或视频标题)、话题标签(Hashtag)文本等。
S205:基于图像处理模型对图像特征、检测框特征和图文特征进行图像分析,得到图像分析结果,
具体地,图像分析结果能够指示待分析图像的细粒度内容信息。可以具体包括待分析图像的多维度内容标签,多维度内容标签用于指示所述待分析图像的多维内容类别。多维内容类别具体可以包括待分析图像中的实体对象类别、待分析图像的图像情绪类别、待分析图像的图像内容类别或其它指代类别等。示例性地,一张为柴犬的图像的图像分析结果可以为“萌宠/快乐心情/柴犬/可爱的宠物狗”;一张为两辆高铁的图像的图像分析结果可以为“高铁/火车/两车竞速/速度楷模”等。
一些实施例中,参考图3,图像处理模型可以包括特征融合网络和视觉语言生成网络。该图像处理模型是基于样本图像对应的样本图像特征、样本检测框特征、样本图文特征、样本指令文本对应的指令文本特征、以及样本标签,结合指令微调对初始图像处理模型的特征融合网络进行视觉模态与文本模态的跨模态特征融合和特征空间对齐的训练、以及对初始图像处理模型的视觉语言生成网络进行分析内容生成的训练得到的。
具体地,样本图像与前述的待分析图像相类似,可以来自于图像业务场景中实际接收到的图像数据,或者也可以为现有能够获取的图文对数据集中的图像。可以理解地,样本图像特征、样本检测框特征、样本图文特征与前述的图像特征、检测框特征、图文特征相类似。样本标签可以用于描述样本图像的细粒度内容信息的结果真值,可以包括多维内容标签的结果真值,如可以是现有数据集的图文对中的文本标签,也可以是经过人工校正过的标签,包括多个细粒度的类别标签,如宠物狗柴犬图像的样本标签为“萌宠/快乐心情/柴犬/可爱的宠物狗/卖萌”。
样本指令文本为针对业务场景设置的用于指导图像处理模型理解图像内容所需的指令<Instruction>,样本指令文本可以是从预定义的模板中随机选取的,比如区分视觉信息当中具体对象(物品或面部等)的数量、颜色、动作、类别、方位、关系等等,以对图片进行详细的描述,模板的样式如“Count object this image in detail”和“Could youdescribe the contents of this image in detail”等。采用文本嵌入网路对样本指令文本进行特征编码,得到向量表示的指令文本特征。可以理解地,一组样本输入中可以包括不止一个样本指令文本,如包括上述“Count object this image in detail”和“Could youdescribe the contents of this image in detail”,以作为该样本的指示指令。
具体地,视觉语言生成网络基于预训练大型语言模型构建,视觉语言生成网络采用的预训练大型语言模型(LLM)作为图像处理模型的内容理解基础,通过指令微调得到经过部分能力和对齐的基础模型,可以包括至少一个固定的大型语言模型,如可以是多个大型语言模型连接形成的。视觉语言生成网络采用的预训练大型语言模型构建基于Transform架构,能够在不损失效果甚至提升效果的前提下,大大提高了模型并行度。
综上,使图像处理模型学习到图像内容中的实体位置和数量等细粒度信息,扩大能够刻画和描述的图像内容标签范围,得到覆盖面和准确度更好的内容标签结果,且通过检测框特征和框类别文本等细粒度辅助信息的引入,能够应对预训练大型多模态语言模型在图像处理任务中对位置、数量、小物体等细粒度信息不敏感的瓶颈问题,提升对图像对象和主题的理解程度;并且,上述方案充分利用大型语言模型当中的知识和逻辑推理能力,通过增加细粒度的目标区域检测结果实现图像与文本特征的对齐和提供细粒度的理解支持,从而能够支持细粒度的涵盖更多高级概念及组合内容标签的生成,在显著降低处理成本的同时提升图像处理的建模效率、泛化性和实用性。
一些实施例中,参考图4,S205包括S401-S402:
S401:将图像特征、检测框特征和图文特征输入图像处理模型的特征融合网络进行特征提取和跨模态特征融合,得到融合特征;
S402:将融合特征输入图像处理模型的视觉语言生成网络进行图像内容分析,得到文本模态的图像分析结果。
具体地,融合特征是对图像特征、检测框特征和图文特征进行特征交叉提取得到的。通过特征融合网络提取输入特征,以使视觉内容与文本内容进行交叉融合,使模型学习到视觉内容与描述内容间的关联性,进而提升视觉语言生成的内容分析准确度,提升分析结果的区域内容理解等细粒度准确性。
一些实施例中,参考图3,特征融合网络包括第一编码模块、第二编码模块和全连接层,第一编码模块和第二编码模块共享第一注意力子模块,第二编码模块还包括基于跨层注意力机制的第二注意力子模块。第一编码模块用于接收视觉编码器的输出和文本嵌入网络的输出,进而实现特征融合以输出融合特征,第二编码模块用于接收文本嵌入网络的输出以进行特征提取,得到文本提取特征。其中,第一注意力子模块用于融合图文特征和视觉模态的图像特征、检测框特征的一级融合,第二注意力子模块用于对一级融合后的结果再次与视觉模态的图像特征、检测框特征进行二次融合,以得到融合特征。全连接层用于对融合特征和文本提取特征进行融合提取,以作为视觉语言生成网络的输入。相应地,参考图5,S401包括S4011-S4013:
S4011:基于第一注意力子模块对图像特征、检测框特征和图文特征进行第一编码模块对应的特征融合,以及对图文特征进行第二编码模块对应的特征提取,得到初始融合特征和文本提取特征。
具体地,第一注意力子模块可以为多头自注意力网络,基于多头自注意力机制对图像特征、检测框特征和图文特征进行特征提取,得到初始融合特征。以及通过对图文特征中框类别文本和附件文本的向量表示进行交叉提取,得到文本提取特征。基于第一注意力子模块对输入的特征序列应用Self-Attention,以同时挖掘序列中每一个item与其它所有item间的相互关系并从不同的向量子空间进行信息挖掘。此外,第一编码模块和第二编码模块还包括前馈网络(Feed-Forward Network),在Attention之后加入一层前馈网络,赋予模型非线性表达能力,并且可以挖掘不同维度间的交互关系。可以理解地,第一注意力子模块可以包括多个Transformer Layer(编码器层),一个transformer layer由一个Multi-Head Self-Attention Layer(多头自注意力层)和一个Position-wise Feed-ForwardNetwork(FFN,前馈网络层)组成,其中,Multi-Head Self-Attention Layer和FFN在输出部分都使用了残差网络,并进行了层归一化。多个编码器层堆叠能够学习更复杂更高阶的交互信息,提升信息提取的全面性和准确性。
S4012:基于第二注意力子模块,对图像特征、检测框特征和初始融合特征进行跨模态特征融合,得到中间融合特征。
具体地,第二注意力子模块可以基于跨注意力网络(Cross attention)构建,基于跨注意力机制进行视觉模态特征与文本模态特征的再次融合,跨注意力机制是一种扩展自注意力机制的技术,自注意力机制主要用于捕捉输入序列中不同位置的关联性,而跨注意力机制则通过引入包括图像特征与检测框特征的拼接序列来作为额外的输入序列,以融合额外的输入序列与融合特征两个不同来源的信息,以实现更准确的建模和特征刻画,其对应的表达式如下,其中,为第n层注意力层的查询特征,/>和/>是第n层注意力层的键值特征,/>为第n层注意力层输出的权重分布,/>为前一注意力层输出的权重分布,n为注意力层的层数,n越大,距离输入层越远。
相应地,一些实施例中,S4012包括:将图像特征和初始融合特征输入第二注意力子模块,以图像特征和检测框特征作为查询特征,以初始融合特征作为键值特征,进行跨注意力的特征表示,得到中间融合特征。如此,实现来源不同的视觉模态特征与视觉/文本融合模态特征间的关联性信息捕获和挖掘,提升建模和特征刻画准确性。
第二注意力子模块也可以采用多层Transformer结构,可以理解地,从整体模型结构来看,采用上述结果能够优化信息交互和融合,但越临近输出的层,由于输出距离太远,越难获得历史浅层的语义信息,存在知识遗忘问题,影响最终模型的效果。相应地,跨注意力的特征表示过程中,对第二注意力子模块的前一注意力层对应的历史权重分布进行权重衰减后作为下一注意力层的输入。即将前一层注意力层的历史权重分布乘以衰减系数,以输入后一注意力层,衰减系数为大于0且小于1的数,以使得每层的历史信息权重不同,距离越远,权重越小。如此,采用带有衰减的Transformer跨层注意力连接机制,能更好捕获Transformer跨层的语义信息,使得距离较远的注意力层也能够获得足够的浅层语义信息,应对知识遗忘问题,提升模型效果。
一实施例中,本申请所采用的第二注意力子模块的表达式如下,其中,a为衰减系数,是一个超参数,可以是基于经验设定,如0.5,表示下一层结果受上一层影响的衰减程度。
具体地,上述第二注意力子模块采用的跨注意力机制的计算过程包括以下步骤:将查询特征和键特征映射到不同的空间;通过计算查询特征和键特征之间的相似度得到关联度分布;然后将关联度分布与值特征相乘并求和,得到融合了两个不同输入序列信息的跨注意力表示,得到融合表示;该中间融合特征可以进行标准化处理,以获得最终的权重分布。最终基于临近输出层的Transformer层得到中间融合特征。
S4013:将中间融合特征和文本提取特征输入全连接层进行针对视觉语言生成网络的特征映射,得到融合特征。
具体地,该全连接层可以为线性的全连接层,以作为与视觉语言生成网络的连接,通过全连接层将中间融合特征和文本提取特征映射至视觉语言生成网络的特征空间,以使其形成与视觉语言生成网络的文本嵌入具有相同特征维度的融合特征。
基于上述部分或全部实施方式,本申请实施例中,方法还包括一种图像处理模型的训练方法,参考图6,包括S501-S507:
S501:获取初始图像处理模型、多个样本图像、样本图像对应的样本附加文本和样本标签、以及样本指令文本。
具体地,初始图像处理模型中的视觉语言生成网络采用预训练模型,特征融合网络中的第一编码模块和第二编码模块也采用预训练模型构建。多个样本图像和样本标签的数据来源可以开源数据集的图文对(如视频封面/关键帧内容和文本描述),还可以是业务实际场景中的图文对。样本标签可以包括用于描述样本图像的细粒度内容的内容标签,如“萌宠/快乐心情/柴犬/可爱的宠物狗/卖萌”。样本附加文本包括样本图像的图像内容中携带的文本和样本图像的随附描述文本中的至少之一,携带的文本可以包括但不限于样本图像中的识别文本(如基于OCR在样本图像中识别到的文本),随附描述文本可以为待处理图像携带的额外的描述词或语句,可以包括但不限于样本图像的标题文本(如图片标题或视频标题)、话题标签(Hashtag)文本等。样本指令文本用于提供初始图像处理模型在执行图像内容分析任务时所需的针对图像内容理解的指导信息。样本指令文本为指示学习中令初始图像处理模型对题目/描述式的指令进行学习的文本,以激发大型语言模型的理解能力,通过样本指令文本给出的明显指令,以对图像内容理解和分类输出正确的结果。这里的题目/描述式的指令是指以样本标签或样本标签对应的图像描述内容为答案所需的提示性指令;示例性地,样本指令文本可以包括指令信息和指令信息的答案文本,如指令信息为“观察图片,请问图中有几辆火车?选择:A-1辆。2-2辆”,答案文本为“2辆”。
S503:对样本图像进行目标检测,得到样本图像特征、样本检测框的样本检测框特征和样本框类别文本。
可以理解地,S503与前述的S201相类似,相同之处不再赘述。
一些实施例中,样本框类别文本可以是样本框类别信息对应的文本。
另一些实施例中,样本框类别文本还可以是基于样本框类别信息确定后经人工辅助扩展后得到的新增的细分类别信息,如将粗粒度的检测框元类别如“鸟、橙子和狗”,细分扩展为鸟的种类如“鹰”,狗细分扩展为“宠物狗”、“警犬”或“牧羊犬”等,如此,通过额外的目标检测系统及人工辅助来构造相关的样本,提升样本构造效率和细化标签粒度,将元类别粒度扩展至覆盖更细分的子类别,以便于生成不同的内容理解和描述,更加适配视频分发等业务场景。相应地,目标检测阶段可以具体包括:将输入的样本图像进行编码产生语义区域作为候选语义区域;基于检测的得到的样本框类别信息,通过人工扩展进行标签扩展,得到样本标签;计算候选语义区域和样本标签间的相似度来完成对齐。
S505:对样本附加文本、样本框类别文本和样本指令文本进行特征嵌入,得到样本图文特征和指令文本特征。
具体地,参考图3,采用文本嵌入网络对样本附加文本、样本框类别文本进行特征嵌入,得到样本图文特征,以及对样本指令文本进行特征嵌入,得到指令文本特征。
S507:基于样本图像特征、样本检测框特征、样本图文特征、指令文本特征和样本标签,结合指令微调对特征融合网络进行视觉模态与文本模态的跨模态特征融合和特征空间对齐的训练、以及对视觉语言生成网络进行分析内容生成的训练,得到图像处理模型。
如此,充分发挥多模态大型语言模型的能力,充分利用大型语言模型当中的知识和一定逻辑推理能力,通过增加细粒度的目标区域检测实现图像与文本特征的对齐,同时通过视觉和文本对齐数据的样本指令文本对多模态的大型语言模型进行微调,提供区域图像的细粒度的理解支持,从而除了基础实体标签之外,能够提供更多维度的内容理解和多维内容标签的生成,提升需要结合多模态理解推理才能得到的质量标记效果;并且,将主要目标的检测框特征序列化后加入模型,如直接使用自然语言中的数字来表示物体位置,帮助模型学习到图像内容当中的物体的细粒度位置和数量信息,扩大能够刻画和描述的图像内容标签范围,能够得到覆盖面和准确度更好的标签结果;通过细粒度辅助信息引入,能够应对预训练模型多模态语言模型下游任务应用中对位置、数量、小物体等细粒度信息不敏感的瓶颈,更准确的理解画面人物和主题等细粒度内容。
一些实施例中,可以分两阶段进行上述的模型训练,第一阶段,固定视觉语言生成网络的网络参数,将样本图像特征、样本检测框特征、样本图文特征和指令文本特征输入特征融合模块进行特征提取和跨模态特征融合,得到样本融合特征,该样本融合特征与前述融合特征的获取方式相类似,不同之处在于,相应的样本中间融合特征的生成包含指令文本特征的输入,样本文本提取特征的生成也包含指令文本特征的输入。然后,将样本融合特征和指令文本特征输入视觉语言生成网络,进行基于指令文本提示的图像内容分析,生成第一样本分析结果。基于第一样本分析结果与样本标签生成第一损失,以调整特征融合网络的网络参数,得到更新的特征融合网络,进而重复上述步骤以实现迭代训练,至满足第一训练阶段结束,得到更新图像处理模型。第二阶段的训练过程包括:固定更新图像处理模型的特征融合网络的参数,基于上述样本输入和样本标签调整视觉语言生成网络的网络参数,至第二训练阶段结束,得到图像处理模型。优选实施例中,在第二训练阶段过程中,输入的样本数据中还包括基于样本图像构造的内容描述文本,相应地,通过文本嵌入网络对内容描述文本、样本附加文本、样本框类别文本和样本指令文本进行特征嵌入,得到包括描述文本特征的样本图文特征,以利用内容描述文本实现视觉语言生成网络的预训练大型语言模型的提示学习,即将其作为指令微调阶段的软提示,提升模型训练效果和效率。
另一些实施例中,可以采用内容生成网络进行图像处理模型的辅助训练,相应地,S507可以包括S601-S609:
S601:获取内容生成网络。
具体地,内容生成网络基于预训练的大语言模型构建,该内容生成网络为语言专家模型,能够对输入的特征解码分析为文本分析结果。
S603:将样本图像特征、样本检测框特征、样本图文特征和指令文本特征输入初始图像处理模型的特征融合网络进行特征提取和跨模态特征融合,得到第一样本融合特征。
可以理解地,第一样本融合特征与前述的融合特征的获取方式相类似,相同之处不再赘述,不同之处在于,训练过程中第二编码模块的输入增加指令文本特征,进而第一样本融合特征对应的初始融合特征基于样本图像特征、样本检测框特征、样本图文特征和指令文本特征生成,第一样本融合特征对应的文本提取特征基于样本图文特征和指令文本特征生成。
S605:将第一样本融合特征和指令文本特征输入内容生成网络进行图像内容分析,得到第一样本分析结果和样本内容描述文本。
具体地,以指令文本特征作为内容理解的指令指示,使得内容生成网络生成与样本标签对齐的第一样本分析结果,以及至少是对输入的样本框类别文本在内的图像文本进行内容扩展后的样本内容描述文本(Description),示例性地,样本内容描述文本可以例如为“这张图片包括了一架高速行驶的高铁”。
S607:在固定内容生成网络的网络参数的情况下,基于第一样本分析结果和样本标签调整初始图像处理模型的特征融合网络的网络参数,至满足第一训练结束条件,得到图像处理模型的特征融合网络。
具体地,基于第一样本分析结果和样本标签间的差异生成模型损失,以在固定内容生成网络参数的情况下,更新特征融合网络的网络参数,得到更新的特征融合网络,然后重复上述步骤,进行第一训练阶段的迭代过程,至达到预设迭代次数或模型损失小于预设损失,以得到最终的图像处理模型的特征融合网络,即得更新图像处理模型。
参考图7,在多模态内容特征提取模块阶段,对于所有的样本图像和相关的文本分别进行视觉处理和文本处理,以得到细粒度的视觉和文本信息。在第一训练阶段中实现跨模态融合与细粒度对齐学习,通过构建视觉文本融合的特征融合网络与基于预训练好的语言模型(LLMs)的内容生成网络的接口,使得内容生成网络与视觉编码器连接,通过特征融合网络将视觉编码器中提取的视觉特征映射至固定长度特征,以将提取的表征视觉内容的融合特征和预训练好的LLM连接起来。具体可以通过全连接层将融合特征的特征维度转化成与LLM的text embedding相同的维度从而实现融合嵌入,对接口进行训练与学习,从而完成视觉模态与语言模态的对齐,有效的避免视觉信息、时空复杂性信息丢失的问题,得到高效可学习的图像数据理解系统(如视频理解系统)。特征融合网络可以采用预训练transformer基础的预训练权重进行初始化,加快模型的收敛速度。
可以理解地,通过目标检测可以得到图像中每一个对象图像块的序列编码表示(patch tokens),其所构成的区域对应图像中的一个完整的视觉概念,相应对样本图像和样本图像文本之间的匹配关系判断产生更大的影响,通过图像块区域的语义特征与样本检测框(BBox)的样本检测框信息(包括位置信息)能够获得目标检测框及对该目标检测框的区域内容进行描述的标签文本信。在训练过程中,通过跨模态阶段的跨注意力机制将视觉编码器输出的区域视觉特征与涵盖文本内容的融合特征交互实现更细粒度的对齐,训练过程中还可以以视觉特征(包括样本图像特征和样本检测框特征)与样本标签之间的token最大相似度来指导对比目标,进而实现第一训练阶段的损失计算和参数调整。具体地,第一阶段的训练过程可以包括:将样本图像进行目标检测和编码,产生样本检测框对应的语义区域作为候选对象;基于样本检测框的类别文本等输入的样本图像文本和样本指令文本,进行跨模态特征融合和特征提取后生成融合特征,并结合指令文本特征,以预定义的prompt模板输入内容生成网络(LLM),以作为软可视提示,以在训练特征融合网络的同时,将原本的样本标签扩充为样本内容描述文本,实现输入文本的扩展;该训练阶段可以通过计算样本检测框对应的候选语义区域和样本标签文本之间的相似度来完成对齐。
S609:以样本图像特征、样本检测框特征、样本图文特征、指令文本特征和样本内容描述文本对应的描述文本特征作为图像处理模型的特征融合网络的输入,基于人类反馈强化学习方法对初始图像处理模型进行图像内容分析的约束训练,至满足第二训练结束条件,得到图像处理模型。
具体地,在图像内容分析的约束训练的过程中,固定特征融合网络的网络参数,即第二训练阶段为结合样本内容描述文本针对视觉语言生成网络进行指令微调的训练。
如此,采用大型语言模型的内容生成网络作为特征融合网络训练的辅助模块,充分利用大型语言模型的知识能力并结合细粒度的图像检测结果以实现特征融合网络的视觉文本关联学习和对齐,从而使特征融合网络获得细粒度视觉内容挖掘和提取的能力,提升图像内容理解准确性。
一些实施例中,S609对应的第二训练阶段包括S6091-S6094:
S6091:将样本图像特征、样本检测框特征、样本图文特征、指令文本特征和描述文本特征输入图像处理模型的特征融合网络进行特征提取和跨模态特征融合,得到第二样本融合特征。
可以理解地,第二样本融合特征与第一样本融合特征的获取相类似,不同之处在于,特征融合网络的输入增加了由内容生成网络输出的样本美容描述文本所特征嵌入得到的描述文本特征,相应地,第二样本融合特征对应的中间融合特征的生成过程中输入包含描述文本特征,第二样本融合特征对应的文本提取特征的生成过程中输入也包含描述文本特征。
一些实施例中,在第二训练阶段的视觉-文本接口指令微调阶段,数据来源可以包括开源数据集的图文对和相应的样本内容描述文本(如视频封面/关键帧内容和文本描述),还可以是业务实际场景中的图文对,以及相应的样本内容描述文本,该样本内容描述文本是通过第一训练阶段生成的最终结果。样本总数量在千位级别即可,以对视觉语言生成网络进行微调。优选实施例中,所输入的样本还基于人工检查校正,以得到S609的更新图像处理模型的输入。具体地,样本的可以基于下述预定义的prompt模板进行构建“###Human:<Img><Image eature></Img><Instuction>###Assistant:”,其表示样本内容描述文本经人工校验和审核过的更新的样本内容描述文本,进而所生成的输入样本特征。第二训练阶段的训练目标是根据构建的prompt来生成对应的文本内容。
S6092:将第二样本融合特征和指令文本特征输入视觉语言生成网络进行图像内容分析,得到第二样本分析结果。
可以理解地,S6092与前述S605相类似,区别在于S6092中采用图像处理模型的视觉语言生成网络对输入进行内容理解和分析,以得到与样本标签的形式一致的第二样本分析结果。具体地,以指令文本特征作为指令指示帮助视觉语言生成网络进行参数调整,生成第二样本分析结果,该第二样本分析结果可以为细粒度的多维标签文本,如“萌宠/快乐心情/柴犬/可爱的狗/卖萌”。可以理解地,大型语言模型输出的第二样本分析结果可以包括多条细粒度的标签文本,如“萌宠/快乐心情/柴犬/可爱的狗”,“萌宠/快乐/柴犬/可爱的宠物狗”,或“萌宠/快乐心情/柴犬/可爱的宠物狗/卖萌”等。
S6093:基于样本标签和第二样本分析结果间的差异调整视觉语言生成网络的网络参数,以进行迭代训练,至满足第二训练结束条件,得到中间图像处理模型。
具体地,基于样本标签和第二样本分析结果间的差异生成模型损失,在固定特征融合网络的网络参数的情况下,更新视觉语言生成网络的网络参数,重复上述步骤,至迭代次数达到预设迭代次数或模型损失小于预设损失,以得到中间图像处理模型。
S6094:基于人类反馈强化学习方法对中间图像处理模型的视觉语言生成网络进行微调训练,得到图像处理模型。
具体地,为保证最后实际任务输出的效果能够与人类的期望对齐,这里引入了人类反馈强化学习方法(RLHF),在得到中间图像处理模型后及模型正式上线前,通过人工对视觉语言生成网络输出的理解结果进行打分和人工期望对齐,通过强化学习的方式改善结果,提升模型输出内容的正确性和场景适配性。
具体地,强化学习阶段所采用的样本可以为前述S6091-S6093中采用的全部样本,也可以为其中的部分采样,或者也可以为在线测试情况下,用户侧的测试分析图像和测试图像文本所生成的。可以结合前述的内容生成网络进行测试分析图像的样本内容描述文本生成,以构建新的测试样本,作为强化学习阶段的输入。在中间图像处理模型基于强化学习阶段的样本数据输出第二样本分析结果后,接收第二样本分析结果对应的人类反馈信息,在固定特征融合网络的网络参数的情况下,基于第二样本分析结果和人类反馈信息调整视觉语言生成网络的网络参数,得到图像处理模型。
采用本申请的上述技术方案,能够充分利用视频等图像数据隐含的多维度信息,细化标签信息粒度,并深层次扩展内容描述,无需进行场景的单独建模,降低人工标注成本、训练成本和建模成本。并且,所得到的图像处理模型的泛化能力强,在训练过程中采用了内容描述文本进行了标签内容扩展,进而实现应用阶段的细粒度内容理解和输出,提升标记内容多样性,满足标记结果应用的多场景需求和分发推荐过程中不同程度的抽象需求。同时,本申请的Zero-Shot能力通常不受类的预定义数量限制,训练和推理效果更好。
此外,通过对图像内容的视觉和文本信息统一空间的细粒度融合和对齐,得到更多对视觉内容刻画和内容理解的特征表达,包括图像的多级细粒度分类信息,助力推荐系统的内容分发,降低建模成本,提升建模效率,不需要标注大量细粒度的样本数据和消耗大量的人工,有效提升了研发的效率;同时充分利用多模态大型语言模型具备的自然语言处理能力和储备知识,辅助理解上下文信息和语义关系,对于各种高级标签的语义联想和扩展起重要作用,丰富实体之间的关系理解,可以提供高级标签的理解和覆盖,刻画更加全面和准确,提升内容分发的效率;并且,本案的图像处理方法还能够超出实体内容为主的限制,实现对图像的多级多维度分类标签及描述,能够实现内容问答,以便于更多维度的扩展,增加标签的泛化性和丰富性。总之,通过细粒度检测信息及多模态指令微调信息的引入,在一个统一模式下完成内容本身的理解标签生成,并且保持良好的扩展性。
本申请实施例还提供了一种图像处理装置800,如图8所示,图8示出了本申请实施例提供的一种图像处理装置的结构示意图,装置可以包括下述模块。
获取模块10:用于获取待分析图像的图像特征、检测框特征和图像文本,图像文本至少包括检测框特征对应的框类别文本,框类别文本用于指示待分析图像中检测框特征所对应图像区域的内容类别;
特征嵌入模块20:用于对图像文本进行特征嵌入,得到图文特征;
图像分析模块30:用于基于图像处理模型对图像特征、检测框特征和图文特征进行图像分析,得到图像分析结果,图像分析结果包括多维度内容标签,多维度内容标签用于指示待分析图像的多维内容类别;
图像处理模型是基于样本图像对应的样本图像特征、样本检测框特征、样本图文特征、样本指令文本对应的指令文本特征、以及样本标签,结合指令微调对初始图像处理模型的特征融合网络进行视觉模态与文本模态的跨模态特征融合和特征空间对齐的训练、以及对初始图像处理模型的视觉语言生成网络进行分析内容生成的训练得到的,视觉语言生成网络基于预训练大型语言模型构建。
一些实施例中,图像分析模块30包括:
特征融合子模块:用于将图像特征、检测框特征和图文特征输入图像处理模型的特征融合网络进行特征提取和跨模态特征融合,得到融合特征;
内容分析子模块:用于将融合特征输入图像处理模型的视觉语言生成网络进行图像内容分析,得到文本模态的图像分析结果。
一些实施例中,特征融合网络包括第一编码模块、第二编码模块和全连接层,第一编码模块和第二编码模块共享第一注意力子模块,第二编码模块还包括基于跨层注意力机制的第二注意力子模块;特征融合子模块包括:
第一注意力单元:用于基于第一注意力子模块对图像特征、检测框特征和图文特征进行第一编码模块对应的特征融合,以及对图文特征进行第二编码模块对应的特征提取,得到初始融合特征和文本提取特征;
第二注意力单元:用于基于第二注意力子模块,对图像特征、检测框特征和初始融合特征进行跨模态特征融合,得到中间融合特征;
全连接单元:用于将中间融合特征和文本提取特征输入全连接层进行针对视觉语言生成网络的特征映射,得到融合特征。
一些实施例中,第二注意力单元具体用于:将图像特征和初始融合特征输入第二注意力子模块,以图像特征和检测框特征作为查询特征,以初始融合特征作为键值特征,进行跨注意力的特征表示,得到中间融合特征;跨注意力的特征表示过程中,对第二注意力子模块的前一注意力层对应的历史权重分布进行权重衰减后作为下一注意力层的输入。
一些实施例中,获取模块10包括:
目标检测子模块:用于对待分析图像进行目标检测,得到图像特征、目标检测框的检测框信息和框类别信息,框类别信息用于指示框类别文本的标识信息;
特征表示子模块:用于对检测框信息进行特征表示,得到检测框特征;
框文本生成子模块:用于基于框类别信息生成框类别文本。
一些实施例中,装置还包括:
样本获取模块:用于获取初始图像处理模型、多个样本图像、样本图像对应的样本附加文本和样本标签、以及样本指令文本,样本附加文本包括样本图像的图像内容中携带的文本和样本图像的随附描述文本中的至少之一,样本指令文本用于提供初始图像处理模型在执行图像内容分析任务时所需的针对图像内容理解的指导信息;
样本检测模块:用于对样本图像进行目标检测,得到样本图像特征、样本检测框的样本检测框特征和样本框类别文本;
样本文本嵌入模块:用于对样本附加文本、样本框类别文本和样本指令文本进行特征嵌入,得到样本图文特征和指令文本特征;
训练模块:用于基于样本图像特征、样本检测框特征、样本图文特征、指令文本特征和样本标签,结合指令微调对特征融合网络进行视觉模态与文本模态的跨模态特征融合和特征空间对齐的训练、以及对视觉语言生成网络进行分析内容生成的训练,得到图像处理模型。
一些实施例中,训练模块包括:
网络构建子模块:用于获取内容生成网络,内容生成网络基于预训练的大语言模型构建;
样本融合子模块:用于将样本图像特征、样本检测框特征、样本图文特征和指令文本特征输入初始图像处理模型的特征融合网络进行特征提取和跨模态特征融合,得到第一样本融合特征;
样本分析子模块:用于将第一样本融合特征和指令文本特征输入内容生成网络进行图像内容分析,得到第一样本分析结果和样本内容描述文本;
第一训练子模块:用于在固定内容生成网络的网络参数的情况下,基于第一样本分析结果和样本标签调整初始图像处理模型的特征融合网络的网络参数,至满足第一训练结束条件,得到图像处理模型的特征融合网络;
第二训练子模块:用于以样本图像特征、样本检测框特征、样本图文特征、指令文本特征和样本内容描述文本对应的描述文本特征作为图像处理模型的特征融合网络的输入,基于人类反馈强化学习方法对初始图像处理模型进行图像内容分析的约束训练,至满足第二训练结束条件,得到图像处理模型,在图像内容分析的约束训练的过程中,固定特征融合网络的网络参数。
一些实施例中,第二训练子模块包括:
特征融合单元:用于将样本图像特征、样本检测框特征、样本图文特征、指令文本特征和描述文本特征输入图像处理模型的特征融合网络进行特征提取和跨模态特征融合,得到第二样本融合特征;
分析单元:用于将第二样本融合特征和指令文本特征输入视觉语言生成网络进行图像内容分析,得到第二样本分析结果;
第二训练单元:用于基于样本标签和第二样本分析结果间的差异调整视觉语言生成网络的网络参数,以进行迭代训练,至满足第二训练结束条件,得到中间图像处理模型;
强化学习单元:用于基于人类反馈强化学习方法对中间图像处理模型的视觉语言生成网络进行微调训练,得到图像处理模型。
需要说明的是,上述装置实施例与方法实施例基于相同的实施方式。
本申请实施例提供了一种设备,该设备可以为终端或服务器,包括处理器和存储器,该存储器中存储有至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的图像处理方法或神经网络训练方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及异常检测。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本申请实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置等电子设备中执行。图9是本申请实施例提供的一种图像处理方法的电子设备的硬件结构框图。如图9所示,该电子设备900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)910(处理器910可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器930,一个或一个以上存储应用程序923或数据922的存储介质920(例如一个或一个以上海量存储设备)。其中,存储器930和存储介质920可以是短暂存储或持久存储。存储在存储介质920的程序可以包括一个或一个以上模块,每个模块可以包括对电子设备中的一系列指令操作。更进一步地,中央处理器910可以设置为与存储介质920通信,在电子设备900上执行存储介质920中的一系列指令操作。电子设备900还可以包括一个或一个以上电源960,一个或一个以上有线或无线网络接口950,一个或一个以上输入输出接口940,和/或,一个或一个以上操作系统921,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
输入输出接口940可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备900的通信供应商提供的无线网络。在一个实例中,输入输出接口940包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口940可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图9所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备900还可包括比图9中所示更多或者更少的组件,或者具有与图9所示不同的配置。
本申请的实施例还提供了一种计算机可读存储介质,存储介质可设置于电子设备之中以保存用于实现方法实施例中一种异常检测方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的异常检测方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
由上述本申请提供的图像处理方法、装置、设备、存储介质、服务器、终端和程序产品,本申请的技术方案获取待分析图像的图像特征、检测框特征和图像文本,图像文本至少包括检测框特征对应的框类别文本,框类别文本用于指示待分析图像中检测框特征所对应图像区域的内容类别;对图像文本进行特征嵌入,得到图文特征;基于图像处理模型对图像特征、检测框特征和图文特征进行图像分析,得到图像分析结果,图像分析结果包括多维度内容标签,多维度内容标签用于指示待分析图像的多维内容类别;该图像处理模型是基于样本图像对应的样本图像特征、样本检测框特征、样本图文特征、样本指令文本对应的指令文本特征、以及样本标签,结合指令微调对初始图像处理模型的特征融合网络进行视觉模态与文本模态的跨模态特征融合和特征空间对齐的训练、以及对初始图像处理模型的视觉语言生成网络进行分析内容生成的训练得到的,视觉语言生成网络基于预训练大型语言模型构建。如此,在图像特征输入之外增加检测框特征和相应的框类别文本,能够使图像处理模型学习到图像内容中的细粒度区域信息,扩大能够刻画和描述的图像内容标签范围,得到覆盖面和准确度更好的内容标签结果,且通过检测框特征和框类别文本等细粒度辅助信息的引入,能够应对预训练大型多模态语言模型在图像处理任务中对诸如位置、数量、小物体等细粒度信息不敏感的瓶颈问题,提升对图像对象和主题的理解程度;并且,上述方案充分利用大型语言模型当中的知识和逻辑推理能力,通过增加细粒度的目标区域检测结果实现图像与文本特征的对齐和提供区域图像的细粒度的理解支持,从而能够支持细粒度的涵盖更多维度的内容理解和多维内容标签的生成,在显著降低处理成本的同时提升图像处理的建模效率、泛化性和实用性。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备和存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指示相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (19)
1.一种图像处理方法,其特征在于,所述方法包括:
获取待分析图像的图像特征、检测框特征和图像文本,所述图像文本至少包括所述检测框特征对应的框类别文本,所述框类别文本用于指示所述待分析图像中所述检测框特征所对应图像区域的内容类别;
对所述图像文本进行特征嵌入,得到图文特征;
基于图像处理模型对所述图像特征、所述检测框特征和所述图文特征进行图像分析,得到图像分析结果,所述图像分析结果包括多维度内容标签,所述多维度内容标签用于指示所述待分析图像的多维内容类别;
所述图像处理模型是基于样本图像对应的样本图像特征、样本检测框特征、样本图文特征、样本指令文本对应的指令文本特征、以及样本标签,结合指令微调对初始图像处理模型的特征融合网络进行视觉模态与文本模态的跨模态特征融合和特征空间对齐的训练、以及对所述初始图像处理模型的视觉语言生成网络进行分析内容生成的训练得到的,所述视觉语言生成网络基于预训练大型语言模型构建;
所述样本图文特征是对样本附加文本和所述框类别文本进行特征嵌入得到的,所述样本附加文本包括所述样本图像的图像内容中携带的文本和所述样本图像的随附描述文本中的至少之一。
2.根据权利要求1所述的方法,其特征在于,所述基于所述图像处理模型对所述图像特征、所述检测框特征和所述图文特征进行图像分析,得到图像分析结果包括:
将所述图像特征、所述检测框特征和所述图文特征输入所述图像处理模型的特征融合网络进行特征提取和跨模态特征融合,得到融合特征;
将所述融合特征输入所述图像处理模型的视觉语言生成网络进行图像内容分析,得到文本模态的所述图像分析结果。
3.根据权利要求2所述的方法,其特征在于,所述特征融合网络包括第一编码模块、第二编码模块和全连接层,所述第一编码模块和所述第二编码模块共享第一注意力子模块,所述第二编码模块还包括基于跨层注意力机制的第二注意力子模块;所述将所述图像特征、所述检测框特征和所述图文特征输入所述图像处理模型的特征融合网络进行特征提取和跨模态特征融合,得到融合特征包括:
基于所述第一注意力子模块对所述图像特征、所述检测框特征和所述图文特征进行所述第一编码模块对应的特征融合,以及对所述图文特征进行所述第二编码模块对应的特征提取,得到初始融合特征和文本提取特征;
基于所述第二注意力子模块,对所述图像特征、所述检测框特征和所述初始融合特征进行跨模态特征融合,得到中间融合特征;
将所述中间融合特征和所述文本提取特征输入所述全连接层进行针对内容分析网络的特征映射,得到所述融合特征。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第二注意力子模块,对所述图像特征、所述检测框特征和所述初始融合特征进行跨模态特征融合,得到中间融合特征包括:
将所述图像特征和所述初始融合特征输入所述第二注意力子模块,以所述图像特征和所述检测框特征作为查询特征,以所述初始融合特征作为键值特征,进行跨注意力的特征表示,得到所述中间融合特征;所述跨注意力的特征表示过程中,对所述第二注意力子模块的前一注意力层对应的历史权重分布进行权重衰减后作为下一注意力层的输入。
5.根据权利要求1所述的方法,其特征在于,所述获取待分析图像的图像特征、检测框特征和图像文本包括:
对所述待分析图像进行目标检测,得到所述图像特征、目标检测框的检测框信息和框类别信息,所述框类别信息用于指示所述框类别文本的标识信息;
对所述检测框信息进行特征表示,得到所述检测框特征;
基于所述框类别信息生成所述框类别文本。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:
获取所述初始图像处理模型、多个样本图像、所述样本图像对应的样本附加文本和样本标签、以及样本指令文本,所述样本指令文本用于提供初始图像处理模型在执行图像内容分析任务时所需的针对图像内容理解的指导信息;
对所述样本图像进行目标检测,得到样本图像特征、样本检测框的样本检测框特征和样本框类别文本;
对所述样本附加文本、所述样本框类别文本和所述样本指令文本进行特征嵌入,得到样本图文特征和指令文本特征;
基于所述样本图像特征、所述样本检测框特征、所述样本图文特征、所述指令文本特征和所述样本标签,结合指令微调对所述特征融合网络进行视觉模态与文本模态的跨模态特征融合和特征空间对齐的训练、以及对所述视觉语言生成网络进行分析内容生成的训练,得到所述图像处理模型。
7.根据权利要求6所述的方法,其特征在于,所述图像处理模型的训练方法包括:
获取内容生成网络,所述内容生成网络基于预训练的大语言模型构建;
将所述样本图像特征、所述样本检测框特征、所述样本图文特征和所述指令文本特征输入所述初始图像处理模型的特征融合网络进行特征提取和跨模态特征融合,得到第一样本融合特征;
将所述第一样本融合特征和所述指令文本特征输入所述内容生成网络进行图像内容分析,得到第一样本分析结果和样本内容描述文本;
在固定所述内容生成网络的网络参数的情况下,基于所述第一样本分析结果和所述样本标签调整所述初始图像处理模型的特征融合网络的网络参数,至满足第一训练结束条件,得到所述图像处理模型的特征融合网络;
以所述样本图像特征、所述样本检测框特征、所述样本图文特征、所述指令文本特征和所述样本内容描述文本对应的描述文本特征作为所述图像处理模型的特征融合网络的输入,基于人类反馈强化学习方法对所述初始图像处理模型进行图像内容分析的约束训练,至满足第二训练结束条件,得到所述图像处理模型,在所述图像内容分析的约束训练的过程中,固定所述特征融合网络的网络参数。
8.根据权利要求7所述的方法,其特征在于,所述以所述样本图像特征、所述样本检测框特征、所述样本图文特征、所述指令文本特征和所述样本内容描述文本对应的描述文本特征作为所述图像处理模型的特征融合网络的输入,基于人类反馈强化学习方法对所述初始图像处理模型进行图像内容分析的约束训练,至满足第二训练结束条件,得到所述图像处理模型包括:
将所述样本图像特征、所述样本检测框特征、所述样本图文特征、所述指令文本特征和所述描述文本特征输入所述图像处理模型的特征融合网络进行特征提取和跨模态特征融合,得到第二样本融合特征;
将所述第二样本融合特征和所述指令文本特征输入所述视觉语言生成网络进行图像内容分析,得到第二样本分析结果;
基于所述样本标签和所述第二样本分析结果间的差异调整所述视觉语言生成网络的网络参数,以进行迭代训练,至满足第二训练结束条件,得到中间图像处理模型;
基于人类反馈强化学习方法对所述中间图像处理模型的视觉语言生成网络进行微调训练,得到所述图像处理模型。
9.一种图像处理装置,其特征在于,所述装置包括:
获取模块:用于获取待分析图像的图像特征、检测框特征和图像文本,所述图像文本至少包括所述检测框特征对应的框类别文本,所述框类别文本用于指示所述待分析图像中所述检测框特征所对应图像区域的内容类别;
特征嵌入模块:用于对所述图像文本进行特征嵌入,得到图文特征;
图像分析模块:用于基于图像处理模型对所述图像特征、所述检测框特征和所述图文特征进行图像分析,得到图像分析结果,所述图像分析结果包括多维度内容标签,所述多维度内容标签用于指示所述待分析图像的多维内容类别;
所述图像处理模型是基于样本图像对应的样本图像特征、样本检测框特征、样本图文特征、样本指令文本对应的指令文本特征、以及样本标签,结合指令微调对初始图像处理模型的特征融合网络进行视觉模态与文本模态的跨模态特征融合和特征空间对齐的训练、以及对所述初始图像处理模型的视觉语言生成网络进行分析内容生成的训练得到的,所述视觉语言生成网络基于预训练大型语言模型构建;
所述样本图文特征是对样本附加文本和所述框类别文本进行特征嵌入得到的,所述样本附加文本包括所述样本图像的图像内容中携带的文本和所述样本图像的随附描述文本中的至少之一。
10.根据权利要求9所述的装置,其特征在于,所述图像分析模块包括:
特征融合子模块:用于将所述图像特征、所述检测框特征和所述图文特征输入所述图像处理模型的特征融合网络进行特征提取和跨模态特征融合,得到融合特征;
内容分析子模块:用于将所述融合特征输入所述图像处理模型的视觉语言生成网络进行图像内容分析,得到文本模态的所述图像分析结果。
11.根据权利要求10所述的装置,其特征在于,所述特征融合网络包括第一编码模块、第二编码模块和全连接层,所述第一编码模块和所述第二编码模块共享第一注意力子模块,所述第二编码模块还包括基于跨层注意力机制的第二注意力子模块;所述特征融合子模块包括:
第一注意力单元:用于基于所述第一注意力子模块对所述图像特征、所述检测框特征和所述图文特征进行所述第一编码模块对应的特征融合,以及对所述图文特征进行所述第二编码模块对应的特征提取,得到初始融合特征和文本提取特征;
第二注意力单元:用于基于所述第二注意力子模块,对所述图像特征、所述检测框特征和所述初始融合特征进行跨模态特征融合,得到中间融合特征;
全连接单元:用于将所述中间融合特征和所述文本提取特征输入所述全连接层进行针对内容分析网络的特征映射,得到所述融合特征。
12.根据权利要求11所述的装置,其特征在于,所述第二注意力单元具体用于:
将所述图像特征和所述初始融合特征输入所述第二注意力子模块,以所述图像特征和所述检测框特征作为查询特征,以所述初始融合特征作为键值特征,进行跨注意力的特征表示,得到所述中间融合特征;所述跨注意力的特征表示过程中,对所述第二注意力子模块的前一注意力层对应的历史权重分布进行权重衰减后作为下一注意力层的输入。
13.根据权利要求9所述的装置,其特征在于,所述获取模块包括:
目标检测子模块:用于对所述待分析图像进行目标检测,得到所述图像特征、目标检测框的检测框信息和框类别信息,所述框类别信息用于指示所述框类别文本的标识信息;
特征表示子模块:用于对所述检测框信息进行特征表示,得到所述检测框特征;
框文本生成子模块:用于基于所述框类别信息生成所述框类别文本。
14.根据权利要求9-13中任一项所述的装置,其特征在于,所述装置还包括:
样本获取模块:用于获取所述初始图像处理模型、多个样本图像、所述样本图像对应的样本附加文本和样本标签、以及样本指令文本,所述样本指令文本用于提供初始图像处理模型在执行图像内容分析任务时所需的针对图像内容理解的指导信息;
样本检测模块:用于对所述样本图像进行目标检测,得到样本图像特征、样本检测框的样本检测框特征和样本框类别文本;
样本文本嵌入模块:用于对所述样本附加文本、所述样本框类别文本和所述样本指令文本进行特征嵌入,得到样本图文特征和指令文本特征;
训练模块:用于基于所述样本图像特征、所述样本检测框特征、所述样本图文特征、所述指令文本特征和所述样本标签,结合指令微调对所述特征融合网络进行视觉模态与文本模态的跨模态特征融合和特征空间对齐的训练、以及对所述视觉语言生成网络进行分析内容生成的训练,得到所述图像处理模型。
15.根据权利要求14所述的装置,其特征在于,所述训练模块包括:
网络构建子模块:用于获取内容生成网络,所述内容生成网络基于预训练的大语言模型构建;
样本融合子模块:用于将所述样本图像特征、所述样本检测框特征、所述样本图文特征和所述指令文本特征输入所述初始图像处理模型的特征融合网络进行特征提取和跨模态特征融合,得到第一样本融合特征;
样本分析子模块:用于将所述第一样本融合特征和所述指令文本特征输入所述内容生成网络进行图像内容分析,得到第一样本分析结果和样本内容描述文本;
第一训练子模块:用于在固定所述内容生成网络的网络参数的情况下,基于所述第一样本分析结果和所述样本标签调整所述初始图像处理模型的特征融合网络的网络参数,至满足第一训练结束条件,得到所述图像处理模型的特征融合网络;
第二训练子模块:用于以所述样本图像特征、所述样本检测框特征、所述样本图文特征、所述指令文本特征和所述样本内容描述文本对应的描述文本特征作为所述图像处理模型的特征融合网络的输入,基于人类反馈强化学习方法对所述初始图像处理模型进行图像内容分析的约束训练,至满足第二训练结束条件,得到所述图像处理模型,在所述图像内容分析的约束训练的过程中,固定所述特征融合网络的网络参数。
16.根据权利要求15所述的装置,其特征在于,所述第二训练子模块包括:
特征融合单元:用于将所述样本图像特征、所述样本检测框特征、所述样本图文特征、所述指令文本特征和所述描述文本特征输入所述图像处理模型的特征融合网络进行特征提取和跨模态特征融合,得到第二样本融合特征;
分析单元:用于将所述第二样本融合特征和所述指令文本特征输入所述视觉语言生成网络进行图像内容分析,得到第二样本分析结果;
第二训练单元:用于基于所述样本标签和所述第二样本分析结果间的差异调整所述视觉语言生成网络的网络参数,以进行迭代训练,至满足第二训练结束条件,得到中间图像处理模型;
强化学习单元:用于基于人类反馈强化学习方法对所述中间图像处理模型的视觉语言生成网络进行微调训练,得到所述图像处理模型。
17.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任一项所述的图像处理方法。
18.一种计算机设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-8中任一项所述的图像处理方法。
19.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令被处理器执行时实现如权利要求1-8中任一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410155582.4A CN117711001B (zh) | 2024-02-04 | 2024-02-04 | 图像处理方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410155582.4A CN117711001B (zh) | 2024-02-04 | 2024-02-04 | 图像处理方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117711001A CN117711001A (zh) | 2024-03-15 |
CN117711001B true CN117711001B (zh) | 2024-05-07 |
Family
ID=90159266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410155582.4A Active CN117711001B (zh) | 2024-02-04 | 2024-02-04 | 图像处理方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117711001B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118628706A (zh) * | 2024-08-13 | 2024-09-10 | 华电章丘发电有限公司 | 一种输电塔标识识别方法及相关装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861917A (zh) * | 2021-01-14 | 2021-05-28 | 西北工业大学 | 基于图像属性学习的弱监督目标检测方法 |
WO2021184396A1 (en) * | 2020-03-19 | 2021-09-23 | Hong Kong Applied Science and Technology Research Institute Company Limited | Apparatus and method for recognizing image-based content presented in a structured layout |
CN114118408A (zh) * | 2021-11-11 | 2022-03-01 | 北京达佳互联信息技术有限公司 | 图像处理模型的训练方法、图像处理方法、装置及设备 |
CN114429636A (zh) * | 2022-04-06 | 2022-05-03 | 中国科学院自动化研究所 | 图像扫描识别方法、装置及电子设备 |
KR20220133141A (ko) * | 2022-03-10 | 2022-10-04 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 텍스트 추출 방법, 텍스트 추출 모델 트레이닝 방법, 장치 및 기기 |
CN116578738A (zh) * | 2023-07-14 | 2023-08-11 | 深圳须弥云图空间科技有限公司 | 一种基于图注意力和生成对抗网络的图文检索方法和装置 |
-
2024
- 2024-02-04 CN CN202410155582.4A patent/CN117711001B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021184396A1 (en) * | 2020-03-19 | 2021-09-23 | Hong Kong Applied Science and Technology Research Institute Company Limited | Apparatus and method for recognizing image-based content presented in a structured layout |
CN112861917A (zh) * | 2021-01-14 | 2021-05-28 | 西北工业大学 | 基于图像属性学习的弱监督目标检测方法 |
CN114118408A (zh) * | 2021-11-11 | 2022-03-01 | 北京达佳互联信息技术有限公司 | 图像处理模型的训练方法、图像处理方法、装置及设备 |
KR20220133141A (ko) * | 2022-03-10 | 2022-10-04 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 텍스트 추출 방법, 텍스트 추출 모델 트레이닝 방법, 장치 및 기기 |
CN114429636A (zh) * | 2022-04-06 | 2022-05-03 | 中国科学院自动化研究所 | 图像扫描识别方法、装置及电子设备 |
CN116578738A (zh) * | 2023-07-14 | 2023-08-11 | 深圳须弥云图空间科技有限公司 | 一种基于图注意力和生成对抗网络的图文检索方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117711001A (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111930992B (zh) | 神经网络训练方法、装置及电子设备 | |
CN111444340B (zh) | 文本分类方法、装置、设备及存储介质 | |
CN115115913A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN116664719B (zh) | 一种图像重绘模型训练方法、图像重绘方法及装置 | |
CN116824278B (zh) | 图像内容分析方法、装置、设备和介质 | |
CN112307351A (zh) | 用户行为的模型训练、推荐方法、装置和设备 | |
CN110795944A (zh) | 推荐内容处理方法及装置、情感属性确定方法及装置 | |
CN111046275A (zh) | 基于人工智能的用户标签确定方法及装置、存储介质 | |
CN112749556B (zh) | 多语言模型的训练方法和装置、存储介质和电子设备 | |
CN113392179A (zh) | 文本标注方法及装置、电子设备、存储介质 | |
CN112989212B (zh) | 媒体内容推荐方法、装置和设备及计算机存储介质 | |
CN113704460A (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN112131430A (zh) | 视频聚类方法、装置、存储介质和电子设备 | |
CN113779225B (zh) | 实体链接模型的训练方法、实体链接方法及装置 | |
CN114201516B (zh) | 一种用户画像构建的方法、信息推荐的方法以及相关装置 | |
CN117711001B (zh) | 图像处理方法、装置、设备和介质 | |
CN114282055A (zh) | 视频特征提取方法、装置、设备及计算机存储介质 | |
CN117494051A (zh) | 一种分类处理的方法、模型训练的方法以及相关装置 | |
Park et al. | An effective 3D text recurrent voting generator for metaverse | |
CN116205700A (zh) | 目标产品的推荐方法、装置、计算机设备和存储介质 | |
CN114419514B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN114298011B (zh) | 神经网络、训练方法、方面级情感分析方法、装置及存储介质 | |
CN116976283A (zh) | 语言处理方法、训练方法、装置、设备、介质及程序产品 | |
CN112036546B (zh) | 序列处理方法及相关设备 | |
CN118228035B (zh) | 内容标签的确定方法以及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |