[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN118314445B - 图像多任务处理方法、系统、存储介质及电子设备 - Google Patents

图像多任务处理方法、系统、存储介质及电子设备 Download PDF

Info

Publication number
CN118314445B
CN118314445B CN202410742180.4A CN202410742180A CN118314445B CN 118314445 B CN118314445 B CN 118314445B CN 202410742180 A CN202410742180 A CN 202410742180A CN 118314445 B CN118314445 B CN 118314445B
Authority
CN
China
Prior art keywords
image
multitasking
model
language model
large language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410742180.4A
Other languages
English (en)
Other versions
CN118314445A (zh
Inventor
刘益东
孔欧
王君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Mido Technology Co ltd
Original Assignee
Shanghai Mido Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Mido Technology Co ltd filed Critical Shanghai Mido Technology Co ltd
Priority to CN202410742180.4A priority Critical patent/CN118314445B/zh
Publication of CN118314445A publication Critical patent/CN118314445A/zh
Application granted granted Critical
Publication of CN118314445B publication Critical patent/CN118314445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/96Management of image or video recognition tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种图像多任务处理方法、系统、存储介质及电子设备,所述方法包括以下步骤:将待处理图像分别输入投影块和VQGAN模型的编码器后进行元素相加,获取模型输入信息;获取大语言模型,所述大语言模型用于同时处理多个图像任务;将所述模型输入信息输入所述大语言模型,获取所述待处理图像的多任务处理预测结果;基于VQGAN模型的解码器对所述多任务处理预测结果进行解码,获取所述待处理图像的多任务处理结果图像。本发明的图像多任务处理方法、系统、存储介质及电子设备能够基于大语言模型实现多个图像任务的同时处理,有效地减少了硬件消耗和处理耗时。

Description

图像多任务处理方法、系统、存储介质及电子设备
技术领域
本发明属于深度学习的技术领域,特别是涉及一种图像多任务处理方法、系统、存储介质及电子设备。
背景技术
图像处理是指用计算机对图像进行分析,以达到所需结果的技术。图像处理任务一般包括:语义分割、物体检测、弱光增强、去噪、修复和着色等。
现有技术中,针对每一种图像处理任务,都会独立设计一个方法或者神经网络模型来处理。然而,不同的图像处理任务往往采用不同的网络结构设计。部署多个模型就需要更多的硬件资源和更多的耗时,不利于实际的推广使用。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种图像多任务处理方法、系统、存储介质及电子设备,能够基于大语言模型实现多个图像任务的同时处理,有效地减少了硬件消耗和处理耗时。
第一方面,本发明提供一种图像多任务处理方法,所述方法包括以下步骤:将待处理图像分别输入投影块和VQGAN模型的编码器后进行元素相加,获取模型输入信息;获取大语言模型,所述大语言模型用于同时处理多个图像任务,所述图像任务包括图像语义分割、图像物体检测、图像弱光增强、图像去噪、图像修复和图像着色中的一种或多种组合;将所述模型输入信息输入所述大语言模型,获取所述待处理图像的多任务处理预测结果;基于VQGAN模型的解码器对所述多任务处理预测结果进行解码,获取所述待处理图像的多任务处理结果图像。
在第一方面的一种实现方式中,获取大语言模型包括以下步骤:
构建多个图像任务的训练图像集;
将所述训练图像集中的图像分别输入投影块和VQGAN模型的编码器后进行元素相加,获取模型输入信息;
将所述输入信息输入大语言模型,获取所述图像的多任务处理预测结果;
基于所述多任务处理预测结果计算所述大语言模型的交叉熵损失,并基于所述交叉熵损失调整所述大语言模型,直至所述大语言模型收敛。
在第一方面的一种实现方式中,构建多个图像任务的训练图像集包括以下步骤:
对原始图像进行语义分割,获取语义分割图和语义分割注解;
对原始图像利用矩形框进行可视化画图,获取目标识别图和目标识别注解;
将原始图像随机减去一个值,获取低亮度图;
将原始图像与随机高斯噪声进行元素相加,获取噪声图像;
将原始图像用黑色随机图像遮掩,获取损坏图像;
对原始图像进行灰度化,获取灰度图像;
基于所述原始图像、所述语义分割图和语义分割注解、所述目标识别图和目标识别注解、所述低亮度图、所述噪声图像、所述损坏图像、所述灰度图像构建训练图像集。
在第一方面的一种实现方式中,所述投影块的处理流程包括:
将图像输入自注意力机制获取特征图;
将自注意力机制的Q矩阵分别经过5个多层感知机,且针对每个多层感知机获取所述特征图元素坐标的6组坐标偏移量;
基于所述坐标偏移量,在所述特征图中每个元素对应的30个偏移元素;
将所述特征图的所有偏移元素与注意力权重进行矩阵相乘后输入FFN网络,获取所述投影块的输出;其中所述注意力权重由所述Q矩阵经过FFN网络和softmax函数后获取。
第二方面,本发明提供一种图像多任务处理系统,所述系统包括输入信息获取模块、模型获取模块、输入模块和处理模块;
所述输入信息获取模块用于将待处理图像分别输入投影块和VQGAN模型的编码器后进行元素相加,获取模型输入信息;
所述模型获取模块用于获取大语言模型,所述大语言模型用于同时处理多个图像任务,所述图像任务包括图像语义分割、图像物体检测、图像弱光增强、图像去噪、图像修复和图像着色中的一种或多种组合;
所述输入模块用于将所述模型输入信息输入所述大语言模型,获取所述待处理图像的多任务处理预测结果;
所述处理模块用于基于VQGAN模型的解码器对所述多任务处理预测结果进行解码,获取所述待处理图像的多任务处理结果图像。
在第二方面的一种实现方式中,所述模型获取模块获取大语言模型包括以下步骤:
构建多个图像任务的训练图像集;
将所述训练图像集中的图像分别输入投影块和VQGAN模型的编码器后进行元素相加,获取模型输入信息;
将所述输入信息输入大语言模型,获取所述图像的多任务处理预测结果;
基于所述多任务处理预测结果计算所述大语言模型的交叉熵损失,并基于所述交叉熵损失调整所述大语言模型,直至所述大语言模型收敛。
在第二方面的一种实现方式中,构建多个图像任务的训练图像集包括以下步骤:
对原始图像进行语义分割,获取语义分割图和语义分割注解;
对原始图像利用矩形框进行可视化画图,获取目标识别图和目标识别注解;
将原始图像随机减去一个值,获取低亮度图;
将原始图像与随机高斯噪声进行元素相加,获取噪声图像;
将原始图像用黑色随机图像遮掩,获取损坏图像;
对原始图像进行灰度化,获取灰度图像;
基于所述原始图像、所述语义分割图和语义分割注解、所述目标识别图和目标识别注解、所述低亮度图、所述噪声图像、所述损坏图像、所述灰度图像构建训练图像集。
在第二方面的一种实现方式中,所述投影块的处理流程包括:
将图像输入自注意力机制获取特征图;
将自注意力机制的Q矩阵分别经过5个多层感知机,且针对每个多层感知机获取所述特征图元素坐标的6组坐标偏移量;
基于所述坐标偏移量,在所述特征图中每个元素对应的30个偏移元素;
将所述特征图的所有偏移元素与注意力权重进行矩阵相乘后输入FFN网络,获取所述投影块的输出;其中所述注意力权重由所述Q矩阵经过FFN网络和softmax函数后获取。
第三方面,本发明提供一种电子设备,所述电子设备包括:处理器和存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行上述的图像多任务处理方法。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被电子设备执行时实现上述的图像多任务处理方法。
如上所述,本发明所述的图像多任务处理方法、系统、存储介质及电子设备,具有以下有益效果。
(1)能够基于大语言模型实现多个图像任务的同时处理,快速高效。
(2)无需针对不同的图像处理任务设置不同的网络结构,有效地减少了硬件消耗和处理耗时。
(3)智能化程度高,极具实用性。
附图说明
图1显示为本发明的电子设备于一实施例中的场景示意图。
图2显示为本发明的图像多任务处理方法于一实施例中的流程图。
图3显示为本发明的训练图像集于一实施例中的示意图。
图4显示为本发明的图像多任务处理系统于一实施例中的结构示意图。
图5显示为本发明的电子设备于一实施例中的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明以下实施例提供了图像多任务处理方法,其可应用于如图1所示的电子设备。本发明中所述电子设备可以包括具备无线充电功能的手机11、平板电脑12、笔记本电脑13、可穿戴设备、车载设备、增强现实(Augmented Reality,AR)/虚拟现实(VirtualReality,VR)设备、超级移动个人计算机(Ultra-Mobile Personal Computer,UMPC)、上网本、个人数字助理(Personal Digital Assistant,PDA)等,本发明实施例对电子设备的具体类型不作任何限制。
例如,所述电子设备可以是具备无线充电功能的 WLAN 中的站点(STAION,ST),可以是具备无线充电功能的蜂窝电话、无绳电话、会话启动协议(SessionInitiationProtocol,SIP)电话、无线本地环路(WirelessLocal Loop,WLL)站、个人数字处理(Personal Digital Assistant,PDA)设备、具备无线充电功能的手持设备、计算设备或其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式计算设备、和/或用于在无线系统上进行通信的其它设备以及下一代通信系统,例如,5G 网络中的移动终端、未来演进的公共陆地移动网络(PublicLand Mobile Network,PLMN)中的移动终端或者未来演进的非地面网络(Non-terrestrial Network,NTN)中的移动终端等。
例如,所述电子设备可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobilecommunication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access,WCDMA)、长期演进(Long Term Evolution,LTE))、电子邮件、短消息服务(Short Messaging Service,SMS)、BT,GNSS,WLAN,NFC,FM,和/或 IR 技术等。所述 GNSS可以包括全球卫星定位系统 (Global Positioning System,GPS),全球导航卫星系统(Global Navigation Satellite System,GLONASS),北斗卫星导航系统(BeiDounavigation Satellite System,BDS),准天顶卫星系统(Quasi-Zenith SatelliteSystem,QZSS)和/或星基增强系统(Satellite Based Augmentation Systems,SBAS)。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行详细描述。
如图2所示,于一实施例中,本发明的图像多任务处理方法包括步骤S1-步骤S4。
步骤S1、将待处理图像分别输入投影块和VQGAN模型的编码器后进行元素相加,获取模型输入信息。
具体地,首先将待处理图像分别输入投影块(projection block)和VQGAN模型的编码器,获取第一处理结果和第二处理结果。然后,将第一处理结果和第二处理结果进行元素相加element-wise addition,得到模型输入信息。
其中,所述投影块的处理流程包括以下步骤。
11)将图像输入自注意力机制(self-attention)获取特征图。
12)将自注意力机制的Q矩阵分别经过5个多层感知机(Multilayer Perceptron,MLP),且针对每个多层感知机获取所述特征图元素坐标的6组坐标偏移量。其中,每个MLP表示有5个head。那么每个head都有6组相对于所述特征图每个元素坐标的2个偏移量(x_offset,y_offset)。
13)基于所述坐标偏移量,在所述特征图中每个元素对应的5*6=30个偏移元素。
14)将所述特征图的所有偏移元素与注意力权重进行矩阵相乘(matrixmultiplication)后输入FFN网络,获取所述投影块的输出;其中所述注意力权重由所述Q矩阵经过FFN网络和softmax函数后获取。
VQGAN(Taming Transformers for High-Resolution Image Synthesis)模型通过驯服Transformer模型以实现高清图像合成。在训练时,先训练一个图像压缩模型(包括编码器和解码器两个子模型),再训练一个生成压缩图像的模型。生成时,先用第二个模型生成出一个压缩图像,再用第一个模型复原成真实图像。
步骤S2、获取大语言模型,所述大语言模型用于同时处理多个图像任务,所述图像任务包括图像语义分割、图像物体检测、图像弱光增强、图像去噪、图像修复和图像着色中的一种或多种组合。
具体地,大语言模型(Large Language Model,LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。
在本发明中,所述大语言模型能够同时处理多个图像任务,所述图像任务包括图像语义分割、图像物体检测、图像弱光增强、图像去噪、图像修复和图像着色。在该步骤中,获取训练好的大语言模型或者训练得到收敛的大语言模型。
在训练所述大语言模型时,包括以下步骤。
21)构建多个图像任务的训练图像集。
如图3所示,所述训练图像集针对图像任务包括图像语义分割(semanticsegmentation)、图像物体检测(object detection)、图像弱光增强(low lightenhancement)、图像去噪(denoising)、图像修复(inpainting)和图像着色(colorization)这六种任务。原图命名为image_{N},N表示有N张原始图像。
对于图像语义分割,对原始图像进行语义分割,获取语义分割图和语义分割注解。其中分割图命名为image_{N} with semantic segmentation annotation。
对于图像物体检测,对原始图像利用矩形框进行可视化画图,获取目标识别图和目标识别注解。其中,将坐标框信息在所述原始图像上利用矩形框(矩形框的颜色根据类别来定义,同一张图片中相同目标用同一种颜色)进行可视化画图;可视化的图命名为image_{N} with object detection annotation。
对于图像弱光增强,将原始图像随机减去一个值,获取低亮度图。其中,从100~250范围内行随机整数抽样出一个值,用所述原始图像减去该值,将得到结果命名为low lightimage_{N},即低亮度图。
对于图像去噪,将原始图像与随机高斯噪声进行元素相加,获取噪声图像。其中,在高斯噪声中随机采样出噪音值,将噪音值与所述原始图像进行element-wise addition,得到噪音图像,命名为noise image_{N}。
对于图像修复,将原始图像用黑色随机图像遮掩,获取损坏图像。其中,对所述原始图像用随机的黑色方框或者黑色不规则形状进行遮掩,命名为损坏图像damage image_{N}。
对于图像着色,对原始图像进行灰度化,获取灰度图像,命名为gray image_{N}。
基于所述原始图像、所述语义分割图和语义分割注解、所述目标识别图和目标识别注解、所述低亮度图、所述噪声图像、所述损坏图像、所述灰度图像构建训练图像集。其中,对于每一个图像任务,使用N组图像对。以图像修复inpainting为例,就是将若干对损坏图像damage image 和原始图像image)依序排列作为一个样本。在样本开始添加BOS特殊字符后,作为输入(input)(BOS+N组图像);在样本后面添加EOS特殊字符后,作为标签(label)(N组图像+EOS)。
22)将所述训练图像集中的图像分别输入投影块和VQGAN模型的编码器后进行元素相加,获取模型输入信息。
23)将所述输入信息输入大语言模型,获取所述图像的多任务处理预测结果(prediction)。
24)基于所述多任务处理预测结果计算所述大语言模型的交叉熵损失,并基于所述交叉熵损失调整所述大语言模型,直至所述大语言模型收敛。其中,将预测结果和标签进行交叉熵损失(cross-entropy loss)计算,然后进行梯度方向传播,以获取训练好的大语言模型。
优选地,在训练所述大语言模型时,还包括针对训练的大语言模型进行验证(inference)。以图像物体检测为例,输入至少为3张图像(第一张为原始图像image_1,第二张为目标识别图像image_1 with object detection annotation,第三张为待识别图像image_2)。其中前2张相当于prompt给大语言模型提示。所述大语言模型将根据prompt给出待识别图像image_2的检测可视化结果;输入同时经过VQGAN模型的编码器和投影块,将结果进行元素相加后输入到大语言模型中。大语言模型给出多任务处理预测结果,最后经过VQGAN模型的解码器还原为多任务处理结果图像。所述多任务处理结果图像与输入中的第二张图片image_2相同,内容为待处理图像image_2的目标检测可视化结果。
步骤S3、将所述模型输入信息输入所述大语言模型,获取所述待处理图像的多任务处理预测结果。
步骤S4、基于VQGAN模型的解码器对所述多任务处理预测结果进行解码,获取所述待处理图像的多任务处理结果图像。
本发明实施例所述的图像多任务处理方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。
本发明实施例还提供一种图像多任务处理系统,所述图像多任务处理系统可以实现本发明所述的图像多任务处理方法,但本发明所述的图像多任务处理系统的实现装置包括但不限于本实施例列举的图像多任务处理系统的结构,凡是根据本发明的原理所做的现有技术的结构变形和替换,都包括在本发明的保护范围内。
如图4所示,于一实施例中,本发明的图像多任务处理系统包括输入信息获取模块41、模型获取模块42、输入模块43和处理模块44。
所述输入信息获取模块41用于将待处理图像分别输入投影块和VQGAN模型的编码器后进行元素相加,获取模型输入信息。
所述模型获取模块42与所述输入信息获取模块41相连,用于获取大语言模型,所述大语言模型用于同时处理多个图像任务,所述图像任务包括图像语义分割、图像物体检测、图像弱光增强、图像去噪、图像修复和图像着色中的一种或多种组合。
所述输入模块43与所述模型获取模块42相连,用于将所述模型输入信息输入所述大语言模型,获取所述待处理图像的多任务处理预测结果。
所述处理模块44与所述输入模块43相连,用于基于VQGAN模型的解码器对所述多任务处理预测结果进行解码,获取所述待处理图像的多任务处理结果图像。
其中,输入信息获取模块41、模型获取模块42、输入模块43和处理模块44的结构和原理与上述图像多任务处理方法中的步骤一一对应,故在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置或方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅是示意性的,例如,模块/单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或单元可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块/单元可以是或者也可以不是物理上分开的,作为模块/单元显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块/单元来实现本发明实施例的目的。例如,在本发明各个实施例中的各功能模块/单元可以集成在一个处理模块中,也可以是各个模块/单元单独物理存在,也可以两个或两个以上模块/单元集成在一个模块/单元中。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本发明实施例还提供了一种计算机可读存储介质。本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(magnetictape),软盘(floppy disk),光盘(optical disc)及其任意组合。上述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本发明实施例还提供了一种电子设备。所述电子设备包括处理器和存储器。
所述存储器用于存储计算机程序。
所述存储器包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使所述电子设备执行上述的图像多任务处理方法。
优选地,所述处理器可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
如图5所示,本发明的电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于:一个或者多个处理器或者处理单元51,存储器52,连接不同系统组件(包括存储器52和处理单元51)的总线53。
总线53表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器52可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)521和/或高速缓存存储器522。电子设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统523可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM ,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线53相连。存储器52可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块5241的程序/实用工具524,可以存储在例如存储器52中,这样的程序模块5241包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块5241通常执行本发明所描述的实施例中的功能和/或方法。
电子设备也可以与一个或多个外部设备(例如键盘、指向设备、显示器等)通信,还可与一个或者多个使得用户能与该电子设备交互的设备通信,和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口54进行。并且,电子设备还可以通过网络适配器55与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器55通过总线53与电子设备的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (8)

1.一种图像多任务处理方法,其特征在于,所述方法包括以下步骤:
将待处理图像分别输入投影块和VQGAN模型的编码器后进行元素相加,获取模型输入信息;
获取大语言模型,所述大语言模型用于同时处理多个图像任务,所述图像任务包括图像语义分割、图像物体检测、图像弱光增强、图像去噪、图像修复和图像着色中的一种或多种组合;
将所述模型输入信息输入所述大语言模型,获取所述待处理图像的多任务处理预测结果;
基于VQGAN模型的解码器对所述多任务处理预测结果进行解码,获取所述待处理图像的多任务处理结果图像;
所述投影块的处理流程包括:
将图像输入自注意力机制获取特征图;
将自注意力机制的Q矩阵分别经过5个多层感知机,且针对每个多层感知机获取特征图元素坐标的6组坐标偏移量;
基于所述坐标偏移量,在所述特征图中每个元素对应的30个偏移元素;
将所述特征图的所有偏移元素与注意力权重进行矩阵相乘后输入FFN网络,获取所述投影块的输出;其中所述注意力权重由所述Q矩阵经过FFN网络和softmax函数后获取。
2.根据权利要求1所述的图像多任务处理方法,其特征在于:获取大语言模型包括以下步骤:
构建多个图像任务的训练图像集;
将所述训练图像集中的图像分别输入投影块和VQGAN模型的编码器后进行元素相加,获取模型输入信息;
将所述输入信息输入大语言模型,获取所述图像的多任务处理预测结果;
基于所述多任务处理预测结果计算所述大语言模型的交叉熵损失,并基于所述交叉熵损失调整所述大语言模型,直至所述大语言模型收敛。
3.根据权利要求2所述的图像多任务处理方法,其特征在于:构建多个图像任务的训练图像集包括以下步骤:
对原始图像进行语义分割,获取语义分割图和语义分割注解;
对原始图像利用矩形框进行可视化画图,获取目标识别图和目标识别注解;
将原始图像随机减去一个值,获取低亮度图;
将原始图像与随机高斯噪声进行元素相加,获取噪声图像;
将原始图像用黑色随机图像遮掩,获取损坏图像;
对原始图像进行灰度化,获取灰度图像;
基于所述原始图像、所述语义分割图和语义分割注解、所述目标识别图和目标识别注解、所述低亮度图、所述噪声图像、所述损坏图像、所述灰度图像构建训练图像集。
4.一种图像多任务处理系统,其特征在于,所述系统包括输入信息获取模块、模型获取模块、输入模块和处理模块;
所述输入信息获取模块用于将待处理图像分别输入投影块和VQGAN模型的编码器后进行元素相加,获取模型输入信息;
所述模型获取模块用于获取大语言模型,所述大语言模型用于同时处理多个图像任务,所述图像任务包括图像语义分割、图像物体检测、图像弱光增强、图像去噪、图像修复和图像着色中的一种或多种组合;
所述输入模块用于将所述模型输入信息输入所述大语言模型,获取所述待处理图像的多任务处理预测结果;
所述处理模块用于基于VQGAN模型的解码器对所述多任务处理预测结果进行解码,获取所述待处理图像的多任务处理结果图像;
所述投影块的处理流程包括:
将图像输入自注意力机制获取特征图;
将自注意力机制的Q矩阵分别经过5个多层感知机,且针对每个多层感知机获取特征图元素坐标的6组坐标偏移量;
基于所述坐标偏移量,在所述特征图中每个元素对应的30个偏移元素;
将所述特征图的所有偏移元素与注意力权重进行矩阵相乘后输入FFN网络,获取所述投影块的输出;其中所述注意力权重由所述Q矩阵经过FFN网络和softmax函数后获取。
5.根据权利要求4所述的图像多任务处理系统,其特征在于:所述模型获取模块获取大语言模型包括以下步骤:
构建多个图像任务的训练图像集;
将所述训练图像集中的图像分别输入投影块和VQGAN模型的编码器后进行元素相加,获取模型输入信息;
将所述输入信息输入大语言模型,获取所述图像的多任务处理预测结果;
基于所述多任务处理预测结果计算所述大语言模型的交叉熵损失,并基于所述交叉熵损失调整所述大语言模型,直至所述大语言模型收敛。
6.根据权利要求5所述的图像多任务处理系统,其特征在于:构建多个图像任务的训练图像集包括以下步骤:
对原始图像进行语义分割,获取语义分割图和语义分割注解;
对原始图像利用矩形框进行可视化画图,获取目标识别图和目标识别注解;
将原始图像随机减去一个值,获取低亮度图;
将原始图像与随机高斯噪声进行元素相加,获取噪声图像;
将原始图像用黑色随机图像遮掩,获取损坏图像;
对原始图像进行灰度化,获取灰度图像;
基于所述原始图像、所述语义分割图和语义分割注解、所述目标识别图和目标识别注解、所述低亮度图、所述噪声图像、所述损坏图像、所述灰度图像构建训练图像集。
7.一种电子设备,其特征在于,所述电子设备包括:处理器和存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行权利要求1至3中任一项所述的图像多任务处理方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被电子设备执行时实现权利要求1至3中任一项所述的图像多任务处理方法。
CN202410742180.4A 2024-06-11 2024-06-11 图像多任务处理方法、系统、存储介质及电子设备 Active CN118314445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410742180.4A CN118314445B (zh) 2024-06-11 2024-06-11 图像多任务处理方法、系统、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410742180.4A CN118314445B (zh) 2024-06-11 2024-06-11 图像多任务处理方法、系统、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN118314445A CN118314445A (zh) 2024-07-09
CN118314445B true CN118314445B (zh) 2024-10-11

Family

ID=91730547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410742180.4A Active CN118314445B (zh) 2024-06-11 2024-06-11 图像多任务处理方法、系统、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN118314445B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058261A (zh) * 2023-08-11 2023-11-14 广州商耘网络科技有限公司 图像生成方法及其装置、设备、介质、产品
CN117114063A (zh) * 2023-08-30 2023-11-24 北京百度网讯科技有限公司 用于训练生成式大语言模型和用于处理图像任务的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002057880A (ja) * 2000-08-11 2002-02-22 Sharp Corp 画像処理装置
WO2024073087A1 (en) * 2022-09-29 2024-04-04 Google Llc Revision of and attribution for output of text generation models
US12086122B2 (en) * 2022-10-14 2024-09-10 International Business Machines Corporation Task dependency extraction sharing and notification
CN116259303A (zh) * 2023-03-13 2023-06-13 网易有道信息技术(北京)有限公司 训练多任务处理模型的方法、语音合成的方法及相关产品
KR102658238B1 (ko) * 2023-09-07 2024-04-18 아이보람 주식회사 모국어 습득 원리를 적용한 영어 교육을 수행함에 있어, 뉴럴 네트워크를 이용하여 사용자 단말에게 영어 글쓰기 서비스를 제공하는 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058261A (zh) * 2023-08-11 2023-11-14 广州商耘网络科技有限公司 图像生成方法及其装置、设备、介质、产品
CN117114063A (zh) * 2023-08-30 2023-11-24 北京百度网讯科技有限公司 用于训练生成式大语言模型和用于处理图像任务的方法

Also Published As

Publication number Publication date
CN118314445A (zh) 2024-07-09

Similar Documents

Publication Publication Date Title
CN116912353B (zh) 多任务图像处理方法、系统、存储介质及电子设备
CN114155832A (zh) 基于深度学习的语音识别方法、装置、设备及介质
CN118314445B (zh) 图像多任务处理方法、系统、存储介质及电子设备
CN118314409B (zh) 多模态图像分类方法、系统、存储介质及电子设备
CN111460126B (zh) 一种用于人机对话系统的回复生成方法、装置及电子设备
CN115565186A (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
CN116630633B (zh) 语义分割自动标注方法、系统、存储介质及电子设备
CN118587526A (zh) 基于文本分类器的图像分类方法、系统、存储介质及电子设备
CN118195964A (zh) 图像霉斑移除方法、系统、存储介质及电子设备
CN118628610A (zh) 图像筛选方法、系统、存储介质及电子设备
CN118296186B (zh) 视频广告检测方法、系统、存储介质及电子设备
CN118196775A (zh) 目标检测方法、系统、存储介质及电子设备
CN118396120A (zh) 结构化信息推理方法、系统、存储介质及电子设备
CN118338098B (zh) 多模态视频生成方法、系统、存储介质及电子设备
CN118485865A (zh) 任意关注目标分类方法、系统、介质及电子设备
CN118279611A (zh) 图像差异描述方法、系统、存储介质及电子设备
CN117975941A (zh) 多注意力多特征语音识别方法、系统、存储介质及电子设备
CN118172259A (zh) 低光图像增强方法、系统、存储介质及电子设备
CN118644720A (zh) 动物图像分类方法、系统、存储介质及电子设备
CN113992745B (zh) 活动信息推送方法、装置、电子设备及存储介质
CN118351544A (zh) 印章识别方法、系统、存储介质及电子设备
CN117351973A (zh) 音色转换方法、系统、存储介质及电子设备
CN118154883B (zh) 目标语义分割方法、系统、存储介质及电子设备
CN118609557A (zh) 视觉语音识别方法、系统、存储介质及电子设备
CN118277190A (zh) 日志分析方法、系统、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant