CN118154883B - 目标语义分割方法、系统、存储介质及电子设备 - Google Patents
目标语义分割方法、系统、存储介质及电子设备 Download PDFInfo
- Publication number
- CN118154883B CN118154883B CN202410578909.9A CN202410578909A CN118154883B CN 118154883 B CN118154883 B CN 118154883B CN 202410578909 A CN202410578909 A CN 202410578909A CN 118154883 B CN118154883 B CN 118154883B
- Authority
- CN
- China
- Prior art keywords
- target
- target operation
- image
- feature
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000004927 fusion Effects 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004891 communication Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000282816 Giraffa camelopardalis Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
- G06V10/811—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Character Input (AREA)
Abstract
本申请提供一种目标语义分割方法、系统、存储介质及电子设备,包括获取多模态信息;多模态信息包括待分割图像、提示文本与开始字符;获取待分割图像的第一图像特征和第二图像特征;获取提示文本的文本特征;基于第一图像特征、第二图像特征和文本特征获取融合特征;将开始字符作为目标操作输入信息以执行目标操作;目标操作包括基于目标操作输入信息与融合特征获取目标操作输出结果;基于目标操作输出结果更新目标操作输入信息,并重复执行目标操作,直至输出结束字符;基于全部目标操作的输出结果获取目标语义分割结果。本申请对图像中任意目标进行语义分割,解除固定类别掩码的限制,提高分割的效率与精度。
Description
技术领域
本申请属于计算机视觉领域的技术领域,特别是涉及一种目标语义分割方法、系统、存储介质及电子设备。
背景技术
语义分割是一种典型的计算机视觉问题,能够应用于诸多应用领域,包括地理信息、无人驾驶、医疗影像分析、机器人等领域。实际上,语义分割技术涉及将一些原始数据(例如,平面图像)作为输入,并将图像中的每个像素根据其所属的感兴趣对象被分配类别ID,从而将输入图像转换为具有突出显示的目标区域的掩码,从而进行语义分割。
目前,主流的语义分割网络大都基于编码器-解码器结构,主要对输入图像进行下采样,生成分辨率较低的特征映射,从而实现高效分类,之后再通过上采样将特征还原为全分辨率分割图。但是,目前技术通常会受到固定类别掩码的限制,从而不能对图像中任意目标区域都进行分割。
发明内容
本申请的目的在于提供一种目标语义分割方法、系统、存储介质及电子设备,能够对图像中任意目标区域进行分割。
第一方面,本申请提供一种目标语义分割方法,所述方法包括:获取多模态信息;所述多模态信息包括待分割图像、提示文本与开始字符;获取所述待分割图像的第一图像特征和第二图像特征;获取所述提示文本的文本特征;基于所述第一图像特征、所述第二图像特征和所述文本特征获取融合特征;将所述开始字符作为目标操作输入信息以执行目标操作;所述目标操作包括基于所述目标操作输入信息与所述融合特征获取目标操作输出结果;基于所述目标操作输出结果更新所述目标操作输入信息,并重复执行所述目标操作,直至输出结束字符;基于全部所述目标操作的输出结果获取目标语义分割结果。
在第一方面的一种实现方式中,获取所述待分割图像的第一图像特征和第二图像特征包括:基于VIT模型获取所述第一图像特征;基于transformer encoder模型对所述第一图像特征进行融合,以获取所述第二图像特征。
在第一方面的一种实现方式中,获取所述提示文本的文本特征包括:基于CLIP文本编码器获取所述文本特征。
在第一方面的一种实现方式中,基于所述第一图像特征、所述第二图像特征和所述文本特征获取融合特征包括:基于所述文本特征和所述第二图像特征获取文本图像矩阵;基于所述文本图像矩阵、所述第一图像特征和所述第二图像特征获取所述融合特征。
在第一方面的一种实现方式中,所述目标操作包括:基于所述目标操作输入信息与所述融合特征获取交叉注意力结果;将所述交叉注意力结果输入多层感知机,并通过softmax函数获取所述目标操作输出结果;所述目标操作输出结果包括所述待分割图像中目标区域的坐标信息与特殊字符。
在第一方面的一种实现方式中,基于所述目标操作的输出结果更新所述目标操作输入信息包括:将所述目标区域的坐标信息与所述特殊字符添加至所述目标操作输入信息中,以更新所述目标操作输入信息。
在第一方面的一种实现方式中,基于全部所述目标操作的输出结果获取目标语义分割结果包括:基于全部所述目标区域的坐标信息获取目标区域;基于所述目标区域生成掩码以获取目标语义分割结果。
第二方面,本申请提供一种目标语义分割系统,所述系统包括:第一获取模块,用于获取多模态信息;所述多模态信息包括待分割图像、提示文本与开始字符;第二获取模块,用于获取所述待分割图像的第一图像特征和第二图像特征;第三获取模块,用于获取所述提示文本的文本特征;融合模块,用于基于所述第一图像特征、所述第二图像特征和所述文本特征获取融合特征;目标操作模块,用于将所述开始字符作为目标操作输入信息以执行目标操作;所述目标操作包括基于所述目标操作输入信息与所述融合特征获取目标操作输出结果;更新模块,用于基于所述目标操作输出结果更新所述目标操作输入信息,并重复执行所述目标操作,直至输出结束字符;分割模块,用于基于全部所述目标操作的输出结果获取目标语义分割结果。
第三方面,本申请提供一种电子设备,所述电子设备包括:处理器和存储器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行上述的目标语义分割方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该程序被电子设备执行时实现上述的目标语义分割方法。
如上所述,本申请所述的目标语义分割方法、系统、存储介质及电子设备,具有以下有益效果:本申请通过引入提示文本与特殊字符,能够对图像中任意目标进行语义分割,解除固定类别掩码的限制,提高分割的效率与精度。
附图说明
图1显示为本申请的电子设备于一实施例中的场景示意图。
图2显示为本申请实施例所述的目标语义分割方法于一实施例中的流程图。
图3显示为本申请实施例所述的目标语义分割方法于一实施例中的流程图。
图4显示为本申请实施例所述的目标语义分割方法于一实施例中的流程图。
图5显示为本申请实施例所述的目标语义分割方法于一实施例中的流程图。
图6显示为本申请实施例所述的目标语义分割系统于一实施例中的结构示意图。
图7显示为本申请的电子设备于一实施例中的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,遂图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在本申请中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
本申请以下实施例提供了目标语义分割方法,其可应用于如图1所示的电子设备。本申请中所述电子设备可以包括具备无线充电功能的手机11、平板电脑12、笔记本电脑13、可穿戴设备、车载设备、增强现实(Augmented Reality,AR)/虚拟现实(Virtual Reality,VR)设备、超级移动个人计算机(Ultra-Mobile Personal Computer,UMPC)、上网本、个人数字助理(Personal Digital Assistant,PDA)等,本申请实施例对电子设备的具体类型不作任何限制。
例如,所述电子设备可以是具备无线充电功能的 WLAN 中的站点(STAION,ST),可以是具备无线充电功能的蜂窝电话、无绳电话、会话启动协议(SessionInitiationProtocol,SIP)电话、无线本地环路(WirelessLocal Loop,WLL)站、个人数字处理(Personal Digital Assistant,PDA)设备、具备无线充电功能的手持设备、计算设备或其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式计算设备、和/或用于在无线系统上进行通信的其它设备以及下一代通信系统,例如,5G 网络中的移动终端、未来演进的公共陆地移动网络(PublicLand Mobile Network,PLMN)中的移动终端或者未来演进的非地面网络(Non-terrestrial Network,NTN)中的移动终端等。
例如,所述电子设备可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobilecommunication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access,WCDMA)、长期演进(Long Term Evolution,LTE))、电子邮件、短消息服务(Short Messaging Service,SMS)、BT,GNSS,WLAN,NFC,FM,和/或 IR 技术等。所述 GNSS可以包括全球卫星定位系统 (Global Positioning System,GPS),全球导航卫星系统(Global Navigation Satellite System,GLONASS),北斗卫星导航系统(BeiDounavigation Satellite System,BDS),准天顶卫星系统(Quasi-Zenith SatelliteSystem,QZSS)和/或星基增强系统(Satellite Based Augmentation Systems,SBAS)。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行详细描述。
如图2所示,于一实施例中,本申请的目标语义分割方法包括步骤S1-步骤S7。
S1:获取多模态信息;所述多模态信息包括待分割图像、提示文本与开始字符。
具体的,通过所述提示文本确定待分割目标,例如“从左至右第二只长颈鹿”、“穿红色裙子的女人”等。
具体的,开始字符为<SOS>。
S2:获取所述待分割图像的第一图像特征和第二图像特征。
具体的,基于VIT模型获取所述第一图像特征。VIT(Vision Transformer)模型将Transformer结构应用于视觉领域中,其将输入图像划分为patches,并将铺平后的parches的线性映射到更低维的空间,然后将patches编码为一个embedding序列,并用一个额外的[CLS]标记来代表全局图像特征。与与使用预训练的目标检测器进行视觉特征提取相比,使用VIT模型更便于计算,并且已经逐渐成为主流。
在一些实施例中,将所述待分割图像输入VIT模型中,VIT模型输出第一图像特征。
具体的,基于transformer encoder模型对所述第一图像特征进行融合,以获取所述第二图像特征。
在一些实施例中,将所述第一图像特征输入transformer encoder模型中,深度融合图像局部区域之间的信息,从而输出第二图像特征。所述第二图像特征的形状为(784,512)。
S3:获取所述提示文本的文本特征。
具体的,基于CLIP文本编码器获取所述文本特征。CLIP(Contrastive Language-Image Pre-training)模型是一种基于对比学习的多模态模型,其通过对比学习,能够学习到文本-图像对的匹配关系。CLIP模型将图像和文本分别输入一个图像编码器和一个文本编码器,得到图像和文本的向量表示,然后将图像和文本向量表示映射到一个联合的多模态空间,从而得到新的可以直接进行比较的图像和文本向量。其中,文本编码器可以采用NLP中常用的text transformer模型。
在一些实施例中,将所述提示文本输入CLIP文本编码器中,CLIP文本编码器输出文本特征。所述文本特征的形状为(1,512)。
S4:基于所述第一图像特征、所述第二图像特征和所述文本特征获取融合特征。
具体的,如图3所示,步骤S4包括步骤S41和S42。
S41:基于所述文本特征和所述第二图像特征获取文本图像矩阵。
具体的,将所述文本特征和所述第二图像特征进行拼接,得到拼接矩阵,其形状为(1 + 784,512)。之后,将所述拼接矩阵输入transformer encoder模型中,利用transformer encoder融合拼接矩阵中各模态之间的信息,输出所述文本图像矩阵。其中,所述文本图像矩阵的形状与拼接矩阵相同,同样为(1 + 784,512)。
S42:基于所述文本图像矩阵、所述第一图像特征和所述第二图像特征获取所述融合特征。
具体的,取所述文本图像矩阵中最后一个时刻的向量作为Q,将所述第一图像特征作为V,并将所述第二图像特征作为K,一同输入交叉注意力机制(cross-attention’)中,以此融合融合浅层图像信息、深层图像信息和文本信息,得到融合特征。
S5:将所述开始字符作为目标操作输入信息以执行目标操作;所述目标操作包括基于所述目标操作输入信息与所述融合特征获取目标操作输出结果。
具体的,如图4所示,步骤S5包括步骤S51和S52。
S51:基于所述目标操作输入信息与所述融合特征获取交叉注意力结果。
具体的,将所述开始字符<SOS>输入多头自注意力机制,并进行层归一化后得到Q,并将步骤S4获取的所述融合特征作为K和V,一同输入交叉注意力机制中,以获取交叉注意力结果。
S52:将所述交叉注意力结果输入多层感知机,并通过softmax函数获取目标操作输出结果;所述目标操作输出结果包括所述待分割图像中目标区域的坐标信息与特殊字符。
具体的,将所述交叉注意力结果输入多层感知机,并通过softmax函数获取目标操作输出结果包括以下步骤:
(1)将所述交叉注意力结果输入第一多层感知机,并通过softmax函数获取所述坐标信息中的横坐标信息,也即X坐标。
需要说明的是,X坐标值介于0~图像宽之间。
(2)将所述交叉注意力结果输入第二多层感知机,并通过softmax函数获取所述坐标信息中的纵坐标信息,也即Y坐标。
需要说明的是,Y坐标值介于0~图像高之间。
(3)将所述交叉注意力结果输入第三多层感知机,并通过softmax函数获取所述特殊字符。
在一些实施例中,所述特殊字符包括<SEP>,<CONTINUE>,<EOS>。
其中,<SEP>为前一目标区域的坐标信息输出完成字符。由于所述待分割图像中可能存在多个目标区域,因此,当每个目标区域的坐标信息输出完成时,通过<SEP>进行分离。
其中,<CONTINUE>为继续字符。如果获取的特殊字符是<CONTINUE>,则继续补充该目标区域的坐标信息;如果输出的特殊字符不是<CONTINUE>,则将输出的特殊字符(<SEP>或<EOS>)加入至结果集合中。
其中,<EOS>为结束字符。当所述待分割图像中所有目标区域的坐标信息均输出完成时,输出结束字符,以结束目标操作。
需要说明的是,结果集合为按照目标操作的顺序收集的每次目标操作输出结果。
S6:基于所述目标操作输出结果更新所述目标操作输入信息,并重复执行所述目标操作,直至输出所述结束字符。
具体的,将所述目标区域的坐标信息与所述特殊字符添加至所述目标操作信息中,以更新所述目标操作输入信息。即对于每一次目标操作的输入,都需要将前一次目标操作的输出结果添加至前一次的目标操作输入信息后面,以作为新的目标操作输入信息,执行目标操作。
需要说明的是,当出现结束字符<EOS>,不再重复执行目标操作,此时将之前执行获取的所有目标操作输出结果作为结果集合进行输出。其中,结果集合中包括了全部目标区域的坐标信息。其中,多个目标区域的坐标信息之间通过<SEP>进行分离。
需要说明的是,当出现<SEP>时,坐标信息和<SEP>均将添加至前一次的目标操作信息中,以作为新的输入,执行新的目标操作。
需要说明的是,当出现<CONTINUE>字符时,将前一次的坐标信息添加至前一次的目标操作输入信息中,以作为新的输入,并执行新的目标操作,从而继续补充某一目标区域的坐标信息。
例如,第一次输入为“<SOS>”,第二次输入为“<SOS>X坐标Y坐标”,第三次输入为“<SOS>X坐标Y坐标X坐标Y坐标”,第四次输入为“<SOS>X坐标Y坐标X坐标Y坐标X坐标Y坐标<SEP>”。
S7:基于全部所述目标操作的输出结果获取目标语义分割结果。
具体的,基于全部所述目标区域的坐标信息获取目标区域,并基于所述目标区域生成掩码以获取目标语义分割结果。
在一些实施例中,当步骤S6输出结束字符<EOS>时,步骤S7生成一个和输入图像相同尺寸的全零矩阵,并根据结果集合中全部的坐标信息可以确定对应多个目标区域的多组坐标信息(多组坐标信息之间由<SEP>分离),也即确定了多个目标区域。之后,将目标区域内的元素替换为1,即可生成掩码,1为关注目标,0为背景,从而进行语义分割。
如图5所示,为本申请所提供的目标语义分割方法于一实施例中的流程示意图。
本申请实施例所述的目标语义分割方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本申请的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本申请的保护范围内。
本申请实施例还提供一种目标语义分割系统,所述目标语义分割系统可以实现本申请所述的目标语义分割方法,但本申请所述的目标语义分割系统的实现装置包括但不限于本实施例列举的目标语义分割系统的结构,凡是根据本申请的原理所做的现有技术的结构变形和替换,都包括在本申请的保护范围内。
如图6所示,于一实施例中,本申请的目标语义分割系统包括第一获取模块41、第二获取模块42、第三获取模块43、融合模块44、目标操作模块45、更新模块46和分割模块47。
第一获取模块41,用于获取多模态信息;所述多模态信息包括待分割图像、提示文本与开始字符。
第二获取模块42,用于获取所述待分割图像的第一图像特征和第二图像特征。
第三获取模块43,用于获取所述提示文本的文本特征。
融合模块44,用于基于所述第一图像特征、所述第二图像特征和所述文本特征获取融合特征。
目标操作模块45,用于将所述开始字符作为目标操作输入信息以执行目标操作;所述目标操作包括基于所述目标操作输入信息与所述融合特征获取目标操作输出结果。
更新模块46,用于基于所述目标操作输出结果更新所述目标操作输入信息,并重复执行所述目标操作,直至输出结束字符。
分割模块47,用于基于全部所述目标操作的输出结果获取目标语义分割结果。
其中,第一获取模块41、第二获取模块42、第三获取模块43、融合模块44、目标操作模块45、更新模块46和分割模块47的结构和原理与上述目标语义分割方法中的步骤一一对应,故在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置或方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅是示意性的,例如,模块/单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或单元可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块/单元可以是或者也可以不是物理上分开的,作为模块/单元显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块/单元来实现本申请实施例的目的。例如,在本申请各个实施例中的各功能模块/单元可以集成在一个处理模块中,也可以是各个模块/单元单独物理存在,也可以两个或两个以上模块/单元集成在一个模块/单元中。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例还提供了一种计算机可读存储介质。本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(magnetic tape),软盘(floppy disk),光盘(optical disc)及其任意组合。上述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本申请实施例还提供了一种电子设备。所述电子设备包括处理器和存储器。
所述存储器用于存储计算机程序。
所述存储器包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使所述电子设备执行上述的目标语义分割方法。
优选地,所述处理器可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
如图7所示,本申请的电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于:一个或者多个处理器或者处理单元51,存储器52,连接不同系统组件(包括存储器52和处理单元51)的总线53。
总线53表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器52可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)521和/或高速缓存存储器522。电子设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统523可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM ,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线53相连。存储器52可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块5241的程序/实用工具524,可以存储在例如存储器52中,这样的程序模块5241包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块5241通常执行本申请所描述的实施例中的功能和/或方法。
电子设备也可以与一个或多个外部设备(例如键盘、指向设备、显示器等)通信,还可与一个或者多个使得用户能与该电子设备交互的设备通信,和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口54进行。并且,电子设备还可以通过网络适配器55与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图7所示,网络适配器55通过总线53与电子设备的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
本申请实施例还可以提供一种计算机程序产品,所述计算机程序产品包括一个或多个计算机指令。在计算设备上加载和执行所述计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机或数据中心进行传输。
所述计算机程序产品被计算机执行时,所述计算机执行前述方法实施例所述的方法。该计算机程序产品可以为一个软件安装包,在需要使用前述方法的情况下,可以下载该计算机程序产品并在计算机上执行该计算机程序产品。
本申请提供了一种目标语义分割方法、系统、存储介质及电子设备,通过引入提示文本与特殊字符,能够对图像中任意目标进行语义分割,解除固定类别掩码的限制,提高分割的效率与精度。
上述各个附图对应的流程或结构的描述各有侧重,某个流程或结构中没有详述的部分,可以参见其他流程或结构的相关描述。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。
Claims (9)
1.一种目标语义分割方法,其特征在于,所述方法包括:
获取多模态信息;所述多模态信息包括待分割图像、提示文本与开始字符;
获取所述待分割图像的第一图像特征和第二图像特征;
获取所述提示文本的文本特征;
基于所述第一图像特征、所述第二图像特征和所述文本特征获取融合特征;
将所述开始字符作为目标操作输入信息以执行目标操作;所述目标操作包括基于所述目标操作输入信息与所述融合特征获取目标操作输出结果;所述目标操作输出结果包括所述待分割图像中目标区域的坐标信息与特殊字符;
基于所述目标操作输出结果更新所述目标操作输入信息,并重复执行所述目标操作,直至输出结束字符;其中,基于所述目标操作的输出结果更新所述目标操作输入信息包括:将所述目标区域的坐标信息与所述特殊字符添加至所述目标操作输入信息中,以更新所述目标操作输入信息;
基于全部所述目标操作输出结果获取目标语义分割结果。
2.根据权利要求1所述的目标语义分割方法,其特征在于,获取所述待分割图像的第一图像特征和第二图像特征包括:
基于VIT模型获取所述第一图像特征;
基于transformer encoder模型对所述第一图像特征进行融合,以获取所述第二图像特征。
3.根据权利要求1所述的目标语义分割方法,其特征在于,获取所述提示文本的文本特征包括:
基于CLIP文本编码器获取所述文本特征。
4.根据权利要求1所述的目标语义分割方法,其特征在于,基于所述第一图像特征、所述第二图像特征和所述文本特征获取融合特征包括:
基于所述文本特征和所述第二图像特征获取文本图像矩阵;
基于所述文本图像矩阵、所述第一图像特征和所述第二图像特征获取所述融合特征。
5.根据权利要求1所述的目标语义分割方法,其特征在于,所述目标操作包括:
基于所述目标操作输入信息与所述融合特征获取交叉注意力结果;
将所述交叉注意力结果输入多层感知机,并通过softmax函数获取所述目标操作输出结果。
6.根据权利要求5所述的目标语义分割方法,其特征在于,基于全部所述目标操作的输出结果获取目标语义分割结果包括:
基于全部所述目标区域的坐标信息获取目标区域;
基于所述目标区域生成掩码以获取目标语义分割结果。
7.一种目标语义分割系统,其特征在于,所述系统包括:
第一获取模块,用于获取多模态信息;所述多模态信息包括待分割图像、提示文本与开始字符;
第二获取模块,用于获取所述待分割图像的第一图像特征和第二图像特征;
第三获取模块,用于获取所述提示文本的文本特征;
融合模块,用于基于所述第一图像特征、所述第二图像特征和所述文本特征获取融合特征;
目标操作模块,用于将所述开始字符作为目标操作输入信息以执行目标操作;所述目标操作包括基于所述目标操作输入信息与所述融合特征获取目标操作输出结果;所述目标操作输出结果包括所述待分割图像中目标区域的坐标信息与特殊字符;
更新模块,用于基于所述目标操作输出结果更新所述目标操作输入信息,并重复执行所述目标操作,直至输出结束字符;其中,基于所述目标操作的输出结果更新所述目标操作输入信息包括:将所述目标区域的坐标信息与所述特殊字符添加至所述目标操作输入信息中,以更新所述目标操作输入信息;
分割模块,用于基于全部所述目标操作的输出结果获取目标语义分割结果。
8.一种电子设备,其特征在于,所述电子设备包括:处理器和存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行权利要求1至6中任一项所述的目标语义分割方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被电子设备执行时实现权利要求1至6中任一项所述的目标语义分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410578909.9A CN118154883B (zh) | 2024-05-11 | 2024-05-11 | 目标语义分割方法、系统、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410578909.9A CN118154883B (zh) | 2024-05-11 | 2024-05-11 | 目标语义分割方法、系统、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118154883A CN118154883A (zh) | 2024-06-07 |
CN118154883B true CN118154883B (zh) | 2024-09-13 |
Family
ID=91288970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410578909.9A Active CN118154883B (zh) | 2024-05-11 | 2024-05-11 | 目标语义分割方法、系统、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118154883B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11120276B1 (en) * | 2020-07-30 | 2021-09-14 | Tsinghua University | Deep multimodal cross-layer intersecting fusion method, terminal device, and storage medium |
CN117152431A (zh) * | 2023-08-21 | 2023-12-01 | 宁波工程学院 | 基于多模态特征融合的图像语义分割算法及应用 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102167808B1 (ko) * | 2020-03-31 | 2020-10-20 | 한밭대학교 산학협력단 | Ar에 적용 가능한 의미적인 분할 방법 및 시스템 |
US11783611B2 (en) * | 2020-09-01 | 2023-10-10 | Sap Se | Machine learning for document compression |
CN116012570A (zh) * | 2021-10-22 | 2023-04-25 | 华为技术有限公司 | 一种识别图像中文本信息的方法、设备及系统 |
-
2024
- 2024-05-11 CN CN202410578909.9A patent/CN118154883B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11120276B1 (en) * | 2020-07-30 | 2021-09-14 | Tsinghua University | Deep multimodal cross-layer intersecting fusion method, terminal device, and storage medium |
CN117152431A (zh) * | 2023-08-21 | 2023-12-01 | 宁波工程学院 | 基于多模态特征融合的图像语义分割算法及应用 |
Also Published As
Publication number | Publication date |
---|---|
CN118154883A (zh) | 2024-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20250024088A1 (en) | Video generation method and apparatus, and device and storage medium | |
CN118154883B (zh) | 目标语义分割方法、系统、存储介质及电子设备 | |
CN118135571B (zh) | 图像语义分割方法、系统、存储介质及电子设备 | |
CN118196775A (zh) | 目标检测方法、系统、存储介质及电子设备 | |
WO2024212485A1 (zh) | Ocr识别方法、系统、存储介质及电子设备 | |
US20240111793A1 (en) | Method and apparatus for retrieving 3d map | |
CN118587624A (zh) | 目标跟踪方法及系统、介质及电子设备 | |
CN118196695B (zh) | 视频语义分割方法、系统、存储介质及电子设备 | |
CN116630633B (zh) | 语义分割自动标注方法、系统、存储介质及电子设备 | |
CN118314409B (zh) | 多模态图像分类方法、系统、存储介质及电子设备 | |
CN113240780B (zh) | 生成动画的方法和装置 | |
CN116310408A (zh) | 一种建立事件相机与帧相机数据关联的方法及装置 | |
CN116701708B (zh) | 多模态增强的视频分类方法、系统、存储介质及电子设备 | |
CN118338098B (zh) | 多模态视频生成方法、系统、存储介质及电子设备 | |
CN118172259B (zh) | 低光图像增强方法、系统、存储介质及电子设备 | |
CN115700519A (zh) | 一种文本到图像的生成方法、装置、存储介质及终端 | |
CN118230226B (zh) | 一种视频目标定位方法、系统、介质及电子设备 | |
CN118283201B (zh) | 视频合成方法、系统、存储介质及电子设备 | |
CN118229586A (zh) | 目标破损图像补全方法、系统、存储介质及电子设备 | |
CN116912871B (zh) | 身份证信息抽取方法、系统、存储介质及电子设备 | |
CN118379737B (zh) | 多模态通用感知模型训练、标注方法及装置、电子设备 | |
CN118411511A (zh) | 实例分割方法、系统、存储介质及电子设备 | |
CN118628610A (zh) | 图像筛选方法、系统、存储介质及电子设备 | |
CN118484559A (zh) | 图像描述筛选方法、系统、存储介质及电子设备 | |
CN118506339A (zh) | 视频字幕识别方法、系统、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |