CN117173409A - 一种实时的交互式图像分割方法 - Google Patents
一种实时的交互式图像分割方法 Download PDFInfo
- Publication number
- CN117173409A CN117173409A CN202311123978.2A CN202311123978A CN117173409A CN 117173409 A CN117173409 A CN 117173409A CN 202311123978 A CN202311123978 A CN 202311123978A CN 117173409 A CN117173409 A CN 117173409A
- Authority
- CN
- China
- Prior art keywords
- interactive
- segmentation
- click
- image
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000003709 image segmentation Methods 0.000 title claims abstract description 12
- 230000011218 segmentation Effects 0.000 claims abstract description 49
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 230000000007 visual effect Effects 0.000 claims abstract description 8
- 230000003993 interaction Effects 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 7
- 238000004088 simulation Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 2
- 230000002860 competitive effect Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
一种实时的交互式图像分割方法,涉及计算机视觉。采用一种全新的流程来处理交互分割问题,旨在提高交互式分割的计算效率。包括如下步骤:步骤1,在高性能设备上采用大型视觉模型并行预处理图像;步骤2,在低功耗设备上,轻量级的分割模块利用预处理的图像特征实时有效地响应标注器的输入,从图像中准确地分割出目标区域,并根据用户的反馈不断提高分割准确度。只需使用一个轻量级模块在低功耗设备上执行交互式分割,该模块将来自大模型的预处理特征与标注者的点击作为输入。在保持模型分割性能具有竞争力的同时,优化模型推理流程,提高计算效率。
Description
技术领域
本发明涉及计算机视觉,尤其是涉及一种实时的交互式图像分割方法。
背景技术
在海量数据的推动下,深度网络在各种计算机视觉任务中实现引人注目的性能。准确标注数据的可用性对于深度网络的成功至关重要,然而,手动标注的过程会占用大量的时间和计算资源。因此,逐步发展起来的交互式图像分割已经成为标注大规模图像数据集不可或缺的工具。这种技术旨在通过有限的交互实现高质量的像素级标注,包括涂鸦、边界框、多边形、点击或一些上述方法的组合。在众多交互式图像分割方法中,基于点击的方法因其简单高效而备受关注。因此,本发明专注于基于点击的方法,并尝试解决其在实际应用中的计算和效率问题。
近期关于点击的交互式分割方向的研究集中在结合复杂工程优化的各种细节优化模块上,如Focuscut(ZhengLin,etal.,Focuscut:Divingintoafocusviewininteractivesegmentation.pages2637-2646,2022.)、FocalClick(XiChen,etal.,Focalclick:towardspracticalinteractive imagesegmentation.pages1300-1309,2022)等。然而,这些细节优化技巧仍然需要在交互过程的早期阶段获得良好的分割结果,而在低功耗设备上部署计算密集型模型时,获得这样的结果仍然面临挑战。例如,通过众包平台利用交互式分割模型仍具有挑战性。之前一些方法,如FocalClick,通过使用轻量级模型和对输入进行下采样来缓解这个问题,但这种策略牺牲细节分割质量。因此,仍需要一种计算友好型的、能够在大部分低算力设备上使用的交互式分割方法。
低效的交互式分割可能源于两个主要原因。首先,每个标注者的点击对应于一次模型推理,而下一次点击的位置取决于之前的推理结果。这种串行交互方式使得每次推理过程只处理一个样本,无法充分利用GPU的并行计算能力。其次,在同一图像上进行标注期间,模型的输入在整个过程中高度相似,其中稀疏的点击是唯一的区别性信息。这导致模型在每次推理过程中提取高度相似的特征,导致严重的计算冗余。这两个问题共同导致计算效率低下。为提高交互式分割的计算效率,需要解决这些潜在问题。
发明内容
本发明的目的在于针对现有技术存在的上述技术问题,提供一种实时的交互式图像分割方法,提高交互式分割的计算效率和分割质量,并实现在仅使用CPU的设备上实时进行高质量的交互式分割,解决现有交互式图像分割流程的效率问题,并为大模型在交互分割领域的应用提供可行路径。
为了达成上述目的,本发明的解决方案是:
一种实时的交互式图像分割方法,包括如下步骤:
步骤1,在高性能设备上利用预训练的大型视觉模型Vision Transformer进行图像特征编码,得到高质量图像特征;将最后一层的特征图利用Feature PyramidNetwork转换为多尺度特征图,特征图边长分别为原图大小的1/4,1/8,1/16,1/32;
步骤2,使用轻量级的交互式分割模块,实时处理图像特征和用户输入;交互分割方法训练及测试包括如下步骤:
步骤a1,对用户输入的点击数据进行编码;具体来说,本方法中维护一个交互式像素分类掩码来标识已有的目标区域的分割结果,并表示当前的点击图,每次交互时会对其进行更新;标记规则如下:掩码中每个像素根据其前景/背景置信度被分类为Dfg(确定前景),Pfg(可能前景),U(未知),Pbg(可能背景),Dbg(确定背景);点击像素及一定范围内的周围像素的标记一旦确定将会在整个交互过程中保持固定,标记值为Dfg或Dbg;根据当前的交互式像素分类掩码和分割结果,动态更新其余像素的标记;该像素分类掩码的所有像素标记均被初始化为U;
步骤a2,将用户点击编码与图像预处理特征结合;将置信度掩码转化为编码 随后,调整大小与最后一层特征图的长宽匹配,并对二者进行求和处理,得到点击特征Fc,送入后续的解码器中,如公式1所示:
Fc=Resize(Ec)+F4 (1)
步骤a3,使用本发明的交互式多头自注意模块将高质量图像特征与经过初步处理的用户点击编码进行进一步的融合;与之前的方法不同,本发明通过一种降低计算复杂度的策略来处理点击图,不再将点击图作为附加通道添加到特征图中,这避免了深层卷积结构和高计算量的问题;相反,本发明采用浅层的解码器结构,并结合交互注意结构来提升模型性能;具体来说,将涉及点击的特征Fc作为自注意力机制中的查询值,而预处理得到的图像特征Fi,1≤i≤4作为键,且值与键共享相同的特征,从而完成点击特征和图像特征之间的信息交互;将常规的自注意力模块表示为MSA(A,B),由此,将交互注意表述为MSA(Fc,Fi),如公式2所示:
(Q,K,V)(Fc,Fi)=(FcWq,FiWk,FiWv)1≤i≤4 (2)
在本方法中,分别输入四层不同尺度的特征图到交互注意模块中,上一层的输出作为下一层的查询输入;
步骤a4,采用放大聚焦策略以提高注意力模块的效率;首先,在特征图上选择感兴趣的分割区域(ROI),然后将ROI区域放大1.4倍,并保证其最大边长为32的倍数,以获取足够的上下文信息;接着,将裁剪后的特征馈送到每个阶段的深层块中,并将其融合回完整的特征中;
步骤a5,为了进一步降低注意力模块的计算复杂度,采用特殊池化策略;使用一系列具有不同池化比率的平均池化层对MSA(Fc,Fi)的输入Fi,1≤i≤4进行预处理;
Pi=AvgPooli(Fi)1≤i≤4 (3)
步骤a6,使用深度卷积处理上述步骤所得的多尺度特征金字塔,展平并连接以产生较短的特征序列,最后将这些汇集的特征输入到MSA(A,·)中,执行自注意力操作;
步骤a7,最后经过卷积层及上采样得到最终的掩码预测结果;将像素级别的预测结果及标签进行Normalized Focal Loss作为网络的损失;
步骤a8,在训练以及标准测试流程中,根据预测结果与掩码标签,寻找误差最大的联通区域,选择该区域中心像素作为模拟的下一次点击的位置;根据误差区域的预测结果,判断该点击是正向点击(针对假阴预测)还是负向点击(针对假阳预测),并迭代进行下一次模型预测;在真实测试环境中,则根据用户的交互点击反馈进行迭代预测,逐步提高分割质量。
采用上述方案后,本发明具有以下突出优点:
第一,本发明采用全新的交互分割流程,将交互过程分为两个阶段,利用大型模型的优势加速交互,从而展示比最近提出的方法更快的推理速度和更好的分割结果。
第二,本发明提出一种名为I-MSA的交互式注意模块,在不增加额外计算复杂度的前提下有效提升模型表现,利用预处理的特征在仅使用CPU的设备上实现高质量的实时交互式分割。
附图说明
图1是本发明网络结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下实施例将结合附图对本发明进行作进一步的说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,以下对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
图1给出本发明网络结构示意图。本发明提出一种名为新的交互分割方法,旨在提高交互式分割的计算效率。在交互过程之前,本方法利用大视觉模型,例如高性能设备上的视觉Transformer模型(ViT)(Alexey Dosovitskiy,Lucas Beyer,Alexander Kolesnikov,Dirk Weissenborn,Xiaohua Zhai,Thomas Unterthiner,Mostafa Dehghani,MatthiasMinderer,Georg Heigold,Sylvain Gelly,Jakob Uszkoreit,and Neil Houlsby.Animage is worth 16x16 words:Transformers for image recognition at scale.In 9thInternational Conference on Learning Representations,ICLR 2021,Virtual Event,Austria,May3-7,2021.OpenReview.net,2021),从要标注的图像中提取高质量的特征。这一步骤是离线完成的,因此不需要实时性能。接着,本方法只需使用一个轻量级模块在低功耗设备上执行交互式分割,该模块将来自大模型的预处理特征与标注者的点击作为输入。此外,本发明提出交互式多头自注意力模块,这是一种高效的交互式分割模块,其计算复杂度极低,并且针对大型模型预处理特征的高利用率进行了优化。本发明中还提供可选用的聚焦放大策略,对交互式多头自注意力模块的较深块进行微调,以便更有效地处理图像中潜在对象的区域,这使其推理速度进一步提高。总体而言,本方法在保持模型分割性能具有竞争力的同时,优化模型推理流程,提高计算效率。
本发明实施例提供一种实时的交互式分割方法,包括如下步骤:
步骤1,在高性能设备上利用预训练的大型视觉模型Vision Transformer进行图像特征编码,得到高质量图像特征。然后将最后一层的特征图利用FeaturePyramidNetwork转换为多尺度特征图,特征图边长分别为原图大小的1/4,1/8,1/16,1/32。
步骤2,使用轻量级的交互式分割模块,实时处理图像特征和用户输入。交互分割方法训练及测试包括如下步骤:
步骤al,对用户输入的点击数据进行编码。具体来说,本方法中维护一个交互式像素分类掩码来标识已有的目标区域的分割结果,并表示当前的点击图,每次交互时会对其进行更新。标记规则如下:掩码中每个像素根据其前景/背景置信度被分类为Dfg(确定前景),Pfg(可能前景),U(未知),Pbg(可能背景),Dbg(确定背景);点击像素及一定范围内的周围像素的标记一旦确定将会在整个交互过程中保持固定,标记值为Dfg或Dbg;根据当前的交互式像素分类掩码和分割结果,动态更新其余像素的标记;该像素分类掩码的所有像素标记均被初始化为U。
步骤a2,将用户点击编码与图像预处理特征结合。将置信度掩码转化为编码 随后,调整大小与最后一层特征图的长宽匹配,并对二者进行求和处理,得到点击特征Fc,送入后续的解码器中,如公式1所示:
Fc=Resize(Ec)+F4 (1)
步骤a3,使用本发明的交互式多头自注意模块将高质量图像特征与经过初步处理的用户点击编码进行进一步的融合。与之前的方法不同,本发明通过一种降低计算复杂度的策略来处理点击图,不再将点击图作为附加通道添加到特征图中,这避免了深层卷积结构和高计算量的问题。相反,本发明采用了浅层的解码器结构,并结合交互注意结构来提升模型性能。具体来说,将涉及点击的特征Fc作为自注意力机制中的查询值,而预处理得到的图像特征Fi,1≤i≤4作为键,且值与键共享相同的特征,从而完成点击特征和图像特征之间的信息交互。将常规的自注意力模块表示为MSA(A,B),由此,将交互注意表述为MSA(Fc,Fi),如公式2所示:
(Q,K,V)(Fc,Fi)=(FcWq,FiWk,FiWv)1≤i≤4 (2)
在本方法中,分别输入四层不同尺度的特征图到交互注意模块中,上一层的输出作为下一层的查询输入。
步骤a4,采用放大聚焦策略以提高注意力模块的效率。首先,在特征图上选择感兴趣的分割区域(ROI),然后将ROI区域放大1.4倍,并保证其最大边长为32的倍数,以获取足够的上下文信息。接着,将裁剪后的特征馈送到每个阶段的深层块中,并将其融合回完整的特征中。
步骤a5,为了进一步降低注意力模块的计算复杂度,采用特殊池化策略。使用一系列具有不同池化比率的平均池化层对MSA(Fc,Fi)的输入Fi,1≤i≤4进行预处理。
Pi=AvgPooli(Fi)1≤i≤4 (3)
步骤a6,使用深度卷积处理上述步骤所得的多尺度特征金字塔,展平并连接以产生较短的特征序列,最后将这些汇集的特征输入到MSA(A,·)中,执行自注意力操作。
步骤a7,最后经过卷积层及上采样得到最终的掩码预测结果。将像素级别的预测结果及标签进行Normalized Focal Loss作为网络的损失。
步骤a8,在训练以及标准测试流程中,根据预测结果与掩码标签,寻找误差最大的连通区域,选择该区域中心像素作为模拟的下一次点击的位置。根据误差区域的预测结果,判断该点击是正向点击(针对假阴预测)还是负向点击(针对假阳预测),并迭代进行下一次模型预测。在真实测试环境中,则根据用户的交互点击反馈进行迭代预测,逐步提高分割质量。
本发明的技术效果通过以下仿真实验作进一步的说明。
1)仿真条件
本发明在Ubuntu平台上进行开发,开发的深度学习框架基于Pytorch。本发明中主要用的语言为Python。
2)仿真内容
取COCO2017以及LVIS数据集,根据以上的步骤训练网络并且使用GrabCut,Berkley,SBD,DAVIS作为测试集进行测试。表1为本发明和其他方法在四个测试数据集的分割结果。经过直观的数值比较,可以发现相比于其他的方法,本发明效果最佳。评价指标NoC(Numberof Clicks)表示的是达到一定的IoU阈值需要的点击次数,SPC(Seconds PerClick)表示的是进行一次点击推理耗费的时间,而PIE(Pixels Inference Efficiency)计算逐像素的SPC,衡量了模型在潜在的大或小的物体上的像素分割中的效率。通过NoC指标对比可以看到,本方法在分割质量上达到与其他最先进方法相匹配的效果,同时相比其他方法具有更低的SPC及PIE,即具有更小的计算负担和更高的推理效率。
表1
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (3)
1.一种实时的交互式图像分割方法,其特征在于包括如下步骤:
1)预处理:通过在高性能设备上应用大型视觉模型,对图像进行并行预处理,获取高质量且可重复利用的图像特征;
2)交互分割方法训练及测试:引入轻量级的交互式分割模块,实时处理图像特征和用户输入;在训练阶段,模拟人类的交互过程以确定点击位置,并输出相应的掩码预测结果;在实际应用中,根据用户点击,生成目标分割区域的掩码,并根据实时用户反馈不断优化掩码,提高分割准确度。
2.如权利要求1所述一种实时的交互式图像分割方法,其特征在于在步骤1)中,所述对图像进行并行预处理,利用预训练的大型视觉模型Vision Transformer对图像特征进行编码,将最后一层的特征图通过Feature Pyramid Network转换为多尺度特征图,特征图边长分别为原图大小的1/4,1/8,1/16,1/32。
3.如权利要求1所述一种实时的交互式图像分割方法,其特征在于在步骤2)中,所述交互分割方法训练及测试,包括如下步骤:
步骤a1,对用户输入的点击数据进行编码;具体来说,维护一个交互式像素分类掩码来标识已有的目标区域的分割结果,并表示当前的点击图,每次交互时会对其进行更新;标记规则如下:掩码中每个像素根据其前景/背景置信度被分类为确定前景Dfg,可能前景Pfg,未知U,可能背景Pbg,确定背景Dbp;点击像素及一定范围内的周围像素的标记一旦确定将会在整个交互过程中保持固定,标记值为Dfg或Dbg;根据当前的交互式像素分类掩码和分割结果,动态更新其余像素的标记;该像素分类掩码的所有像素标记均被初始化为U;
步骤a2,将用户点击编码与图像预处理特征结合;将置信度掩码转化为编码Ec∈调整大小与最后一层特征图的长宽匹配,并对二者进行求和处理,得到点击特征Fc,送入后续的解码器中,如式1所示:
Fc=Resize(Ec)+F4 (1)
步骤a3,使用交互式多头自注意模块将高质量图像特征与经过初步处理的用户点击编码进行进一步的融合;通过一种降低计算复杂度的策略来处理点击图,不再将点击图作为附加通道添加到特征图中,避免深层卷积结构和高计算量的问题;采用浅层的解码器结构,并结合交互注意结构来提升模型性能;具体来说,将涉及点击的特征Fc作为自注意力机制中的查询值,而预处理得到的图像特征Fi,1≤i≤4作为键,且值与键共享相同的特征,从而完成点击特征和图像特征之间的信息交互;将常规的自注意力模块表示为MSA(A,B),由此,将交互注意表述为MSA(Fc,Fi),如式2所示:
(Q,K,V)(Fc,Fi)=(FcWq,FiWk,FiWv)1≤i≤4 (2)
分别输入四层不同尺度的特征图到交互注意模块中,上一层的输出作为下一层的查询输入;
步骤a4,采用放大聚焦策略以提高注意力模块的效率;在特征图上选择感兴趣的分割区域(ROI),然后将ROI区域放大1.4倍,保证其最大边长为32的倍数,以获取足够的上下文信息;将裁剪后的特征输入每个阶段的深层模块中,将其融合回完整的特征中;
步骤a5,为了进一步降低注意力模块的计算复杂度,采用特殊池化策略;使用一系列具有不同池化比率的平均池化层对MSA(Fc,Fi)的输入Fi,1≤i≤4进行预处理;
Pi=AvgPooli(Fi)1≤i≤4 (3)
步骤a6,使用深度卷积处理上述步骤所得的多尺度特征金字塔,展平并连接以产生较短的特征序列,将这些汇集的特征输入到MSA(A,·)中,执行自注意力操作;
步骤a7,经过卷积层及上采样得到最终的掩码预测结果;将像素级别的预测结果及标签计算Normalized Focal Loss作为网络的损失函数;
步骤a8,在训练以及标准测试流程中,根据预测结果与掩码标签,寻找误差最大的连通区域,选择该区域中心像素作为模拟的下一次点击的位置;根据误差区域的预测结果,判断该点击是正向点击(针对假阴预测)还是负向点击(针对假阳预测),迭代进行下一次模型预测;在真实测试环境中,则根据用户的交互点击反馈进行迭代预测,逐步提高分割质量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311123978.2A CN117173409A (zh) | 2023-09-01 | 2023-09-01 | 一种实时的交互式图像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311123978.2A CN117173409A (zh) | 2023-09-01 | 2023-09-01 | 一种实时的交互式图像分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117173409A true CN117173409A (zh) | 2023-12-05 |
Family
ID=88942463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311123978.2A Pending CN117173409A (zh) | 2023-09-01 | 2023-09-01 | 一种实时的交互式图像分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117173409A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118172622A (zh) * | 2024-03-27 | 2024-06-11 | 江苏济远医疗科技有限公司 | 基于高斯过程分类的交互式精确医学图像样本准备方法 |
CN118229700A (zh) * | 2024-05-23 | 2024-06-21 | 厦门大学 | 实时的交互式图像分割方法 |
-
2023
- 2023-09-01 CN CN202311123978.2A patent/CN117173409A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118172622A (zh) * | 2024-03-27 | 2024-06-11 | 江苏济远医疗科技有限公司 | 基于高斯过程分类的交互式精确医学图像样本准备方法 |
CN118229700A (zh) * | 2024-05-23 | 2024-06-21 | 厦门大学 | 实时的交互式图像分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230186056A1 (en) | Grabbing detection method based on rp-resnet | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN108829677B (zh) | 一种基于多模态注意力的图像标题自动生成方法 | |
CN111259940B (zh) | 一种基于空间注意力地图的目标检测方法 | |
CN117173409A (zh) | 一种实时的交互式图像分割方法 | |
CN113591978B (zh) | 一种基于置信惩罚正则化的自我知识蒸馏的图像分类方法、设备及存储介质 | |
CN111738169A (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN113516152B (zh) | 一种基于复合图像语义的图像描述方法 | |
CN112233129A (zh) | 基于深度学习的并行多尺度注意力机制语义分割方法及装置 | |
CN112927209A (zh) | 一种基于cnn的显著性检测系统和方法 | |
CN117197904B (zh) | 人脸活体检测模型的训练方法、人脸活体检测方法及装置 | |
Al-Amaren et al. | RHN: A residual holistic neural network for edge detection | |
CN115471718A (zh) | 基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法 | |
CN108428234B (zh) | 基于图像分割结果评价的交互式分割性能优化方法 | |
CN114333062A (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
CN112053362A (zh) | 图像分割方法、装置、电子设备及存储介质 | |
CN115481285B (zh) | 跨模态的视频文本匹配方法、装置、电子设备及存储介质 | |
CN116245157A (zh) | 人脸表情表示模型训练方法、人脸表情识别方法及装置 | |
Chauhan et al. | Hand-written characters recognition using siamese network design | |
CN110222222A (zh) | 基于深层主题自编码模型的多模态检索方法 | |
CN112348007B (zh) | 一种基于神经网络的光学字符识别方法 | |
CN112560848B (zh) | 兴趣点poi预训练模型的训练方法、装置及电子设备 | |
CN110851633B (zh) | 一种实现同时定位和哈希的细粒度图像检索方法 | |
CN118229700B (zh) | 实时的交互式图像分割方法 | |
CN114860980B (zh) | 一种基于草图局部特征和全局特征匹配的图像检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |