[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111539439B - 一种图像语义分割方法 - Google Patents

一种图像语义分割方法 Download PDF

Info

Publication number
CN111539439B
CN111539439B CN202010362046.3A CN202010362046A CN111539439B CN 111539439 B CN111539439 B CN 111539439B CN 202010362046 A CN202010362046 A CN 202010362046A CN 111539439 B CN111539439 B CN 111539439B
Authority
CN
China
Prior art keywords
image
segmentation
translation
model
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010362046.3A
Other languages
English (en)
Other versions
CN111539439A (zh
Inventor
邵杰
陈俊铭
曹坤涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Research Institute Of Yibin University Of Electronic Science And Technology
Original Assignee
Research Institute Of Yibin University Of Electronic Science And Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research Institute Of Yibin University Of Electronic Science And Technology filed Critical Research Institute Of Yibin University Of Electronic Science And Technology
Priority to CN202010362046.3A priority Critical patent/CN111539439B/zh
Publication of CN111539439A publication Critical patent/CN111539439A/zh
Application granted granted Critical
Publication of CN111539439B publication Critical patent/CN111539439B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像语义分割方法,其通过第一图像分割模型逆向改进图像翻译模型的方式解决合成数据集图像语义分割对图像翻译模型性能的过度依赖的问题,通过优化后的图像翻译模型(第一图像翻译模型)的输出数据和第一图像分割模型的输出数据,使得第一图像分割模型可以通过监督学习再次进行优化,进行得到一个具有更强域不变特征区分力的图像语义分割模型(第二图像分割模型),采用图像语义分割模型(第二图像分割模型)对目标图像进行语义分割,即可完成图像语义分割。本方法解决了现有技术中图像翻译模型性能对分割结果影响过大且无法被修正的问题。

Description

一种图像语义分割方法
技术领域
本发明涉及图像处理领域,具体涉及一种图像语义分割方法。
背景技术
像素级语义分割图是把图片上属于不同类别的像素用不同的标签标记出来,在自动驾驶中具有眼睛的作用。车辆拍到前方图片,通过分割模型得到分割图,就获得了道路包含的类别和位置信息,这些信息反馈给自动驾驶系统判断该前进还是停车还是转弯,或是其他操作。
合成数据集图像分割技术面临的最主要困难是在完全不使用来自目标域的人工标签时,由合成数据集训练出的分割模型在应用中会出现域移位的现象。因此,现有的合成数据集图像分割技术的主要突破点也在进行域对齐上。
现有的应用于图像语义分割的域对齐方法主要有两大类,第一类是通过尽可能地减小源域与目标域的分布差异来学习域不变表示的方法。该类方法的代表技术是最大平均差(MMD)损失、均值、协方差等。其核心思想是用这些统计信息作为两个域之间的公共距离度量。然而,当域的分布不是高斯分布时,想靠均值、协方差等统计信息来对齐两个差异较大的域是非常困难的。
第二类方法是基于对抗学习的域对齐方法。它通过强制将不同领域的特征统一化来欺骗鉴别器,从而减少了两个域的差异性,这一过程也通常被称为翻译过程。该类方法最主要的缺点是分割模型的性能非常依赖于图像到图像翻译模型的性能。一旦图像到图像的转换失败或出现一定量的误差,在图像分割模型上就无法对其进行修正。
发明内容
针对现有技术中的上述不足,本发明提供的一种图像语义分割方法解决了现有技术中图像翻译模型性能对分割结果影响过大且无法被修正的问题,并给出了一个具有更强域不变特征区分力的图像语义分割方法。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种图像语义分割方法,其包括以下步骤:
S1、获取并将已知标签图像和无标签图像输入初始图像翻译模型;
S2、通过初始图像翻译模型获取与已知标签图像相对应的第一翻译图像和与无标签图像相对应的第二翻译图像;
S3、将第一翻译图像和无标签图像输入初始图像分割模型,分别得到与第一翻译图像相对应的第一分割结果和与无标签图像相对应的第二分割结果;
S4、获取并基于第一分割结果和第二分割结果的对抗损失、第一分割结果与已知标签的分割损失和翻译过程特征区分损失得到初始图像分割模型的第一优化对象;
S5、以初始图像分割模型的第一优化对象最小为目标,训练初始图像分割模型得到第一图像分割模型;
S6、将已知标签图像、无标签图像、第一翻译图像和第二翻译图像输入第一图像分割模型,分别得到与已知标签图像相对应的第三分割结果、与无标签图像相对应的第四分割结果、与第一翻译图像相对应的第五分割结果和与第二翻译图像相对应的第六分割结果;
S7、获取并基于第一翻译图像与无标签图像的对抗损失、已知标签图像与第二翻译图像的对抗损失、第一翻译图像重构回原图的重构损失、第二翻译图像重构回原图的重构损失、第三分割结果与第五分割结果的语义差异损失和第四分割结果与第六分割结果的语义差异损失得到初始图像翻译模型的优化对象;
S8、以初始图像翻译模型的优化对象最小为目标,训练初始图像翻译模型得到第一图像翻译模型;并通过最大概率阈值方法从第四分割结果中获取置信度大于阈值的结果,并作为第七分割结果;
S9、将已知标签图像和无标签图像输入第一图像翻译模型,分别得到与已知标签图像相对应的第三翻译图像和与无标签图像相对应的第四翻译图像;
S10、将第三翻译图像和第四翻译图像输入第一图像分割模型,分别得到与第三翻译图像相对应的第八分割结果和与第四翻译图像相对应的第九分割结果;将第七分割结果所对应的无标签图像在第一图像分割模型中的结果作为第十分割结果;即第十分割结果来自于第九分割结果;
S11、获取并基于第八分割结果和第九分割结果的对抗损失、翻译过程特征区分损失、第八分割结果与已知标签的分割损失和第十分割结果与第七分割结果的分割损失得到第一图像分割模型的第二优化对象;
S12、以第一图像分割模型的第二优化对象最小为目标,训练第一图像分割模型得到第二图像分割模型;
S13、采用第二图像分割模型对目标图像进行语义分割,完成图像语义分割。
进一步地,步骤S1中的已知标签图像包括GTA5合成数据集中的24966张图片;无标签图像包括Cityscapes数据集中的2975张训练图像和500张验证图像。
进一步地,图像翻译模型的翻译方法为风格迁移方法。
进一步地,步骤S4中初始图像分割模型的第一优化对象的表达式为:
Figure BDA0002475438900000031
其中
Figure BDA0002475438900000032
为初始图像分割模型的第一优化对象;
Figure BDA0002475438900000033
为常数;S1为第一翻译图像;T为无标签图像;M(S1)为第一分割结果;M(T)为第二分割结果;
Figure BDA0002475438900000041
为第一分割结果和第二分割结果的对抗损失;SY为已知标签;
Figure BDA0002475438900000042
为第一分割结果与已知标签的分割损失;
Figure BDA0002475438900000043
为初始翻译模型的翻译过程特征区分损失。
进一步地,初始翻译模型的翻译过程特征区分损失
Figure BDA0002475438900000044
的获取方法为:
将已知标签图像S和第二翻译图像T1分别输入初始图像分割模型,分别得到与已知标签图像S相对应的第十一分割结果M(S)和与第二翻译图像T1相对应的第十二分割结果M(T1);
根据公式:
Figure BDA0002475438900000045
获取初始翻译模型的翻译过程特征区分损失
Figure BDA00024754389000000416
其中;
Figure BDA0002475438900000046
Figure BDA0002475438900000047
Figure BDA0002475438900000048
均为常数;
Figure BDA0002475438900000049
为已知标签图像通过初始图像翻译模型翻译向自己后得到的翻译结果再重构回翻译前的重构损失;
Figure BDA00024754389000000410
为无标签图像通过初始图像翻译模型翻译向自己后得到的翻译结果再重构回翻译前的重构损失;
Figure BDA00024754389000000411
为第十一分割结果M(S)和第一分割结果M(S1)之间的结构损失;
Figure BDA00024754389000000412
为第二分割结果M(T)和第一分割结果M(S1)之间的纹理损失;
Figure BDA00024754389000000413
为第二分割结果M(T)和第十二分割结果M(T1)之间的结构损失;
Figure BDA00024754389000000414
为第十二分割结果M(T1)和第十一分割结果M(S)之间的纹理损失。
进一步地,步骤S7中初始图像翻译模型的优化对象的表达式为:
Figure BDA00024754389000000415
其中LF为初始图像翻译模型的优化对象;λGAN和λrecon均为常数;S为已知标签图像;T为无标签图像;S1为第一翻译图像;T1为第二翻译图像;F-1(·)表示初始图像翻译模型的逆操作;LGAN(S1,T)为第一翻译图像与无标签图像的对抗损失;LGAN(S,T1)为已知标签图像与第二翻译图像的对抗损失;Lrecon(S,F-1(S1))为第一翻译图像重构回原图的重构损失;Lrecon(T,F(T1))为第二翻译图像重构回原图的重构损失;Lper(M1(S),M1(S1))为第三分割结果与第五分割结果的语义差异损失,M1(·)表示第一图像分割模型;Lper(M1(T),M1(T1))为第四分割结果与第六分割结果的语义差异损失。
进一步地,步骤S11中第一图像分割模型的第二优化对象的表达式为:
Figure BDA0002475438900000051
其中
Figure BDA0002475438900000052
为第一图像分割模型的第二优化对象;
Figure BDA0002475438900000053
为常数;S2为第三翻译图像,M1(S2)为第八分割结果;T2为第四翻译图像,M1(T2)为第九分割结果;
Figure BDA0002475438900000054
为第一图像翻译模型的翻译过程特征区分损失;SY为已知标签,
Figure BDA0002475438900000055
为第八分割结果与已知标签的分割损失;Tssl为第七分割结果所对应的无标签图像,M1(Tssl)为第十分割结果;TY'为第七分割结果,
Figure BDA0002475438900000056
为第十分割结果与第七分割结果的分割损失。
进一步地,第一图像翻译模型的翻译过程特征区分损失
Figure BDA0002475438900000057
的获取方法为:
将已知标签图像S和无标签图像分别输入初始图像分割模型,分别得到与已知标签图像S相对应的第十三分割结果M1(S)和与无标签图像相对应的第十四分割结果M1(T);
根据公式:
Figure BDA0002475438900000058
获取第一图像翻译模型的翻译过程特征区分损失
Figure BDA0002475438900000059
其中;
Figure BDA00024754389000000510
Figure BDA00024754389000000511
Figure BDA00024754389000000512
均为常数;
Figure BDA00024754389000000513
为已知标签图像通过第一图像翻译模型翻译向自己后得到的翻译结果再重构回翻译前的重构损失;
Figure BDA00024754389000000514
为无标签图像通过第一图像翻译模型翻译向自己后得到的翻译结果再重构回翻译前的重构损失;
Figure BDA0002475438900000061
为第十三分割结果M1(S)和第八分割结果M1(S2)之间的结构损失;
Figure BDA0002475438900000062
为第十四分割结果M1(T)和第八分割结果M1(S2)之间的纹理损失;
Figure BDA0002475438900000063
为第九分割结果M1(T2)和第十四分割结果M1(T)之间的结构损失;
Figure BDA0002475438900000064
为第九分割结果M1(T2)和第十三分割结果M1(S)之间的纹理损失。
本发明的有益效果为:本发明通过第一图像分割模型逆向改进图像翻译模型的方式解决合成数据集图像语义分割对图像翻译模型性能的过度依赖的问题,通过优化后的图像翻译模型(第一图像翻译模型)的输出数据和第一图像分割模型的输出数据,使得第一图像分割模型可以通过监督学习再次进行优化,进行得到一个具有更强域不变特征区分力的图像语义分割模型(第二图像分割模型),采用图像语义分割模型(第二图像分割模型)对目标图像进行语义分割,即可完成图像语义分割。本方法解决了现有技术中图像翻译模型性能对分割结果影响过大且无法被修正的问题。
附图说明
图1为本发明的流程示意图;
图2为图像分割模型网络结构示意图;
图3为图像分割模型的监督学习流程示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,该图像语义分割方法包括以下步骤:
S1、获取并将已知标签图像和无标签图像输入初始图像翻译模型;
S2、通过初始图像翻译模型获取与已知标签图像相对应的第一翻译图像和与无标签图像相对应的第二翻译图像;
S3、将第一翻译图像和无标签图像输入初始图像分割模型,分别得到与第一翻译图像相对应的第一分割结果和与无标签图像相对应的第二分割结果;
S4、获取并基于第一分割结果和第二分割结果的对抗损失、第一分割结果与已知标签的分割损失和翻译过程特征区分损失得到初始图像分割模型的第一优化对象;
S5、以初始图像分割模型的第一优化对象最小为目标,训练初始图像分割模型得到第一图像分割模型;
S6、将已知标签图像、无标签图像、第一翻译图像和第二翻译图像输入第一图像分割模型,分别得到与已知标签图像相对应的第三分割结果、与无标签图像相对应的第四分割结果、与第一翻译图像相对应的第五分割结果和与第二翻译图像相对应的第六分割结果;
S7、获取并基于第一翻译图像与无标签图像的对抗损失、已知标签图像与第二翻译图像的对抗损失、第一翻译图像重构回原图的重构损失、第二翻译图像重构回原图的重构损失、第三分割结果与第五分割结果的语义差异损失和第四分割结果与第六分割结果的语义差异损失得到初始图像翻译模型的优化对象;
S8、以初始图像翻译模型的优化对象最小为目标,训练初始图像翻译模型得到第一图像翻译模型;并通过最大概率阈值方法从第四分割结果中获取置信度大于阈值的结果,并作为第七分割结果;
S9、将已知标签图像和无标签图像输入第一图像翻译模型,分别得到与已知标签图像相对应的第三翻译图像和与无标签图像相对应的第四翻译图像;
S10、将第三翻译图像和第四翻译图像输入第一图像分割模型,分别得到与第三翻译图像相对应的第八分割结果和与第四翻译图像相对应的第九分割结果;将第七分割结果所对应的无标签图像在第一图像分割模型中的结果作为第十分割结果;即第十分割结果来自于第九分割结果;
S11、获取并基于第八分割结果和第九分割结果的对抗损失、翻译过程特征区分损失、第八分割结果与已知标签的分割损失和第十分割结果与第七分割结果的分割损失得到第一图像分割模型的第二优化对象;
S12、以第一图像分割模型的第二优化对象最小为目标,训练第一图像分割模型得到第二图像分割模型;
S13、采用第二图像分割模型对目标图像进行语义分割,完成图像语义分割。
步骤S1中的已知标签图像包括GTA5合成数据集中的24966张图片;无标签图像包括Cityscapes数据集中的2975张训练图像和500张验证图像。
图像翻译模型的翻译方法为风格迁移方法,即将输入的图像A和图像B分别进行A到A的翻译、A到B的翻译、B到A的翻译和B到B的翻译。
步骤S4中初始图像分割模型的第一优化对象的表达式为:
Figure BDA0002475438900000081
其中
Figure BDA0002475438900000082
为初始图像分割模型的第一优化对象;
Figure BDA0002475438900000083
为常数;S1为第一翻译图像;T为无标签图像;M(S1)为第一分割结果;M(T)为第二分割结果;
Figure BDA0002475438900000084
为第一分割结果和第二分割结果的对抗损失;SY为已知标签;
Figure BDA0002475438900000085
为第一分割结果与已知标签的分割损失;
Figure BDA0002475438900000086
为初始翻译模型的翻译过程特征区分损失。
初始翻译模型的翻译过程特征区分损失
Figure BDA0002475438900000087
的获取方法为:将已知标签图像S和第二翻译图像T1分别输入初始图像分割模型,分别得到与已知标签图像S相对应的第十一分割结果M(S)和与第二翻译图像T1相对应的第十二分割结果M(T1);根据公式:
Figure BDA0002475438900000091
获取初始翻译模型的翻译过程特征区分损失
Figure BDA0002475438900000092
其中;
Figure BDA0002475438900000093
Figure BDA0002475438900000094
Figure BDA0002475438900000095
均为常数;
Figure BDA0002475438900000096
为已知标签图像通过初始图像翻译模型翻译向自己后得到的翻译结果再重构回翻译前的重构损失;
Figure BDA0002475438900000097
为无标签图像通过初始图像翻译模型翻译向自己后得到的翻译结果再重构回翻译前的重构损失;
Figure BDA0002475438900000098
为第十一分割结果M(S)和第一分割结果M(S1)之间的结构损失;
Figure BDA0002475438900000099
为第二分割结果M(T)和第一分割结果M(S1)之间的纹理损失;
Figure BDA00024754389000000910
为第二分割结果M(T)和第十二分割结果M(T1)之间的结构损失;
Figure BDA00024754389000000911
为第十二分割结果M(T1)和第十一分割结果M(S)之间的纹理损失。
步骤S7中初始图像翻译模型的优化对象的表达式为:
Figure BDA00024754389000000912
其中LF为初始图像翻译模型的优化对象;λGAN和λrecon均为常数;S为已知标签图像;T为无标签图像;S1为第一翻译图像;T1为第二翻译图像;F-1(·)表示初始图像翻译模型的逆操作;LGAN(S1,T)为第一翻译图像与无标签图像的对抗损失;LGAN(S,T1)为已知标签图像与第二翻译图像的对抗损失;Lrecon(S,F-1(S1))为第一翻译图像重构回原图的重构损失;Lrecon(T,F(T1))为第二翻译图像重构回原图的重构损失;Lper(M1(S),M1(S1))为第三分割结果与第五分割结果的语义差异损失,M1(·)表示第一图像分割模型;Lper(M1(T),M1(T1))为第四分割结果与第六分割结果的语义差异损失。
步骤S11中第一图像分割模型的第二优化对象的表达式为:
Figure BDA0002475438900000101
其中
Figure BDA0002475438900000102
为第一图像分割模型的第二优化对象;
Figure BDA0002475438900000103
为常数;S2为第三翻译图像,M1(S2)为第八分割结果;T2为第四翻译图像,M1(T2)为第九分割结果;
Figure BDA0002475438900000104
为第一图像翻译模型的翻译过程特征区分损失;SY为已知标签,
Figure BDA0002475438900000105
为第八分割结果与已知标签的分割损失;Tssl为第七分割结果所对应的无标签图像,M1(Tssl)为第十分割结果;TY'为第七分割结果,
Figure BDA0002475438900000106
为第十分割结果与第七分割结果的分割损失。
第一图像翻译模型的翻译过程特征区分损失
Figure BDA0002475438900000107
的获取方法为:将已知标签图像S和无标签图像分别输入初始图像分割模型,分别得到与已知标签图像S相对应的第十三分割结果M1(S)和与无标签图像相对应的第十四分割结果M1(T);根据公式:
Figure BDA0002475438900000108
获取第一图像翻译模型的翻译过程特征区分损失
Figure BDA0002475438900000109
其中;
Figure BDA00024754389000001010
Figure BDA00024754389000001011
Figure BDA00024754389000001012
均为常数;
Figure BDA00024754389000001013
为已知标签图像通过第一图像翻译模型翻译向自己后得到的翻译结果再重构回翻译前的重构损失;
Figure BDA00024754389000001014
为无标签图像通过第一图像翻译模型翻译向自己后得到的翻译结果再重构回翻译前的重构损失;
Figure BDA00024754389000001015
为第十三分割结果M1(S)和第八分割结果M1(S2)之间的结构损失;
Figure BDA00024754389000001016
为第十四分割结果M1(T)和第八分割结果M1(S2)之间的纹理损失;
Figure BDA00024754389000001017
为第九分割结果M1(T2)和第十四分割结果M1(T)之间的结构损失;
Figure BDA00024754389000001018
为第九分割结果M1(T2)和第十三分割结果M1(S)之间的纹理损失。
在本发明的具体实施过程中,对抗损失可以通过一个由多个卷积层构成的鉴别器DM来获取,例如Ladv(M(S1),
Figure BDA00024754389000001019
其中
Figure BDA0002475438900000118
Figure BDA0002475438900000119
分别指S和T中的每一张图像,SI
Figure BDA0002475438900000111
TI分别指合成数据集、翻译后的数据集、目标数据集中的某一张图像。此外,LGAN(S1,T)和Lrecon(S,F-1(S1))由公式
Figure BDA0002475438900000112
Figure BDA0002475438900000113
进行详细定义。在上述两个公式中,SI和TI分别代表每一张源数据集和目标数据集的输入图像。
Figure BDA00024754389000001110
是经过F之后的翻译图像集中的每一张图像。DF是一个多个卷积层构成的鉴别器。类似的,LGAN(S,T1)和Lrecon(T,F(T1))可以由公式
Figure BDA0002475438900000114
Figure BDA0002475438900000115
定义。Lper(M(S),M(S1))由公式
Figure BDA0002475438900000116
定义。Lper(M(T),M(T1))由公式
Figure BDA0002475438900000117
定义。
在本发明的一个实施例中,图像分割模型网络结构如图2所示,其中,Ec是源数据集(已知标签图像)与目标数据集(无标签图像)的公用编码器,Es和Et分别为源数据集和目标数据集的私有编码器,cs和ct分别为源数据集和目标数据集的域不变特征,ps和pt分别为源数据集和目标数据集的纹理特征。经过多个解码器,该网络对结构与纹理特征具有强力的区分力。
在图像分割模型的整个优化过程中,如图3所示,在刚开始对初始图像分割模型进行训练时,具有伪标签TY'的目标域数据集通常为空集,但随着初始图像分割模型不断更新,取得更好地效果,具有伪标签TY'的目标域数据集包含图像的大小会逐渐扩张,当初始图像分割模型完成优化时,得到较多具有伪标签TY'的目标域数据集。通过最大概率阈值方法从较多具有伪标签TY'的目标域数据集选出Tssl,并用于第一图像分割模型的训练,最终通过监督学习得到训练好的第二图像分割模型。
综上所述,本发明通过第一图像分割模型逆向改进图像翻译模型的方式解决合成数据集图像语义分割对图像翻译模型性能的过度依赖的问题,通过优化后的图像翻译模型(第一图像翻译模型)的输出数据和第一图像分割模型的输出数据,使得第一图像分割模型可以通过监督学习再次进行优化,进行得到一个具有更强域不变特征区分力的图像语义分割模型(第二图像分割模型),采用图像语义分割模型(第二图像分割模型)对目标图像进行语义分割,即可完成图像语义分割。本方法解决了现有技术中图像翻译模型性能对分割结果影响过大且无法被修正的问题。

Claims (8)

1.一种图像语义分割方法,其特征在于,包括以下步骤:
S1、获取并将已知标签图像和无标签图像输入初始图像翻译模型;
S2、通过初始图像翻译模型获取与已知标签图像相对应的第一翻译图像和与无标签图像相对应的第二翻译图像;
S3、将第一翻译图像和无标签图像输入初始图像分割模型,分别得到与第一翻译图像相对应的第一分割结果和与无标签图像相对应的第二分割结果;
S4、获取并基于第一分割结果和第二分割结果的对抗损失、第一分割结果与已知标签的分割损失和翻译过程特征区分损失得到初始图像分割模型的第一优化对象;
S5、以初始图像分割模型的第一优化对象最小为目标,训练初始图像分割模型得到第一图像分割模型;
S6、将已知标签图像、无标签图像、第一翻译图像和第二翻译图像输入第一图像分割模型,分别得到与已知标签图像相对应的第三分割结果、与无标签图像相对应的第四分割结果、与第一翻译图像相对应的第五分割结果和与第二翻译图像相对应的第六分割结果;
S7、获取并基于第一翻译图像与无标签图像的对抗损失、已知标签图像与第二翻译图像的对抗损失、第一翻译图像重构回原图的重构损失、第二翻译图像重构回原图的重构损失、第三分割结果与第五分割结果的语义差异损失和第四分割结果与第六分割结果的语义差异损失得到初始图像翻译模型的优化对象;
S8、以初始图像翻译模型的优化对象最小为目标,训练初始图像翻译模型得到第一图像翻译模型;并通过最大概率阈值方法从第四分割结果中获取置信度大于阈值的结果,并作为第七分割结果;
S9、将已知标签图像和无标签图像输入第一图像翻译模型,分别得到与已知标签图像相对应的第三翻译图像和与无标签图像相对应的第四翻译图像;
S10、将第三翻译图像和第四翻译图像输入第一图像分割模型,分别得到与第三翻译图像相对应的第八分割结果和与第四翻译图像相对应的第九分割结果;将第七分割结果所对应的无标签图像在第一图像分割模型中的结果作为第十分割结果;即第十分割结果来自于第九分割结果;
S11、获取并基于第八分割结果和第九分割结果的对抗损失、翻译过程特征区分损失、第八分割结果与已知标签的分割损失和第十分割结果与第七分割结果的分割损失得到第一图像分割模型的第二优化对象;
S12、以第一图像分割模型的第二优化对象最小为目标,训练第一图像分割模型得到第二图像分割模型;
S13、采用第二图像分割模型对目标图像进行语义分割,完成图像语义分割。
2.根据权利要求1所述的图像语义分割方法,其特征在于,所述步骤S1中的已知标签图像包括GTA5合成数据集中的24966张图片;无标签图像包括Cityscapes数据集中的2975张训练图像和500张验证图像。
3.根据权利要求1所述的图像语义分割方法,其特征在于,图像翻译模型的翻译方法为风格迁移方法。
4.根据权利要求1所述的图像语义分割方法,其特征在于,所述步骤S4中初始图像分割模型的第一优化对象的表达式为:
Figure FDA0002475438890000021
其中
Figure FDA0002475438890000022
为初始图像分割模型的第一优化对象;
Figure FDA0002475438890000023
为常数;S1为第一翻译图像;T为无标签图像;M(S1)为第一分割结果;M(T)为第二分割结果;
Figure FDA0002475438890000024
为第一分割结果和第二分割结果的对抗损失;SY为已知标签;
Figure FDA0002475438890000031
为第一分割结果与已知标签的分割损失;
Figure FDA0002475438890000032
为初始翻译模型的翻译过程特征区分损失。
5.根据权利要求4所述的图像语义分割方法,其特征在于,所述初始翻译模型的翻译过程特征区分损失
Figure FDA0002475438890000033
的获取方法为:
将已知标签图像S和第二翻译图像T1分别输入初始图像分割模型,分别得到与已知标签图像S相对应的第十一分割结果M(S)和与第二翻译图像T1相对应的第十二分割结果M(T1);
根据公式:
Figure FDA0002475438890000034
获取初始翻译模型的翻译过程特征区分损失
Figure FDA0002475438890000035
其中;
Figure FDA0002475438890000036
Figure FDA0002475438890000037
Figure FDA0002475438890000038
均为常数;
Figure FDA0002475438890000039
为已知标签图像通过初始图像翻译模型翻译向自己后得到的翻译结果再重构回翻译前的重构损失;
Figure FDA00024754388900000310
为无标签图像通过初始图像翻译模型翻译向自己后得到的翻译结果再重构回翻译前的重构损失;
Figure FDA00024754388900000311
为第十一分割结果M(S)和第一分割结果M(S1)之间的结构损失;
Figure FDA00024754388900000312
为第二分割结果M(T)和第一分割结果M(S1)之间的纹理损失;
Figure FDA00024754388900000313
为第二分割结果M(T)和第十二分割结果M(T1)之间的结构损失;
Figure FDA00024754388900000314
为第十二分割结果M(T1)和第十一分割结果M(S)之间的纹理损失。
6.根据权利要求1所述的图像语义分割方法,其特征在于,所述步骤S7中初始图像翻译模型的优化对象的表达式为:
LF=λGAN[LGAN(S1,T)+LGAN(S,T1)]+λrecon[Lrecon(S,F-1(S1))+Lrecon(T,F(T1))]+Lper(M1(S),M1(S1))+Lper(M1(T),M1(T1))
其中LF为初始图像翻译模型的优化对象;λGAN和λrecon均为常数;S为已知标签图像;T为无标签图像;S1为第一翻译图像;T1为第二翻译图像;F-1(·)表示初始图像翻译模型的逆操作;LGAN(S1,T)为第一翻译图像与无标签图像的对抗损失;LGAN(S,T1)为已知标签图像与第二翻译图像的对抗损失;Lrecon(S,F-1(S1))为第一翻译图像重构回原图的重构损失;Lrecon(T,F(T1))为第二翻译图像重构回原图的重构损失;Lper(M1(S),M1(S1))为第三分割结果与第五分割结果的语义差异损失,M1(·)表示第一图像分割模型;Lper(M1(T),M1(T1))为第四分割结果与第六分割结果的语义差异损失。
7.根据权利要求1所述的图像语义分割方法,其特征在于,所述步骤S11中第一图像分割模型的第二优化对象的表达式为:
Figure FDA0002475438890000041
其中
Figure FDA0002475438890000042
为第一图像分割模型的第二优化对象;
Figure FDA0002475438890000043
为常数;S2为第三翻译图像,M1(S2)为第八分割结果;T2为第四翻译图像,M1(T2)为第九分割结果;
Figure FDA0002475438890000044
为第一图像翻译模型的翻译过程特征区分损失;SY为已知标签,
Figure FDA0002475438890000045
为第八分割结果与已知标签的分割损失;Tssl为第七分割结果所对应的无标签图像,M1(Tssl)为第十分割结果;T′Y为第七分割结果,
Figure FDA0002475438890000046
为第十分割结果与第七分割结果的分割损失。
8.根据权利要求7所述的图像语义分割方法,其特征在于,第一图像翻译模型的翻译过程特征区分损失
Figure FDA0002475438890000047
的获取方法为:
将已知标签图像S和无标签图像分别输入初始图像分割模型,分别得到与已知标签图像S相对应的第十三分割结果M1(S)和与无标签图像相对应的第十四分割结果M1(T);
根据公式:
Figure FDA0002475438890000048
获取第一图像翻译模型的翻译过程特征区分损失
Figure FDA0002475438890000049
其中;
Figure FDA00024754388900000410
Figure FDA0002475438890000051
Figure FDA0002475438890000052
均为常数;
Figure FDA0002475438890000053
为已知标签图像通过第一图像翻译模型翻译向自己后得到的翻译结果再重构回翻译前的重构损失;
Figure FDA0002475438890000054
为无标签图像通过第一图像翻译模型翻译向自己后得到的翻译结果再重构回翻译前的重构损失;
Figure FDA0002475438890000055
为第十三分割结果M1(S)和第八分割结果M1(S2)之间的结构损失;
Figure FDA0002475438890000056
为第十四分割结果M1(T)和第八分割结果M1(S2)之间的纹理损失;
Figure FDA0002475438890000057
为第九分割结果M1(T2)和第十四分割结果M1(T)之间的结构损失;
Figure FDA0002475438890000058
为第九分割结果M1(T2)和第十三分割结果M1(S)之间的纹理损失。
CN202010362046.3A 2020-04-30 2020-04-30 一种图像语义分割方法 Expired - Fee Related CN111539439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010362046.3A CN111539439B (zh) 2020-04-30 2020-04-30 一种图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010362046.3A CN111539439B (zh) 2020-04-30 2020-04-30 一种图像语义分割方法

Publications (2)

Publication Number Publication Date
CN111539439A CN111539439A (zh) 2020-08-14
CN111539439B true CN111539439B (zh) 2021-01-05

Family

ID=71975655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010362046.3A Expired - Fee Related CN111539439B (zh) 2020-04-30 2020-04-30 一种图像语义分割方法

Country Status (1)

Country Link
CN (1) CN111539439B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112419326B (zh) * 2020-12-02 2023-05-23 腾讯科技(深圳)有限公司 图像分割数据处理方法、装置、设备及存储介质
CN112785493B (zh) * 2021-01-22 2024-02-09 北京百度网讯科技有限公司 模型的训练方法、风格迁移方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016161089A1 (en) * 2015-04-03 2016-10-06 Klangoo, Inc. Techniques for understanding the aboutness of text based on semantic analysis
CN108875596A (zh) * 2018-05-30 2018-11-23 西南交通大学 一种基于dssnn神经网络的铁路场景图像语义分割方法
CN109949222A (zh) * 2019-01-30 2019-06-28 北京交通大学 基于语义图的图像超分辨率重建方法
CN110188754A (zh) * 2019-05-29 2019-08-30 腾讯科技(深圳)有限公司 图像分割方法和装置、模型训练方法和装置
CN110223298A (zh) * 2019-05-27 2019-09-10 东南大学 基于点云局部结构的语义分割改进算法
CN110322446A (zh) * 2019-07-01 2019-10-11 华中科技大学 一种基于相似性空间对齐的域自适应语义分割方法
CN110533044A (zh) * 2019-05-29 2019-12-03 广东工业大学 一种基于gan的域适应图像语义分割方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332214A1 (en) * 2009-06-30 2010-12-30 Shpalter Shahar System and method for network transmision of subtitles
CN108876790A (zh) * 2017-09-14 2018-11-23 北京旷视科技有限公司 图像语义分割方法和装置、神经网络训练方法和装置
CN109166102A (zh) * 2018-07-24 2019-01-08 中国海洋大学 一种基于判别区域候选对抗网络的图像转图像翻译方法
CN110246149A (zh) * 2019-05-28 2019-09-17 西安交通大学 基于深度加权全卷积网络的室内场景迁移分割方法
CN110956262A (zh) * 2019-11-12 2020-04-03 北京小米智能科技有限公司 超网络训练方法及装置、电子设备、存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016161089A1 (en) * 2015-04-03 2016-10-06 Klangoo, Inc. Techniques for understanding the aboutness of text based on semantic analysis
CN108875596A (zh) * 2018-05-30 2018-11-23 西南交通大学 一种基于dssnn神经网络的铁路场景图像语义分割方法
CN109949222A (zh) * 2019-01-30 2019-06-28 北京交通大学 基于语义图的图像超分辨率重建方法
CN110223298A (zh) * 2019-05-27 2019-09-10 东南大学 基于点云局部结构的语义分割改进算法
CN110188754A (zh) * 2019-05-29 2019-08-30 腾讯科技(深圳)有限公司 图像分割方法和装置、模型训练方法和装置
CN110533044A (zh) * 2019-05-29 2019-12-03 广东工业大学 一种基于gan的域适应图像语义分割方法
CN110322446A (zh) * 2019-07-01 2019-10-11 华中科技大学 一种基于相似性空间对齐的域自适应语义分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GAN-Based virtual-to-real image translation for urban scene semantic segmentation;Xi Guo 等;《Neurocomputing》;20190625;第394卷;第127-135页 *
Simplified unsupervised image translation for semantic segmentation adaptation;Rui Li 等;《Pattern Recognition》;20200428;第105卷;第1-12页 *
基于互联网文本描述和深度对偶学习的图像分割技术;罗平 等;《人工智能》;20171231;第62-71页 *

Also Published As

Publication number Publication date
CN111539439A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
AU2019213369B2 (en) Non-local memory network for semi-supervised video object segmentation
CN111723585B (zh) 一种风格可控的图像文本实时翻译与转换方法
He et al. Progressive color transfer with dense semantic correspondences
CN111539439B (zh) 一种图像语义分割方法
CN110706269B (zh) 一种基于双目视觉slam的动态场景密集建模方法
CN109829353B (zh) 一种基于空间约束的人脸图像风格化方法
CN113344932A (zh) 一种半监督的单目标视频分割方法
CN112819840B (zh) 一种融合深度学习与传统处理的高精度图像实例分割方法
US11042986B2 (en) Method for thinning and connection in linear object extraction from an image
CN117523194A (zh) 一种基于稀疏标注的图像分割方法
CN111738295A (zh) 图像的分割方法及存储介质
CN115410189B (zh) 一种复杂场景车牌检测方法
KR102526415B1 (ko) 준지도 학습 방식의 단일 영상 깊이 추정 시스템 및 방법과 이를 위한 컴퓨터 프로그램
CN113052759B (zh) 基于mask和自动编码器的场景复杂文本图像编辑方法
Shahram et al. Recovering layers of brush strokes through statistical analysis of color and shape: an application to van Gogh's" Self portrait with grey felt hat"
CN113011438B (zh) 基于节点分类和稀疏图学习的双模态图像显著性检测方法
CN113947538A (zh) 一种多尺度高效卷积自注意力单幅图像除雨方法
CN116863476A (zh) 基于掩模引导的去除印章噪声的图像生成方法及系统
CN107609592B (zh) 一种面向字母识别的图编辑距离方法
CN114331894B (zh) 一种基于潜在特征重构和掩模感知的人脸图像修复方法
CN114022719B (zh) 一种多特征融合的显著性检测方法
CN112926585B (zh) 一种基于再生核希尔伯特空间的跨域语义分割方法
CN116469103A (zh) 一种医学图像分割数据自动标注的方法
CN116385289A (zh) 一种基于渐进式的碑文文字图像修复模型及修复方法
CN115512325A (zh) 一种端到端的基于实例分割的车道检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210105

CF01 Termination of patent right due to non-payment of annual fee