CN112085122B

CN112085122B - 一种基于本体的半监督图像场景语义深化方法

Info

Publication number: CN112085122B
Application number: CN202010995864.7A
Authority: CN
Inventors: 陈南希; 肖天; 刘李黎; 张晓林
Original assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Current assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2024-03-15
Anticipated expiration: 2040-09-21
Also published as: CN112085122A

Abstract

本发明提供一种基于本体的半监督图像场景语义深化方法，包括：检测出图像中的实体，所述实体包括目标实体；得到目标实体的场景信息，该场景信息至少包括目标实体的组成部分；将场景信息与实体本体库中的下位词进行匹配，并根据匹配结果对目标实体进行重命名，从而实现对目标实体的类别的语义深化。使用本发明的方法能够在不提供新的细分类图像数据集的情况下将场景中检测到的实例类别进一步细化，达到深化场景语义描述的效果，同时对于关联谓词检测任务，可以消除不合逻辑的关联谓词，判定从属实体的归属，从而提高谓词检测精度。

Description

一种基于本体的半监督图像场景语义深化方法

技术领域

本发明属于图像识别领域，具体涉及一种基于本体的半监督图像场景语义深化方法。

背景技术

目标检测得到的语义信息普遍依赖于监督学习，而目前图像数据集标注存在数据不平衡的情况，即某些精细标注的目标图像样本数不够。现有的图像领域的数据集中，往往存在语义标注浅显，可识别类别数量低等问题。VOC数据集中仅包含20种类别，MS COCO数据集中仅包含80种类别。而Visual Genome数据集中虽然包含近8万2千种实体，可其中存在十分显著的类别不均衡现象，大约7万5千类别的实体数量小于10。虽然Visual Genome数据集具有细分类别的语义标注，但由于这些类别的标注样本较少导致目标检测算法难以利用这些有细分类的标注数据。

同时，基于目标检测的目标间谓词关系识别算法精度也较为低下。由于上文提到的一些问题，现有的关系检测算法基本是使用Visual Genome数据集的子集，即对原始Visual Genome数据集进行了处理，仅提取出少部分实体以及关系来进行模型的训练。在现有的端到端关系检测算法（即，输入图片，输出图中实体和实体间关系）中，主流的方式是2-stage的方法，即先进行目标检测，再根据目标检测的结果进行关系检测，这些2-stage 的方法将会累积预测实体的检测框、预测实体的类别和预测实体间关系谓语的检测错误，导致存在大量误检测的现象。

在论文“Graphical Contrastive Losses for Scene Graph Parsing”中，作者建立了一种新的损失函数来避免近端关系混淆以及实体实例混淆。其中，近端关系混淆以及实体实例混淆是关系检测最终结果出现的一些错误，前者是对实体间的关系做出了错误的预测，后者是对关系对中的实体做出了错误的预测。这些错误都是由“预测实体的检测框、预测实体的类别和预测实体间关系谓语的检测错误”累加导致的。该损失函数由三部分组成：空间坐标损失，语义信息损失，视觉信息损失。该方法可以避免一定的误检测，但所检测出的语义信息仅限于数据集所标注的语义类别范围内。

在论文“YOLO9000:Better,Faster,Stronger”中，由于缺乏细分类别目标检测数据集，作者将目标检测数据集MS coco与图像分类数据集ImageNet进行联合训练，其中图像分类数据集仅用来调整识别部分的神经网络参数，并不参与检测框生成的参数调整。此方法虽然降低了对于多类别目标检测数据集的依赖，但其仅仅是将依赖转移到了图像分类数据集上，并未从根本上解决依赖细分类别数据集的问题。

在申请号为CN201911341230.3的专利文件“一种基于自适应聚类学习的视觉关系检测方法”中，公开了一种基于自适应聚类学习的视觉关系检测方法，通过潜在关联挖掘对不同子类的视觉关系进行细粒度识别，提高了视觉关系检测的精度。但仍无法对实体进行语义深化。

综上，目前现存的方法主要解决近端关系混淆以及实体实例混淆问题，或通过潜在关联挖掘对不同子类的视觉关系进行细粒度识别。但均无法达到实体语义深化的效果。

发明内容

本发明针对以上问题，提出了一种基于本体的半监督图像场景语义深化方法，以在不提供新的图像数据集的情况下将场景中检测到的实例类别进一步细化，达到深化场景语义描述的效果。

为了实现上述目的，本发明提供一种基于本体的半监督图像场景语义深化方法，包括：

S1，检测出图像中的实体，所述实体包括目标实体；

S2，得到目标实体的场景信息，该场景信息至少包括目标实体的组成部分；

S3，将步骤S2的场景信息与实体本体库中的下位词进行匹配，并根据匹配结果对目标实体进行重命名，从而实现对目标实体的类别的语义深化。

所述步骤S1包括，采用目标检测模型对图像进行实体检测，生成图像中所有实体的检测框以及实体的类别标签。

所述步骤S2包括：

S21，针对步骤S1所检测到的实体，采用场景理解模型检测其之间的关系，生成关系三元组；

S22，优化关系信息，去除误匹配关系，得到优化的每个目标实体的场景信息。

在所述步骤S22中，采用实例分割模型对图像进行实例分割，实现在像素级识别实体轮廓的任务，得到实例分割结果，利用实例分割结果消除实体间的误匹配关系，由此得到优化后的目标实体的场景信息。

所述步骤S22包括：

S221，采用实例分割模型对图像进行实例分割，实现在像素级识别实体轮廓的任务，得到实例分割结果；

S222，根据实例分割结果在S21得到的关系三元组中过滤出待分析的关系三元组，得到具有作为主实体的目标实体和其从属实体的关系三元组，关系三元组的主实体与实例分割结果中的实体的类型相同；

S223，将所述S21得到的各个关系三元组中的从属实体的检测框分别放入实例分割结果中，计算实例分割结果中每个同种类型的主实体在所述从属实体的检测框中的像素占比，从中选取最大的像素占比并判断其是否大于一阈值，若最大的像素占比大于一阈值，则认定所述从属实体归属于实例分割结果中最大像素占比所对应的主实体；否则，认定所述从属实体不属于任何主实体；

S224，将实例分割结果中最大像素占比所对应的主实体的检测框与所述从属实体在其关系三元组中的主实体的检测框通过计算交并比来进行匹配，若匹配成功则认定从属实体为其关系三元组中的主实体的组成部分；

S225，根据S224中的结果，去除所述组成部分与其关系三元组中的主实体之外的其他主实体间的关系，得到筛选后的关系三元组。

所述步骤S22还包括：S226，根据谓词的种类，从S225中的筛选后的关系三元组中提取出与主实体有关的环境信息。

所述步骤S3包括：

S31，在一实体本体库中，查找作为主实体的目标实体的语义所对应的所有下位词，并在实体本体库的数据集中得到每个下位词的描述；

S32，将所有下位词的描述与所述S22得到的每个主实体的场景信息进行匹配以计算每个主实体与所有下位词的相似度，对于每个主实体，选取相似度最高的下位词，若相似度最高的下位词与该主实体匹配，则将该主实体重命名为相似度最高的下位词，否则，不对该主实体进行重命名。

S33，若有其他实体属于主实体的一部分且在主实体的重命名过程贡献了有效信息，则重命名主实体后将该实体及该实体与主实体的关系信息删除。

相似度的计算方法由实体本体库所提供的信息来决定，且相似度的计算基于文本匹配的技术。

本发明的基于本体的半监督图像场景语义深化方法通过实例分割的方法，得到实体的场景信息，可以消除不合逻辑的谓词关系，判定从属实例的归属，从而提高关系检测精度，此外，还通过结合实体本体库的信息来进行语义深化，得到实体的语义深化的结果即更细化的种类，在语义深化步骤中仅结合了实体本体库信息而并未引入新的图像数据集，能够在不提供新的图像数据集的情况下深化场景语义，也意味着语义深化的过程是非监督的，因而本发明的基于本体的半监督图像场景语义深化方法能够提高关系检测精度，且能够在不提供新的图像数据集的情况下深化所检测实例的语义描述。

附图说明

为了更清楚地说明本发明的技术方案，下面将对使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的基础流程以及一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的基于本体的半监督图像场景语义深化方法的基础流程图。

图2是根据本发明的一个实施例的基于本体的半监督图像场景语义深化系统的系统架构图。

图3是根据本发明的第一实施例的基于本体的半监督图像场景语义深化方法的效果图，其中左图为原始图像，中图为关系检测结果，右图为语义深化后的实体深化类别以及关系三元组。

图4是根据本发明的第二实施例的基于本体的半监督图像场景语义深化方法的效果图，其中左图为关系检测结果，右图为语义深化后的实体深化类别。

具体实施方式

下面结合附图，给出本发明的较佳实施例，并予以详细描述，使能更好地理解本发明的功能、特点。

本发明涉及一种基于本体的半监督图像场景语义深化方法，基于传统的目标检测模型来进行目标检测，基于传统的场景理解模型来进行关系检测，同时引入实例分割模型以及实体本体库，判定从属实例的归属，消除不合逻辑的谓词关系，深化实例的语义描述。实现语义深化后可以对图像中的实体了解的更透彻，例如扶手椅中包含的信息肯定比椅子包含的信息要多。

如图1所示，基于本体的半监督图像场景语义深化方法具体包括以下步骤：

步骤S1，检测出图像中的实体，所述实体包括目标实体；

所述步骤S1通过初始图像处理模块11来进行，其包括：采用一目标检测模型对图像进行实体检测，生成图像中所有实体的检测框以及实体的类别标签。

步骤S2，得到目标实体的场景信息（即目标实体所在场景中其他实体与目标实体的关联信息），该场景信息至少包括目标实体的组成部分；

所述步骤S2包括：

步骤S21，其可以通过场景信息提取模块21来进行，其包括：针对步骤S1所检测到的实体，采用场景理解模型检测实体之间的关系，生成关系三元组；

步骤S22，其可以通过信息优化模块22来进行，其包括：优化关系信息，去除误匹配关系，得到优化的每个目标实体的场景信息。

所述步骤S22具体包括：

由于需要使用实例分割结果，所以待分析的关系三元组为实体类型包含实例分割结果中的实体的关系三元组。例如，实例分割结果中存在椅子，人，花盆这三种类型的实体，那么就提取出初始结果的关系三元组中包含这三类实体的关系三元组来进行分析，该步骤是对算法的速率优化。

S223，将所述步骤S21得到的各个关系三元组中的从属实体的检测框分别放入实例分割结果中，计算实例分割结果中每个同种类型的主实体在所述从属实体的检测框中的像素占比，从中选取最大的像素占比并判断其是否大于一阈值，若最大的像素占比大于一阈值，则认定所述从属实体归属于实例分割结果中最大像素占比所对应的主实体；否则，认定所述从属实体不属于任何主实体；

在本实施例中，所述阈值可以是30%。

该步骤是对实例分割结果以及关系检测结果进行匹配，即确定实例分割结果中最大像素占比所对应的主实体与从属实体在其关系三元组中的主实体是否是同一个实体。在本实施例中，交并比的值大于0.5，则匹配成功。

S226，根据谓词的种类，从S225中的筛选后的关系三元组中提取出与主实体有关的环境信息。

在步骤S22中，例如，对椅子来说，假如三元组中的主实体中存在两把椅子A和B，实例分割结果存在两把椅子X，Y。首先在三元组中提取出所有与A有关的三元组，假如与A有关的实体有A1,A2,A3，这些就为主实体A的从属实体；之后在A1,A2,A3中去除三元组中检测框比A的检测框大的实体，该步是为了去除chair in room这种情况发生，即去除了从属实体比主实体更大的情况；假如根据上一步去除了A1，那么对于剩下的A2,A3，将这两个实体的检测框放置于实例分割结果中，得到X,Y的实例分割结果分别在A2,A3框中的像素占比，提取出最大像素占比的实例分割的椅子；如果对于A2来说，最大像素占比的椅子为X，且像素占比大于30%，则认定A2应该归属于X；之后比较椅子X和椅子A的IOU，如果IOU大于0.5，则匹配成功，认定A2为椅子A的组成部分。该步骤是对实例分割结果以及关系检测的结果进行匹配，即确认X是否为A。且在确定A2属于椅子A的组成部分后，关系对中的剩余实体A2,A3可能为与主实体A有关的环境信息，该环境信息包含了谓语的关系例如on，under等。由此，S22得到场景信息包括目标实体的组成部分以及与目标实体有关的环境信息。

在其他实施例中，所述S226可以省略，相应地，S22得到的场景信息仅仅包括目标实体的组成部分。

步骤S3，将步骤S2的场景信息与实体本体库中的下位词进行匹配，并根据匹配结果对目标实体进行重命名，从而实现对目标实体的类别的语义深化；

所述步骤S3通过一语义深化模块31来进行，其具体包括：

其中，主实体的语义为该实体的名字，例如对于椅子这一实体，它拥有的语义信息就是椅子，在实体本体库中查找椅子所对应的下位词以及其描述。

S32，将所有下位词的描述与所述步骤S22得到的每个主实体的场景信息进行匹配以计算每个主实体与所有下位词的相似度，对于每个主实体，选取相似度最高的下位词，若相似度最高的下位词与该主实体匹配，则将该主实体重命名为相似度最高的下位词，否则，不对该主实体进行重命名。

相似度的计算方法由实体本体库所提供的信息来决定，且相似度的计算基于现有的文本匹配的技术。其中：

A：如果实体本体库所给的下位词的描述为一句话，则可以将这句话构建成拓扑图结构，然后将其与步骤S2得到的主实体和其场景信息的拓扑图进行图匹配，以实现相似度的计算。

B：如果实体本体库所给的下位词的描述为一个一个的单词，那么可以直接将步骤S2得到的主实体的场景信息与实体本体库中的下位词的描述进行匹配以计算。本次发明使用的WordNet和/或ConceptNet语义库就是属于这一情况，使用的算法为：对于信息优化模块22优化后的场景信息，判断该场景信息与哪些下位词的信息相关，如是某类下位词的场景信息，则该下位词相似度加1分，如下位词得分不是都为0（即，存在相似度大于一定值，例如定值为0），则相似度最高的下位词与该主实体匹配，认定下位词得分最高的为语义深化的结果。例如：步骤S21得到的某个主实体的组成部分有：AP1，AP2，BP2，环境信息有AE1,AE2,BE2。主实体的语义所对应的下位词有A，B，C。且实体本体库中下位词A的组成部分为AP1,AP2,AP3,环境信息为AE1,AE2,AE3；下位词B的组成部分为BP1,BP2,BP3，环境信息为BE1,BE2,BE3；下位词C的组成部分为CP1,CP2,CP3,环境信息为CE1,CE2,CE3。因为AP1,AP2,AE1,AE2归属于下位词A，A得4分，同理B得2分，C得0分。相似度最高的下位词为A，选取的下位词A的相似度大于一定值，则最终判定主实体的语义深化的结果为A，即重命名为A。

所述步骤S3还可以包括：步骤S33，若有其他实体属于主实体的一部分且在主实体的重命名过程贡献了有效信息，则重命名主实体后将该实体及该实体与主实体的关系信息删除。

如图2所示，在实现基于本体的半监督图像场景语义深化方法的过程中，所采用的图像场景语义深化系统包括：初始图像处理模块11，其包括目标检测模型，设置为根据图片生成初始结果，其中初始结果包括图像中所有实体的检测框以及实体的类别标签；场景信息提取模块21，其设置为通过场景理解模型，生成关系三元组，信息优化模块22，其设置为通过实例分割模型，对关系三元组中的从属实体进行归属判定，去除错误关系对，得到每个目标实体的场景信息；语义深化模块31，通过信息优化模块得到的场景信息，与实体本体库中的下位词进行匹配从而实现语义深化；其中，本发明的基于本体的半监督图像场景语义深化方法可以适用于所有类型的目标检测模型，场景理解模型以及实例分割模型；实体本体库应包含下位词以及对于下位词的描述；由于本发明是根据场景信息来对实体进行语义深化，因此实体本体库的数据集应选用下位词存在场景信息的数据集。下面结合附图给出本发明的基于本体的半监督图像场景语义深化方法所采用的语义深化系统的两个实施例。

第一实施例基于本体的半监督图像场景语义深化方法所采用的语义深化系统

本次实施方式的基于Faster_Rcnn, Motif场景理解模型，Yolact图像分割模型以及Wordnet实体本体库中的语义信息。下面以一张包含两张邻近椅子的图片图3为例，对每一模块进行具体描述。

所述步骤S1，在初始图像处理模块11中，采用的目标检测模型为Faster_Rcnn目标检测模型，生成实体类别标签以及实体的检测框，检测出所关注的实体包括leg026、chair01、chair00和arm059。

所述步骤S2通过场景信息提取模块21以及信息优化模块22来进行，具体包括：

在场景信息提取模块21中，采用的场景理解模型为Motif场景理解模型，生成关系三元组。在本实施例中，关注的关系三元组有leg026 of chair01, chair00 has leg026,chair00 has arm059。

在信息优化模块22中，采用Yolact图像分割模型，生成实例分割结果以及对应的检测框。其中，实例分割结果中关注的实体有两把椅子，包括左椅和右椅。

将场景理解模型输出结果中的从属实体leg026的检测框放入实例分割结果中，计算实例分割结果中的左椅和右椅在从属实体leg026的检测框中的像素占比，其中左椅占比高，且像素占比大于一阈值，因此将从属实体leg026划分为左椅的一部分，并且在步骤S224左椅和chair01匹配成功后认定从属实体leg026是chair01的组成部分。同理，将arm059划分为右椅、即chair00的一部分。去除了错误的关系对chair00 has leg026（即误匹配关系）。由于此次实施例中实体本体库选用为wordnet，其中未包括环境信息，跳过了提取环境信息这一步骤。

所述步骤S3通过一语义深化模块31来进行，其具体包括：根据Wordnet中的语义信息，得出椅子的下位词存在arm chair，tablet-armed_chair，highchair，bench等。实体本体库为WordNet语义库，该实体本体库中这些下位词的组成部分包括：arm chair的组成部分为arm，tablet-armed_chair组成部分为writing_arm，highchair组成部分为'rung', 'round', 'stave'，bench在WordNet语义库中没有组成部分。通过对比WordNet语义库中下位词的组成部分与chair00的组成部分（根据信息优化模块优化后的结果，chair00的组成部分仅有arm059），将下位词的组成部分与chair00的组成部分进行匹配，判定chair00重命名为arm chair。此外，所述步骤S3对比了实体本体库中下位词的组成部分与chair01的组成部分，但是chair01的组成部分仅有leg026，leg这一物体在实体本体库中找不到对应的下位词，即leg并非某个下位词的专有组成部分，所以无法对chair01进行重命名，也符合实际的情况。且根据语义深化后的结果，关系三元组chair00 has arm059也删除了，因为chair00已经更名为armchair00，如不删除，则关系对会变为armchair00 has arm，明显为冗余。

第二实施例基于本体的半监督图像场景语义深化方法所采用的语义深化系统

如图4所示，根据本发明的第二实施例的基于本体的半监督图像场景语义深化方法的基于Motif场景理解模型，Mask_rcnn图像分割模型以及ConceptNet语义信息。下面以另一张房间的图片图4为例，对每一模块进行具体描述。

所述步骤S1，在初始图像处理模块11中，采用的目标检测模型为Faster_Rcnn目标检测模型，生成实体类别标签以及实体的检测框，检测出所关注的实体包括room06、bed00、pillow03、lamp01以及table08。

在场景信息提取模块21中，采用的场景理解模型为Motif场景理解模型，生成关系三元组。在本实施例中，关注的关系三元组有room06 has bed00, table08 in room06,lamp01 in room06,pillow03 in room 06。

在信息优化模块22中，由于room不属于实例分割模型所关注的对象，实例分割模型不对room的关系对有所优化。

对于场景理解模型输出结果，对三元组中的谓词进行分类，其中has属于组成部分信息，in属于环境信息，则bed00属于room06的组成部分，table08，lamp01，pillow03属于room06的环境信息。

所述步骤S3通过一语义深化模块31来进行，其具体包括：根据ConceptNet中的语义信息，得出room的下位词存在bedroom, bathroom，ballroom，cardroom等。实体本体库为ConceptNet语义库，该实体本体库得下位词中，bedroom的组成部分信息与环境信息与该图片中room的场景信息最为匹配，判定room06重命名为bedroom06。且根据语义深化后的结果，关系三元组room06 has bed00也删除了，因为room06已经更名为bedroom06，如不删除，则关系对会变为bedroom06 has bed，明显为冗余。

以上所述的，仅为本发明的较佳实施例，并非用以限定本发明的范围，本发明的上述实施例还可以做出各种变化。凡是依据本发明申请的权利要求书及说明书内容所作的简单、等效变化与修饰，皆落入本发明专利的权利要求保护范围。本发明未详尽描述的均为常规技术内容。

Claims

1.一种基于本体的半监督图像场景语义深化方法，其特征在于，包括：

步骤S1，检测出图像中的实体，所述实体包括目标实体；

步骤S2，得到目标实体的场景信息，所述场景信息至少包括目标实体的组成部分；

所述步骤S2包括：

步骤S21，针对步骤S1所检测到的实体，采用场景理解模型检测实体之间的关系，生成关系三元组；

步骤S22，优化关系信息，去除误匹配关系，得到优化的每个目标实体的场景信息；

在所述步骤S22中，采用实例分割模型对图像进行实例分割，实现在像素级识别实体轮廓的任务，得到实例分割结果，利用实例分割结果消除实体间的误匹配关系，由此得到优化后的目标实体的场景信息；

所述步骤S22包括：

步骤S221，采用实例分割模型对图像进行实例分割，实现在像素级识别实体轮廓的任务，得到实例分割结果；

步骤S222，根据实例分割结果在步骤S21得到的关系三元组中过滤出待分析的关系三元组，得到具有作为主实体的目标实体和其从属实体的关系三元组，关系三元组的主实体与实例分割结果中的实体的类型相同；

步骤S223，将所述步骤S21得到的各个关系三元组中的从属实体的检测框分别放入实例分割结果中，计算实例分割结果中每个同种类型的主实体在所述从属实体的检测框中的像素占比，从中选取最大的像素占比并判断其是否大于一阈值，若最大的像素占比大于一阈值，则认定所述从属实体归属于实例分割结果中最大像素占比所对应的主实体；否则，认定所述从属实体不属于任何主实体；

步骤S224，将实例分割结果中最大像素占比所对应的主实体的检测框与所述从属实体在其关系三元组中的主实体的检测框通过计算交并比来进行匹配，若匹配成功则认定从属实体为其关系三元组中的主实体的组成部分；

步骤S225，根据步骤S224中的结果，去除所述组成部分与其关系三元组中的主实体之外的其他主实体间的关系，得到筛选后的关系三元组；

所述步骤S22还包括：步骤S226，根据谓词的种类，从步骤S225中的筛选后的关系三元组中提取出与主实体有关的环境信息；

且所述场景信息还包括与目标实体有关的环境信息。

2.根据权利要求1所述的基于本体的半监督图像场景语义深化方法，其特征在于，所述步骤S1包括：采用目标检测模型对图像进行实体检测，生成图像中所有实体的检测框以及实体的类别标签。

3.根据权利要求1所述的基于本体的半监督图像场景语义深化方法，其特征在于，所述步骤S3包括：

步骤S31，在一实体本体库中，查找作为主实体的目标实体的语义所对应的所有下位词，并在实体本体库的数据集中得到每个下位词的描述；

步骤S32，将所有下位词的描述与所述步骤S22得到的每个主实体的场景信息进行匹配以计算每个主实体与所有下位词的相似度，对于每个主实体，选取相似度最高的下位词，若相似度最高的下位词与该主实体匹配，则将该主实体重命名为相似度最高的下位词，否则，不对该主实体进行重命名。

4.根据权利要求3所述的基于本体的半监督图像场景语义深化方法，其特征在于，所述步骤S3还包括：步骤S33，若有其他实体属于主实体的一部分且在主实体的重命名过程贡献了有效信息，则重命名主实体后将该实体及该实体与主实体的关系信息删除。