[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN112085122B - 一种基于本体的半监督图像场景语义深化方法 - Google Patents

一种基于本体的半监督图像场景语义深化方法 Download PDF

Info

Publication number
CN112085122B
CN112085122B CN202010995864.7A CN202010995864A CN112085122B CN 112085122 B CN112085122 B CN 112085122B CN 202010995864 A CN202010995864 A CN 202010995864A CN 112085122 B CN112085122 B CN 112085122B
Authority
CN
China
Prior art keywords
entity
main
entities
relation
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010995864.7A
Other languages
English (en)
Other versions
CN112085122A (zh
Inventor
陈南希
肖天
刘李黎
张晓林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Microsystem and Information Technology of CAS
Original Assignee
Shanghai Institute of Microsystem and Information Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Microsystem and Information Technology of CAS filed Critical Shanghai Institute of Microsystem and Information Technology of CAS
Priority to CN202010995864.7A priority Critical patent/CN112085122B/zh
Publication of CN112085122A publication Critical patent/CN112085122A/zh
Application granted granted Critical
Publication of CN112085122B publication Critical patent/CN112085122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于本体的半监督图像场景语义深化方法,包括:检测出图像中的实体,所述实体包括目标实体;得到目标实体的场景信息,该场景信息至少包括目标实体的组成部分;将场景信息与实体本体库中的下位词进行匹配,并根据匹配结果对目标实体进行重命名,从而实现对目标实体的类别的语义深化。使用本发明的方法能够在不提供新的细分类图像数据集的情况下将场景中检测到的实例类别进一步细化,达到深化场景语义描述的效果,同时对于关联谓词检测任务,可以消除不合逻辑的关联谓词,判定从属实体的归属,从而提高谓词检测精度。

Description

一种基于本体的半监督图像场景语义深化方法
技术领域
本发明属于图像识别领域,具体涉及一种基于本体的半监督图像场景语义深化方法。
背景技术
目标检测得到的语义信息普遍依赖于监督学习,而目前图像数据集标注存在数据不平衡的情况,即某些精细标注的目标图像样本数不够。现有的图像领域的数据集中,往往存在语义标注浅显,可识别类别数量低等问题。VOC数据集中仅包含20种类别,MS COCO数据集中仅包含80种类别。而Visual Genome数据集中虽然包含近8万2千种实体,可其中存在十分显著的类别不均衡现象,大约7万5千类别的实体数量小于10。虽然Visual Genome数据集具有细分类别的语义标注,但由于这些类别的标注样本较少导致目标检测算法难以利用这些有细分类的标注数据。
同时,基于目标检测的目标间谓词关系识别算法精度也较为低下。由于上文提到的一些问题,现有的关系检测算法基本是使用Visual Genome数据集的子集,即对原始Visual Genome数据集进行了处理,仅提取出少部分实体以及关系来进行模型的训练。在现有的端到端关系检测算法(即,输入图片,输出图中实体和实体间关系)中,主流的方式是2-stage的方法,即先进行目标检测,再根据目标检测的结果进行关系检测,这些2-stage 的方法将会累积预测实体的检测框、预测实体的类别和预测实体间关系谓语的检测错误,导致存在大量误检测的现象。
在论文“Graphical Contrastive Losses for Scene Graph Parsing”中,作者建立了一种新的损失函数来避免近端关系混淆以及实体实例混淆。其中,近端关系混淆以及实体实例混淆是关系检测最终结果出现的一些错误,前者是对实体间的关系做出了错误的预测,后者是对关系对中的实体做出了错误的预测。这些错误都是由“预测实体的检测框、预测实体的类别和预测实体间关系谓语的检测错误”累加导致的。该损失函数由三部分组成:空间坐标损失,语义信息损失,视觉信息损失。该方法可以避免一定的误检测,但所检测出的语义信息仅限于数据集所标注的语义类别范围内。
在论文“YOLO9000:Better,Faster,Stronger”中,由于缺乏细分类别目标检测数据集,作者将目标检测数据集MS coco与图像分类数据集ImageNet进行联合训练,其中图像分类数据集仅用来调整识别部分的神经网络参数,并不参与检测框生成的参数调整。此方法虽然降低了对于多类别目标检测数据集的依赖,但其仅仅是将依赖转移到了图像分类数据集上,并未从根本上解决依赖细分类别数据集的问题。
在申请号为CN201911341230.3的专利文件“一种基于自适应聚类学习的视觉关系检测方法”中,公开了一种基于自适应聚类学习的视觉关系检测方法,通过潜在关联挖掘对不同子类的视觉关系进行细粒度识别,提高了视觉关系检测的精度。但仍无法对实体进行语义深化。
综上,目前现存的方法主要解决近端关系混淆以及实体实例混淆问题,或通过潜在关联挖掘对不同子类的视觉关系进行细粒度识别。但均无法达到实体语义深化的效果。
发明内容
本发明针对以上问题,提出了一种基于本体的半监督图像场景语义深化方法,以在不提供新的图像数据集的情况下将场景中检测到的实例类别进一步细化,达到深化场景语义描述的效果。
为了实现上述目的,本发明提供一种基于本体的半监督图像场景语义深化方法,包括:
S1,检测出图像中的实体,所述实体包括目标实体;
S2,得到目标实体的场景信息,该场景信息至少包括目标实体的组成部分;
S3,将步骤S2的场景信息与实体本体库中的下位词进行匹配,并根据匹配结果对目标实体进行重命名,从而实现对目标实体的类别的语义深化。
所述步骤S1包括,采用目标检测模型对图像进行实体检测,生成图像中所有实体的检测框以及实体的类别标签。
所述步骤S2包括:
S21,针对步骤S1所检测到的实体,采用场景理解模型检测其之间的关系,生成关系三元组;
S22,优化关系信息,去除误匹配关系,得到优化的每个目标实体的场景信息。
在所述步骤S22中,采用实例分割模型对图像进行实例分割,实现在像素级识别实体轮廓的任务,得到实例分割结果,利用实例分割结果消除实体间的误匹配关系,由此得到优化后的目标实体的场景信息。
所述步骤S22包括:
S221,采用实例分割模型对图像进行实例分割,实现在像素级识别实体轮廓的任务,得到实例分割结果;
S222,根据实例分割结果在S21得到的关系三元组中过滤出待分析的关系三元组,得到具有作为主实体的目标实体和其从属实体的关系三元组,关系三元组的主实体与实例分割结果中的实体的类型相同;
S223,将所述S21得到的各个关系三元组中的从属实体的检测框分别放入实例分割结果中,计算实例分割结果中每个同种类型的主实体在所述从属实体的检测框中的像素占比,从中选取最大的像素占比并判断其是否大于一阈值,若最大的像素占比大于一阈值,则认定所述从属实体归属于实例分割结果中最大像素占比所对应的主实体;否则,认定所述从属实体不属于任何主实体;
S224,将实例分割结果中最大像素占比所对应的主实体的检测框与所述从属实体在其关系三元组中的主实体的检测框通过计算交并比来进行匹配,若匹配成功则认定从属实体为其关系三元组中的主实体的组成部分;
S225,根据S224中的结果,去除所述组成部分与其关系三元组中的主实体之外的其他主实体间的关系,得到筛选后的关系三元组。
所述步骤S22还包括:S226,根据谓词的种类,从S225中的筛选后的关系三元组中提取出与主实体有关的环境信息。
所述步骤S3包括:
S31,在一实体本体库中,查找作为主实体的目标实体的语义所对应的所有下位词,并在实体本体库的数据集中得到每个下位词的描述;
S32,将所有下位词的描述与所述S22得到的每个主实体的场景信息进行匹配以计算每个主实体与所有下位词的相似度,对于每个主实体,选取相似度最高的下位词,若相似度最高的下位词与该主实体匹配,则将该主实体重命名为相似度最高的下位词,否则,不对该主实体进行重命名。
S33,若有其他实体属于主实体的一部分且在主实体的重命名过程贡献了有效信息,则重命名主实体后将该实体及该实体与主实体的关系信息删除。
相似度的计算方法由实体本体库所提供的信息来决定,且相似度的计算基于文本匹配的技术。
本发明的基于本体的半监督图像场景语义深化方法通过实例分割的方法,得到实体的场景信息,可以消除不合逻辑的谓词关系,判定从属实例的归属,从而提高关系检测精度,此外,还通过结合实体本体库的信息来进行语义深化,得到实体的语义深化的结果即更细化的种类,在语义深化步骤中仅结合了实体本体库信息而并未引入新的图像数据集,能够在不提供新的图像数据集的情况下深化场景语义,也意味着语义深化的过程是非监督的,因而本发明的基于本体的半监督图像场景语义深化方法能够提高关系检测精度,且能够在不提供新的图像数据集的情况下深化所检测实例的语义描述。
附图说明
为了更清楚地说明本发明的技术方案,下面将对使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的基础流程以及一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的基于本体的半监督图像场景语义深化方法的基础流程图。
图2是根据本发明的一个实施例的基于本体的半监督图像场景语义深化系统的系统架构图。
图3是根据本发明的第一实施例的基于本体的半监督图像场景语义深化方法的效果图,其中左图为原始图像,中图为关系检测结果,右图为语义深化后的实体深化类别以及关系三元组。
图4是根据本发明的第二实施例的基于本体的半监督图像场景语义深化方法的效果图,其中左图为关系检测结果,右图为语义深化后的实体深化类别。
具体实施方式
下面结合附图,给出本发明的较佳实施例,并予以详细描述,使能更好地理解本发明的功能、特点。
本发明涉及一种基于本体的半监督图像场景语义深化方法,基于传统的目标检测模型来进行目标检测,基于传统的场景理解模型来进行关系检测,同时引入实例分割模型以及实体本体库,判定从属实例的归属,消除不合逻辑的谓词关系,深化实例的语义描述。实现语义深化后可以对图像中的实体了解的更透彻,例如扶手椅中包含的信息肯定比椅子包含的信息要多。
如图1所示,基于本体的半监督图像场景语义深化方法具体包括以下步骤:
步骤S1,检测出图像中的实体,所述实体包括目标实体;
所述步骤S1通过初始图像处理模块11来进行,其包括:采用一目标检测模型对图像进行实体检测,生成图像中所有实体的检测框以及实体的类别标签。
步骤S2,得到目标实体的场景信息(即目标实体所在场景中其他实体与目标实体的关联信息),该场景信息至少包括目标实体的组成部分;
所述步骤S2包括:
步骤S21,其可以通过场景信息提取模块21来进行,其包括:针对步骤S1所检测到的实体,采用场景理解模型检测实体之间的关系,生成关系三元组;
步骤S22,其可以通过信息优化模块22来进行,其包括:优化关系信息,去除误匹配关系,得到优化的每个目标实体的场景信息。
在所述步骤S22中,采用实例分割模型对图像进行实例分割,实现在像素级识别实体轮廓的任务,得到实例分割结果,利用实例分割结果消除实体间的误匹配关系,由此得到优化后的目标实体的场景信息。
所述步骤S22具体包括:
S221,采用实例分割模型对图像进行实例分割,实现在像素级识别实体轮廓的任务,得到实例分割结果;
S222,根据实例分割结果在S21得到的关系三元组中过滤出待分析的关系三元组,得到具有作为主实体的目标实体和其从属实体的关系三元组,关系三元组的主实体与实例分割结果中的实体的类型相同;
由于需要使用实例分割结果,所以待分析的关系三元组为实体类型包含实例分割结果中的实体的关系三元组。例如,实例分割结果中存在椅子,人,花盆这三种类型的实体,那么就提取出初始结果的关系三元组中包含这三类实体的关系三元组来进行分析,该步骤是对算法的速率优化。
S223,将所述步骤S21得到的各个关系三元组中的从属实体的检测框分别放入实例分割结果中,计算实例分割结果中每个同种类型的主实体在所述从属实体的检测框中的像素占比,从中选取最大的像素占比并判断其是否大于一阈值,若最大的像素占比大于一阈值,则认定所述从属实体归属于实例分割结果中最大像素占比所对应的主实体;否则,认定所述从属实体不属于任何主实体;
在本实施例中,所述阈值可以是30%。
S224,将实例分割结果中最大像素占比所对应的主实体的检测框与所述从属实体在其关系三元组中的主实体的检测框通过计算交并比来进行匹配,若匹配成功则认定从属实体为其关系三元组中的主实体的组成部分;
该步骤是对实例分割结果以及关系检测结果进行匹配,即确定实例分割结果中最大像素占比所对应的主实体与从属实体在其关系三元组中的主实体是否是同一个实体。在本实施例中,交并比的值大于0.5,则匹配成功。
S225,根据S224中的结果,去除所述组成部分与其关系三元组中的主实体之外的其他主实体间的关系,得到筛选后的关系三元组。
S226,根据谓词的种类,从S225中的筛选后的关系三元组中提取出与主实体有关的环境信息。
在步骤S22中,例如,对椅子来说,假如三元组中的主实体中存在两把椅子A和B,实例分割结果存在两把椅子X,Y。首先在三元组中提取出所有与A有关的三元组,假如与A有关的实体有A1,A2,A3,这些就为主实体A的从属实体;之后在A1,A2,A3中去除三元组中检测框比A的检测框大的实体,该步是为了去除chair in room这种情况发生,即去除了从属实体比主实体更大的情况;假如根据上一步去除了A1,那么对于剩下的A2,A3,将这两个实体的检测框放置于实例分割结果中,得到X,Y的实例分割结果分别在A2,A3框中的像素占比,提取出最大像素占比的实例分割的椅子;如果对于A2来说,最大像素占比的椅子为X,且像素占比大于30%,则认定A2应该归属于X;之后比较椅子X和椅子A的IOU,如果IOU大于0.5,则匹配成功,认定A2为椅子A的组成部分。该步骤是对实例分割结果以及关系检测的结果进行匹配,即确认X是否为A。且在确定A2属于椅子A的组成部分后,关系对中的剩余实体A2,A3可能为与主实体A有关的环境信息,该环境信息包含了谓语的关系例如on,under等。由此,S22得到场景信息包括目标实体的组成部分以及与目标实体有关的环境信息。
在其他实施例中,所述S226可以省略,相应地,S22得到的场景信息仅仅包括目标实体的组成部分。
步骤S3,将步骤S2的场景信息与实体本体库中的下位词进行匹配,并根据匹配结果对目标实体进行重命名,从而实现对目标实体的类别的语义深化;
所述步骤S3通过一语义深化模块31来进行,其具体包括:
S31,在一实体本体库中,查找作为主实体的目标实体的语义所对应的所有下位词,并在实体本体库的数据集中得到每个下位词的描述;
其中,主实体的语义为该实体的名字,例如对于椅子这一实体,它拥有的语义信息就是椅子,在实体本体库中查找椅子所对应的下位词以及其描述。
S32,将所有下位词的描述与所述步骤S22得到的每个主实体的场景信息进行匹配以计算每个主实体与所有下位词的相似度,对于每个主实体,选取相似度最高的下位词,若相似度最高的下位词与该主实体匹配,则将该主实体重命名为相似度最高的下位词,否则,不对该主实体进行重命名。
相似度的计算方法由实体本体库所提供的信息来决定,且相似度的计算基于现有的文本匹配的技术。其中:
A:如果实体本体库所给的下位词的描述为一句话,则可以将这句话构建成拓扑图结构,然后将其与步骤S2得到的主实体和其场景信息的拓扑图进行图匹配,以实现相似度的计算。
B:如果实体本体库所给的下位词的描述为一个一个的单词,那么可以直接将步骤S2得到的主实体的场景信息与实体本体库中的下位词的描述进行匹配以计算。本次发明使用的WordNet和/或ConceptNet语义库就是属于这一情况,使用的算法为:对于信息优化模块22优化后的场景信息,判断该场景信息与哪些下位词的信息相关,如是某类下位词的场景信息,则该下位词相似度加1分,如下位词得分不是都为0(即,存在相似度大于一定值,例如定值为0),则相似度最高的下位词与该主实体匹配,认定下位词得分最高的为语义深化的结果。例如:步骤S21得到的某个主实体的组成部分有:AP1,AP2,BP2,环境信息有AE1,AE2,BE2。主实体的语义所对应的下位词有A,B,C。且实体本体库中下位词A的组成部分为AP1,AP2,AP3,环境信息为AE1,AE2,AE3;下位词B的组成部分为BP1,BP2,BP3,环境信息为BE1,BE2,BE3;下位词C的组成部分为CP1,CP2,CP3,环境信息为CE1,CE2,CE3。因为AP1,AP2,AE1,AE2归属于下位词A,A得4分,同理B得2分,C得0分。相似度最高的下位词为A,选取的下位词A的相似度大于一定值,则最终判定主实体的语义深化的结果为A,即重命名为A。
所述步骤S3还可以包括:步骤S33,若有其他实体属于主实体的一部分且在主实体的重命名过程贡献了有效信息,则重命名主实体后将该实体及该实体与主实体的关系信息删除。
如图2所示,在实现基于本体的半监督图像场景语义深化方法的过程中,所采用的图像场景语义深化系统包括:初始图像处理模块11,其包括目标检测模型,设置为根据图片生成初始结果,其中初始结果包括图像中所有实体的检测框以及实体的类别标签;场景信息提取模块21,其设置为通过场景理解模型,生成关系三元组,信息优化模块22,其设置为通过实例分割模型,对关系三元组中的从属实体进行归属判定,去除错误关系对,得到每个目标实体的场景信息;语义深化模块31,通过信息优化模块得到的场景信息,与实体本体库中的下位词进行匹配从而实现语义深化;其中,本发明的基于本体的半监督图像场景语义深化方法可以适用于所有类型的目标检测模型,场景理解模型以及实例分割模型;实体本体库应包含下位词以及对于下位词的描述;由于本发明是根据场景信息来对实体进行语义深化,因此实体本体库的数据集应选用下位词存在场景信息的数据集。下面结合附图给出本发明的基于本体的半监督图像场景语义深化方法所采用的语义深化系统的两个实施例。
第一实施例基于本体的半监督图像场景语义深化方法所采用的语义深化系统
本次实施方式的基于Faster_Rcnn, Motif场景理解模型,Yolact图像分割模型以及Wordnet实体本体库中的语义信息。下面以一张包含两张邻近椅子的图片图3为例,对每一模块进行具体描述。
所述步骤S1,在初始图像处理模块11中,采用的目标检测模型为Faster_Rcnn目标检测模型,生成实体类别标签以及实体的检测框,检测出所关注的实体包括leg026、chair01、chair00和arm059。
所述步骤S2通过场景信息提取模块21以及信息优化模块22来进行,具体包括:
在场景信息提取模块21中,采用的场景理解模型为Motif场景理解模型,生成关系三元组。在本实施例中,关注的关系三元组有leg026 of chair01, chair00 has leg026,chair00 has arm059。
在信息优化模块22中,采用Yolact图像分割模型,生成实例分割结果以及对应的检测框。其中,实例分割结果中关注的实体有两把椅子,包括左椅和右椅。
将场景理解模型输出结果中的从属实体leg026的检测框放入实例分割结果中,计算实例分割结果中的左椅和右椅在从属实体leg026的检测框中的像素占比,其中左椅占比高,且像素占比大于一阈值,因此将从属实体leg026划分为左椅的一部分,并且在步骤S224左椅和chair01匹配成功后认定从属实体leg026是chair01的组成部分。同理,将arm059划分为右椅、即chair00的一部分。去除了错误的关系对chair00 has leg026(即误匹配关系)。由于此次实施例中实体本体库选用为wordnet,其中未包括环境信息,跳过了提取环境信息这一步骤。
所述步骤S3通过一语义深化模块31来进行,其具体包括:根据Wordnet中的语义信息,得出椅子的下位词存在arm chair,tablet-armed_chair,highchair,bench等。实体本体库为WordNet语义库,该实体本体库中这些下位词的组成部分包括:arm chair的组成部分为arm,tablet-armed_chair组成部分为writing_arm,highchair组成部分为'rung', 'round', 'stave',bench在WordNet语义库中没有组成部分。通过对比WordNet语义库中下位词的组成部分与chair00的组成部分(根据信息优化模块优化后的结果,chair00的组成部分仅有arm059),将下位词的组成部分与chair00的组成部分进行匹配,判定chair00重命名为arm chair。此外,所述步骤S3对比了实体本体库中下位词的组成部分与chair01的组成部分,但是chair01的组成部分仅有leg026,leg这一物体在实体本体库中找不到对应的下位词,即leg并非某个下位词的专有组成部分,所以无法对chair01进行重命名,也符合实际的情况。且根据语义深化后的结果,关系三元组chair00 has arm059也删除了,因为chair00已经更名为armchair00,如不删除,则关系对会变为armchair00 has arm,明显为冗余。
第二实施例基于本体的半监督图像场景语义深化方法所采用的语义深化系统
如图4所示,根据本发明的第二实施例的基于本体的半监督图像场景语义深化方法的基于Motif场景理解模型,Mask_rcnn图像分割模型以及ConceptNet语义信息。下面以另一张房间的图片图4为例,对每一模块进行具体描述。
所述步骤S1,在初始图像处理模块11中,采用的目标检测模型为Faster_Rcnn目标检测模型,生成实体类别标签以及实体的检测框,检测出所关注的实体包括room06、bed00、pillow03、lamp01以及table08。
所述步骤S2通过场景信息提取模块21以及信息优化模块22来进行,具体包括:
在场景信息提取模块21中,采用的场景理解模型为Motif场景理解模型,生成关系三元组。在本实施例中,关注的关系三元组有room06 has bed00, table08 in room06,lamp01 in room06,pillow03 in room 06。
在信息优化模块22中,由于room不属于实例分割模型所关注的对象,实例分割模型不对room的关系对有所优化。
对于场景理解模型输出结果,对三元组中的谓词进行分类,其中has属于组成部分信息,in属于环境信息,则bed00属于room06的组成部分,table08,lamp01,pillow03属于room06的环境信息。
所述步骤S3通过一语义深化模块31来进行,其具体包括:根据ConceptNet中的语义信息,得出room的下位词存在bedroom, bathroom,ballroom,cardroom等。实体本体库为ConceptNet语义库,该实体本体库得下位词中,bedroom的组成部分信息与环境信息与该图片中room的场景信息最为匹配,判定room06重命名为bedroom06。且根据语义深化后的结果,关系三元组room06 has bed00也删除了,因为room06已经更名为bedroom06,如不删除,则关系对会变为bedroom06 has bed,明显为冗余。
以上所述的,仅为本发明的较佳实施例,并非用以限定本发明的范围,本发明的上述实施例还可以做出各种变化。凡是依据本发明申请的权利要求书及说明书内容所作的简单、等效变化与修饰,皆落入本发明专利的权利要求保护范围。本发明未详尽描述的均为常规技术内容。

Claims (4)

1.一种基于本体的半监督图像场景语义深化方法,其特征在于,包括:
步骤S1,检测出图像中的实体,所述实体包括目标实体;
步骤S2,得到目标实体的场景信息,所述场景信息至少包括目标实体的组成部分;
步骤S3,将步骤S2的场景信息与实体本体库中的下位词进行匹配,并根据匹配结果对目标实体进行重命名,从而实现对目标实体的类别的语义深化;
所述步骤S2包括:
步骤S21,针对步骤S1所检测到的实体,采用场景理解模型检测实体之间的关系,生成关系三元组;
步骤S22,优化关系信息,去除误匹配关系,得到优化的每个目标实体的场景信息;
在所述步骤S22中,采用实例分割模型对图像进行实例分割,实现在像素级识别实体轮廓的任务,得到实例分割结果,利用实例分割结果消除实体间的误匹配关系,由此得到优化后的目标实体的场景信息;
所述步骤S22包括:
步骤S221,采用实例分割模型对图像进行实例分割,实现在像素级识别实体轮廓的任务,得到实例分割结果;
步骤S222,根据实例分割结果在步骤S21得到的关系三元组中过滤出待分析的关系三元组,得到具有作为主实体的目标实体和其从属实体的关系三元组,关系三元组的主实体与实例分割结果中的实体的类型相同;
步骤S223,将所述步骤S21得到的各个关系三元组中的从属实体的检测框分别放入实例分割结果中,计算实例分割结果中每个同种类型的主实体在所述从属实体的检测框中的像素占比,从中选取最大的像素占比并判断其是否大于一阈值,若最大的像素占比大于一阈值,则认定所述从属实体归属于实例分割结果中最大像素占比所对应的主实体;否则,认定所述从属实体不属于任何主实体;
步骤S224,将实例分割结果中最大像素占比所对应的主实体的检测框与所述从属实体在其关系三元组中的主实体的检测框通过计算交并比来进行匹配,若匹配成功则认定从属实体为其关系三元组中的主实体的组成部分;
步骤S225,根据步骤S224中的结果,去除所述组成部分与其关系三元组中的主实体之外的其他主实体间的关系,得到筛选后的关系三元组;
所述步骤S22还包括:步骤S226,根据谓词的种类,从步骤S225中的筛选后的关系三元组中提取出与主实体有关的环境信息;
且所述场景信息还包括与目标实体有关的环境信息。
2.根据权利要求1所述的基于本体的半监督图像场景语义深化方法,其特征在于,所述步骤S1包括:采用目标检测模型对图像进行实体检测,生成图像中所有实体的检测框以及实体的类别标签。
3.根据权利要求1所述的基于本体的半监督图像场景语义深化方法,其特征在于,所述步骤S3包括:
步骤S31,在一实体本体库中,查找作为主实体的目标实体的语义所对应的所有下位词,并在实体本体库的数据集中得到每个下位词的描述;
步骤S32,将所有下位词的描述与所述步骤S22得到的每个主实体的场景信息进行匹配以计算每个主实体与所有下位词的相似度,对于每个主实体,选取相似度最高的下位词,若相似度最高的下位词与该主实体匹配,则将该主实体重命名为相似度最高的下位词,否则,不对该主实体进行重命名。
4.根据权利要求3所述的基于本体的半监督图像场景语义深化方法,其特征在于,所述步骤S3还包括:步骤S33,若有其他实体属于主实体的一部分且在主实体的重命名过程贡献了有效信息,则重命名主实体后将该实体及该实体与主实体的关系信息删除。
CN202010995864.7A 2020-09-21 2020-09-21 一种基于本体的半监督图像场景语义深化方法 Active CN112085122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010995864.7A CN112085122B (zh) 2020-09-21 2020-09-21 一种基于本体的半监督图像场景语义深化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010995864.7A CN112085122B (zh) 2020-09-21 2020-09-21 一种基于本体的半监督图像场景语义深化方法

Publications (2)

Publication Number Publication Date
CN112085122A CN112085122A (zh) 2020-12-15
CN112085122B true CN112085122B (zh) 2024-03-15

Family

ID=73740024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010995864.7A Active CN112085122B (zh) 2020-09-21 2020-09-21 一种基于本体的半监督图像场景语义深化方法

Country Status (1)

Country Link
CN (1) CN112085122B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5930783A (en) * 1997-02-21 1999-07-27 Nec Usa, Inc. Semantic and cognition based image retrieval
US8391618B1 (en) * 2008-09-19 2013-03-05 Adobe Systems Incorporated Semantic image classification and search
KR20130032653A (ko) * 2011-09-23 2013-04-02 브로드밴드미디어주식회사 동영상 자막을 키워드로 이용한 영상 검색 시스템 및 방법
CN110502655A (zh) * 2019-07-31 2019-11-26 武汉大学 一种嵌入场景文字信息的图像自然描述语句生成方法
CN111462282A (zh) * 2020-04-02 2020-07-28 哈尔滨工程大学 一种场景图生成方法
US10769502B1 (en) * 2019-04-08 2020-09-08 Dropbox, Inc. Semantic image retrieval

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9129191B2 (en) * 2013-12-16 2015-09-08 Adobe Systems Incorporated Semantic object selection
CN107291811B (zh) * 2017-05-18 2019-11-29 浙江大学 一种基于云端知识融合的感认知增强机器人系统
CN108549893B (zh) * 2018-04-04 2020-03-31 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109543690B (zh) * 2018-11-27 2020-04-07 北京百度网讯科技有限公司 用于提取信息的方法和装置
CN110008355A (zh) * 2019-04-11 2019-07-12 华北科技学院 基于知识图谱的灾害场景信息融合方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5930783A (en) * 1997-02-21 1999-07-27 Nec Usa, Inc. Semantic and cognition based image retrieval
US8391618B1 (en) * 2008-09-19 2013-03-05 Adobe Systems Incorporated Semantic image classification and search
KR20130032653A (ko) * 2011-09-23 2013-04-02 브로드밴드미디어주식회사 동영상 자막을 키워드로 이용한 영상 검색 시스템 및 방법
US10769502B1 (en) * 2019-04-08 2020-09-08 Dropbox, Inc. Semantic image retrieval
CN110502655A (zh) * 2019-07-31 2019-11-26 武汉大学 一种嵌入场景文字信息的图像自然描述语句生成方法
CN111462282A (zh) * 2020-04-02 2020-07-28 哈尔滨工程大学 一种场景图生成方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Zhike Yi.Scene-Aware Deep Networks for Semantic Segmentation of Images.IEEE .2019,69184-69193. *
基于深度卷积神经网络的弱监督图像语义分割;郑宝玉;王雨;吴锦雯;周全;;南京邮电大学学报(自然科学版)(第05期);7-9 *
自然场景中特定文字图像优化识别研究与仿真;李月洁;;计算机仿真(第11期);358-359 *
邹响林.基于图像分割和区域语义相关性的图像标注算法研究.华中师范大学.2017,(第02期),32-67. *

Also Published As

Publication number Publication date
CN112085122A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
NZ524988A (en) A document categorisation system
CN110209818B (zh) 一种面向语义敏感词句的分析方法
Béchet et al. Discovering linguistic patterns using sequence mining
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
US20220122588A1 (en) System to detect and reduce understanding bias in intelligent virtual assistants
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
US20200311473A1 (en) System and method to identify entity of data
CN112699232A (zh) 文本标签提取方法、装置、设备和存储介质
CN105069647A (zh) 一种改进的抽取中文商品评论中评价对象的方法
CN116010581A (zh) 一种基于电网隐患排查场景的知识图谱问答方法及系统
CN110765781A (zh) 一种领域术语语义知识库人机协同构建方法
CN115713072A (zh) 一种基于提示学习和上下文感知的关系类别推断系统及方法
KR20220068937A (ko) 기계학습 방법론을 이용한 한국 표준 산업/직업 분류 방법
CN114970523A (zh) 一种基于文本语义增强的主题提示式关键词提取方法
CN113254429B (zh) 一种用于远程监督关系抽取的基于bert和mlm的降噪方法
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN114969341A (zh) 一种针对餐饮行业评论的细粒度情感分析方法及装置
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN112085122B (zh) 一种基于本体的半监督图像场景语义深化方法
CN116860977B (zh) 一种面向矛盾纠纷调解的异常检测系统及方法
CN105975480A (zh) 一种指令识别方法及系统
CN116304012A (zh) 一种大规模文本聚类方法及装置
CN115496066A (zh) 文本分析系统、方法、电子设备及存储介质
Wang et al. Exploiting relation of video segments for temporal action detection
Akhgari et al. Sem-TED: semantic twitter event detection and adapting with news stories

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant