[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN108460389B - 一种识别图像中对象的类型预测方法、装置及电子设备 - Google Patents

一种识别图像中对象的类型预测方法、装置及电子设备 Download PDF

Info

Publication number
CN108460389B
CN108460389B CN201710089723.7A CN201710089723A CN108460389B CN 108460389 B CN108460389 B CN 108460389B CN 201710089723 A CN201710089723 A CN 201710089723A CN 108460389 B CN108460389 B CN 108460389B
Authority
CN
China
Prior art keywords
image
processed
type
main body
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710089723.7A
Other languages
English (en)
Other versions
CN108460389A (zh
Inventor
潘攀
刘巍
李敏
张迎亚
华先胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201710089723.7A priority Critical patent/CN108460389B/zh
Priority to TW106136502A priority patent/TWI746674B/zh
Priority to US15/900,572 priority patent/US10706334B2/en
Priority to PCT/US2018/018827 priority patent/WO2018152532A1/en
Publication of CN108460389A publication Critical patent/CN108460389A/zh
Application granted granted Critical
Publication of CN108460389B publication Critical patent/CN108460389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种识别图像中对象的类型预测方法、装置及电子设备。所述方法包括:采用基于全图的特征数据识别图像中对象的类型预测方法对待处理图像进行处理,获取第一类型预测结果;采用基于图像中主体区域的特征数据识别图像中对象的类型预测方法对待处理图像进行处理,获取第二类型预测结果;比较所述待处理图像的第一类型预测结果第一类型预测结果与所述第二类型预测结果是否匹配;若匹配,则将所述第一类型预测结果或所述第二类型预测结果确定为所述待处理图像中的对象的类型。利用本申请各个实施例,结合全图和主体区域检测方式,可以更加准确的识别出图像中的对象,使图像中对象类型的预测结果更加准确,提高识别图像中对象的类型预测精度。

Description

一种识别图像中对象的类型预测方法、装置及电子设备
技术领域
本申请属于图像识别处理技术领域,尤其涉及一种识别图像中对象的类型预测方法、装置及电子设备。
背景技术
随着互联网技术的发展,用户不仅可以通过关键字的方式进行搜索,还可以通过图片的方式进行搜索。在通过图片进行搜索的场景中,用户可以通过图库中选择或即时拍摄图片上传至系统。在获取用户上传的图片之后,系统对图片进行分析,识别图片中的对象(人或物品等),以确定图片所属的分类信息,并根据图片的分类信息和特征进行搜索并将搜索结果返回给用户。
目前,识别图片中的物品以预测图片所属类型的方式主要有两种方式,一种方式是基于全图的特征数据识别图片中对象,输出图片的类型标签,另一种方式是利用物体检测技术确定图片中的主体区域,识别出主体区域中的对象,以主体区域中对象的类型标签作为识别出的整个图片的类型。其中,基于全图的特征数据识别处理的过程主体包括:提取待处理图片的视觉特征,例如方向梯度直方图(Histogram of Oriented Gradient,HOG)特征、尺度不变特征变换(Scale-invariant feature transform,SIFT)等,然后通过对应的分类器例如SVM(Support Vector Machine,支持向量机)以生成待处理图片的类型标签。基于物体检测技术对识别处理的过程主要包括:对全图进行主体区域检测,以确定出全图中的主体区域,并提取主体区域对应的特征,并根据主体区域的特征确定出主体区域的类型标签。
然而,上述识别图片中的物品以预测图片所属类型的方式存在以下问题:(1)基于全图特征数据的处理方式,由于对全图进行分析,不可避免会引入背景信息,引入的背景信息会干扰图片中目标主体的识别,导致整个图片分类结果的准确性降低,尤其在目标主体在全图面积占比较小时,引入的背景信息对预测结果影响更大。(2)基于主体区域的处理方式中,仅对主体区域进行分析,识别出主体区域中的物品等。由于主体区域中通常不包含图片的场景信息和上下文信息,在主体区域中的目标主体的形状、颜色等特征比较相近时,无法准确预测出主体区域中的目标主体的类型标签。并且检测主体区域算法本身存在一定的误检率,基于检测区域的方式会将这部分的损失引入类型预测结果中,进一步降低图片中对象的类型预测精度。
发明内容
本申请目的在于提供一种识别图像中对象的类型预测方法、装置及电子设备,结合全图和主体区域检测方式,可以更加准确的识别出图像中的对象,使图像中对象类型的预测结果更加准确,提高识别图像中对象的类型预测精度。
本申请提供的一种识别图像中对象的类型预测方法、装置及电子设备是这样实现的:
一种识别图像中对象的类型预测方法,所述方法包括:
采用全图识别方法对待处理图像进行处理,获取所述待处理图像中的对象的第一类型预测结果,所述全图识别方法基于全图的特征数据识别图像中对象;
采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的对象的第二类型预测结果,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;
比较所述第一类型预测结果与所述第二类型预测结果是否匹配;
若所述比较的结果为匹配,则将所述第一类型预测结果或所述第二类型预测结果确定为所述待处理图像中的对象的类型。
一种识别图像中对象的类型预测方法,所述方法包括:
采用全图识别方法对待处理图像进行处理,获取所述待处理图像的全图特征数据,所述全图识别方法基于全图的特征数据识别图像中对象;
采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的主体特征数据,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;
将所述全图特征数据和主体特征数据按照预设方式的进行特征数据融合,得到融合特征数据;
利用所述融合特征数据识别所述待处理图像中的对象,确定所述待处理图像中的对象的类型。
一种识别图像中对象的类型预测装置,所述装置包括:
第一识别模块,用于采用全图识别方法对待处理图像进行处理,获取所述待处理图像中的对象的第一类型预测结果,所述全图识别方法基于全图的特征数据识别图像中对象;
第二识别模块,用于采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的对象的第二类型预测结果,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;
结果比较模块,用于比较所述第一类型预测结果与所述第二类型预测结果是否匹配;
第一输出模块,用于在所述比较模块比较的结果为匹配时,将所述第一类型预测结果或所述第二类型预测结果确定为所述待处理图像中的对象的类型。
一种识别图像中对象的类型预测装置,所述装置包括:
全图特征获取模块,用于采用全图识别方法对待处理图像进行处理,获取所述待处理图像的全图特征数据,所述全图识别方法基于全图的特征数据识别图像中对象;
主体特征处理模块,用于采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的主体特征数据,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;
融合处理模块,用于将所述全图特征数据和主体特征数据按照预设方式的进行特征数据融合,得到融合特征数据;
分类处理模块,用于利用所述融合特征数据识别所述待处理图像中的对象,确定所述待处理图像中的对象的类型。
一种电子设备,包括处理器以及用于存储处理器可执行指令的存储器,
所述处理器执行所述指令时实现:
采用全图识别方法对待处理图像进行处理,获取所述待处理图像中的对象的第一类型预测结果,所述全图识别方法基于全图的特征数据识别图像中对象;采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的对象的第二类型预测结果,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;比较所述第一类型预测结果与所述第二类型预测结果是否匹配;若所述比较的结果为匹配,则将所述第一类型预测结果或所述第二类型预测结果确定为所述待处理图像中的对象的类型。
一种电子设备,包括处理器以及用于存储处理器可执行指令的存储器,
所述处理器执行所述指令时实现,
采用全图识别方法对待处理图像进行处理,获取所述待处理图像的全图特征数据,所述全图识别方法基于全图的特征数据识别图像中对象;采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的主体特征数据,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;将所述全图特征数据和主体特征数据按照预设方式的进行特征数据融合,得到融合特征数据;利用所述融合特征数据识别所述待处理图像中的对象,确定所述待处理图像中的对象的类型。
一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现以下步骤:
采用全图识别方法对待处理图像进行处理,获取所述待处理图像中的对象的第一类型预测结果,所述全图识别方法基于全图的特征数据识别图像中对象;
采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的对象的第二类型预测结果,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;
比较所述第一类型预测结果与所述第二类型预测结果是否匹配;
若所述比较的结果为匹配,则将所述第一类型预测结果或所述第二类型预测结果确定为所述待处理图像中的对象的类型。
一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现以下步骤:
采用全图识别方法对待处理图像进行处理,获取所述待处理图像的全图特征数据,所述全图识别方法基于全图的特征数据识别图像中对象;
采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的主体特征数据,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;
将所述全图特征数据和主体特征数据按照预设方式的进行特征数据融合,得到融合特征数据;
利用所述融合特征数据识别所述待处理图像中的对象,确定所述待处理图像中的对象的类型。
本申请提供的一种识别图像中对象的类型预测方法、装置及电子设备,采用两种不同识别图像中对象的类型预测实现方式分别得到相应的预测结果,包括基于图像的全图特征数据进行对象识别的方法和基于图像中主体区域的特征数据进行对象识别的方法。然后比较两种方法类型预测的结果,若结果相匹配,则可以将其中一种方式的类型预测结果作为识别出的待处理图像中对象的类型。基于全图特征数据的处理方法对图像中物品识别率较高,而基于主体区域的处理方法识别出图像中真正用户预期主体的准确性较高,使用本申请实施方案,结合两者特点,可以获取图像中符合预期需要的主体并准确识别出该主体是什么,减少背景噪声的干扰的同时,解决主体区域检测的信息丢失和误检率问题,使得识别图像中对象的类型预测准确性和可靠性提高,进而使得图像中对象类型的预测结果更加准确,提高识别图像中对象的类型预测精度和可靠性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请所述一种识别图像中对象的类型预测方法一种实施例的方法流程示意图;
图2是本申请所述一种识别图像中对象的类型预测方法另一种实施例的方法流程示意图;
图3是本申请提供的所述方法具体的一个实施场景的流程示意图;
图4是本申请提供的一种识别图像中对象的类型预测方法另一种实施例的流程示意图;
图5是本申请提供的所述方法具体的另一个实施场景的流程示意图;
图6是本申请提供的一种识别图像中对象的类型预测装置一种实施例的模块结构示意图;
图7是本申请提供的所述一种识别图像中对象的类型预测装置另一种实施例的模块结构示意图;
图8是本申请提供的所述一种识别图像中对象的类型预测装置另一种实施例的模块结构示意图;
图9是本申请提供的所述电子设备一种实施例的结构示意图;
图10是本申请一个示例场景中需要识别的待处理图片的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
图1是本申请所述一种识别图像中对象的类型预测方法一种实施例的方法流程图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤、模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本申请实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理的实施环境)。
本申请中所述的图像可以包括计算机绘制的画面,也可以包括人为的用外部设备所捕捉到的外部的景象所生成的图像(包含图片),如通过移动终端的摄像头拍摄获取的图像。可以是静态的矢量或非矢量图片,也可以包括二维排列的像素图像,如BMP、PCX格式的图像。本申请实施方案中可以采用两种识别图像中对象的类型预测方式分别得到相应的预测结果,包括基于图像的全图特征数识别图像中对象的方法和基于图像中主体区域的特征数据识别图像中对象的方法。然后比较两种方法预测结果的结果,若结果匹配,则可以直接输出图像的识别结果。具体的,如图1所示,本申请提供的一种识别图像中对象的类型预测方法的一种实施例中,所述方法可以包括:
S1:采用全图识别方法对待处理图像进行处理,获取所述待处理图像中的对象的第一类型预测结果,所述全图识别方法基于全图的特征数据识别图像中对象。
本实施例中所述的全图识别方法可以为基于全图的特征数据识别图像中对象,通常以待处理图像的全图作为输入、经过分类器或神经网络的输出层得到整个待处理图像所属分类的处理方式。此时所述待处理图像所属的分类可以理解为从所述待处理图像中识别出的对象,可以是图像中的显性的物品(人眼可见),也可以是图像整体所要表达的场景信息。本实施例中所述的对象可以理解为在需要识别待处理图像中对象的实施场景中,计算出的所述待处理图像的数据所要表征的对象。例如识别待处理图像中物品的场景中,所述对象可以是待处理图像中出现的物品,如一件大衣,或一顶帽子,或一条船。那么,相应的获取的第一类型预测结果可以是一件大衣(或一顶帽子,或一条船),终端应用可以为用户推荐展示大衣类别的产品。当然,本申请不排除在一些场景中,待处理图像中对象不同的识别需求下(可以设置不同识别场景下的处理逻辑或分类规则等),同一张图像中所识别出的对象的结果可能不同。例如同样是上述出现大衣、帽子和船的图像中,识别出的结果可以是“《江雪》__诗词图画”,此时终端应用可以为用户推荐展示古诗词字画类别的产品。
本实施例可以预先选取所使用的全图识别方法,然后对待处理图像进行处理,获取采用基于全图的特征数据识别图像中对象的类型预测方法得到的所述待处理图像所属的预测对象结果(为便于描述,在此称为第一类型预测结果)。
本申请的一种实施例中,所述的全图识别方法可以主要利用图像视觉感知的特征数据,如色彩(灰度、HSV、RGB)、纹理、形状等的数据进行处理,基于这些全图的视觉上的特征数据识别出待处理图像中的对象。本申请提供的所述方法具体的另一种实施例中,所述采用全图识别方法对待处理图像进行处理,获取所述待处理图像中的对象的第一类型预测结果可以包括:
S101:计算所述待处理图像全图的视觉特征数据;
S102:基于所述视觉特征数据进行分类预测,得到所述待处理图像对应的第一类型预测结果。
所述的视觉特征数据一种实施例中可以指的是如待处理图像所有像素点的色彩(灰度、HSV、RGB)、纹理、形状等数据,可以用来代表图像本身参与后续的分析与处理。具体的视觉特征数据可以包括通过可以如方向梯度直方图(Histogram of OrientedGradient,HOG)、尺度不变特征变换(Scale-invariant feature transform,SIFT)等算法得到的特征数据,或者CNN(Convolutional neural networks,卷积神经网络)深度学习等得到的特征数据。HSV(Hue SaturationValue),一种颜色模型,也称六角锥体模型(HexconeModel),参数分别是:色调(H),饱和度(S),明度(V)。RGB是业界的一种颜色标准,是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的,RGB即是代表红、绿、蓝三个通道的颜色。
然后可以利用获取的全图的视觉特征数据进行分类预测,输出预测结果。如将所述视觉特征数据作为卷积神经网络的输入数据,通过各个卷积层的处理后,由softmax层输出待处理图像所属类别标签数据。卷积神经网络具体的层结构、卷积核的选取、softmax层分类的规则等等,可以根据实际图像处理场景的设计需求进行设置,并且可以通过一定量的样本数据进行训练以及参数反馈、修正等。本申请中基于全图的视觉特征数据可以较为准确的识别出待处理图像中所表征的物品或其他类型的对象,可以输出识别出的对象所属的分类标签(标签数据)。
所述的视觉特征数据以及后续所描述的主体特征数据等,可以是向量的数据格式,具体的例如可以是N维的向量特征数据。
S2:采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的对象的第二类型预测结果,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象。
本申请实施例所述的特征识别方法可以基于图像中主体区域的特征数据识别图像中对象。主要处理过程通常包括确定待处理图像中包含主体的主体区域部分,然后对该主体区域部分进行分类预测,识别出主体区域中的对象,确定该主体区域中识别出的对象的标签数据,得到第二类型预测结果。一些实施例中可以直接获取待识别图像中的主体区域(如图像中仅包括一个主体)。其他实施例中也可以包括先识别出可能包含主体的候选区域(如通过Selective Search算法、RPN算法等得到候选区域),采用设计的筛选或匹配方式从所述候选区域中确定符合条件的主体区域,然后对主体区域进行分类预测(如利用HOG/SIFT+SVM算法得到所述候选区域对应的分类标签),得到主体区域对应的类型预测结果(为便于描述,在此称为第二类型预测结果)。
本申请的一种实施例中所述图像中主体的识别,可以与具体的内容识别需求相关,如图像中人的脸部特征、包、衣服、品牌的识别,通常是建立在对所描述图像内容的某些先验知识(或假设)的基础上进行的。具体的,本申请提供的所述方法具体的另一种实施例中,所述采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的对象的第二类型预测结果,包括:
S201:检测所述待处理图像中的主体,确定包含所述主体的主体区域;
S202:计算所述主体区域的主体特征数据,基于所述主体特征数据进行分类预测,得到所述主体区域对应的第二类型预测结果。
在获取待处理图像之后,可通过相关的候选区域检测算法(例如选择搜索Selective Search算法,RPN(Region Proposal Network,区域生成网络)算法等算法)对待处理图像进行处理,以确定出待处理图像中包含主体的主体区域。然后计算所述主体区域的主体特征数据,所述的主体特征数据可以是色彩数据,也可以是其他类型的图像数据,一般的,具体的计算主体区域的哪种特征数据通常可以由选取的主体区域检测方法决定。然后可以利用所述主体特征数据进行图像中对象的预测识别,例如的可以采用HOG/SIFT+SVM网络识别所述主体区域中的对象,输出所述主体区域中的对象所属的分类标签(标签数据)。需要理解的是,本申请实施例中所提及的搜索Selective Search算法和RPN算法仅是处于示例目的,本申请其他的实施例中的主体区域检测算法并不限制于此。当然,具体的主体检测以及对主体特征数据进行识别预测的实施过程中根据选取的算法还可以包括其他的处理,如对所述主体区域进行回归和修改。
另一种实施场景中,一个待识别图像中可能存在多个主体,例如,一个待识别图像中可以包括水果、衣服和刀具三个主体。此时可以采用从多个候选区域中选择一个作为主体区域,例如选择候选区域中像素点个数相对最多的候选区域作为待处理图像的主体区域,或者选择距离待处理图像中心点位置距离最近的候选区域作为主体区域。因此,本申请提供的所述方法的另一种实施例中,当检测出所述待处理图像中包括两个以上的主体时,所述确定包括主体的主体区域,可以包括:
S2011:从包含主体的候选区域中选取符合预设条件的候选区域作为待处理图像的主体区域,所述候选区域为从所述待处理图像中确定出的包含主体的图像区域。
具体的一个示例中,如得到多个包含主体的候选区域A1、A2、A3之后,可确定每个候选区域占待处理图像面积的比值K以及距离待处理图像中心点像素的欧氏距离D,然后根据每个候选区域的比值K和欧氏距离D分别按照50%权重计算后将结果相加,数值最大的候选作为最终确定的所述待处理图像的主体区域。或者,另一种示例性的实施方式中,对于同一个待识别图像中的多个候选区域,可以分别计算出对应候选区域包含主体的概率值,然后根据概率值对对应的候选区域进行排序,并将概率值最高的候选区域作为主体区域。
所述的候选区域通常可以通过提取待处理图像的特征数据,然后利用图像中目标主体的检测方法识别出图像中包含的主体,并在待处理图像的像素范围内确定出一个包括所述主体像素的区域范围。通常的,这个包括主体的区域范围可以为矩形。具体的,本申请提供的一种实施例中,可以采用下述方式确定候选区域:
采用选取的主体检测方法对所述待处理图像进行检测,识别所述待处理图像中包含的主体;
根据识别出的所述主体边界像素的坐标信息确定出所述主体的区域范围;
将所述区域范围作为所述候选区域。
当然,其他的实施场景中,一些图像中目标主体检测的方法中本身可以得到包含主体的候选区域(如RPN算法),因此可以通过在所述目标主体检测的方法中设置或调整网络控制参数,得到不同的候选区域。
S3:比较所述第一类型预测结果与所述第二类型预测结果是否匹配。
获取上述两种方式得到的第一类型预测结果和第二类型预测结果后,可以比较两个预测对象结果是否匹配。如可以比较第一类型预测结果和第二类型预测结果的字符串信息(例如对象所属的分类标签)是否相同,或者所述第一类型预测结果和第二类型预测结果所对应的数据库中的分类标签是否相同等。类型预测结果是否匹配具体的可以设置为包括类型预测结果数据是否相同或者类型预测结果是否相似,或者类型预测结果符合设置的某种对应关系。实际应用中可以根据场景需要或数据处理需要设置第一类型预测结果和第二类型预测结果的匹配条件以及比较方式。
一些实施场景中,虽然直接比较的第一类型预测结果与第二类型预测结果不相同(可能由于先前的分类规则不完善或两者分类方式输出同一对象的分类标签数据不一致),但两者相似度非常高或者统一到共同的分类规则中后属于相同的分类,则本申请的一种实施例中也可以将其视为预测的结果相同,以满足一些场景的实施需求,便于用户管理和确定图像分类。因此,本申请提供的所述方法具体的另一种实施例中,所述比较所述第一类型预测结果与所述第二类型预测结果是否匹配包括:
S301:比较所述第一类型预测结果的标签数据与所述第二类型预测结果的标签数据是否相同,若相同,则比较的结果为匹配;
或,
S302:比较所述第一类型预测结果的数据标签与第二类型预测结果的数据标签是否属于相同的预设分类,若是,则比较的结果为匹配。
一般的,在进行图像识别处理中,通常采用的算法或网络模型输出的结果是一种分类标签,表示识别出的图像中的物品的名称或所属分类,如“大衣”或“外套”。因此,在本申请的一些实施例中进行比较所述第一类型预测结果与第二类型预测结果时可以采用比较标签数据是否相同的方式,具体的实施过程可以包括比较第一类型预测结果第一类型预测结果的字符串(如包括字母或数字的分类标签),若字符串完全相同,则可以表示第一类型预测结果和第二类型预测结果相匹配。当然,本申请不排除其他的实施例中采用某种算法将所述第一类型预测结果、第二类型预测结果转化为对应的取值(数值、字符等数据类型),然后再进行比较是否相同的实施方式。
所述的预设分类可以根据设计需求或应用场景预先设计存储,例如可以是数据库中存储各种物品分类的预设分类表。然后可以比较所述第一类型预测结果的标签数据和第二类型预测结果的标签数据在所述预设分类表中是否为相同的对象分类。具体的一个示例中,如通过全图识别方法得到的第一类型预测结果为“风衣”,通过特征识别方法得到的第二类型预测结果为“长款大衣”,而这两个预测结果在设置的产品预设分类表中均属于“大衣”这一类别,因此,此时可以确定第一类型预测结果与第二类型预测结果相匹配。进一步的可以为用户展示预先分类表中推荐的TOPN个“大衣”产品信息。
S4:若所述比较的结果为匹配,则将所述第一类型预测结果或所述第二类型预测结果确定为所述待处理图像中的对象的类型。
若通过两种图像分类处理所输出的预测对象结果一致,则在本实施中可以表示采用基于全图的特征数据识别图像中对象的类型预测方法和采用基于图像中主体区域的特征数据识别图像中对象的类型预测方法的两种对象识别方式均准确预测出了实施场景下待处理图像中真正的对象,此时,可直接输出待处理图像的识别结果。由于两种分类方式的结果相匹配,因此最终的识别结果可以是第一类型预测结果或第二类型预测结果。由此,可以为后续待分类处理过程(如产品搜索)提供了准确的分类标签,为其他处理提供了准确的数据基础。
本申请实施例具体的应用在识别图像中物品的场景中,在获取待处理图像后,获取采用基于全图的特征数据识别待处理图像中对象的第一标签数据,并对待处理图像进行主体检测,以获得待处理图像的主体区域,然后识别主体区域中的对象进而获取主体区域对应的第二标签数据。然后可以比较对第一标签数据和第二标签数据是否相同,若相同则可以直接将所述第一标签数据或第二标签数据作为待处理图像的识别结果,输出所述待处理图像中的对象的类型标签数。由此,使得图像中对象的识别结果更加准确,有效提高了图像中对象识别的准确度。
例如一个示例中,待处理图像P1中有一个目标主体1。假设通过基于全图的特征数据识别图像中对象的类型预测方法得到该待处理图像的标签数据为“水果”,通过基于图像中主体区域的特征数据识别图像中对象的类型预测方法获得的该待处理图像P1中主体1对应的标签数据为“水果”。通过比较可以确定两种分类方式的输出结果一致,则可以所确定所述待处理图像P1对象的类型为“水果”。
本申请提供的一种识别图像中对象的类型预测方法,可以采用两种不同识别图像中对象的类型预测实现方式分别得到相应的预测结果,包括基于图像的全图特征数据进行对象识别的方法和基于图像中主体区域的特征数据进行对象识别的方法。然后比较两种方法预测对象结果的结果,若结果相匹配,则可以输出图像的对象识别检测结果。使用本申请实施方案,综合考虑全图的分类方式中背景噪声的干扰、主体区域检测的信息丢失和误检率问题,结合了基于全图特征数据的处理方法对图像中物品识别率较高和基于主体区域的处理方法识别出图像中真正主体的准确性较高的特点,使得识别图像中对象的类型预测准确性和可靠性提高,进而使得图像中对象类型的预测结果更加准确,提高识别图像中对象的类型预测精度和可靠性。
前述描述的实施场景中,可能存在待处理图片中包括多个主体的情况,例如待处理图像中出现的物品,如一件大衣、一顶帽子、一条船。本申请的一种实施方式可以选择其中一个包含主体的候选区域作为主体检测处理时输出的主体区域。本申请提供的另一种处理方法中,可以分别对识别的多个主体区域进行对象识别,获取对应的多个第二类型预测结果,然后选择多个第二类型预测结果中与采用全图的特征数据获取的第一类型预测结果第一类型预测结果相匹配的第二类型预测结果作为输出的对象识别结果。具体的,本申请提供的所述方法的另一种实施例中,
当采用全图识别方法检测出所述待处理图像中包括两个以上的主体时,分别确定包含所述主体的主体区域,获取所述主体区域对应的第二类型预测结果;
相应的,所述比较所述第一类型预测结果与所述第二类型预测结果是否匹配包括:
比较所述第二类型预测结果中是否有与所述第一类型预测结果相匹配的第二类型预测结果,若有,则确定比较的结果为匹配;
相应的,将所述与所述第一类型预测结果相匹配的第二类型预测结果作为所述待处理图像中的对象的类型。
这样,在待处理图像包含多个主体的实施场景下,在采用主体检测的方式中选取与采用全图的数据获取的结果相同的输出结果作为待处理图像的输出结果,全图特征数据的处理方法对图像中物品识别率较高和基于主体区域的处理方法识别出图像中真正主体的准确性较高的特点,可以提高图像中对象识别结果的准确性和可靠性。
前述实施例描述了两种对象预测方式预测结果相同的情况下的实施方式。本申请其他的实施例还提供了在比较所述第一类型预测结果与所述第二类型预测结果不相同时的处理方式。在预测结果不一致的情况下,可以将检测到的待处理图像的主体区域作为新的全图,重新利用所述基于全图的特征数据识别图像中对象的类型预测方法对所述待处理图像的主体区域进行处理。图2是本申请提供的所述方法的另一种实施例中,如图2所示,所述方法还可以包括:
S5:若所述比较的结果为不匹配,则,
采用所述识别图像中对象的全图识别方法对所述待处理图像的所述主体区域进行处理,得到所述主体区域中的对象的第三类型预测结果;
将所述第三类型预测结果作为所述待处理图像中的对象的类型。
本申请实施例中,若所述第一类型预测结果与第二类型预测结果不匹配,例如不属于相同的分类结果,则可以进一步的可将前述采用的主体区域检测方法得到的主体区域作为全图的特征数据识别图像中对象的类型预测方法的输入,然后按照所述全图的特征数据识别图像中对象的类型预测方法再次进行图像对象识别处理,得到一个新的第二类型预测结果(在此称为第三预测对象结果)。此时,可以以所述第三预测对象结果作为所述待处理图像的对象识别结果。本申请实施例中,当上述两种方式获取的识别结果不一致时,由于基于主体区域的处理方法识别出图像中真正主体的准确性较高,因此,本实施例可以将识别出的主体区域作为一个新的待处理对象,然后利用基于全图的特征数据识别图像中对象的类型预测方法识别出图像中的对象,确定所述待处理图像中的对象的类型。而基于全图特征数据的处理方法对图像中物品识别率较高,这样,结合两种方式的优点,在识别结果不一致的时候,可以有效提高识别图像中对象的类型预测准确性和可靠性,提高图像分类的准确度。
具体的一个示例场景中,如图10所示,用户通过终端拍照得到一张图片P1,假如图片P1中包括多个物品,如水壶、A形状的咖啡杯、B形状的玻璃水杯,本意是要查询或搜索A形状咖啡杯的相关信息。P1中背景干扰较为复杂,包括其他物品干扰(部分纸巾)、光线强度、与物品颜色较近的墙壁等。若使用现有常规方式,例如全图输入识别处理可能可以识别出图片P1中的包含的主体有水壶、咖啡杯和水杯,但由于背景信息干扰,例如咖啡杯和挡板均为浅黄色,颜色较为接近,而玻璃水杯为透明的,与桌面白色很接近,甚至出现浅黄色纸巾的干扰。但水壶主体区域占据全图的面积比相比其他物品最大,因此可能最终将水壶作为输出的识别主体,导致最终展示给用户的识别出的物品是水壶。或者,因为纸巾占据图像的中心位置且面积相比咖啡杯大,也可能展示给用户的识别出的物品是纸巾。现有全图特征识别方式对图像中主体区域的识别准确性较低。而采用主体检测方式时相比于全图特征的识别方式通常可以识别出包含了预期识别对象咖啡杯的主体区域P1_Obj,检测到了符合用户意图的主体区域,但由于目前使用的图像主体检测识别对象的方式中,对象究竟是什么物品的识别结果准确性相对较低,在主体区域中对象检测时反馈给用户的结果可能是A’形状的咖啡杯,虽然与A形状部分相似,但结果很有可能不符合用户期望预期。甚至是出现虽然找对了用户期望识别的主体区域位置,但识别出的结果与用户期望相差较大,甚至识别错误(例如将咖啡杯识别为带把手的水杯)。而采用本实施例方法后,若两种方式识别出的结果一致,均为A形状的咖啡杯,说明两种方式均正确识别出实施场景下图片中的物品。若不一致,则可以将识别出的主体区域P1_Obj这张图片作为前述基于全图特征数据的识别图像中对象的类型预测方法的输入图像,再次进行识别处理。由于新确认的图片P1_Obj包含了正确的水杯主体区域,基于全图特征数据的识别图像中对象的类型预测方法识别无图像中物品的准确性较高,因而结合两种方式可以相比前两张方式单独处理较高概率的输出给用户A形状咖啡杯的相关查询或搜索信息。这样,本实施例方案可以提高预测图像中对象的类型预测精度,满足用户需求,提高用户体验。
图3是本申请提供的所述方法具体的一个实施场景的流程示意图。在图3中,具体操作过程包括如下:
1)、将待处理图像全图作为输入数据,借助分类模型预测得到分类标签;
2)、对待处理图像进行主体检测,得到主体区域及对应的分类标签;
3)对上述1)、2)输出的分类标签进行校验,若结果一致,则可以直接输出检测结果。否则以2)得到的主体区域作为输入,再次执行步骤1)进行分类,得到最终的输出结果。
由上述实施例及图3的示例可以看出,本申请提供的一种识别图像中对象(如物品)的方法,可以采用两种不同识别图像中对象的类型预测实现方式分别得到相应的预测结果,包括基于图像的全图特征数据进行对象识别的方法和基于图像中主体区域的特征数据进行对象识别的方法。然后比较两种方法预测对象结果的结果,若结果一致,则可以输出图像的对象识别结果。使用本申请实施方案,综合考虑全图的分类方式中背景噪声的干扰、主体区域检测的信息丢失和误检率问题,结合了基于全图特征数据的处理方法对图像中物品识别率较高和基于主体区域的处理方法识别出图像中真正主体的准确性较高的特点,使得识别图像中对象的类型预测准确性和可靠性提高,进而使得图像中对象的类型预测结果更加准确和可靠。
基于本申请创新之一的基于两种不同图像处理维度实现方式进行识别图像中物品的思想,本申请还可以对基于全图和主体区域分类的两种处理方式获取的特征数据进行融合,然后以融合后的特征数据进行图像分类处理,得到所述待处理图像中的对象的类型。基于全图特征数据的处理方法对图像中物品识别率较高,而基于主体区域的处理方法识别出图像中真正主体的准确性较高,本申请提供的另一种识别图像对象的方法可以使得融合后的特征数据结合两者的特点,进而可以减少全图的分类方式中背景噪声的干扰的同时解决主体区域检测的信息丢失和误检率问题,优化输出结果,可以有效提高识别图像中物品的准确性。图4是本申请提供的一种识别图像中对象的类型预测方法另一种实施例的流程示意图。如图4所示,另一种实施例中,所述方法可以包括:
S100:采用全图识别方法对待处理图像进行处理,获取所述待处理图像的全图特征数据,所述全图识别方法基于全图的特征数据识别图像中对象;
S200:采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的主体特征数据,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;
S300:将所述全图特征数据和主体特征数据按照预设方式的进行特征数据融合,得到融合特征数据;
S400:利用所述融合特征数据识别所述待处理图像中的对象,确定所述待处理图像中的对象的类型。
具体的获取所述全图特征数据或主体特征数据的实现方式可以包括利用前述实施例所述的HOG、SIFT或深度卷积神网络、Selective Search算法等。所述的将全图特征数据和主体特征数据进行融合的预设方式具体的可以预先选取数据融合方式或使用自定义数据融合方式的处理方式,例如可以直接将全图特征数据和主体特征数据进行拼接。
图5是本申请提供的所述方法具体的一个示例实施场景的流程示意图。如图5的示例中,可以分别采用基于全图的特征数据识别图像中对象的类型预测方法和基于图像中主体区域的特征数据识别图像中对象的类型预测方法对待处理图像进行处理,获取28维的全图特征数据Data_All和28维的主体特征数据Data_Sub。然后可以将28维的全图特征数据Data_All和28维的主体特征数据Data_Sub拼接组合成56维的融合特征数据Data_Mix,然后基于所述融合特征数据Data_Mix识别待处理图像中的对象,得到所述待处理图像的识别结果。这样,融合上述两种实图像分类方法的特征数据进行对象识别,使得分类处理过程中满足两种分类方式的分类处理要求,使得图像中对象类型的预测结果更加准确。
当然,所述的特征数据融合也可以包括除组合、拼接外的其他实施方式,如全图特征数据Data_All和28维的主体特征数据Data_Sub中对应维度的数据值相加获得28维的融合特征数据Data_Mix。具体的可以根据实施场景和设计需求进行选取算法或自定义的处理方式。
本申请提供的一种识别图像中对象的类型预测方法另一种实施例中,可以预先构建利用融合特征数据进行图像识别预测的融合特征预测模型,在获取待处理分类图像的融合特征数据后,可以直接输入到融合特征预测模型中进行识别待处理图像中的对象,输出识别结果。所述的融合特性分类模型可以预先根据样本图像进行训练获得。因此,本申请提供的一种识别图像中对象的类型预测方法另一种实施例中,所述利用所述融合特征数据识别所述待处理图像中的对象,可以包括:
将所述融合特征数据输入获取的融合特征预测模型中进行分类预测,所述融合特征预测模型包括采用下述方式构建生成:
S41:分别采用所述全图识别方法、特征识别方法计算预设数据量的样本图像的全图特征数据和主图特征数据,进行特征数据融合后得到所述样本图像的融合特征数据;
S42:将所述样本图像的融合特征数据在选取的图像分类模型中进行训练,得到以所述融合特征数据作为数据处理对象的融合特征预测模型。
可以根据待处理图像的应用场景和数据处理需求选取的训练所述融合特征数据的数据处理模型,如SVM分离器、包含SOFTMAX输出层的深度卷积网络等。本实施例中处理融合特征数据的所述融合特征预测模型可以是本地训练生成,也可以是获取的第三方的融合特征预测模型,例如识别图像中对象的类型预测第一终端可以采用上述两种方式处理待处理图像、特征数据融合处理,获取融合特征数据,然后可以将融合特征数据输入从第二终端(或其他数据模型的供应方)获取的融合特征预测模型,输出待处理图像的对象识别结果。
本申请提供的一种识别图像中对象的类型预测方法,可以采用两种不同识别图像中对象的类型预测实现方式分别得到相应的预测结果,包括基于图像的全图特征数据进行对象识别的方法和基于图像中主体区域的特征数据进行对象识别的方法。然后比较两种方法类型预测的结果,若结果相匹配,则可以将其中一种方式的类型预测结果作为识别出的待处理图像中对象的类型。基于全图特征数据的处理方法对图像中物品识别率较高,而基于主体区域的处理方法识别出图像中真正用户预期主体的准确性较高,使用本申请实施方案,结合两者特点,可以获取图像中符合预期需要的主体并准确识别出该主体是什么,减少背景噪声的干扰的同时,解决主体区域检测的信息丢失和误检率问题,使得识别图像中对象的类型预测准确性和可靠性提高,进而使得图像中对象类型的预测结果更加准确,提高识别图像中对象的类型预测精度和可靠性。
基于上述实施例或场景所述的识别图像中对象(例如图像中包含的物品)的方法,本申请还提供一种识别图像中对象的类型预测装置。所述装置可以包括使用了本申请所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器等并结合必要的实施硬件的装置。基于同一创新构思,本申请提供的一种实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本申请具体的装置的实施可以参见前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。具体的,图6是本申请提供的一种识别图像中对象的类型预测装置一种实施例的模块结构示意图,如图6所示,所述装置可以包括:
第一识别模块101,可以用于采用全图识别方法对待处理图像进行处理,获取所述待处理图像中的对象的第一类型预测结果,所述全图识别方法基于全图的特征数据识别图像中对象;
第二识别模块102,可以采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的对象的第二类型预测结果,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;
结果比较模块103,可以用于比较所述第一类型预测结果与所述第二类型预测结果是否匹配;
第一输出模块104,可以用于在所述比较模块比较的结果为匹配时,将所述第一类型预测结果或所述第二类型预测结果确定为所述待处理图像中的对象的类型。
本申请提供的一种识别图像中对象的类型预测装置,可以采用两种不同识别图像中对象的类型预测实现方式分别得到相应的预测结果,包括基于图像的全图特征数据进行对象识别的方法和基于图像中主体区域的特征数据进行对象识别的方法。然后比较两种方法类型预测的结果,若结果相匹配,则可以将其中一种方式的类型预测结果作为识别出的待处理图像中对象的类型。基于全图特征数据的处理方法对图像中物品识别率较高,而基于主体区域的处理方法识别出图像中真正用户预期主体的准确性较高,使用本申请实施方案,结合两者特点,可以获取图像中符合预期需要的主体并准确识别出该主体是什么,减少背景噪声的干扰的同时,解决主体区域检测的信息丢失和误检率问题,使得识别图像中对象的类型预测准确性和可靠性提高,进而使得图像中对象类型的预测结果更加准确,提高识别图像中对象的类型预测精度和可靠性。
图7是本申请提供的所述一种识别图像中对象的类型预测装置另一种实施例的模块结构示意图,如图7所示,所述装置还可以包括:
第二输出模块105,可以用于在所述比较模块103的比较的结果为不匹配时,采用所述识别图像中对象的全图识别方法对所述待处理图像的所述主体区域进行处理,得到所述主体区域中的对象的第三类型预测结果;以及,将所述第三类型预测结果作为所述待处理图像的对象的类型。
例如若两种方式得到的结果不一致,则可以将识别出的主体区域作为全图再次进行基于全图特征数据的图像分类,获得最终的图像识别结果。使用本申请实施方案,综合考虑全图的分类方式中背景噪声的干扰、主体区域检测的信息丢失和误检率问题,使得图像中对象的类型预测结果更加准确和可靠。
另一种实施场景中,一个待识别图像中可能存在多个主体,例如,一个待识别图像中可以包括水果、衣服和刀具三个主体。此时可以采用从多个候选区域中选择一个作为主体区域,例如选择候选区域中像素点个数相对最多的候选区域作为待处理图像的主体区域,或者选择距离待处理图像中心点位置距离最近的候选区域作为主体区域。具体的,本申请所述装置的另一种实施例中,当所述第二识别模块102检测出所述待处理图像中包括两个以上的主体时,
分别确定所述待处理图像中包含主体的候选区域,从所述候选区域中选取符合预设条件的候选区域作为待处理图像的主体区域。
参考前述方法所述,本实施所述装置中的第二识别模块102可以采用下述方式确定候选区域:
采用选取的主体检测方法对所述待处理图像进行检测,识别所述待处理图像中包含的主体;
根据识别出的所述主体边界像素的坐标信息确定出所述主体的区域范围;
将所述区域范围作为所述候选区域。
本申请其他的实施例还提供了在比较所述第一类型预测结果与所述第二类型预测结果不匹配时的识别图像中对象的类型预测装置。在预测结果不匹配的情况下,可以将检测到的待处理图像的主体区域作为新的全图,重新使用第一预定分类方法做一次图像分类处理。
另一些实施场景中,当采用基于图像中主体区域的特征数据识别图像中对象的类型预测方法检测出所述待处理图像中包括两个以上的主体时,可以分别确定包含所述主体的主体区域,获取所述主体区域对应的第二类型预测结果;
相应的,所述结果比较模块103比较所述第一类型预测结果与所述第二类型预测结果是否相同匹配可以包括:比较所述第二类型预测结果中是否有与所述第一类型预测结果相同相匹配的第二类型预测结果,若有,则确定比较的结果为匹配;
相应的,第一输出模块104可以将所述与所述第一类型预测结果相同相匹配的第二类型预测结果作为所述待处理图像中的识别结果对象的类型。
当然,如前所述,本申请不排除可以采用从多个候选区域中选择一个作为主体区域的实施方式,例如选择候选区域中像素点个数相对最多的候选区域作为待处理图像的主体区域,或者选择距离待处理图像中心点位置距离最近的候选区域作为主体区域。
基于本申请创新之一的基于两种不同实现方式进行识别图像中物品的思想,本申请还可以对基于全图和主体区域分类的两种对象检测方式获取的特征数据进行融合,然后以融合后的特征数据进行图像中对象的识别处理。融合后的特征数据包含了基于全图和主体区域两种实现方式处理的特征。基于全图特征数据的处理方法对图像中物品识别率较高,而基于主体区域的处理方法识别出图像中真正主体的准确性较高,本申请提供的另一种识别图像对象的方法可以使得融合后的特征数据结合两者的特点,进而可以减少全图的分类方式中背景噪声的干扰的同时解决主体区域检测的信息丢失和误检率问题,优化输出结果,可以有效提高识别图像中物品的准确性。图8是本申请提供的所述一种识别图像中对象的类型预测装置另一种实施例的模块结构示意图,如图8所示,所述装置可以包括:
全图特征获取模块201,可以用于采用全图识别方法对待处理图像进行处理,获取所述待处理图像的全图特征数据,所述全图识别方法基于全图的特征数据识别图像中对象;
主体特征处理模块202,可以用于采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的主体特征数据,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;
融合处理模块203,可以用于将所述全图特征数据和主体特征数据按照预设方式的进行特征数据融合,得到融合特征数据;
分类处理模块204,可以用于利用所述融合特征数据识别所述待处理图像中的对象,确定所述待处理图像中的对象的类型。
获取所述全图特征数据或主体特征数据的实现方式可以包括利用前述实施例所述的HOG、SIFT或深度卷积神网络、Selective Search算法等。所述的将全图特征数据和主体特征数据进行融合的预设方式具体的可以预先选取某种数据融合或自定义数据融合的处理方式。例如可以直接拼接特征数据。
根据本申请方法的描述所述的装置还可以包括其他的实施方式,以及所述装置具体的实现方式也可以参照对应方法的描述,在此不做赘述。
上述所述的装置或方法可以用于多种以图像信息进行处理的终端电子设备中,如用户移动终端中以图搜图或以图获取图中物品相关信息的APP(application,应用),实施本申请实施方案可以有效提高终端设备图像中对象类型预测结果的准确性,为后续终端应用的图像分类或对象搜索等的输出结果提供更好的数据基础。因此,本申请还提供一种电子设备,包括处理器以及用于存储处理器可执行指令的存储器,
所述处理器执行所述指令时实现:
采用全图识别方法对待处理图像进行处理,获取所述待处理图像中的对象的第一类型预测结果,所述全图识别方法基于全图的特征数据识别图像中对象;采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的对象的第二类型预测结果,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;比较所述第一类型预测结果与所述第二类型预测结果是否匹配;若所述比较的结果为匹配,则将所述第一类型预测结果或所述第二类型预测结果确定为所述待处理图像中的对象的类型。
所述电子设备可以包括移动通信终端、手持设备、车载设备、可穿戴设备、电视设备、计算设备等。
当然,所述电子设备的另一种实施方式中,所述处理器还可以实现:
若所述比较的结果为不匹配,则,采用所述识别图像中对象的全图识别方法对所述待处理图像的所述主体区域进行处理,得到所述主体区域中的对象的第三类型预测结果;以及,将所述第三类型预测结果作为所述待处理图像的对象的类型。
本申请还提供一种电子设备的另一种实施方式,采用全图和主体区域特征级数据的融合进行图像中对象的识别处理,具体的,所述电子设备可以包括处理器以及用于存储处理器可执行指令的存储器,
所述处理器执行所述指令时实现,
采用全图识别方法对待处理图像进行处理,获取所述待处理图像的全图特征数据,所述全图识别方法基于全图的特征数据识别图像中对象;采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的主体特征数据,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;将所述全图特征数据和主体特征数据按照预设方式的进行特征数据融合,得到融合特征数据;利用所述融合特征数据识别所述待处理图像中的对象,确定所述待处理图像中的对象的类型。
图9是本申请提供的所述电子设备一种实施例的结构示意图。当然,根据本申请方法或装置的描述所述电子设备还可以包括其他的实施方式,具体的可以参照对应方法或装置实施例的描述,在此不做赘述。
本申请上述实施例所述的方法可以通过处理器执行计算机可读存储介质上的计算机程序(计算机指令)的方式实现。所述的计算机程序可以存储可以记录在计算机可读存储介质中,如磁带、磁盘、光盘、ROM或其他的计算机可读介质。因此,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时可以实现以下步骤:
采用全图识别方法对待处理图像进行处理,获取所述待处理图像中的对象的第一类型预测结果,所述全图识别方法基于全图的特征数据识别图像中对象;
采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的对象的第二类型预测结果,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;
比较所述第一类型预测结果与所述第二类型预测结果是否匹配;
若所述比较的结果为匹配,则将所述第一类型预测结果或所述第二类型预测结果确定为所述待处理图像中的对象的类型。
本申请其他的实施例还提供了在比较所述第一类型预测结果与所述第二类型预测结果不相同时的处理方式。在预测结果不一致的情况下,可以将检测到的待处理图像的主体区域作为新的全图,重新利用所述基于全图的特征数据识别图像中对象的类型预测方法对所述待处理图像的主体区域进行处理。具体的,本申请所述计算机可读存储介质的另一种实施例中,所述指令被执行时还可以实现:
若所述比较的结果为不匹配,则,
采用所述识别图像中对象的全图识别方法对所述待处理图像的所述主体区域进行处理,得到所述主体区域中的对象的第三类型预测结果;
将所述第三类型预测结果作为所述待处理图像中的对象的类型。
本申请提供的计算机可读存储介质中存储的计算机指令在被执行时,可以采用两种不同识别图像中对象的类型预测实现方式分别得到相应的预测结果,包括基于图像的全图特征数据进行对象识别的方法和基于图像中主体区域的特征数据进行对象识别的方法。然后比较两种方法预测对象结果的结果,若结果相匹配,则可以输出图像的对象识别检测结果。使用本申请实施方案,综合考虑全图的分类方式中背景噪声的干扰、主体区域检测的信息丢失和误检率问题,结合了基于全图特征数据的处理方法对图像中物品识别率较高和基于主体区域的处理方法识别出图像中真正主体的准确性较高的特点,使得识别图像中对象的类型预测准确性和可靠性提高,进而使得图像中对象类型的预测结果更加准确,提高识别图像中对象的类型预测精度和可靠性。
本申请提供的另一种计算机可读存储介质的实施方案中,可以采用全图和主体区域特征级数据的融合进行图像中对象的识别处理。具体的,本申请提供的一种计算机可读存储介质的另一种实施例中,其上存储有计算机指令,所述指令被执行时可以实现以下步骤:
采用全图识别方法对待处理图像进行处理,获取所述待处理图像的全图特征数据,所述全图识别方法基于全图的特征数据识别图像中对象;
采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的主体特征数据,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;
将所述全图特征数据和主体特征数据按照预设方式的进行特征数据融合,得到融合特征数据;
利用所述融合特征数据识别所述待处理图像中的对象,确定所述待处理图像中的对象的类型。
尽管本申请内容中提到HOG或SIFT的第一预定分类方法、RPN算法计算候选区域、CNN网络输出主体区域的分类标签、特征数据的计算获取方式以及拼接的融合方式、第一类型预测结果和第二类型预测结果是否匹配的比较方式等之类的图像数据计算、处理、判断等的描述,但是,本申请并不局限于必须是符合图像数据处理标准、标准图像算法的处理方式或实施例所描述的实施情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据定义、计算、存储、交互方式等获取的实施例,仍然可以属于本申请的可选实施方案范围之内。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,实施例所涉及到的方法或装置或电子设备的通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (17)

1.一种识别图像中对象的类型预测方法,其特征在于,所述方法包括:
采用全图识别方法对待处理图像进行处理,获取所述待处理图像中的对象的第一类型预测结果,所述全图识别方法基于全图的特征数据识别图像中对象;
采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的对象的第二类型预测结果,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;
比较所述第一类型预测结果与所述第二类型预测结果是否匹配;
若所述比较的结果为匹配,则将所述第一类型预测结果或所述第二类型预测结果确定为所述待处理图像中的对象的类型;
若所述比较的结果为不匹配,则,
采用所述识别图像中对象的全图识别方法对所述待处理图像的所述主体区域进行处理,得到所述主体区域中的对象的第三类型预测结果;
将所述第三类型预测结果作为所述待处理图像中的对象的类型。
2.如权利要求1所述的一种识别图像中对象的类型预测方法,其特征在于,所述采用全图识别方法对待处理图像进行处理,获取所述待处理图像中的对象的第一类型预测结果,包括:
计算所述待处理图像全图的视觉特征数据;
基于所述视觉特征数据进行分类预测,得到所述待处理图像对应的第一类型预测结果。
3.如权利要求1所述的一种识别图像中对象的类型预测方法,其特征在于,所述采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的对象的第二类型预测结果,包括:
检测所述待处理图像中的主体,确定包含所述主体的主体区域;
计算所述主体区域的主体特征数据,基于所述主体特征数据进行分类预测,得到所述主体区域对应的第二类型预测结果。
4.如权利要求3所述的一种识别图像中对象的类型预测方法,其特征在于,当检测出所述待处理图像中包括两个以上的主体时,所述确定包括主体的主体区域,包括:
从包含主体的候选区域中选取符合预设条件的候选区域作为待处理图像的主体区域,所述候选区域为从所述待处理图像中确定出的包含主体的图像区域。
5.如权利要求4所述的一种识别图像中对象的类型预测方法,其特征在于,采用下述方式确定候选区域:
采用选取的主体检测方法对所述待处理图像进行检测,识别所述待处理图像中包含的主体;
根据识别出的所述主体边界像素的坐标信息确定出所述主体的区域范围;
将所述区域范围作为所述候选区域。
6.如权利要求1所述的一种识别图像中对象的类型预测方法,其特征在于,所述比较所述第一类型预测结果与所述第二类型预测结果是否匹配包括:
比较所述第一类型预测结果的标签数据与所述第二类型预测结果的标签数据是否相同,若相同,则比较的结果为匹配;
或,
比较所述第一类型预测结果的数据标签与第二类型预测结果的数据标签是否属于相同的预设分类,若是,则比较的结果为匹配。
7.如权利要求1所述的一种识别图像中对象的类型预测方法,其特征在于,当采用全图识别方法检测出所述待处理图像中包括两个以上的主体时,分别确定包含所述主体的主体区域,获取所述主体区域对应的第二类型预测结果;
相应的,所述比较所述第一类型预测结果与所述第二类型预测结果是否匹配包括:
比较所述第二类型预测结果中是否有与所述第一类型预测结果相匹配的第二类型预测结果,若有,则确定比较的结果为匹配;
相应的,将所述与所述第一类型预测结果相匹配的第二类型预测结果作为所述待处理图像中的对象的类型。
8.一种识别图像中对象的类型预测方法,其特征在于,所述方法包括:
采用全图识别方法对待处理图像进行处理,获取所述待处理图像的全图特征数据,所述全图识别方法基于全图的特征数据识别图像中对象;
采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的主体特征数据,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;
将所述全图特征数据和主体特征数据按照预设方式的进行特征数据融合,得到融合特征数据;
利用所述融合特征数据识别所述待处理图像中的对象,确定所述待处理图像中的对象的类型;
其中,所述利用所述融合特征数据识别所述待处理图像中的对象,包括:
将所述融合特征数据输入获取的融合特征预测模型中进行分类预测,所述融合特征预测模型包括采用下述方式构建生成:
分别采用所述全图识别方法、特征识别方法计算预设数据量的样本图像的全图特征数据和主体特征数据,进行特征数据融合后得到所述样本图像的融合特征数据;
将所述样本图像的融合特征数据在选取的图像分类模型中进行训练,得到以所述融合特征数据作为数据处理对象的融合特征预测模型。
9.一种识别图像中对象的类型预测装置,其特征在于,所述装置包括:
第一识别模块,用于采用全图识别方法对待处理图像进行处理,获取所述待处理图像中的对象的第一类型预测结果,所述全图识别方法基于全图的特征数据识别图像中对象;
第二识别模块,用于采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的对象的第二类型预测结果,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;
结果比较模块,用于比较所述第一类型预测结果与所述第二类型预测结果是否匹配;
第一输出模块,用于在所述比较模块比较的结果为匹配时,将所述第一类型预测结果或所述第二类型预测结果确定为所述待处理图像中的对象的类型;
第二输出模块,用于在所述比较模块的比较的结果为不匹配时,采用所述识别图像中对象的全图识别方法对所述待处理图像的所述主体区域进行处理,得到所述主体区域中的对象的第三类型预测结果;以及,将所述第三类型预测结果作为所述待处理图像的对象的类型。
10.如权利要求9所述的一种识别图像中对象的类型预测装置,其特征在于,当所述第二识别模块检测出所述待处理图像中包括两个以上的主体时,
分别确定所述待处理图像中包含主体的候选区域,从所述候选区域中选取符合预设条件的候选区域作为待处理图像的主体区域。
11.如权利要求10所述的一种识别图像中对象的类型预测装置,其特征在于,采用下述方式确定候选区域:
采用选取的主体检测方法对所述待处理图像进行检测,识别所述待处理图像中包含的主体;
根据识别出的所述主体边界像素的坐标信息确定出所述主体的区域范围;
将所述区域范围作为所述候选区域。
12.如权利要求9所述的一种识别图像中对象的类型预测装置,其特征在于,当采用全图识别方法检测出所述待处理图像中包括两个以上的主体时,分别确定包含所述主体的主体区域,获取所述主体区域对应的第二类型预测结果;
相应的,所述结果比较模块比较所述第一类型预测结果与所述第二类型预测结果是否相同匹配包括:比较所述第二类型预测结果中是否有与所述第一类型预测结果相同相匹配的第二类型预测结果,若有,则确定比较的结果为匹配;
相应的,第一输出模块将所述与所述第一类型预测结果相同相匹配的第二类型预测结果作为所述待处理图像中的识别结果对象的类型。
13.一种识别图像中对象的类型预测装置,其特征在于,所述装置包括:
全图特征获取模块,用于采用全图识别方法对待处理图像进行处理,获取所述待处理图像的全图特征数据,所述全图识别方法基于全图的特征数据识别图像中对象;
主体特征处理模块,用于采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的主体特征数据,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;
融合处理模块,用于将所述全图特征数据和主体特征数据按照预设方式的进行特征数据融合,得到融合特征数据;
分类处理模块,用于利用所述融合特征数据识别所述待处理图像中的对象,确定所述待处理图像中的对象的类型;
其中,所述利用所述融合特征数据识别所述待处理图像中的对象,包括:
将所述融合特征数据输入获取的融合特征预测模型中进行分类预测,所述融合特征预测模型包括采用下述方式构建生成:
分别采用所述全图识别方法、特征识别方法计算预设数据量的样本图像的全图特征数据和主体特征数据,进行特征数据融合后得到所述样本图像的融合特征数据;
将所述样本图像的融合特征数据在选取的图像分类模型中进行训练,得到以所述融合特征数据作为数据处理对象的融合特征预测模型。
14.一种电子设备,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,
所述处理器执行所述指令时实现:
采用全图识别方法对待处理图像进行处理,获取所述待处理图像中的对象的第一类型预测结果,所述全图识别方法基于全图的特征数据识别图像中对象;采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的对象的第二类型预测结果,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;比较所述第一类型预测结果与所述第二类型预测结果是否匹配;若所述比较的结果为匹配,则将所述第一类型预测结果或所述第二类型预测结果确定为所述待处理图像中的对象的类型;
若所述比较的结果为不匹配,则,采用所述识别图像中对象的全图识别方法对所述待处理图像的所述主体区域进行处理,得到所述主体区域中的对象的第三类型预测结果;以及,将所述第三类型预测结果作为所述待处理图像的对象的类型。
15.一种电子设备,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,
所述处理器执行所述指令时实现,
采用全图识别方法对待处理图像进行处理,获取所述待处理图像的全图特征数据,所述全图识别方法基于全图的特征数据识别图像中对象;采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的主体特征数据,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;将所述全图特征数据和主体特征数据按照预设方式的进行特征数据融合,得到融合特征数据;利用所述融合特征数据识别所述待处理图像中的对象,确定所述待处理图像中的对象的类型;
其中,所述利用所述融合特征数据识别所述待处理图像中的对象,包括:
将所述融合特征数据输入获取的融合特征预测模型中进行分类预测,所述融合特征预测模型包括采用下述方式构建生成:
分别采用所述全图识别方法、特征识别方法计算预设数据量的样本图像的全图特征数据和主体特征数据,进行特征数据融合后得到所述样本图像的融合特征数据;
将所述样本图像的融合特征数据在选取的图像分类模型中进行训练,得到以所述融合特征数据作为数据处理对象的融合特征预测模型。
16.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现以下步骤:
采用全图识别方法对待处理图像进行处理,获取所述待处理图像中的对象的第一类型预测结果,所述全图识别方法基于全图的特征数据识别图像中对象;
采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的对象的第二类型预测结果,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;
比较所述第一类型预测结果与所述第二类型预测结果是否匹配;
若所述比较的结果为匹配,则将所述第一类型预测结果或所述第二类型预测结果确定为所述待处理图像中的对象的类型;
若所述比较的结果为不匹配,则,采用所述识别图像中对象的全图识别方法对所述待处理图像的所述主体区域进行处理,得到所述主体区域中的对象的第三类型预测结果;以及,将所述第三类型预测结果作为所述待处理图像的对象的类型。
17.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现以下步骤:
采用全图识别方法对待处理图像进行处理,获取所述待处理图像的全图特征数据,所述全图识别方法基于全图的特征数据识别图像中对象;
采用特征识别方法对所述待处理图像的主体区域进行处理,获取所述主体区域中的主体特征数据,所述特征识别方法基于图像中主体区域的特征数据识别图像中对象;
将所述全图特征数据和主体特征数据按照预设方式的进行特征数据融合,得到融合特征数据;
利用所述融合特征数据识别所述待处理图像中的对象,确定所述待处理图像中的对象的类型;
其中,所述利用所述融合特征数据识别所述待处理图像中的对象,包括:
将所述融合特征数据输入获取的融合特征预测模型中进行分类预测,所述融合特征预测模型包括采用下述方式构建生成:
分别采用所述全图识别方法、特征识别方法计算预设数据量的样本图像的全图特征数据和主体特征数据,进行特征数据融合后得到所述样本图像的融合特征数据;
将所述样本图像的融合特征数据在选取的图像分类模型中进行训练,得到以所述融合特征数据作为数据处理对象的融合特征预测模型。
CN201710089723.7A 2017-02-20 2017-02-20 一种识别图像中对象的类型预测方法、装置及电子设备 Active CN108460389B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201710089723.7A CN108460389B (zh) 2017-02-20 2017-02-20 一种识别图像中对象的类型预测方法、装置及电子设备
TW106136502A TWI746674B (zh) 2017-02-20 2017-10-24 識別圖像中物件的類型預測方法、裝置及電子設備
US15/900,572 US10706334B2 (en) 2017-02-20 2018-02-20 Type prediction method, apparatus and electronic device for recognizing an object in an image
PCT/US2018/018827 WO2018152532A1 (en) 2017-02-20 2018-02-20 Type prediction method, apparatus and electronic device for recognizing an object in an image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710089723.7A CN108460389B (zh) 2017-02-20 2017-02-20 一种识别图像中对象的类型预测方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN108460389A CN108460389A (zh) 2018-08-28
CN108460389B true CN108460389B (zh) 2021-12-03

Family

ID=63167304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710089723.7A Active CN108460389B (zh) 2017-02-20 2017-02-20 一种识别图像中对象的类型预测方法、装置及电子设备

Country Status (4)

Country Link
US (1) US10706334B2 (zh)
CN (1) CN108460389B (zh)
TW (1) TWI746674B (zh)
WO (1) WO2018152532A1 (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10540390B1 (en) * 2017-08-07 2020-01-21 Amazon Technologies, Inc. Image-based item identification
EP3729375A4 (en) * 2017-12-21 2021-09-22 Tiliter Pty Ltd RETAIL POSTAL FRESH PRODUCT IDENTIFICATION SYSTEM
CN109271980A (zh) * 2018-08-28 2019-01-25 上海萃舟智能科技有限公司 一种车辆铭牌全信息识别方法、系统、终端及介质
CN109389582B (zh) * 2018-09-11 2020-06-26 广东智媒云图科技股份有限公司 一种图像主体亮度的识别方法及装置
CN109189544B (zh) * 2018-10-17 2021-09-17 三星电子(中国)研发中心 用于生成表盘的方法和装置
CN109522947B (zh) * 2018-10-31 2022-03-25 联想(北京)有限公司 识别方法和设备
CN110163238B (zh) * 2018-12-13 2023-04-07 腾讯科技(深圳)有限公司 一种信息预测的方法、模型训练的方法以及服务器
CN109740019A (zh) * 2018-12-14 2019-05-10 上海众源网络有限公司 一种对短视频打标签的方法、装置及电子设备
US10929665B2 (en) * 2018-12-21 2021-02-23 Samsung Electronics Co., Ltd. System and method for providing dominant scene classification by semantic segmentation
CN109768898A (zh) * 2018-12-25 2019-05-17 北京奇安信科技有限公司 一种终端设备类型的识别方法、系统、设备及介质
CN109766823A (zh) * 2019-01-07 2019-05-17 浙江大学 一种基于深层卷积神经网络的高分辨率遥感船舶检测方法
CN109816439A (zh) * 2019-01-14 2019-05-28 珠海格力电器股份有限公司 果蔬智能计价方法、装置、存储介质及设备
CN111582002A (zh) * 2019-02-15 2020-08-25 北京小米移动软件有限公司 场景识别方法、装置及电子设备
CN109934214A (zh) * 2019-02-22 2019-06-25 深兰科技(上海)有限公司 一种对象类别的训练、检测方法及装置
CN110222260A (zh) * 2019-05-21 2019-09-10 深圳壹账通智能科技有限公司 一种搜索方法、装置及存储介质
CN110223325B (zh) * 2019-06-18 2021-04-27 北京字节跳动网络技术有限公司 对象跟踪方法、装置及设备
CN110276767B (zh) 2019-06-28 2021-08-31 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机可读存储介质
CN110543920B (zh) * 2019-09-12 2022-04-22 北京达佳互联信息技术有限公司 图像识别模型的性能检测方法、装置、服务器及存储介质
CN110689007B (zh) * 2019-09-16 2022-04-15 Oppo广东移动通信有限公司 主体识别方法和装置、电子设备、计算机可读存储介质
CN110992426B (zh) * 2019-12-09 2024-03-22 北京明略软件系统有限公司 姿势识别方法和装置、电子设备及存储介质
CN111126384A (zh) * 2019-12-12 2020-05-08 创新奇智(青岛)科技有限公司 基于特征融合的商品分类系统及分类方法
CN111160240B (zh) * 2019-12-27 2024-05-24 腾讯科技(深圳)有限公司 图像对象的识别处理方法、装置及智能设备、存储介质
CN111582014A (zh) * 2020-02-29 2020-08-25 佛山市云米电器科技有限公司 容器识别方法、设备及计算机可读存储介质
CN111126367A (zh) * 2020-04-01 2020-05-08 国网电子商务有限公司 一种图像分类方法及系统
CN113627449A (zh) * 2020-05-07 2021-11-09 阿里巴巴集团控股有限公司 模型训练方法及装置、标签确定方法及装置
CN112016740B (zh) * 2020-08-18 2024-06-18 京东科技信息技术有限公司 数据处理方法和装置
CN112364876B (zh) * 2020-11-25 2024-05-14 北京紫光青藤微系统有限公司 一种高效的条码二值化方法及系统
US11341698B1 (en) * 2020-12-18 2022-05-24 Tiliter Pty Ltd. Methods and apparatus for simulating images of produce with markings from images of produce and images of markings
US20220198321A1 (en) * 2020-12-21 2022-06-23 Fmr Llc Data Validation Systems and Methods
CN112634138B (zh) * 2020-12-31 2024-08-02 紫光展锐(重庆)科技有限公司 图像处理方法、装置、设备及存储介质、芯片、模组设备
CN112926438B (zh) * 2021-02-22 2024-04-05 深圳中科飞测科技股份有限公司 检测方法及装置、检测设备和存储介质
CN113128407A (zh) * 2021-04-21 2021-07-16 湖北微果网络科技有限公司 扫描识物方法、系统、计算机设备及存储介质
CN113627422A (zh) * 2021-06-30 2021-11-09 华为技术有限公司 一种图像分类方法及其相关设备
CN113484884B (zh) * 2021-07-19 2024-08-13 航天科工海鹰集团有限公司 一种可定制的ppk算法
CN115170894B (zh) * 2022-09-05 2023-07-25 深圳比特微电子科技有限公司 一种烟火检测的方法及装置
TWI814623B (zh) * 2022-10-26 2023-09-01 鴻海精密工業股份有限公司 圖像識別方法、電腦設備及儲存介質
CN116416522A (zh) * 2022-12-22 2023-07-11 杭州睿胜软件有限公司 植物物种确定方法、装置及计算机可读存储介质
CN117132843B (zh) * 2023-10-26 2024-04-09 长春中医药大学 野山参、林下山参、园参原位鉴别方法、系统及相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324949A (zh) * 2012-03-21 2013-09-25 阿里巴巴集团控股有限公司 从图像中识别物体的方法和装置
CA2922342A1 (en) * 2015-03-31 2016-09-30 Daon Holdings Limited Methods and systems for detecting head motion during an authentication transaction
CN106257495A (zh) * 2015-06-19 2016-12-28 阿里巴巴集团控股有限公司 一种数字识别方法及装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4683294B2 (ja) * 2006-03-16 2011-05-18 ソニー株式会社 画像処理装置および方法、プログラム記録媒体、並びにプログラム
US8180161B2 (en) * 2007-12-03 2012-05-15 National University Corporation Hokkaido University Image classification device and image classification program
US9251402B2 (en) 2011-05-13 2016-02-02 Microsoft Technology Licensing, Llc Association and prediction in facial recognition
JP6031736B2 (ja) 2011-07-21 2016-11-24 富士ゼロックス株式会社 物体識別システム及びプログラム
CN103207879B (zh) * 2012-01-17 2016-03-30 阿里巴巴集团控股有限公司 图像索引的生成方法及设备
JP5959923B2 (ja) * 2012-04-26 2016-08-02 キヤノン株式会社 検出装置、その制御方法、および制御プログラム、並びに撮像装置および表示装置
WO2015022020A1 (en) * 2013-08-13 2015-02-19 Logograb Limited Recognition process of an object in a query image
CN103559504B (zh) 2013-11-04 2016-08-31 北京京东尚科信息技术有限公司 图像目标类别识别方法及装置
CN104751198B (zh) 2013-12-27 2018-04-27 华为技术有限公司 图像中的目标物的识别方法及装置
US9122958B1 (en) 2014-02-14 2015-09-01 Social Sweepster, LLC Object recognition or detection based on verification tests
US10055670B2 (en) * 2014-03-14 2018-08-21 Omron Corporation Image recognition device, image sensor, and image recognition method using feature
CN104573715B (zh) * 2014-12-30 2017-07-25 百度在线网络技术(北京)有限公司 图像主体区域的识别方法及装置
US10037712B2 (en) 2015-01-30 2018-07-31 Toyota Motor Engineering & Manufacturing North America, Inc. Vision-assist devices and methods of detecting a classification of an object
JP6341124B2 (ja) 2015-03-16 2018-06-13 カシオ計算機株式会社 オブジェクト認識装置および認識結果提示方法
US9747512B2 (en) * 2015-06-25 2017-08-29 Toshiba Tec Kabushiki Kaisha Article recognition apparatus and image processing method for article recognition apparatus

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324949A (zh) * 2012-03-21 2013-09-25 阿里巴巴集团控股有限公司 从图像中识别物体的方法和装置
CA2922342A1 (en) * 2015-03-31 2016-09-30 Daon Holdings Limited Methods and systems for detecting head motion during an authentication transaction
CN106257495A (zh) * 2015-06-19 2016-12-28 阿里巴巴集团控股有限公司 一种数字识别方法及装置

Also Published As

Publication number Publication date
US10706334B2 (en) 2020-07-07
US20180239989A1 (en) 2018-08-23
WO2018152532A1 (en) 2018-08-23
CN108460389A (zh) 2018-08-28
TW201832137A (zh) 2018-09-01
TWI746674B (zh) 2021-11-21

Similar Documents

Publication Publication Date Title
CN108460389B (zh) 一种识别图像中对象的类型预测方法、装置及电子设备
US11657084B2 (en) Correlating image annotations with foreground features
US10949702B2 (en) System and a method for semantic level image retrieval
Kao et al. Visual aesthetic quality assessment with a regression model
WO2019100724A1 (zh) 训练多标签分类模型的方法和装置
KR101896357B1 (ko) 객체를 검출하는 방법, 디바이스 및 프로그램
KR20180126220A (ko) 객체를 식별하는 방법 및 디바이스
US20150324368A1 (en) Hierarchical ranking of facial attributes
US20150278710A1 (en) Machine learning apparatus, machine learning method, and non-transitory computer-readable recording medium
CN106096542B (zh) 基于距离预测信息的图像视频场景识别方法
US9575566B2 (en) Technologies for robust two-dimensional gesture recognition
CA2871512A1 (en) Method for binary classification of a query image
US10134149B2 (en) Image processing
Klein et al. Salient pattern detection using W 2 on multivariate normal distributions
CN103793717A (zh) 判断图像主体显著性及训练其分类器的方法和系统
Simond et al. Image aesthetics depends on context
KR20210098997A (ko) 자동화된 실시간 하이 다이나믹 레인지 콘텐츠 검토 시스템
JP2017219984A (ja) 画像検索システム、画像辞書生成システム、画像処理システム及びプログラム
Martin et al. A learning approach for adaptive image segmentation
You et al. Salient object detection via point-to-set metric learning
Liu Multispectral images-based background subtraction using Codebook and deep learning approaches
KR101758869B1 (ko) 멀티미디어 콘텐츠 분류장치 및 이를 이용한 분류방법
US20160162752A1 (en) Retrieval apparatus, retrieval method, and computer program product
Jyothi et al. Computational color naming for human-machine interaction
Zeybek et al. Dominant Color Detection For Online Fashion Retrievals

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant