CN116958033A - 异常检测方法、模型训练方法、装置、设备和介质 - Google Patents
异常检测方法、模型训练方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN116958033A CN116958033A CN202310290119.6A CN202310290119A CN116958033A CN 116958033 A CN116958033 A CN 116958033A CN 202310290119 A CN202310290119 A CN 202310290119A CN 116958033 A CN116958033 A CN 116958033A
- Authority
- CN
- China
- Prior art keywords
- image
- depth
- sample
- pixel
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 238000001514 detection method Methods 0.000 title claims abstract description 87
- 238000012549 training Methods 0.000 title claims abstract description 82
- 230000005856 abnormality Effects 0.000 title claims abstract description 44
- 238000004458 analytical method Methods 0.000 claims abstract description 74
- 238000000605 extraction Methods 0.000 claims abstract description 50
- 230000004044 response Effects 0.000 claims abstract description 29
- 230000002159 abnormal effect Effects 0.000 claims description 53
- 238000004364 calculation method Methods 0.000 claims description 37
- 238000013528 artificial neural network Methods 0.000 claims description 35
- 238000003860 storage Methods 0.000 claims description 28
- 238000004821 distillation Methods 0.000 claims description 18
- 238000011156 evaluation Methods 0.000 claims description 18
- 238000003709 image segmentation Methods 0.000 claims description 14
- 238000005516 engineering process Methods 0.000 abstract description 22
- 238000013473 artificial intelligence Methods 0.000 abstract description 15
- 238000010586 diagram Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 230000007547 defect Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000003190 augmentative effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种异常检测方法、模型训练方法、装置、设备和介质,涉及人工智能技术领域,可以应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景,方法包括获取待检测图像和待检测图像对应的深度图像;将待检测图像输入目标网络模型进行特征提取、深度估计和图像重构,得到图像特征、参考特征、深度估计图像和重构图像;基于待检测图像、深度图像、图像特征、参考特征、重构图像和深度估计图像进行图像异常分析,得到异常响应图;基于异常响应图生成待检测图像的异常检测结果;本申请能够有效提升异常检测精度,降低漏检率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种异常检测方法、模型训练方法、装置、设备和介质。
背景技术
异常检测的目的在于识别图像中的异常区域,被广泛应用于工业质检和医学图像分析等领域。相关技术中通常采用深度神经网络对彩色图像或灰度图像进行缺陷、病变等异常识别,由于异常样本稀少,无法直接使用普通的堆积数据型深度学习方法,因此通常采用正常的彩色或灰度图像样本进行网络训练,以对正常数据建模,实现异常识别。但在实际应用中,许多异常区域在彩色图像和灰度图像中的清晰度较低,或与正常区域的差异较小,易造成模型漏检,检测效果和精度较差。
发明内容
本申请提供了一种异常检测方法、模型训练方法、装置、设备和介质,可以显著提高异常检测精度,降低漏检率。
一方面,本申请提供了一种异常检测方法,所述方法包括:
获取待检测图像和所述待检测图像对应的深度图像;
将所述待检测图像输入目标网络模型进行特征提取、深度估计和图像重构,得到图像特征、参考特征、深度估计图像和重构图像;
基于所述待检测图像、所述深度图像、所述图像特征、所述参考特征、所述重构图像和所述深度估计图像进行图像异常分析,得到异常响应图;
基于所述异常响应图生成所述待检测图像的异常检测结果
另一方面提供了一种模型训练方法,所述方法包括:
获取训练集,所述训练集包括多个样本图像对,所述样本图像对包括正样本图像和所述正样本图像对应的样本深度图像;
将所述正样本图像输入预设神经网络进行特征提取、深度估计和图像重构,得到样本图像特征、样本参考特征、样本深度估计图像和样本重构图像;
基于所述正样本图像、所述样本深度图像、样本图像特征、样本参考特征、样本深度估计图像和样本重构图像进行损失计算,得到模型损失;
基于所述模型损失训练所述预设神经网络,得到目标网络模型。
另一方面提供了一种异常检测装置,所述装置包括:
图像获取模块:用于获取待检测图像和所述待检测图像对应的深度图像;
检测模块:用于将所述待检测图像输入目标网络模型进行特征提取、深度估计和图像重构,得到图像特征、参考特征、深度估计图像和重构图像;
异常分析模块:用于基于所述待检测图像、所述深度图像、所述图像特征、所述参考特征、所述重构图像和所述深度估计图像进行图像异常分析,得到异常响应图;
结果生成模块:用于基于所述异常响应图生成所述待检测图像的异常检测结果。
另一方面提供了一种目标网络模型的训练装置,所述装置包括:
样本获取模块:用于获取训练集,所述训练集包括多个样本图像对,所述样本图像对包括正样本图像和所述正样本图像对应的样本深度图像;
神经网络模块:用于将所述正样本图像输入预设神经网络进行特征提取、深度估计和图像重构,得到样本图像特征、样本参考特征、样本深度估计图像和样本重构图像;
损失计算模块:用于基于所述正样本图像、所述样本深度图像、样本图像特征、样本参考特征、样本深度估计图像和样本重构图像进行损失计算,得到模型损失;
训练模块:用于基于所述模型损失训练所述预设神经网络,得到目标网络模型。
另一方面提供了一种计算机设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的异常检测方法或实现如上述的模型训练方法。
另一方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的异常检测方法或实现如上述的模型训练方法。
另一方面提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的异常检测方法或实现如上述的模型训练方法。
另一方面提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的异常检测方法或实现如上述的模型训练方法。
另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令被处理器执行时实现如上述的异常检测方法或实现如上述的模型训练方法。
本申请提供的异常检测方法、模型训练方法、装置、设备、存储介质、服务器、终端、计算机程序和计算机程序产品,具有如下技术效果:
本申请的技术方案将待检测图像输入目标网络模型进行特征提取、深度估计和图像重构,得到图像特征、参考特征、深度估计图像和重构图像;基于待检测图像、待检测图像对应的深度图像、图像特征、参考特征、重构图像和深度估计图像进行图像异常分析,得到异常响应图;基于异常响应图生成待检测图像的异常检测结果;通过获取深度图像,并在网络模型中进行待检测图像的多特征提取、深度估计、图像重构的多任务检测,能够充分结合深度信息以及充分提取图像特征,以弥补待检测图像中单一特征信息的局限,通过多任务输出提高异常检测信息维度和实体特征表达准确性,以提高异常检测精度,降低漏检率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种应用环境的示意图;
图2是本申请实施例提供的一种异常检测方法的流程示意图;
图3是本申请实施例提供的另一种异常检测方法的流程示意图;
图4是本申请实施例提供的另一种异常检测方法的流程示意图;
图5是本申请实施例提供的一种目标网络模型的框架结构示意图;
图6是本申请实施例提供的一种模型训练方法的流程示意图;
图7是本申请实施例提供的一种异常检测装置的框架示意图;
图8是本申请实施例提供的一种模型训练装置的框架示意图;
图9是本申请实施例提供的一种异常检测方法的电子设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或子模块的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或子模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或子模块。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
深度估计:指输入RGB图,预测每一个像素点到相机距离的任务。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
近年来,随着人工智能技术研究和进步,人工智能技术在多个领域得到广泛应用,本申请实施例提供的方案涉及人工智能的机器学习/深度学习和自然语言处理等技术,具体通过如下实施例进行说明。
请参阅图1,图1是本申请实施例提供的一种应用环境的示意图,如图1所示,该应用环境可以至少包括终端01和服务器02。在实际应用中,终端01和服务器02可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例中的服务器02可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
具体地,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术能够应用于各种领域,如医疗云、云物联、云安全、云教育、云会议、人工智能云服务、云应用、云呼叫和云社交等,云技术基于云计算(cloud computing)商业模式应用,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”,“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务))平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
按照逻辑功能划分,在IaaS层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。
具体地,上述涉及的服务器02可以包括实体设备,可以具体包括有网络通信子模块、处理器和存储器等等,也可以包括运行于实体设备中的软体,可以具体包括有应用程序等。
具体地,终端01可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能语音交互设备、智能家电、智能可穿戴设备、车载终端设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。
本申请实施例中,终端01可以用于采集或接收待检测图像和深度图像,并调用目标网络模型对其进行异常检测,以得到异常检测结果,或者可以将待检测图像和深度图像发送至服务器02,以使服务器02调用目标网络模型进行异常检测,以得到异常检测结果。服务器02可以用于提供异常检测服务,以得到待检测图像的异常检测结果。具体的,服务器02还可以用于提供预设神经网络的模型训练服务,以得到目标网络模型,以及还可以用于存储训练集和模型训练数据等。
具体地,本申请的异常检测方法可以应用于异常检测的各种应用场景,例如,工业质检中对输入图像进行缺陷、破损等检测,对医学图像进行病变部位定位,或者对建筑物等实体图像进行风险对象定位等。
此外,可以理解的是,图1所示的仅仅是一种异常检测方法的应用环境,该应用环境可以包括更多或更少的节点,本申请在此不做限制。
本申请实施例涉及的应用环境,或应用环境中的终端01和服务器02等可以是由客户端、多个节点(接入网络中的任意形式的计算设备,如服务器、用户终端)通过网络通信的形式连接形成的分布式系统。分布式系统可以为区块链系统,该区块链系统可以提供上述的异常检测服务和数据存储服务等。
以下基于上述应用环境介绍本申请的一种异常检测方法,本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等,如可应用于使用了深度相机的工业AI质检项目中,仅使用正常样本训练,即可实现对异常缺陷的检测。请参考图2,图2是本申请实施例提供的一种异常检测方法的流程示意图,本说明书提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体地,如图2所示,方法可以包括下述步骤S201-S207。
S201:获取待检测图像和待检测图像对应的深度图像。
本申请实施例中,待检测图像和深度图像为包括检测对象的图像,检测对象可以例如为产品、器官等实体。待检测图像为针对检测对象拍摄的RGB图像,如基于2D相机采集的图像生成,深度图像可以为包含深度三维信息的图像,如基于3D相机采集的图像生成。待检测图像和深度图像可以为经预处理后具备相同尺寸的图像,待检测图像和深度图像中的同一像素点对应同一实体位置。
S203:将待检测图像输入目标网络模型进行特征提取、深度估计和图像重构,得到图像特征、参考特征、深度估计图像和重构图像。
本申请实施例中,目标网络模型是以正样本图像作为预设神经网络的输入,并基于输出的样本图像特征、样本参考特征、样本深度估计图像和样本重构图像,以及正样本图像和正样本图像对应的样本深度图像生成模型损失,对预设神经网路进行特征提取、深度估计和图像重构的无监督约束训练得到的。其中,正样本图像和样本深度图像都为不存在异常区域的正样本。
预设神经网络可以包括特征提取任务分支、深度估计任务分支和重构任务分支,模型损失可以基于蒸馏损失、深度估计损失和重构损失生成。具体地,结合蒸馏损失对预设神经网络的特征提取任务分支进行模型参数调整,结合深度估计损失对预设神经网络的深度估计任务分支进行模型参数调整,以及结合重构损失对预设神经网络的重构任务分支进行模型参数调整,以得到更新的预设神经网络并进行迭代训练至满足训练中止条件,得到目标网络模型。其中,特征提取任务分支、深度估计任务分支和重构任务分支均包括共享的主干网络。
具体地,参考特征与图像特征对齐,均为深层特征,即语义特征,用于表征待检测图像的语义信息。参考特征与图像特征均包括至少一个网络层输出的特征图,一些实施例中,包括两个或两个以上的网络层输出的特征图。
一些实施例中,请参考图5,目标网络模型包括主干网络、辅助网络、深度解码器和重构解码器,辅助网络为主干网络对应的教师模型。相应地,请参考图3,S203可以包括S2031-S2034:
S2031:将待检测图像输入主干网络进行特征提取,得到图像特征;
S2032:将待检测图像输入辅助网络进行特征提取,得到参考特征;
S2033:将图像特征输入深度解码器进行深度估计,得到深度估计图像;
S2034:将图像特征输入重构解码器进行图像重构,得到重构图像。
如图所示,主干网络和辅助网络形成特征蒸馏任务分支,主干网络和深度解码器形成深度估计任务分支,主干网络和重构解码器形成图像重构任务分支。主干网络和辅助网络的网络结构可以相同,教师模型用于提取参考特征及指导主干网络的特征提取训练。一些实施例中,辅助网络是基于预训练图像集提前训练好的分类模型,如采用ImageNet训练好的深度神经网络。深度解码器用于将主干网络提取到的特征解码为深度估计图像,深度图像和深度估计图像的尺寸相同;重构解码器用于将主干网络提取到的特征解码为重构图像,重构图像与待检测图像的图像类别和尺寸相同,如都为RGB图像。如此,实现适用于RGBD为输入的异常检测场景,通过多任务分支得到多维输出,有利于训练过程中结合深度信息辅助蒸馏学习和重构学习的效果提升,并能够通过图像特征、参考特征提取和差异分析,以及结合深度估计实现缺陷等异常的多重检测,提升检测效果。
S205:基于待检测图像、深度图像、图像特征、参考特征、重构图像和深度估计图像进行图像异常分析,得到异常响应图。
本申请实施例中,异常响应图可以用于表征待检测图像的异常分布或异常区域,异常响应图和待检测图像的尺寸相同,包括待检测图像中每一像素点的异常评价指标,异常评价指标越高,表征该像素点属于异常区域的置信度越大,反之越小。
一些实施例中,请参考图4,S205可以包括S301-S309:
S301:基于图像特征和参考特征进行像素特征差异分析,得到待检测图像中像素点对应的特征差异结果;
S303:对待检测图像和重构图像进行像素差异分析,得到像素点对应的重构差异结果;
S305:对深度图像和深度估计图像进行像素深度差异分析,得到像素点对应的深度差异结果;
S307:基于特征差异结果、深度差异结果和重构差异结果,确定待检测图像中各像素点的异常评价指标;
S309:基于各像素点的异常评价指标生成异常响应图。
具体地,异常评价指标可以为像素点的异常评分,基于待检测图像中每一像素点的异常评分生成热力图,即得异常响应图,异常响应图中的异常评分与待检测图像中的像素点一一对应。单个像素点的异常评价指标可以为该像素点的特征差异结果、重构差异结果和深度差异结果的统计值,如特征差异结果、重构差异结果和深度差异结果的加权加和值或加权平均值。如此,结合多任务分支的输出确定多种差异分析结果,以得到综合多维异常信息的异常响应图,能够提升针对各像素点的异常评价准确性,进而优化异常检测效果。
图像特征和参考特征的特征尺寸和特征图数量相同,其中包括待检测图像中每一像素点对应的特征图。
一些实施例中,S301可以具体包括:将同一位置的像素点在图像特征中对应的特征图与其在参考特征中对应的特种图进行差异分析,得到待检测图像中每一像素点的特征差异结果。
一个实施例中,特征提取任务分支基于特征蒸馏构建,主干网络和辅助网络使用相同的ResNet50结构,包括5个网络子模块(stage),输入尺寸为3×256×256,stage0的特征尺寸为64×128×128,stage1特征尺寸为256×64×64,stage2特征尺寸为512×32×32,stage3特征尺寸为1024×16×16,stage4特征尺寸为2048×8×8。特征差异结果可以为特征距离,相应地,特征差异结果D1可以采用下述公式(1)和(2)计算得到,其中,待检测图像的尺寸为H×W,[h,w]为像素点在待检测图像中的二维坐标,代表主干网络(S)在stage k,位置为[h,w]处的特征(特征尺寸为cx1x1),/>代表教师网络(T)在stagek,位置为[h,w]处的特征,K为子模块总数量。Ck(h,w)代表着stage k,位置为h,w处主干网络的特征与辅助网络的特征间的特征距离。
一个实施例中,可以采用上述全部stage中的特征所计算得到的特征距离加和得到D1。另一个实施例中,可以采用stage3和stage4中的特征所计算得到的特征距离加和得到D1,以使特征差异结果充分体现深层语义特征差异,避免浅层纹理特征的干扰,则k=3,K=4。
另一些实施例中,区别于计算每一像素点的特征差异结果,仅针对待检测图像中的前景像素点进行特征差异计算。相应地,方法还包括待检测图像的前景和背景分割的步骤,具体可以包括:基于深度图像的像素深度对待检测图像进行图像分割,得到图像分割结果,图像分割结果用于表征待检测图像中的像素点为前景像素点或背景像素点。可以设置深度阈值,将深度图像中每一像素点的像素深度与深度阈值比较,以深度阈值为分界点划分出图像中的前景和背景。具体可以将前景像素点的标记赋值为1,将背景像素点的标记赋值为0。如此,实现待检测图像的重点区域筛选,以便于差异分析集中于图像中的核心实体对象上,降低背景干扰,从而降低分析计算数据量,提升异常检测和定位计算的复杂度。
进一步地,S301可以具体包括:从图像特征中提取前景像素点的第一像素特征,并从参考特征中提取前景像素点的第二像素特征;对同一位置的前景像素点的第一像素特征和第二像素特征进行差异分析,得到特征差异结果。第一像素特征和第二像素特征可以为前述的像素点对应的特征图,如前述stage3和stage4中的特征。差异分析的方法与前述相类似,不同之处在于,增加背景掩码约束条件,可以在特征蒸馏的同时也利用深度图信息,使得差异分析在前景的核心物体而非背景上,降低计算量和资源占用,提升定位准确性。以前述的主干网络和辅助网络的结构为例,特征差异结果可以采用前述公式(1)和下述公式(3)计算得到,其中,M(h,w)为是指该[h,w]处是否为前景,如果是前景则为1,不是前景则为0。
可以理解的,训练过程中采用的训练数据均为正样本,即无缺陷图像,则共享主干网络是在教师模型(辅助网络)的指导下习得了针对正常图像的特征提取能力,进而使得其针对正常像素区域和异常像素区域的特征提取效果不同,即所得到的特征具备差异。相应地,上述特征差异结果对应的差异值越大,则表明像素点属于异常区域的概率越高,待检测图像存在异常的概率越高,反之越低。
待检测图像和重构图像的图像尺寸相同,重构差异结果用于表征待检测图像与重构图像间的差异程度,与前述类似的,该像素差异程度越高,表明像素点属于异常区域的概率越高,待检测图像存在异常的概率越高,反之越低。一些实施例中,重构差异结果包括重构像素距离和重构特征距离,相应地,S303可以包括:提取待检测图像中每一像素点的第一像素和重构图像中每一像素点的第二像素;对同一像素点的第一像素和第二像素进行差异分析,得到重构像素距离;重构像素距离可以为第一像素与第二像素间的像素差值;分别对待检测图像和重构图像进行特征提取,得到第一特征和第二特征;基于第一特征和第二特征进行每一像素点的特征差异分析,得到重构特征距离;重构特征距离为第一特征与第二特征间的特征距离。如此,通过重构像素距离和重构特征距离从图像本身和特征尺度描述重构差异,提高差异分析信息的全面性,进而提升像素差异评分的准确性。
一个实施例中,重构像素距离D2和重构特征距离D3可以采用下述公式(4)和(5)计算得到,其中,Ir代表重构图像,Is代表待检测图像,Ir(h,w)表征重构图像中位置[h,w]处的像素值(第二像素),Is(h,w)表征待检测图像中位置[h,w]处的像素值(第一像素),D2即计算重构图像和待检测图像在像素值上的距离;,Fi代表第一特征和第二特征中的第i层特征,n为总层数,Fi(Ir(h,w))表征重构图像对应的第一特征中位置[h,w]处第i层的特征,Fi(Is(h,w))表征待检测图像对应的第一特征中位置[h,w]处第i层的特征。
D2=|Ir(h,w)-Is(h,w)| (4)
另一些实施例中,区别于整图的差异分析,通过深度Mask进行像素点筛选,以进行前景像素点的差异计算,相应地,S303可以包括:提取待检测图像中前景像素点的第一像素和重构图像中前景像素点的第二像素;对同一前景像素点的第一像素和第二像素进行差异分析,得到重构像素距离;重构像素距离可以为第一像素与第二像素间的像素差值;分别对待检测图像和重构图像进行特征提取,得到第一特征和第二特征;基于第一特征和第二特征进行前景像素点的特征差异分析,得到重构特征距离;重构特征距离为第一特征与第二特征间的特征距离。一个实施例中,重构像素距离D2可以采用下述公式(5)计算得到,M是指[h,w]处是否为前景像素点,如果是则为1,不是则为0。M可通过采集而来的深度图卡断阈值获得,加上M过滤后,可避免背景造成的干扰。
D2=|(Ir(h,w)-Is(h,w))·M(h,w)| (6)
一个实施例中,重构任务分支由主干网络和重构解码器构成,主干网络结构如前,重构解码器的结构与深度解码器的结构基本一致,只有最后一层的反卷积有差别,在重构编码器中,最后一层的反卷积输出尺寸为3×256×256。
上述待检测图像和重构图像的特征提取可以采用同一特征提取网络实现,具体可以采用独立于前述重构任务分支外的其它深度神经网络模型,如在ImageNet上预训练的VGG19模型来实现待检测图像和重构图像的特征提取。如此,以基于同样的网络进行提取,实现可靠的差异分析。
深度图像与深度估计图像的图像尺寸相同,深度差异结果用于表征深度图和深度估计图像中同一位置间的深度差异。具体地,深度差异结果可以包括深度距离和梯度差异信息;S305可以具体包括:基于深度图像和深度估计图像进行像素距离分析,得到像素点对应的深度距离;深度距离可以为同一位置像素点在深度图像中的像素深度与深度估计图像中的像素深度间的差;获取深度图像对应的第一深度梯度信息和深度估计图像对应的第二深度梯度信息,深度梯度信息用于表征单个像素点与周边预设区域内像素点间的深度变化率;基于第一深度梯度信息和第二深度梯度信息进行梯度差异分析,得到像素点对应的梯度差异信息;梯度差异信息用于表征同一位置像素点在深度图像中的深度梯度与深度估计图像中的深度梯度间的差。如此,通过深度距离和梯度差异信息表达深度图像与深度估计图像间的多维差异信息,以突出实体整体的分布差异和实体边缘差异。深度估计模块的主干网络是以辅助网络为教师模型,通过无缺陷的正样本训练得到的,因此其习得针对正常图像的特征提取,相应的深度解码器也能够习得针对正常图像的深度估计,而缺陷等异常在深度图像中的深度特征更加明显,通过深度估计任务分支输出的深度估计图像与深度图像间的差异越大,则表明像素点属于异常区域的概率越高,待检测图像中存在异常的概率越高,反之越低。
一个实施例中,深度距离D4和梯度差异信息D5可以采用下述公式(8)-(10)计算得到,其中,在公式(8)中,Dp代表深度估计图像,Dg代表深度图像,Dp(h,w)表征深度估计图像中位置[h,w]处的像素值,Dg(h,w)表征深度图像中位置[h,w]处的像素值,D4即计算深度估计图像与深度图像间的距离误差;在公式(9)中,D代表深度图,*代表卷积操作,hx是提取x方向梯度的卷积核,可以例如为3x3卷积核[[1,0,-1],[1,0,-1],[1,0,-1]],hy是提取y方向梯度的卷积核,可以例如为3x3卷积核[[1,1,1],[0,0,0],[-1,-1,-1]];公式(10)中,g(Dp(h,w))为第二深度梯度信息,g(Dg(h,w))为第一深度梯度信息,c是常数,作用是防止分母为0,D5即计算深度估计图像和深度图象的深度变化情况差距。
D4=|Dp(h,w)-Dg(h,w)| (8)
一个实施例中,深度估计任务分支由主干网络和深度解码器构成。主干网络共享,结构以前述示例相同。深度解码器是由4个卷积组合(Conv2d+BN+ReLU)、4个双线性插值(UpSample)和一个反卷积构成。相关特征尺寸变化过程如下:主干网络的输出特征图为2048×8×8,经过第一个卷积组合后,变为1024×8×8,再经过第一个双线性差值,变成1024×16×16;然后经过第二个卷积组合+第二个双线性差值变成512×32×32;然后经过第三个卷积组合+第三个双线性差值变成256×64×64;再经过第四个卷积组合+第四个双线性差值,变成64×128×128;最后使用一个反卷积,尺寸变为1×256×256,得到深度估计图像。
一些实施例中,如图5所示,经过第二个卷积组合+第二个双线性差值输出的512×32×32特征图,会与主干网络stage2所输出的512×32×32做相加,以使深度解码器获得待检测图像的浅层细节特征,以提升深度估计的准确性。
对上述得到的特征差异结果、重构像素距离、重构特征距离、深度距离和梯度差异信息进行统计处理,得到每一像素点的异常评价指标。异常评价指标具体可以为特征差异结果、重构像素距离、重构特征距离、深度距离和梯度差异信息的加权加和或加权平均值。可以理解的,异常评价指标越大,表征该像素点为异常像素点的概率越大,即待检测图像中存在异常的概率越大,反之越小。
一个实施例中,异常评价指标D可以为下述公式(11)计算得到,其中,a,b,d为常数,示例性地,a为2,b和d为1。
D= aD1+b(D2+D3)+d (D4+D5) (11)
可以理解的,在特征差异结果和重构差异结果通过背景掩码获取的情况下,则相应的背景像素点的特征差异结果和重构差异结果的值均做赋0处理。
结合上述方案,在一些实施例中,可以增加法向量估计任务分支,由主干网络和法向量解码器构成,在检测过程中,还需获取待检测图像对应的法向量图像,二者图像尺寸相同,相同位置的像素点表征实体的同一位置。法向量图像可以是基于法向量相机所采集的图像生成的。与前述的深度估计任务分支相类似,该分支中法向量解码器用于输入图像特征以进行法向量图估计,得到法向量估计图像,进而将法向量估计图像与法向量图像进行差异分析,得到法向量差异结果。可以理解的,法向量差异结果可以包括像素法向量距离和法向量梯度差异信息,获取方式分别与前述的深度距离和梯度差异信息相类似,不再赘述。本申请中的目标网络模型的模型结构可以基于实际需求进行扩展,泛化性能好,适用性广。
S207:基于异常响应图生成待检测图像的异常检测结果。
本申请实施例中,异常检测结果用于表征待检测图像为异常图像或正常图像,以及用于表征待检测图像中的异常区域位置。异常检测结果可以包括图像类别和二值图,图像类别包括正常和异常,二值图中像素为1的区域为异常区域,为0的区域是正常区域。相应地,得到异常响应图后,确定出其各异常评价指标中的最大值,将最大值与指标阈值比较,超过该指标阈值,则表明待检测图像的图像类别与异常,反之为正常;并将超过指标阈值的异常评价指标所对应的像素点确定为异常区域。
综上,通过获取深度图像,并在网络模型中进行待检测图像的多特征提取、深度估计、图像重构的多任务检测,能够充分结合深度信息以及充分提取图像特征,以弥补待检测图像中单一特征信息的局限,通过多任务输出提高异常检测信息维度和实体特征表达准确性,以提高异常检测精度,降低漏检率。在实际应用当中,本申请能够有效识别2D相机上并不清晰的缺陷结构,如能够检测出在色彩上与正常样本几乎没有区别的凹坑等。此外,本申请提出的将深度估计、图像重构和特征蒸馏三个任务分支进行混合训练和异常检测的方法,三个任务共享主干网络,不同分支完成各自的具体任务,可以适配RGBD数据下的异常检测任务,如能同时采集RGB图和深度图的工业场景,仅使用无缺陷的数据进行训练就能实现工业产品缺陷检测,检测效果显著提升。
基于上述部分或全部实施方式,请参考图6,本申请还提供一种模型训练方法,具体可以包括下述步骤S401-S407:
S401:获取训练集,训练集包括多个样本图像对,样本图像对包括正样本图像和正样本图像对应的样本深度图像。
具体地,正样本图像和前述的待检测图像类似,样本深度图像与前述的深度图像类似。样本图像对均为正样本对,即正样本图像均为正常图像,不存在异常区域,相应的样本深度图像也是正常图像。
一个实施例中,训练可以使用无缺陷数据500对,包括即500张RGB图和相对应的500张深度图。在输入网络训练前,将所有图像缩放到长宽为256×256像素的尺寸,像素值归一化至0到1。
S403:将正样本图像输入预设神经网络进行特征提取、深度估计和图像重构,得到样本图像特征、样本参考特征、样本深度估计图像和样本重构图像。
具体地,预设神经网络的网络结构与前述相类似,具体示例参考图5。样本图像特征、样本参考特征、样本深度估计图像和样本重构图像分别与前述的图像特征、参考特征、深度估计图像和重构图像相类似,不再赘述。
S405:基于正样本图像、样本深度图像、样本图像特征、样本参考特征、样本深度估计图像和样本重构图像进行损失计算,得到模型损失。
S407:基于模型损失训练预设神经网络,得到目标网络模型。
具体地,基于模型损失更新预设神经网络的模型参数,以进行预设神经网络的迭代训练,至满足训练结束条件,并将满足训练结束条件的更新的预设神经网络型确定为目标网络模型。可以理解的,一次迭代过程中,可以基于模型损失更新共享网络参数,如主干网络的网络参数,以及根据各分支的损失更新各分支的特有参数,如基于第二损失更新深度解码器的网络参数,基于第三损失更新重构解码器的网络参数。满足训练结束条件可以为两次迭代间的模型损失差小于等于模型损失阈值,或者迭代次数达到预设迭代次数。可以理解的,设置主干网络和相应的教师模型(辅助网络),以及深度解码器和重构解码器,进行蒸馏学习、深度估计和重构的共同训练,实现信息共享,各取所长,深度图提取出的前背景信息可以辅助蒸馏和重构任务的学习,蒸馏和重构任务协同帮助深度估计任务的学习。此外,无论是在异常检测还是训练中,混合训练的框架的效率都明显高于独立的三个任务模型。
一些实施例中,S405可以包括下述S4051-S4054:
S4051:根据样本图像特征和样本参考特征进行蒸馏损失计算,得到第一损失。
具体地,蒸馏损失计算与前述的特征差异结果的计算相关,可以针对正样本图像的整图,将得到的每一像素点的特征距离进行加和求平均,得到第一损失。一个实施例中,第一损失LKD可以采用前述公式(1)和下述公式(12)计算得到,其中,正样本图像的尺寸为H×W,[h,w]为像素点在正样本图像中的二维坐标,Hk为正样本图像的H方向尺寸,Wk为正样本图像的W方向尺寸,HkWk为正样本图像的像素点总量。另一实施例中,结合深度信息进行前景优化,以避免背景干扰,相应地,第一损失LKD可以采用下述公式(12)计算得到,如此,可以在图像特征蒸馏的同时也利用深度图信息,使得模型在蒸馏学习时聚焦在核心物体而非背景上。
蒸馏损失可以为基于深层特征即语义特征计算得到的,在ResNet50结构下,可以采用stage3和stage4特征进行计算,则k=3,K=4。
S4052:根据深度图像和样本深度估计图像进行深度估计损失计算,得到第二损失。
具体地,第二损失的损失函数可以包括深度距离损失和梯度相似度损失,深度估计损失计算与前述的深度差异结果的计算相关,可以针对样本深度图像的整图,将得到的每一像素点的深度距离和梯度差异信息,并进行加和求平均,得到深度距离损失和梯度相似度损失。一个实施例中,深度距离损失Ld可以采用下述公式(13)或(14)计算得到,梯度相似度损失Lg可以采用下述公式(15)计算得到,其中,Dp代表样本深度估计图像,Dg代表样本深度图像。
Ld=|Dp-Dg| (13)
S4053:根据正样本图像和样本重构图像进行重构损失计算,得到第三损失。
具体地,第三损失的损失函数可以包含重构损失和感知损失,第三损失计算与前述的重构差异结果的计算相关,可以针对正样本图像的整图,分别将得到的每一像素点的重构像素距离和重构特征距离进行加和求平均,得到重构损失和感知损失。一个实施例中,重构损失Lr可以采用下述公式(16)或(17)计算得到,感知损失Lp可以采用前述公式(18)计算得到,其中,Ir为样本重构图像,Is为正样本图像,Lp本质上是从特征层面表征重构图像与正样本图像的相似度。
Lr=|Ir-Is| (16)
另一实施例中,结合深度信息进行前景优化,以避免背景干扰,相应地,重构损失Lr可以采用下述公式(19)或(20)计算得到,感知损失Lp可以采用前述公式(21)计算得到。
Lr=|(Ir-Is)·M|(19)
S4054:融合第一损失、第二损失和第三损失,得到模型损失。
具体地,这里的融合可以为加权求和操作。一个实施例中,模型损失L可以采用下述公式(22)计算得到。示例性地,a为2,b和c为1。
L= a LKD+b(Ld+ Lg)+d (Lr+ Lp) (22)
如此,通过能够表征多任务分支的特征提取误差、深度估计误差和重构误差来训练神经网络,以使其在教师模型的指导下,习得和优化正常数据的特征提取、深度估计和重构知识,拉大其针对异常数据的相关输出差距,提高异常检测准确性。
一些实施例中,辅助网络可以为使用ImageNet提前训练好的分类模型,且在整个异常检测模型训练过程中,教师网络的权重都是固定住不更新的。
本申请提出一种将三个任务分支混合训练的框架,训练过程中,可以三个任务同时训练,也可以在单次训练中调整具体的任务数量,如只进行深度估计和重构训练,或者只进行深度估计和特征蒸馏训练,所得到的目标网络模型在异常检测应用中,针对RGB等图像上不明显缺陷具备优异的检出效果,漏检率显著降低。
本申请实施例还提供了一种异常检测装置700,如图7所示,图7示出了本申请实施例提供的一种异常检测装置的结构示意图,装置可以包括下述模块。
图像获取模块11:用于获取待检测图像和待检测图像对应的深度图像;
检测模块12:用于将待检测图像输入目标网络模型进行特征提取、深度估计和图像重构,得到图像特征、参考特征、深度估计图像和重构图像;
异常分析模块13:用于基于待检测图像、深度图像、图像特征、参考特征、重构图像和深度估计图像进行图像异常分析,得到异常响应图;
结果生成模块14:用于基于异常响应图生成待检测图像的异常检测结果。
一些实施例中,目标网络模型包括主干网络、辅助网络、深度解码器和重构解码器,辅助网络为主干网络对应的教师模型;检测模块12可以包括:
第一提取子模块:用于将待检测图像输入主干网络进行特征提取,得到图像特征;
第二提取子模块:用于将待检测图像输入辅助网络进行特征提取,得到参考特征;
深度估计子模块:用于将图像特征输入深度解码器进行深度估计,得到深度估计图像;
重构子模块:用于将图像特征输入重构解码器进行图像重构,得到重构图像。
一些实施例中,装置还包括:
样本获取模块:用于获取训练集,训练集包括多个样本图像对,样本图像对包括正样本图像和正样本图像对应的样本深度图像;
神经网络模块:用于将正样本图像输入预设神经网络进行特征提取、深度估计和图像重构,得到样本图像特征、样本参考特征、样本深度估计图像和样本重构图像;
损失计算模块:用于基于正样本图像、样本深度图像、样本图像特征、样本参考特征、样本深度估计图像和样本重构图像进行损失计算,得到模型损失;
训练模块:用于基于模型损失训练预设神经网络,得到目标网络模型。
一些实施例中,异常分析模块13包括:
特征分析子模块:用于基于图像特征和参考特征进行像素特征差异分析,得到待检测图像中像素点对应的特征差异结果;
深度分析子模块:用于对深度图像和深度估计图像进行像素深度差异分析,得到像素点对应的深度差异结果;
像素分析子模块:用于对待检测图像和重构图像进行像素差异分析,得到像素点对应的重构差异结果;
评价指标确定子模块:用于基于特征差异结果、深度差异结果和重构差异结果,确定待检测图像中各像素点的异常评价指标;
响应图生成子模块:用于基于各像素点的异常评价指标生成异常响应图。
一些实施例中,所述重构差异结果包括重构像素距离和重构特征距离;像素分析子模块可以包括:
第一提取单元:用于提取所述待检测图像中每一像素点的第一像素和所述重构图像中每一像素点的第二像素;
第一像素差异分析单元:用于对同一位置的像素点的第一像素和第二像素进行差异分析,得到所述重构像素距离;
第一特征提取单元:用于分别对所述待检测图像和所述重构图像进行特征提取,得到第一特征和第二特征;
第一特征差异分析单元:用于基于所述第一特征和所述第二特征进行每一像素点的特征差异分析,得到所述重构特征距离。
一些实施例中,装置还包括图像分割模块:用于基于深度图像的像素深度对待检测图像进行图像分割,得到图像分割结果,图像分割结果用于表征待检测图像中的像素点为前景像素点或背景像素点;
相应地,特征分析子模块包括:
像素特征提取单元:用于从图像特征中提取前景像素点的第一像素特征,并从参考特征中提取前景像素点的第二像素特征;
特征差异分析单元:用于对同一前景像素点的第一像素特征和第二像素特征进行差异分析,得到特征差异结果。
一些实施例中,像素分析子模块包括:
像素提取单元:用于提取待检测图像中前景像素点的第一像素和重构图像中前景像素点的第二像素;
像素差异分析单元:用于对同一前景像素点的第一像素和第二像素进行差异分析,得到重构像素距离;
特征提取单元:用于分别对待检测图像和重构图像进行特征提取,得到第一特征和第二特征;
重构差异分析单元:用于基于第一特征和第二特征进行前景像素点的特征差异分析,得到重构特征距离。
一些实施例中,深度差异结果包括深度距离和梯度差异信息;深度分析子模块可以包括:
像素距离分析单元:用于基于深度图像和深度估计图像进行像素距离分析,得到像素点对应的深度距离;
梯度信息获取单元:用于获取深度图像对应的第一深度梯度信息和深度估计图像对应的第二深度梯度信息;
梯度差异分析单元:用于基于第一深度梯度信息和第二深度梯度信息进行梯度差异分析,得到像素点对应的梯度差异信息。
本申请实施例还提供了一种模型训练装置800,如图8所示,图8示出了本申请实施例提供的一种模型训练装置的结构示意图,装置可以包括下述模块。
样本获取模块21:用于获取训练集,训练集包括多个样本图像对,样本图像对包括正样本图像和正样本图像对应的样本深度图像;
神经网络模块22:用于将正样本图像输入预设神经网络进行特征提取、深度估计和图像重构,得到样本图像特征、样本参考特征、样本深度估计图像和样本重构图像;
损失计算模块23:用于基于正样本图像、样本深度图像、样本图像特征、样本参考特征、样本深度估计图像和样本重构图像进行损失计算,得到模型损失;
训练模块24:用于基于模型损失训练预设神经网络,得到目标网络模型。
一些实施例中,训练模块24可以包括:
第一损失子模块:用于根据样本图像特征和样本参考特征进行蒸馏损失计算,得到第一损失;
第二损失子模块:用于根据深度图像和样本深度估计图像进行深度估计损失计算,得到第二损失;
第三损失子模块:用于根据正样本图像和样本重构图像进行重构损失计算,得到第三损失;
损失融合子模块:用于融合第一损失、第二损失和第三损失,得到模型损失。
需要说明的是,上述装置实施例与方法实施例基于相同的实施方式。
本申请实施例提供了一种异常检测设备,该调度设备可以为终端或服务器,包括处理器和存储器,该存储器中存储有至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的异常检测方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及异常检测。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本申请实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置等电子设备中执行。图9是本申请实施例提供的一种异常检测方法的电子设备的硬件结构框图。如图9所示,该电子设备900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)910(处理器910可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器930,一个或一个以上存储应用程序923或数据922的存储介质920(例如一个或一个以上海量存储设备)。其中,存储器930和存储介质920可以是短暂存储或持久存储。存储在存储介质920的程序可以包括一个或一个以上模块,每个模块可以包括对电子设备中的一系列指令操作。更进一步地,中央处理器910可以设置为与存储介质920通信,在电子设备900上执行存储介质920中的一系列指令操作。电子设备900还可以包括一个或一个以上电源960,一个或一个以上有线或无线网络接口950,一个或一个以上输入输出接口940,和/或,一个或一个以上操作系统921,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口940可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备900的通信供应商提供的无线网络。在一个实例中,输入输出接口940包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口940可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图9所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备900还可包括比图9中所示更多或者更少的组件,或者具有与图9所示不同的配置。
本申请的实施例还提供了一种计算机可读存储介质,存储介质可设置于电子设备之中以保存用于实现方法实施例中一种异常检测方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的异常检测方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
由上述本申请提供的异常检测方法、模型训练方法、装置、设备、存储介质、服务器、终端和程序产品,本申请的技术方案将待检测图像输入目标网络模型进行特征提取、深度估计和图像重构,得到图像特征、参考特征、深度估计图像和重构图像;基于待检测图像、待检测图像对应的深度图像、图像特征、参考特征、重构图像和深度估计图像进行图像异常分析,得到异常响应图;基于异常响应图生成待检测图像的异常检测结果;通过获取深度图像,并在网络模型中进行待检测图像的多特征提取、深度估计、图像重构的多任务检测,能够充分结合深度信息以及充分提取图像特征,以弥补待检测图像中单一特征信息的局限,通过多任务输出提高异常检测信息维度和实体特征表达准确性,以提高异常检测精度,降低漏检率。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备和存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指示相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (14)
1.一种异常检测方法,其特征在于,所述方法包括:
获取待检测图像和所述待检测图像对应的深度图像;
将所述待检测图像输入目标网络模型进行特征提取、深度估计和图像重构,得到图像特征、参考特征、深度估计图像和重构图像;
基于所述待检测图像、所述深度图像、所述图像特征、所述参考特征、所述重构图像和所述深度估计图像进行图像异常分析,得到异常响应图;
基于所述异常响应图生成所述待检测图像的异常检测结果。
2.根据权利要求1所述的方法,其特征在于,所述目标网络模型包括主干网络、辅助网络、深度解码器和重构解码器,所述辅助网络为所述主干网络对应的教师模型;所述将所述待检测图像输入目标网络模型进行特征提取、深度估计和图像重构,得到图像特征、参考特征、深度估计图像和重构图像包括:
将所述待检测图像输入所述主干网络进行特征提取,得到所述图像特征;
将所述待检测图像输入所述辅助网络进行特征提取,得到所述参考特征;
将所述图像特征输入所述深度解码器进行深度估计,得到所述深度估计图像;
将所述图像特征输入所述重构解码器进行图像重构,得到所述重构图像。
3.根据权利要求1所述的方法,其特征在于,所述目标网络模型是通过下述方法训练得到的:
获取训练集,所述训练集包括多个样本图像对,所述样本图像对包括正样本图像和所述正样本图像对应的样本深度图像;
将所述正样本图像输入预设神经网络进行特征提取、深度估计和图像重构,得到样本图像特征、样本参考特征、样本深度估计图像和样本重构图像;
基于所述正样本图像、所述样本深度图像、所述样本图像特征、所述样本参考特征、所述样本深度估计图像和所述样本重构图像进行损失计算,得到模型损失;
基于所述模型损失训练所述预设神经网络,得到所述目标网络模型。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述基于所述待检测图像、所述深度图像、所述图像特征、所述参考特征、所述重构图像和所述深度估计图像进行图像异常分析,得到异常响应图包括:
基于所述图像特征和所述参考特征进行像素特征差异分析,得到所述待检测图像中像素点对应的特征差异结果;
对所述待检测图像和所述重构图像进行像素差异分析,得到所述像素点对应的重构差异结果;
对所述深度图像和所述深度估计图像进行像素深度差异分析,得到所述像素点对应的深度差异结果;
基于所述特征差异结果、所述深度差异结果和所述重构差异结果,确定所述待检测图像中各像素点的异常评价指标;
基于所述各像素点的异常评价指标生成所述异常响应图。
5.根据权利要求4所述的方法,其特征在于,所述重构差异结果包括重构像素距离和重构特征距离;所述对所述待检测图像和所述重构图像进行像素差异分析,得到所述像素点对应的重构差异结果包括:
提取所述待检测图像中每一像素点的第一像素和所述重构图像中每一像素点的第二像素;
对同一位置的像素点的第一像素和第二像素进行差异分析,得到所述重构像素距离;
分别对所述待检测图像和所述重构图像进行特征提取,得到第一特征和第二特征;
基于所述第一特征和所述第二特征进行每一像素点的特征差异分析,得到所述重构特征距离。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
基于所述深度图像的像素深度对所述待检测图像进行图像分割,得到图像分割结果,所述图像分割结果用于表征所述待检测图像中的像素点为前景像素点或背景像素点;
所述基于所述图像特征和所述参考特征进行像素特征差异分析,得到所述待检测图像中像素点对应的特征差异结果包括:
从所述图像特征中提取所述前景像素点的第一像素特征,并从所述参考特征中提取所述前景像素点的第二像素特征;
对同一位置的前景像素点的第一像素特征和第二像素特征进行差异分析,得到所述特征差异结果。
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:
基于所述深度图像的像素深度对所述待检测图像进行图像分割,得到图像分割结果,所述图像分割结果用于表征所述待检测图像中的像素点为前景像素点或背景像素点;
所述对所述待检测图像和所述重构图像进行像素差异分析,得到所述像素点对应的重构差异结果包括:
提取所述待检测图像中前景像素点的第一像素和所述重构图像中前景像素点的第二像素;
对同一位置的前景像素点的第一像素和第二像素进行差异分析,得到重构像素距离;
分别对所述待检测图像和所述重构图像进行特征提取,得到第一特征和第二特征;
基于所述第一特征和所述第二特征进行所述前景像素点的特征差异分析,得到重构特征距离。
8.根据权利要求4所述的方法,其特征在于,所述深度差异结果包括深度距离和梯度差异信息;所述对所述深度图像和所述深度估计图像进行像素深度差异分析,得到所述像素点对应的深度差异结果包括:
基于所述深度图像和所述深度估计图像进行像素距离分析,得到所述像素点对应的深度距离;
获取所述深度图像对应的第一深度梯度信息和所述深度估计图像对应的第二深度梯度信息;
基于所述第一深度梯度信息和所述第二深度梯度信息进行梯度差异分析,得到所述像素点对应的梯度差异信息。
9.一种模型训练方法,其特征在于,所述方法包括:
获取训练集,所述训练集包括多个样本图像对,所述样本图像对包括正样本图像和所述正样本图像对应的样本深度图像;
将所述正样本图像输入预设神经网络进行特征提取、深度估计和图像重构,得到样本图像特征、样本参考特征、样本深度估计图像和样本重构图像;
基于所述正样本图像、所述样本深度图像、所述样本图像特征、所述样本参考特征、所述样本深度估计图像和所述样本重构图像进行损失计算,得到模型损失;
基于所述模型损失训练所述预设神经网络,得到目标网络模型。
10.根据权利要求9所述的方法,其特征在于,所述基于所述正样本图像、所述样本深度图像、样本图像特征、样本参考特征、样本深度估计图像和样本重构图像进行损失计算,得到模型损失包括:
根据所述样本图像特征和所述样本参考特征进行蒸馏损失计算,得到第一损失;
根据所述深度图像和所述样本深度估计图像进行深度估计损失计算,得到第二损失;
根据所述正样本图像和所述样本重构图像进行重构损失计算,得到第三损失;
融合所述第一损失、所述第二损失和所述第三损失,得到所述模型损失。
11.一种异常检测装置,其特征在于,所述装置包括:
图像获取模块:用于获取待检测图像和所述待检测图像对应的深度图像;
检测模块:用于将所述待检测图像输入目标网络模型进行特征提取、深度估计和图像重构,得到图像特征、参考特征、深度估计图像和重构图像;
异常分析模块:用于基于所述待检测图像、所述深度图像、所述图像特征、所述参考特征、所述重构图像和所述深度估计图像进行图像异常分析,得到异常响应图;
结果生成模块:用于基于所述异常响应图生成所述待检测图像的异常检测结果。
12.一种模型训练装置,其特征在于,所述装置包括:
样本获取模块:用于获取训练集,所述训练集包括多个样本图像对,所述样本图像对包括正样本图像和所述正样本图像对应的样本深度图像;
神经网络模块:用于将所述正样本图像输入预设神经网络进行特征提取、深度估计和图像重构,得到样本图像特征、样本参考特征、样本深度估计图像和样本重构图像;
损失计算模块:用于基于所述正样本图像、所述样本深度图像、所述样本图像特征、所述样本参考特征、所述样本深度估计图像和所述样本重构图像进行损失计算,得到模型损失;
训练模块:用于基于所述模型损失训练所述预设神经网络,得到目标网络模型。
13.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任一项所述的异常检测方法或如权利要求9-10中任一项所述的模型训练方法。
14.一种计算机设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-8中任一项所述的异常检测方法或如权利要求9-10中任一项所述的模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310290119.6A CN116958033A (zh) | 2023-03-13 | 2023-03-13 | 异常检测方法、模型训练方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310290119.6A CN116958033A (zh) | 2023-03-13 | 2023-03-13 | 异常检测方法、模型训练方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116958033A true CN116958033A (zh) | 2023-10-27 |
Family
ID=88441672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310290119.6A Pending CN116958033A (zh) | 2023-03-13 | 2023-03-13 | 异常检测方法、模型训练方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116958033A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576535A (zh) * | 2024-01-15 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 一种图像识别方法、装置、设备以及存储介质 |
-
2023
- 2023-03-13 CN CN202310290119.6A patent/CN116958033A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576535A (zh) * | 2024-01-15 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 一种图像识别方法、装置、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI773189B (zh) | 基於人工智慧的物體檢測方法、裝置、設備及儲存媒體 | |
CN111754396B (zh) | 脸部图像处理方法、装置、计算机设备和存储介质 | |
CN111054080B (zh) | 智能检测透视外挂方法、装置、设备及其存储介质 | |
CN113822314B (zh) | 图像数据处理方法、装置、设备以及介质 | |
CN111275784B (zh) | 生成图像的方法和装置 | |
CN116824278B (zh) | 图像内容分析方法、装置、设备和介质 | |
CN112801047B (zh) | 缺陷检测方法、装置、电子设备及可读存储介质 | |
CN113704531A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN112053358B (zh) | 图像中像素的实例类别确定方法、装置、设备及存储介质 | |
CN110941978B (zh) | 一种未识别身份人员的人脸聚类方法、装置及存储介质 | |
CN114298997B (zh) | 一种伪造图片检测方法、装置及存储介质 | |
CN112989995B (zh) | 文本检测方法、装置及电子设备 | |
CN112818995B (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN113066034A (zh) | 人脸图像的修复方法与装置、修复模型、介质和设备 | |
CN114972016A (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 | |
CN117197462A (zh) | 基于多尺度特征融合和对齐的轻量地基云分割方法及系统 | |
CN112418256A (zh) | 分类、模型训练、信息搜索方法、系统及设备 | |
CN116994022A (zh) | 对象检测方法、模型训练方法、装置、电子设备和介质 | |
JP2023131117A (ja) | 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体 | |
CN117218400A (zh) | 一种图像识别模型训练方法、装置、电子设备及存储介质 | |
CN116958033A (zh) | 异常检测方法、模型训练方法、装置、设备和介质 | |
CN118279967A (zh) | 对象动作识别方法、装置、设备和存储介质 | |
CN116958020A (zh) | 异常图像检测方法、模型训练方法、装置、设备和介质 | |
CN114863450A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN116958590A (zh) | 媒体资源的处理方法和装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |