CN116486463B - 图像处理方法、相关装置及存储介质 - Google Patents
图像处理方法、相关装置及存储介质 Download PDFInfo
- Publication number
- CN116486463B CN116486463B CN202310711856.9A CN202310711856A CN116486463B CN 116486463 B CN116486463 B CN 116486463B CN 202310711856 A CN202310711856 A CN 202310711856A CN 116486463 B CN116486463 B CN 116486463B
- Authority
- CN
- China
- Prior art keywords
- image
- disturbance
- candidate
- target
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 73
- 230000008569 process Effects 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims description 80
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 31
- 238000012546 transfer Methods 0.000 claims description 26
- 238000004891 communication Methods 0.000 claims description 15
- 230000002708 enhancing effect Effects 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 44
- 230000036544 posture Effects 0.000 abstract description 40
- 230000006870 function Effects 0.000 description 28
- 238000013461 design Methods 0.000 description 27
- 230000000007 visual effect Effects 0.000 description 24
- 238000005516 engineering process Methods 0.000 description 16
- 238000012360 testing method Methods 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 210000003128 head Anatomy 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 238000010023 transfer printing Methods 0.000 description 7
- 230000008878 coupling Effects 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 6
- 238000005859 coupling reaction Methods 0.000 description 6
- 230000001965 increasing effect Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000004886 head movement Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000011076 safety test Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 239000012780 transparent material Substances 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000002939 conjugate gradient method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 239000003292 glue Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例涉及计算机视觉领域,提供一种图像处理方法、相关装置及存储介质。该方法基于候选图像中包括的预设对象的姿态将候选扰动图像转换为扰动投影图像,该扰动投影图像对应的三维扰动形象的姿态与候选图像中预设对象的姿态匹配,之后将扰动投影图像与候选图像融合,得到候选对抗图像,基于该候选扰动图像和目标图像获取目标损失值,以更新所述候选扰动图像,并重新获取候选图像,直至候选扰动图像能够达成对抗攻击目标,得到目标扰动图像。本申请实施例在迭代生成目标扰动图像的过程中,考虑到三维对象不同姿态下对扰动图像的影响,使得生成的目标扰动图像与不同姿态匹配,即作用于不同姿态下的对象时,均能表现出理想的对抗攻击效果。
Description
技术领域
本申请实施例涉及计算机视觉领域,更具体地涉及一种图像处理方法、相关装置及存储介质。
背景技术
对抗攻击研究如何针对不同深度学习模型高效地生成对抗样本,有助于及时发现深度学习模型的脆弱性,评估深度学习模型的鲁棒性。一些对抗攻击方法在数字世界中生成添加较小对抗扰动的对抗样本,可以促使对抗样本无法被深度学习模型正确识别或将其识别为指定的标签。
为了在物理世界对人脸识别模型的鲁棒性或安全性进行评估。现有技术往往将对抗扰动打印出来,粘贴在人脸上的预设区域,使得图像采集设备能够采集到包括对抗扰动的人脸对抗图像,以便输入人脸识别模型,评估该模型的鲁棒性或安全性。然而,由于人脸本身是三维立体结构,而不是一个二维平面,即不同姿态下的成像效果不同,且人脸姿态受到头部活动的影响,即人脸能够随头部的活动而改变姿态。因此无法保证粘贴了对抗扰动的人脸以预设姿态(即在数字世界迭代生成对抗扰动时的人脸姿态)朝向图像采集设备,即对抗扰动的视觉表达受到人脸朝向图像采集设备的姿态(三维角度)的影响,可能无法与理想中的对抗扰动的视觉效果一致。可见,物理世界中,由于用户人脸是立体的,而不是在数字世界生成对抗扰动时的二维原始图像,因此可能导致在物理世界粘贴于人脸之后的对抗扰动与在数字世界生成的理想对抗扰动的视觉表征存在差异,使得该粘贴于人脸的对抗扰动无法发挥出理想的对抗攻击效果,从而无法很好地评估人脸识别模型的鲁棒性或安全性。
发明内容
本申请实施例提供一种图像处理方法、相关装置及存储介质,可以在迭代生成目标扰动图像的过程中,考虑到人脸不同三维姿态对候选扰动图像的视觉表征的影响,使得生成的目标扰动图像与各个不同三维姿态的人脸图像匹配,即作用于不同姿态下的人脸时,均能表现出理想的对抗攻击效果,更好地对人脸识别模型进行测试评估。
第一方面,本申请实施例提供一种图像处理方法,该方法包括:
获取候选扰动图像以及候选图像;所述候选图像包括当前姿态为第一姿态的预设对象;
基于所述预设对象的当前姿态对所述候选扰动图像进行处理,获取扰动投影图像;所述扰动投影图像对应的三维扰动形象的姿态与所述预设对象的当前姿态匹配;
基于所述候选图像与所述扰动投影图像得到候选对抗图像,以及获取目标损失值;所述目标损失值基于所述候选对抗图像与目标图像的识别相似度得到;所述目标图像包括所述预设对象或干扰对象;
若所述目标损失值未收敛,则更新所述候选扰动图像和所述候选图像,直至基于新的候选对抗图像和所述目标图像获取的目标损失值收敛;新的候选图像包括当前姿态为第二姿态的预设对象;
将目标损失值收敛时的候选扰动图像作为目标扰动图像。
第二方面,本申请实施例提供一种图像处理装置,具有实现对应于上述第一方面提供的图像处理方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。
在一个实施方式中,所述图像处理装置包括:
输入输出模块,被配置为获取候选扰动图像以及候选图像;所述候选图像包括当前姿态为第一姿态的预设对象;
处理模块,被配置为基于所述预设对象的当前姿态对所述候选扰动图像进行处理,获取扰动投影图像;所述扰动投影图像对应的三维扰动形象的姿态与所述预设对象的当前姿态匹配;
所述处理模块,还被配置为基于所述候选图像与所述扰动投影图像得到候选对抗图像,以及获取目标损失值;所述目标损失值基于所述候选对抗图像与目标图像的识别相似度得到;所述目标图像包括所述预设对象或干扰对象;
所述处理模块,还被配置为若所述目标损失值未收敛,则更新所述候选扰动图像和所述候选图像,直至基于新的候选对抗图像和所述目标图像获取的目标损失值收敛;新的候选图像包括当前姿态为第二姿态的预设对象;
所述处理模块,还被配置为将目标损失值收敛时的候选扰动图像作为目标扰动图像。
第三方面,本申请实施例提供一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如第一方面所述的图像处理方法。
第四方面,本申请实施例提供一种计算设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现第一方面所述的图像处理方法。
第五方面,本申请实施例提供一种芯片,该芯片中包括与终端设备的收发器耦合的处理器,用于执行本申请实施例第一方面提供的技术方案。
第六方面,本申请实施例提供一种芯片系统,该芯片系统包括处理器,用于支持终端设备实现上述第一方面中所涉及的功能,例如,生成或者处理上述第一方面提供的图像处理方法中所涉及的信息。
在一种可能的设计中,上述芯片系统还包括存储器,该存储器用于保存终端必需的程序指令和数据。该芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。
第七方面,本申请实施例提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述第一方面提供的图像处理方法。
相较于现有技术,本申请实施例中,在迭代生成目标扰动图像的每个轮次中,将候选扰动图像转换为扰动投影图像,该扰动投影图像对应的三维扰动形象的姿态与候选图像中预设对象的姿态匹配,之后将扰动投影图像与候选图像融合,得到候选对抗图像,基于该候选扰动图像和目标图像获取目标损失值,以更新所述候选扰动图像,直至候选扰动图像能够达成对抗攻击目标,得到目标扰动图像。由于本申请实施例是将投影扰动图像融合至候选图像,而不是现有技术中的直接将候选扰动图像融合至候选图像,因此,本申请实施例基于扰动投影图像与候选图像融合得到的候选对抗图像,相当于模拟了候选扰动图像在物理世界设置于相应姿态下的预设对象的视觉表现,可以表达出该候选扰动图像在物理世界作用于预设对象后的视觉效果,即数字世界生成的对抗图像与其在物理世界中的视觉表征一致,从而可以使得物理世界中的目标扰动图像发挥出与在数字世界中一致的理想攻击效果。可见,本申请实施例中,相当于在迭代生成目标扰动图像的过程中,模拟了扰动图像在物理世界中结合各种可能姿态下的预设对象后的视觉表征。由于最终得到的目标扰动图像匹配了各种姿态下的预设对象,因此,本申请实施例得到的目标扰动图像在物理世界的各种姿态下的预设对象上均可以发挥出理想的对抗攻击效果,能够很好地评估图像识别模型的鲁棒性或安全性。
附图说明
通过参考附图阅读本申请实施例的详细描述,本申请实施例的目的、特征和优点将变得易于理解。其中:
图1为本申请实施例中图像处理方法的一种图像处理系统示意图;
图2为本申请实施例的图像处理方法的一种流程示意图;
图3为本申请实施例的图像处理方法的一种获取扰动投影图像的流程示意图;
图4为本申请实施例的图像处理方法中获取的一种候选对抗图像与现有技术中获取的候选对抗图像的对比示意图;
图5为本申请实施例的图像处理方法的一种对扰动投影图像进行处理的结果示意图;
图6为本申请实施例的图像处理方法的一种迭代候选扰动图像的流程示意图;
图7为本申请实施例的图像处理方法的一种基于注意力模块迭代候选扰动图像的流程示意图;
图8为本申请实施例的图像处理方法的又一种基于注意力模块迭代候选扰动图像的流程示意图;
图9为本申请实施例的图像处理装置的结构示意图;
图10为本申请实施例的计算设备的一种结构示意图;
图11为本申请实施例中手机的一种结构示意图;
图12为本申请实施例中服务器的一种结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象(例如第一图像和第二图像分别表示为不同的图像,其他类似),而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请实施例中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行。另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合,通信连接可以是电性或其他类似的形式,本申请实施例中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。
本申请实施例提供一种图像处理方法、相关装置及存储介质,可应用于生成测试图像识别模型的扰动图像的场景下的图像处理系统,该图像处理系统可包括图像处理装置和图像识别装置,图像处理装置和图像识别装置可以集成部署,也可分离式部署。该图像处理装置至少用于对候选扰动图像进行迭代更新,得到目标扰动图像。该图像识别装置用于识别输入的图像,得到图像识别结果。其中,图像处理装置可为对候选扰动图像进行迭代更新,得到目标扰动图像的应用程序,或为安装了对候选扰动图像进行迭代更新,得到目标扰动图像的应用程序的服务器或终端设备;图像识别装置可为对图像进行识别,得到识别结果的图像识别程序,所述图像识别程序例如是图像识别模型,所述图像识别装置还可为部署了图像识别模型的终端设备。
本申请实施例提供的方案涉及人工智能(Artificial Intelligence, AI)、计算机视觉技术(Computer Vision,CV)、机器学习(Machine Learning, ML)等技术,具体通过如下实施例进行说明:
其中,AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
AI技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
CV是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括对抗扰动生成、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
现有技术中,为了对神经网络模型进行对抗攻击测试,往往需要迭代生成对抗图像。对抗图像实际上相当于扰动图像叠加原始图像得到的,迭代生成对抗图像实质上相当于迭代生成理想的扰动图像。在迭代过程中,往往需要将候选扰动图像与原始图像结合,得到候选对抗图像,并将候选对抗图像输入图像识别模型,根据得到的识别结果确定是否能够成功实施对抗攻击。在基于一个候选对抗图像无法实施对抗攻击时,则需要根据损失函数值(基于候选对抗图像和目标图像之间的特征距离或相似度得到)迭代更新候选对抗图像或候选扰动图像。可见,在现有技术迭代更新候选扰动图像的过程中,并未考虑到在物理世界实施对抗攻击时,扰动图像设置于三维对象之后,会受到三维对象姿态变换的影响;例如扰动图像设置于攻击者的人脸之后,攻击者的转头或抬头,都可能使得图像采集设备采集到畸变的扰动图像,从而影响扰动效果。
相比于现有技术,本申请实施例中,在迭代生成目标扰动图像的每个轮次中,将候选扰动图像转换为扰动投影图像,该扰动投影图像对应的三维扰动形象的姿态与候选图像中预设对象的姿态匹配,之后将扰动投影图像与候选图像融合,得到候选对抗图像,基于该候选扰动图像和目标图像获取目标损失值,以更新所述候选扰动图像,直至候选扰动图像能够达成对抗攻击目标,得到目标扰动图像。由于本申请实施例是将投影扰动图像融合至候选图像,而不是现有技术中的直接将候选扰动图像融合至候选图像,因此,本申请实施例基于扰动投影图像与候选图像融合得到的候选对抗图像,相当于模拟了候选扰动图像在物理世界设置于相应姿态下的预设对象的视觉表现,可以表现出该候选扰动图像在物理世界作用于预设对象后的视觉效果,即数字世界生成的对抗图像与其在物理世界中的视觉表征一致,从而可以使得物理世界中的目标扰动图像发挥出与在数字世界中一致的理想攻击效果。
一些实施方式中,图像处理装置和图像识别装置分离式部署,参照图1,本申请实施例提供的图像处理方法可基于图1所示的一种图像处理系统实现。该图像处理系统可以包括服务器01和终端设备02。
该服务器01可以是图像处理装置,其中可以部署图像处理程序,该图像处理程序可以用于将候选扰动图像迭代更新为目标扰动图像。
该终端设备02可以是图像识别装置,其中可以部署有图像识别模型,例如基于机器学习的方法训练得到的人脸识别模型。
服务器01可以接收候选图像,并初始化候选扰动图像;接下来根据所述候选图像中包括的预设对象的姿态,对所述候选扰动图像进行处理,得到扰动投影图像;之后可以将所述扰动投影图像与所述候选图像结合,得到候选对抗图像,然后将其向该终端设备02发送。终端设备02可以通过其中部署的图像识别模型获取所述候选对抗图像和目标图像的识别相似度,并将该识别相似度结果反馈至服务器01。服务器01可以根据该识别相似度确定所述候选对抗图像是否可以成功误导图像识别模型,并在其无法成功实施对抗攻击时,基于所述识别相似度获取目标损失值,以更新所述候选扰动图像,直至得到能够成功实施对抗攻击的目标扰动图像。
需要说明的是,本申请实施例涉及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
本申请实施例涉及的终端设备,可以是指向用户提供语音和/或数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。例如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语音和/或数据。例如,个人通信业务(英文全称:Personal Communication Service,英文简称:PCS)电话、无绳电话、会话发起协议(SIP)话机、无线本地环路(Wireless Local Loop,英文简称:WLL)站、个人数字助理(英文全称:Personal Digital Assistant,英文简称:PDA)等设备。
参照图2,图2为本申请实施例提供的一种图像处理方法的流程示意图。该方法可由图像处理装置执行,可应用于图像识别模型的对抗攻击测试场景,将候选扰动图像迭代为目标扰动图像,该目标扰动图像可以设置在不同姿态的预设对象上,并稳定地发挥出对抗攻击效果,在物理世界采用该目标扰动图像进行图像识别模型的对抗攻击测试时,能够稳定地发挥出扰动效果,不需要担心预设对象不同姿态对扰动效果的影响。所述方法包括步骤101-105:
步骤101,获取候选扰动图像以及候选图像。
在本申请实施例中,候选扰动图像表示迭代更新中的扰动图像,即还不符合预设要求的扰动图像。本申请实施例中会对扰动图像进行至少一个迭代轮次的更新,直至其被更新为符合预设要求的目标扰动图像。可以理解的是,本申请实施例中,所述预设要求可以是指将扰动图像设置于预设对象之后采集到的对抗图像能够使得图像识别模型输出错误的识别结果。
候选扰动图像可以是基于历史候选扰动图像得到的,历史候选扰动图像在不同的迭代轮次可以是不同的。在初始的迭代轮次,历史候选扰动图像可以是采用预设方式初始化得到的,即初始的迭代轮次,候选扰动图像就是初始扰动图像。例如,在第一个迭代轮次,通过随机初始化方式,得到了候选扰动图像Padv1;之后在第二个迭代轮次,对候选扰动图像Padv1进行更新,得到候选扰动图像Padv2;在第三个迭代轮次,对候选扰动图像Padv2进行更新,最终得到目标扰动图像Padv3。
为了使得最终得到的目标扰动图像,能够适应物理世界中具有灵活多变的姿态的目标对象(即用于设置目标扰动图像的对象),即设置于目标对象后,即使目标对象变换不同的姿态,目标扰动图像也依然能够发挥出理想的对抗攻击效果,从而对图像识别模型进行稳定地测试。本申请实施例中,在每个迭代轮次,还要获取包括不同姿态的预设对象的候选图像。因此,在不同的迭代轮次中,可以使得扰动图像在不同姿态下与预设对象结合,相当于每个迭代轮次都考虑到了预设对象不同的姿态,对扰动图像发挥出的对抗攻击效果的影响,从而使得最终得到的目标扰动图像能够适应不同的姿态,即设置在不同姿态下的目标对象均能够发挥出理想的对抗攻击效果。
例如,在第一个迭代轮次中,获取的候选图像包括当前姿态为第一姿态的预设对象;然后,在第二个迭代轮次中,获取新的候选图像,该新的候选图像包括当前姿态为第二姿态的预设对象。可以理解的是,本申请实施例中的第一姿态和第二姿态仅用于表示不同的姿态,而不是特定的姿态。
需要说明的是,本申请实施例中获取的候选扰动图像和候选图像均可以是二维图像。本申请实施例能够对二维形式的扰动图像进行迭代更新,使得最终得到的(二维形式的)目标扰动图像设置于三维形式的目标对象后,不受目标对象姿态改变的影响,均能够发挥出理想的对抗攻击效果。例如,在人脸识别场景下,扰动图像设置于目标人脸的额头,若目标人脸的姿态为平视图像采集设备,则图像采集设备采集到的人脸图像可以包括完整的扰动图像,即人脸图像可以呈现出完整的扰动;若目标人脸的姿态为仰视图像采集设备,则图像采集设备采集到的人脸图像无法包括完整的扰动图像,而是变形后的扰动图像,即人脸图像中的扰动表达与扰动图像并不一致,可能影响对抗攻击效果。基于此,本申请实施例中得到的目标扰动图像,则由于在生成过程中已经匹配了不同姿态的预设对象,由此,在设置于物理世界的实体对象之后,不论实体对象如何更改姿态,均能够表达出理想的对抗攻击效果。
步骤102,基于所述预设对象的当前姿态对所述候选扰动图像进行处理,获取扰动投影图像。
在本申请实施例中,由于候选扰动图像是基于预设方式初始化得到的初始扰动图像得到的,而各个轮次对候选扰动图像进行更新,也是对图像中一些像素的像素值的修改。可见,本申请实施例中各个轮次的(二维形式的)候选扰动图像相当于是基于同一姿态的三维扰动形象(各个迭代轮次的纹理表现可能不同)得到的,而不同迭代轮次的候选图像中包括的预设对象的姿态是不同的。即同一个迭代轮次中,候选扰动图像对应的三维扰动形象和候选图像中包括的预设对象的姿态是不匹配的。由于该候选扰动图像设置于该候选图像对应的预设对象之后,无法表现出与该候选扰动图像一致的扰动表达;也就是说,该候选扰动图像与该候选图像叠加后形成的对抗图像,与该候选扰动图像设置于该候选图像对应的预设对象之后的图像表达不一致。因此,可以对该候选扰动图像进行处理,得到其设置于特定姿态下的预设对象之后的图像表现,基于此,则能够准确判断候选扰动图像是否能在设置于特定姿态的预设对象后,依然可以表现出理想的对抗攻击效果。
为了获取候选扰动图像能够在设置于预设对象后表现出的扰动表达。本申请实施例中将根据候选图像中的预设对象的姿态,对候选对抗图像进行处理。具体来说,参照图3,可以基于候选扰动图像进行三维重建,即基于二维形式的扰动图像,得到其对应的三维扰动形象,然后调整该三维扰动形象的姿态,使其与候选图像中的预设对象的姿态一致,最后可以将调整姿态后的三维扰动形象在目标平面投影,得到扰动投影图像,该扰动投影图像对应的三维扰动形象的姿态与所述预设对象的当前姿态匹配。
需要说明的是,本申请实施例中,不同迭代轮次的目标平面也可能是不同的,即当前迭代轮次的目标平面也是根据当前迭代轮次的候选图像确定的。在每一个迭代轮次中,候选图像相当于基于三维的预设对象在一个平面投影得到,该平面即为当前迭代轮次的目标平面。
可以理解的是,本申请实施例中,基于候选扰动图像得到三维扰动形象,可以基于现有的三维重建模型或三维生成模型实现,例如可以将候选扰动图像输入预设的三维生成模型,得到该候选扰动图像对应的三维扰动形象。三维生成模型例如可以是GET3D、SDM-NET、DeepVO、SDFusion等基于神经网络技术构建的人工智能模型,本申请实施例对此不做限制。
本申请实施例中,在调整三维扰动形象的姿态之前,可以先基于同一个迭代轮次中的候选图像获取目标姿态信息,然后再基于该目标姿态信息调整所述三维扰动形象的姿态;其中,获取的目标姿态信息可以是任意能够表示候选图像中的预设对象三维姿态的信息,例如可以是该预设对象的俯仰角、旋转角和倾斜角这三个姿态角度的数值。与三维重建或三维生成操作类似,本申请实施例中也可以通过姿态估计模型,基于候选图像,得到该候选图像中包括的预设对象的姿态信息。姿态估计模型例如可以是OpenPose、MoveNet、PoseNet、DensePose、HRNet、AlphaPose、TransPose、ST-GCN等基于神经网络技术构建的人工智能模型,本申请实施例对此不做限制。
步骤103,基于所述候选图像与所述扰动投影图像得到候选对抗图像,以及获取目标损失值。
在本申请实施例中,扰动投影图像可以代表候选扰动图像设置于预设对象之后,在特定姿态下呈现的扰动表达。由此,参照图4,将当前迭代轮次的扰动投影图像与候选图像叠加之后,得到的候选对抗图像,即可表示出候选扰动图像设置于特定姿态之下的预设对象的视觉效果。也就是说,本申请实施例中,候选扰动图像设置于三维的预设对象之后,由图像采集设备采集得到的图像,与候选对抗图像的图像内容是一致的;而不是如现有技术一般将候选扰动图像直接与候选图像融合,使得得到的候选对抗图像无法准确表达出候选扰动图像在物理世界中的真实效果。
在将扰动投影图像与候选扰动图像叠加,得到候选对抗图像之后,可以基于该候选对抗图像与目标图像的识别相似度,确定是否可以实现对抗攻击,并在无法实现对抗攻击的情况下获取目标损失值,以更新候选扰动图像。
考虑到对抗攻击可以包括有目标攻击和无目标攻击。有目标攻击旨在将实施对抗攻击的对象伪装为特定对象,即使得图像识别模型将设置对抗扰动的对象A识别为特定对象B;无目标攻击旨在使得图像识别模型无法识别将施对抗攻击的对象,即使得图像识别模型无法识别出设置了对抗扰动的对象A的真实身份。基于此,在希望实施有目标攻击的对抗攻击测试场景下,可以将目标图像设置为包括干扰对象的图像,即在迭代更新候选扰动图像的过程中,致力于使得图像识别模型将候选对抗图像与目标图像混淆,也就是说,希望图像识别模型将候选对抗图像中的对象识别为目标图像中包括的干扰对象。与有目标攻击相对,在无目标攻击中,则希望图像识别模型无法识别出候选对抗图像中的对象,即在迭代更新候选扰动图像的过程中,致力于使得候选对抗图像变得与候选图像中的预设对象不相似,也就是说,希望图像识别模型无法将候选对抗图像中的对象识别为目标图像中包括的预设对象。可见,在不同的对抗攻击场景下,目标图像可以包括的对象是不同的;即在有目标攻击场景下,目标图像包括干扰对象,在无目标攻击场景下,目标图像包括预设对象。
在本申请实施例中,目标损失值可以是采用任意现有损失函数基于两个图像(候选对抗图像与目标图像)之间的差异或相似度得到,例如可以是交叉熵损失函数或指数损失函数等。或者,在一些可能的设计中,也可以将两个图像之间的图像特征距离作为目标损失值。本申请实施例的目标损失值旨在衡量当前的候选扰动图像与符合预设要求的目标扰动图像的距离,以便指明候选扰动图像的更新方向,使得下一个迭代轮次的目标损失值变小,从而距离完成目标更加接近,即距离得到目标扰动图像更加接近。
考虑到,在物理世界实施对抗攻击,需要将扰动设置在实体对象上,而后对设置了扰动的实体对象进行图像采集,得到包括扰动的实体对象的图像(即对抗图像)。而在物理世界进行图像采集后得到的图像,受到例如光照等环境因素影响,图像的表达与实体对象的实际情况可能并不一致,即可能存在色彩差异。因此,为了模拟不同情况下采集到的图像的颜色表达,在一个可能的设计中,可以对图像进行色彩变换,以模拟不同图像采集条件下得到的预设对象的图像,使得候选对抗图像能够在各种情况下表达出稳健的对抗攻击性能。具体来说,在本申请实施例中,每个迭代轮次都可以将候选图像进行色彩变换,得到第一图像,然后将该第一图像与当前迭代轮次的候选扰动图像叠加,得到当前迭代轮次的候选对抗图像。
可以理解的是,在本申请实施例中,对候选图像进行色彩变换操作时,可以通过随机变换进行。例如可以预先设置色彩变换的参数范围,然后在该参数范围内随机采样得到一个目标参数,之后将目标参数与候选图像预设通道(可以是RGB颜色空间中任意一个或多个通道)的像素值进行预设操作(例如相加,相减,相乘或相除),从而实现预设通道像素值的变化,完成色彩变换。另外,在一些可能的设计中,也可以基于预先设置的色彩变化模式或滤镜完成对候选图像的色彩变换操作,本申请实施例对此不做限定。
为了方便在物理世界实施对抗攻击,即将目标扰动图像设置在预设对象,本申请实施例中可以采用水转印技术,将目标扰动图像输出,得到水转印扰动贴纸。水转印技术相当于是在一层透明固体介质上印制图案,例如是在透明膜或透明纸张上印制目标扰动图像。可见,水转印扰动贴纸中的扰动视觉表达可能也与数字世界生成的扰动图像不一致,即印制出的扰动图案受到透明材质或环境光照的反射影响,可能会使得扰动图案产生弱化或反光,无法表达出理想的对抗攻击效果。
为了模拟数字世界的扰动图像被印制为水转印扰动贴纸之后的视觉传达状态,使得最终生成的目标扰动图像在印制为水转印扰动贴纸之后,即使被透明材质弱化,也能够表现出理想的对抗攻击效果。在一个可能的设计中,可以对候选扰动图像进行透明度变换,得到第二图像,以模拟该候选扰动图像被制作为水转印扰动贴纸之后的扰动图案,然后将第二图像与候选图像叠加,得到候选对抗图像。若该候选扰动图像能够发挥出理想的对抗攻击效果,则说明对应的候选扰动图像,在被制作为水转印扰动贴纸,设置于预设对象之后,也能够表现出理想的对抗攻击效果。
在本申请实施例中,对候选扰动图像进行透明处理,可以是采用预设数值范围内的系数值,对候选扰动图像在预设颜色空间的各个通道上的图像分量进行相同的乘法处理,得到该候选扰动图像对应的第二图像,即透明处理后的图像。具体来说,若一个候选扰动图像Padv在RGB颜色空间三个通道(即R通道,G通道和B通道)的图像分量分别为R1,G1和B1,即Padv=(R1,G1,B1),那么对候选扰动图像Padv进行透明处理,可以是采用预设系数α与三个图像分量分别相乘,即第二图像Psec=(α×R1,α×G1,α×B1)。由于预设系数相当于控制了透明处理后的图像的透明度,且透明度的数值是[0,1]范围内的数字,因此,预设系数的取值范围可以是[0,1]。基于此,在每一个迭代更新候选扰动图像的轮次中,都可以在该取值范围内随机采样当前迭代轮次的预设系数值,得到不同透明度的第二图像,使得经历多个迭代轮次更新得到的目标扰动图像,可以在不同透明度下发挥出理想的对抗攻击效果。
可以理解的是,参照图5,在一个迭代轮次中,也可以对扰动投影图像进行不同透明度的透明处理,得到多个不同透明度的第二图像。例如图5中所示的第二图像1、第二图像2和第二图像3。在一个迭代轮次中对候选扰动图像进行多种不同透明度的模拟,可以提高迭代效率。
需要说明的是,虽然本申请实施例中以RGB空间为例,介绍了如何对候选扰动图像进行透明处理,但是并不限于此。例如还可以将候选扰动图像转化到CIE Lab、Luv、LCh、Yxy、CMYK、s-RGB、Hex等颜色空间,然后将候选扰动图像在对应颜色空间的各个通道的图像分量分别与预设系数相乘,得到透明处理后的第二图像。
可以理解的是,在物理世界采用水转印技术实施对抗攻击时,图像采集设备基于设置了水转印扰动贴纸的预设对象,可能采集到色彩和透明度与物理世界的对抗图像(候选扰动图像叠加候选图像)都不同的待检测图像。因此,为了使得候选扰动图像的迭代过程中,既可以模拟色彩变换,又可以模拟透明度变换,以提高最终得到的目标扰动图像的鲁棒性。在一个可能的设计中,可以将第一图像与第二图像叠加,得到候选对抗图像,根据该候选对抗图像进行的目标损失值的获取和判断,相当于是基于候选扰动图像在物理世界的视觉表现进行的对抗攻击结果是否成功的判断,因此,基于色彩变换和透明处理之后的图像,可以模拟出扰动图像在物理世界的真实表现。可见,本设计中通过在数字世界对图像进行其在物理世界会产生的变化进行模拟,使得最终得到的目标扰动图像即使在物理世界产生了变换,也能够发挥出理想的对抗攻击效果,具有较强的鲁棒性。
步骤104,若所述目标损失值未收敛,则更新所述候选扰动图像和所述候选图像,直至基于新的候选对抗图像和所述目标图像获取的目标损失值收敛。
在本申请实施例中,若一个迭代轮次得到的目标损失值没有收敛,则该迭代轮次的候选扰动图像还不符合预设要求,其无法在物理世界发挥出理想的对抗攻击效果。
可以理解的是,目标损失值未收敛,即为目标损失未达到预设的极限值,说明候选扰动图像还存在优化提升空间。因此,可以继续迭代更新候选对抗图像。例如,参照图6,可以采用梯度优化等方式更新候选扰动图像,以提高其对抗攻击性能,并且为了提高最终得到的目标扰动图像设置于在不同姿态的预设对象下的鲁棒性,还可以在迭代更新候选对抗图像的过程中获取包括不同姿态的预设对象的候选图像。具体来说,若一个迭代轮次a1获取到候选图像P1,该候选图像P1包括当前姿态为第一姿态的预设对象,在该迭代轮次的候选对抗图像如果不符合预设要求,则可以在迭代轮次a2获取候选图像P2,该候选图像P2包括当前姿态为第二姿态的预设对象。本申请实施例中,由于在迭代生成目标扰动图像的过程中获取了多个包括不同姿态的预设对象的候选图像,相当于使得各个迭代轮次的候选对抗图像适应多种不同姿态的预设对象,因此,最终得到的目标扰动图像能够在设置于预设对象后,不会因为预设对象的姿态改变而影响对抗攻击性能。
在本申请实施例中,采用梯度优化法更新候选扰动图像可以是基于当前轮次的目标损失值,更新候选扰动图像的各个像素的像素值。具体来说,可以基于目标损失值的偏导与候选扰动图像的各个像素的像素值的偏导的比值确定扰动梯度,然后基于所述扰动梯度对候选扰动图像的各个像素进行更新;例如,可以基于所述扰动梯度确定各个像素的更新方向,然后基于所述更新方向和预设步长,增减各个像素的数值;若一个像素对应的扰动梯度为正,则可以基于所述预设步长增加所述像素的数值;若一个像素对应的扰动梯度为负,则可以基于所述预设步长减小所述像素的数值。
由于候选扰动图像是二维图像,相当于一个二维矩阵,因此本申请实施例中的扰动梯度也是一个矩阵,该扰动梯度的尺寸可以和候选对抗图像一致。也就是说,扰动梯度中包括多个梯度元素,梯度元素的数量可以与候选扰动图像中包括的像素数量一致。可见,扰动梯度中包括的梯度元素可以与候选扰动图像中的像素一一对应,以便对候选扰动图像中的各个像素进行独立且有针对性的更新。
在一些可能的设计中,还可以基于任意现有的梯度优化方法优化更新各个迭代轮次中的预设模型,例如可以是梯度下降法 (Gradient Descent)、动量法 (Momentum)、共轭梯度法(Conjugate Gradient)和自然梯度法(Natural Gradient)),本领域的技术人员可以根据实际需要进行选择,本申请实施例对此不做限定。
可以理解的是,虽然本申请实施例以各个迭代轮次中基于候选对抗图像与目标图像得到的目标损失值是否收敛,作为判断循环是否终止的条件,但是不限于此。在一些可能的设计中,还可以根据循环迭代次数确定是否终止循环,例如可以将循环迭代100次后得到的候选扰动图像作为目标扰动图像。或者,还可以根据候选对抗图像与目标图像的图像特征的距离(或者识别相似度)达到预设值来确定是否终止循环。例如,若候选对抗图像与目标图像的识别相似度超过90%,则可以认为得到了符合预设要求的目标扰动图像。
考虑到,本申请实施例中的对抗攻击包括有目标攻击和无目标攻击,由此,目标损失收敛时,分别对应不同的攻击方式具有不同的含义。在有目标攻击中,目标损失收敛时,候选对抗图像与目标图像(包括干扰对象)的识别相似度大于第一预设阈值(例如90%),即(由候选扰动图像设置于预设对象得到的)对抗图像与包括干扰对象的目标图像的图像特征已经极其相似,二者会被图像识别模型识别为同一身份;在进行无目标攻击中,目标损失收敛时,候选对抗图像与目标图像(包括预设对象)的识别相似度小于第二预设阈值(例如10%),即(由候选扰动图像设置于预设对象得到的)对抗图像与包括预设对象的目标图像已经差异非常大,二者不会被图像识别模型识别为同一身份。
在本申请实施例中,为了方便在物理世界实施对抗攻击,会将目标扰动图像输出,以得到水转印扰动贴纸。为了方便携带,水转印扰动贴纸往往会具有较小的尺寸,例如在人脸识别模型的对抗攻击场景下,水转印扰动贴纸可能被设置为2厘米×2厘米的大小。由于水转印扰动贴纸的尺寸限制,其所能承载的扰动信息也相对(现有技术中整个人脸区域都具有扰动图案的图像)较少,因此,为了保证小尺寸的水转印扰动贴纸(即目标扰动图像)的扰动效果,在一个可能的设计中,可以在迭代更新候选扰动图像的各个轮次中,增加注意力增强操作,以便突出候选扰动图像中具有更强扰动效果的区域,使得最终得到的目标扰动图像具有较强的对抗攻击性能。具体来说,本申请实施例中,所述更新所述候选扰动图像之前,可以对预设数据进行注意力增强操作,以对所述候选扰动图像中的重要扰动信息进行直接或间接加权处理;所述预设数据基于所述候选扰动图像得到。
本申请实施例中提供在扰动梯度获取阶段增加注意力增强操作(预设数据为候选扰动图像的梯度)或在图像特征获取阶段增加注意力增强操作(预设数据为对抗图像特征)两种可能的设计,增强目标扰动图像的扰动效果。
设计i、在扰动梯度获取阶段增加注意力增强操作
在本申请实施例中,由于扰动梯度是一个与候选扰动图像尺寸一致的矩阵,且在更新候选扰动图像时,可以根据扰动梯度这一矩阵中的元素数值对候选扰动图像的像素进行有针对性的更新。可见,如果对扰动梯度这一矩阵中的某些元素进行注意力增强,则相当于对这些元素对应的像素进行了注意力增强。
在本申请实施例中,在扰动梯度获取阶段增加注意力增强操作后,可以采用注意力增强后的扰动梯度更新候选扰动图像。具体来说,所述所述对预设数据进行注意力增强操作可以包括步骤a)-b):
步骤a)基于所述目标损失值得到所述候选扰动图像的扰动梯度。
在本申请实施例中,获取所述扰动梯度的方式也可以为目标损失值与候选扰动图像的像素值的偏导的比值,此处不再赘述。
步骤b)对所述扰动梯度进行注意力增强操作,得到加权梯度。
在本申请实施例中,参照图7,可以通过预设的注意力模块对所述扰动梯度进行注意力增强操作。例如,可以将所述扰动梯度输入所述注意力模块,得到所述加权梯度。可以理解的是,本申请实施例中预设的注意力模块可以通过SENet或CBAM等现有的基于神经网络构建的注意力模型实现,本申请实施例对此不做限定。
在一个可能的设计中,对扰动梯度的注意力增强操作还可以通过预设卷积层实现。具体来说,预设卷积层可以包括预设尺寸的卷积核和权重参数,在将扰动梯度输入预设卷积层之后,扰动梯度的各个梯度元素值按照卷积核尺寸与权重参数进行卷积计算,得到加权梯度。例如,若预设卷积层的卷积核尺寸为1×1,则将扰动梯度输入该卷积层之后,扰动梯度这一矩阵中的各个矩阵元素值都将和权重参数进行乘法计算,即扰动梯度进行了加权计算。需要说明的是,1×1的卷积计算不改变原始输入的尺寸,而是在通道层级进行加权融合,即增强重要的通道中的扰动梯度值,以便在更新候选扰动图像时增强重要的通道中的像素。
由于1×1的卷积层对输入的操作,相当于全连接层对输入的操作。因此,在一个可能的设计中,也可以通过预设的全连接层实现对扰动梯度的注意力增强操作,该全连接层也可以包括对应候选扰动图像中各个像素的权重参数。
在得到所述加权梯度之后,可以基于所述加权梯度更新所述候选扰动图像。
在本申请实施例中,基于加权梯度更新候选扰动图像的过程,可以与上述基于扰动梯度更新候选扰动图像的过程相似,此处不再赘述。可以理解的是,此处也可以基于现有梯度优化器更新候选扰动图像,本领域的技术人员可以额根据实际需要进行选择。
设计ii、在图像特征获取阶段增加注意力增强操作
在本申请实施例中,目标损失值是基于候选对抗图像与目标图像的识别相似度得到的,相当于是基于两个图像的图像特征的距离得到的。可见,如果在图像特征的提取阶段进行注意力增强操作,则相当于是基于加权之后的图像特征得到的目标损失值,从而在基于目标损失值更新候选扰动图像时,相当于会对加权部分进行重点更新。可见,可以在图像特征获取阶段施加注意力增强操作,以便突出候选扰动图像中扰动效果强的部分,使得最终得到的目标扰动图像具有更强的扰动效果。
在本设计ii中,在获取到注意力增强的图像特征之后,即可获取相当于对候选对抗图像中加权后得到的目标损失值。具体来说,所述对预设数据进行注意力增强操作包括:基于所述目标图像获取目标图像特征;以及基于所述候选对抗图像获取对抗图像特征,并对所述对抗图像特征中对应候选扰动图像的特征值进行注意力增强操作,得到加权对抗图像特征。
在现有技术中,在对一个图像进行识别时,往往是基于该图像的图像特征和预录入特征之间的距离进行身份判定。具体来说,往往是采用神经网络构建图像识别模型,图像识别模型将通过其包括的全连接层、卷积层、池化层或其他网络层结构从图像中获取图像特征,然后再将图像特征与预录入特征计算特征距离,之后基于特征距离是否符合预设值范围,确定该图像是否与预录入特征关联同一个身份。
基于现有技术中的图像识别过程可知,图像识别的关键步骤之一在于从图像中获取到的特征是否准确,因此,如果在图像特征获取阶段对扰动图案(相当于迭代中的候选扰动图像或最终得到的目标扰动图像)进行注意力增强操作,可以突出扰动图案对图像识别结果的影响。如果在迭代候选扰动图像的过程中,于图像特征获取阶段增加了注意力增强操作,则可以突出扰动图案特征,使得后续的候选扰动图像更新过程是基于扰动增强的目标损失值进行的,从而可以使得最终得到的目标扰动图像的扰动效果更加,且迭代效率更高。
需要说明的是,本申请实施例需要分别从目标图像和候选对抗图像获取图像特征,这两个图像特征获取步骤是可以共同进行的,即二者是相互独立的,没有前后时序的依赖关系。
可以理解的是,参照图8,本申请实施例中在图像特征获取阶段进行的注意力增强操作,也可以是基于预设的注意力模块进行的,该注意力模块可以是现有技术中的注意力网络、预设卷积层或预设全连接层,此处不再赘述。
在本设计ii中,为了后续过程对候选扰动图像进行更新,可以根据所述加权对抗图像特征与所述目标图像特征的特征距离,得到所述目标损失值。
在本申请实施例中,计算两个图像特征(即加权对抗图像特征与目标图像特征)之间的特征距离的方式可以是欧式距离、明氏距离或在预设范数空间的距离等现有特征距离计算方式,此处不做限定。在得到两个图像特征的特征距离之后,可以采用交叉熵损失函数或指数损失函数等任意现有损失函数计算目标损失值,此处不再赘述。
基于通过注意力增强操作处理的对抗图像特征获取的目标损失值,相当于是扰动增强的图像特征得到的,从而可以使得重要的扰动区域在迭代候选扰动图像时发挥出更加显著的作用,使得最终得到目标扰动图像包括的重要扰动信息更加显著,具备更强的扰动效果。
在本申请实施例中通过设计i和设计ii示例性介绍了两种对扰动进行注意力增强操作的方式,但是不限于此,本领域的技术人员可以根据实际需要在合适的阶段设置注意力模块,以对扰动进行注意力增强操作。
可以理解的是,本申请实施例中的注意力增强操作致力于对扰动图案中的重要部分(通道或区域)进行加权,以便在迭代候选扰动图像的过程中突出重要部分的影响,使得最终得到目标扰动图像包括具有更强扰动效果的重要部分。因此,在一些可能的设计中,还可以通过其他加权方式(例如直接和权重进行乘法计算)对扰动图案进行直接或间接的处理,使得其中的重要部分得到增强。
需要说明的是,虽然本申请实施例中介绍了注意力增强操作是对扰动图案中的重要部分进行加权,但是并不特指对该重要部分进行倍数增强,也可以是进行倍数削弱。本申请实施例中对扰动图案进行注意力增强操作的关键之一在于,对其中的重要部分进行处理,以便与其他部分产生差异,从而使得二者能够产生不同的影响。例如,如果一个重要部分的数值为2,那么既可以将其与权重值5相乘变为10,也可以将其与权重值5相除(相当于乘以0.2)变为0.4。本领域的技术人员可以根据实际需要设置权重参数的具体数值,此处不再赘述。
综合设计i和设计ii部分的介绍可知,本申请实施例中对扰动图案直接或间接的注意力增强操作,是希望在后续的候选扰动图像迭代过程中,突出扰动图案的重要扰动信息。由此,本申请实施例中的注意力增强操作不会改变原始输入的尺寸,而是将其中的通道级数值进行加权融合,即将重要的通道中的数值进行突出。可以理解的是,在一些可能的设计中,如果改变原始输入的尺寸不影响后续的迭代候选扰动图像过程中对重要部分的突出,则也可以在尺寸层级进行注意力增强操作;例如可以在图像特征获取阶段,也通过3×3的卷积层进行重要部分的增强,即将图像特征进行多尺度的处理,提取其中最重要的部分,以便显著化最终得到的目标扰动图像中的重要扰动信息。
考虑到,本申请实施例中通过预设的注意力模块对扰动图案进行直接或间接地注意力增强操作,相当于在各个迭代轮次中,都是对相同通道进行相同的加权操作。然而迭代过程中的候选扰动图像是在更新的,即候选扰动图像是不断发生变化的,不同迭代轮次中的候选扰动图像的重要部分可能是会发生变化的。因此,为了适应候选扰动图像的更新,或者更加准确地定位候选扰动图像中的重要部分,在一个可能的设计中,参照图7和图8,每个迭代更新候选扰动图像的轮次,还可以对注意力模块(例如预设卷积层)中的权重参数进行更新。具体来说,若候选对抗图像不符合预设要求,则在更新候选扰动图像之前,先对注意力模块进行更新,然后基于更新的注意力模块对候选扰动图像进行直接或间接的注意力增强操作,之后基于注意力增强操作之后的结果对候选扰动图像进行更新。
例如,在设计i中,若计算得到候选对抗图像与目标图像的识别相似度不符合预设条件,则计算权重更新损失值,然后基于权重更新损失值计算注意力模块的权重参数的权重梯度,之后基于该权重梯度更新注意力模块的权重参数。接下来基于目标损失值计算候选扰动图像的扰动梯度,然后基于更新后的注意力模块对扰动梯度进行注意力增强操作,得到加权梯度,最终使用该加权梯度更新所述候选扰动图像。
再例如,在设计ii中,基于候选对抗图像进行图像特征获取和注意力增强操作,得到对抗图像特征。若基于对抗图像特征和目标图像特征计算得到候选对抗图像与目标图像的识别相似度不符合预设条件,则计算权重更新损失值,然后基于权重更新损失值计算注意力模块的权重参数的权重梯度,之后基于该权重梯度更新注意力模块的权重参数。接下来基于更新后的注意力模块对候选扰动图像的图像特征进行注意力增强操作,得到更新的加权对抗图像特征。然后基于更新的加权对抗特征和目标图像特征计算更新的识别相似度,之后基于该更新的识别相似度计算更新的目标损失值,最终使用该更新的目标损失值更新所述候选扰动图像。
可以理解的是,在设计ii中,在一个迭代轮次更新注意力模块之后,也可以不再基于该更新的注意力模块增强对抗图像特征,而是在下一个迭代轮次对其中的对抗图像特征进行增强,以便简化实施流程。
步骤105,将目标损失值收敛时的候选扰动图像作为目标扰动图像。
在本申请实施例中,若目标损失值收敛,则当前轮次得到的候选对抗图像可以符合预设要求,即与目标图像之间的识别相似度符合预设条件。例如,在有目标攻击中,候选对抗图像可以被图像识别模型识别为目标图像;而在无目标攻击中,候选对抗图像不会被图像识别模型识别为目标图像。因此,当前轮次得到的候选扰动图像在设置于预设对象之后,可以发挥出理想的对抗攻击效果,即可以作为目标扰动图像,该目标扰动图像具有鲁棒的扰动效果。
在得到目标扰动图像之后,可以在数字世界对目标模型进行鲁棒性或安全性测试。例如,在人脸识别模型的测试场景下,可以在数字世界模拟预设对象的三维头部形象,然后将目标扰动图像设置于该三维头部形象,之后可以自由调整三维头部形象的姿态,并在不同姿态下获取三维头部形象的二维人脸图像,各个二维人脸图像均包括扰动图案(不同姿态下的图像表现可能不同),将各个二维人脸图像通过接口输入目标人脸识别模型,根据识别结果,确定该目标目标人脸识别模型的鲁棒性或安全性。例如,若该目标人脸识别模型没有正确识别二维人脸图像,则可以确定其存在安全漏洞或缺陷。
基于本申请实施例中得到的目标扰动图像,还可以在物理世界对目标模型进行鲁棒性或安全性测试。例如,在人脸识别模型的测试场景下,可以将目标扰动图像输出,得到扰动贴纸(例如水转印扰动贴纸),然后将扰动贴纸设置于预设对象,之后该预设对象可以自由调整头部姿态,并在不同姿态下由图像采集设备获取该预设对象的二维人脸图像,各个二维人脸图像均包括扰动图案(不同姿态下的图像表现可能不同),图像采集设备可以将各个二维人脸图像通过接口输入目标人脸识别模型,根据识别结果,可以确定该目标目标人脸识别模型的鲁棒性或安全性。例如,若该目标人脸识别模型没有正确识别二维人脸图像,则可以确定其存在安全漏洞或缺陷。
在将目标扰动图像输出,以得到水转印扰动贴纸的过程中,可以采用现有技术实现。例如,首先将目标扰动图像打印至水转印专用纸,然后可以采用水转印专用膜对打印了扰动图案的水转印专用纸(具有扰动图案的一侧)进行覆膜。接下来,可以对覆膜后的水转印专用纸进行热处理,使得水转印专用膜可以均匀附着在扰动图案上,即胶水均匀附着在水转印专用纸上。最后,可以根据实际需要,将水转印专用纸裁剪,得到包括扰动图案的水转印扰动贴纸。
本申请实施例中,在迭代生成目标扰动图像的每个轮次中,将候选扰动图像转换为扰动投影图像,该扰动投影图像对应的三维扰动形象的姿态与候选图像中预设对象的姿态匹配,之后将扰动投影图像与候选图像融合,得到候选对抗图像,基于该候选扰动图像和目标图像获取目标损失值,以更新所述候选扰动图像,直至候选扰动图像能够达成对抗攻击目标,得到目标扰动图像。由于本申请实施例是将投影扰动图像融合至候选图像,而不是现有技术中的直接将候选扰动图像融合至候选图像,因此,本申请实施例基于扰动投影图像与候选图像融合得到的候选对抗图像,相当于模拟了候选扰动图像在物理世界设置于相应姿态下的预设对象的视觉表现,可以表现出该候选扰动图像在物理世界作用于预设对象后的视觉效果,即数字世界生成的对抗图像与其在物理世界中的视觉表征一致,从而可以使得物理世界中的目标扰动图像发挥出与在数字世界中一致的理想攻击效果。
可见,本申请实施例中相当于在迭代生成目标扰动图像的过程中,模拟了扰动图像在物理世界中各种可能姿态下的视觉表征。由于最终得到的目标扰动图像设置于各种姿态下的预设对象均可以使得对抗攻击成功,因此,本申请实施例得到的目标扰动图像在物理世界的各种姿态下的预设对象上,均可以发挥出理想的对抗攻击效果,能够很好地评估图像识别模型的鲁棒性或安全性。另外,在一些实施例中通过注意力机制对候选扰动图像的更新过程进行影响,突出重要的扰动信息,使得生成的目标扰动图像在具有较小尺寸的情况下保持较高的对抗攻击成功率。
在本申请的一些实施例中,还将目标扰动图像输出为水转印扰动贴纸。由于水转印扰动贴纸具有便携性好、牢固性强且使用体验佳的特点,因此可以在物理世界更好地对目标模型实施对抗攻击测试,而不是如现有技术一般不方便携带(例如打印为对抗帽子或对抗眼镜),且需要额外考虑牢固地附着方式,不方便实施对抗攻击测试。
以上对本申请实施例中一种图像处理方法进行说明,以下对执行上述图像处理方法的图像处理装置(例如服务器)分别进行介绍。
参阅图9,如图9所示的一种图像处理装置的结构示意图,其可应用于图像识别模型的对抗攻击测试场景下的服务器中,将候选扰动图像迭代为目标扰动图像,该目标扰动图像可以设置在不同姿态的预设对象上,并稳定地发挥出对抗攻击效果,在物理世界采用该目标扰动图像进行图像识别模型的对抗攻击测试时,能够稳定地进行,不需要担心预设对象不同姿态对扰动效果的影响。在本申请实施例中的图像处理装置能够实现对应于上述图2中所对应的实施例中所执行的图像处理方法的步骤。图像处理装置实现的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。所述图像处理装置可包括输入输出模块601及处理模块602,所述处理模块602、所述输入输出模块601的功能实现可参考图2所对应的实施例中所执行的操作,此处不作赘述。例如,所述处理模块602可用于控制所述输入输出模块601的收发、获取等操作。
所述输入输出模块601,被配置为获取候选扰动图像以及候选图像;所述候选图像包括当前姿态为第一姿态的预设对象;
所述处理模块602,被配置为基于所述预设对象的当前姿态对所述候选扰动图像进行处理,获取扰动投影图像;所述扰动投影图像对应的三维扰动形象的姿态与所述预设对象的当前姿态匹配;
所述处理模块602,还被配置为基于所述候选图像与所述扰动投影图像得到候选对抗图像,以及获取目标损失值;所述目标损失值基于所述候选对抗图像与目标图像的识别相似度得到;所述目标图像包括所述预设对象或干扰对象;
所述处理模块602,还被配置为若所述目标损失值未收敛,则更新所述候选扰动图像和所述候选图像,直至基于新的候选对抗图像和所述目标图像获取的目标损失值收敛;新的候选图像包括当前姿态为第二姿态的预设对象;
所述处理模块602,还被配置为将目标损失值收敛时的候选扰动图像作为目标扰动图像。
在一些实施方式中,所述处理模块602,还被配置为对预设数据进行注意力增强操作,以对所述候选扰动图像中的重要扰动信息进行直接或间接加权处理;所述预设数据基于所述候选扰动图像得到。
在一些实施方式中,所述处理模块602,还被配置为基于所述目标损失值得到所述候选扰动图像的扰动梯度;对所述扰动梯度进行注意力增强操作,得到加权梯度;
所述处理模块602,还被配置为基于所述加权梯度更新所述候选扰动图像。
在一些实施方式中,所述处理模块602,还被配置为基于所述目标图像获取目标图像特征;以及基于所述候选对抗图像获取对抗图像特征,并对所述对抗图像特征中对应候选扰动图像的特征值进行注意力增强操作,得到加权对抗图像特征;
所述处理模块602,还被配置为根据所述加权对抗图像特征与所述目标图像特征的特征距离,得到所述目标损失值。
在一些实施方式中,所述注意力增强操作基于通道级进行数值加权融合。
在一些实施方式中,所述注意力增强操作通过预设的注意力模块实现;所述注意力模块包括权重参数;
所述处理模块602,还被配置为基于所述目标图像与所述候选对抗图像的识别相似度,得到权重更新损失值;基于所述权重更新损失值与所述权重参数的数值,得到权重梯度;基于所述权重梯度更新所述权重参数的数值,得到更新的注意力模块。
在一些实施方式中,所述处理模块602,还被配置为对所述候选图像进行色彩变换操作,得到第一图像;对所述扰动投影图像进行透明处理,得到第二图像;将所述第一图像与所述第二图像叠加,得到所述候选对抗图像。
在一些实施方式中,所述输入输出模块601,还被配置为输出所述目标扰动图像,以得到水转印扰动贴纸。
本申请实施例中,处理模块602在迭代生成目标扰动图像的每个轮次中,将候选扰动图像转换为扰动投影图像,该扰动投影图像对应的三维扰动形象的姿态与候选图像中预设对象的姿态匹配,之后将扰动投影图像与候选图像融合,得到候选对抗图像,基于该候选扰动图像和目标图像获取目标损失值,以更新所述候选扰动图像,直至候选扰动图像能够达成对抗攻击目标,得到目标扰动图像。由于本申请实施例是将投影扰动图像融合至候选图像,而不是现有技术中的直接将候选扰动图像融合至候选图像,因此,本申请实施例基于扰动投影图像与候选图像融合得到的候选对抗图像,相当于模拟了候选扰动图像在物理世界设置于相应姿态下的预设对象的视觉表现,可以表现出该候选扰动图像在物理世界作用于预设对象后的视觉效果,即数字世界生成的对抗图像与其在物理世界中的视觉表征一致,从而可以使得物理世界中的目标扰动图像发挥出与在数字世界中一致的理想攻击效果。
可见,本申请实施例中相当于在迭代生成目标扰动图像的过程中,模拟了扰动图像在物理世界中各种可能姿态下的视觉表征。由于最终得到的目标扰动图像设置于各种姿态下的预设对象均可以使得对抗攻击成功,因此,本申请实施例得到的目标扰动图像在物理世界的各种姿态下的预设对象上,均可以发挥出理想的对抗攻击效果,能够很好地评估图像识别模型的鲁棒性或安全性。另外,在一些实施例中通过注意力机制对候选扰动图像的更新过程进行影响,突出重要的扰动信息,使得生成的目标扰动图像在具有较小尺寸的情况下保持较高的对抗攻击成功率。
在本申请的一些实施例中,输入输出模块601还将目标扰动图像输出为水转印扰动贴纸。由于水转印扰动贴纸具有便携性好、牢固性强且使用体验佳的特点,因此可以在物理世界更好地对目标模型实施对抗攻击测试,而不是如现有技术一般不方便携带(例如打印为对抗帽子或对抗眼镜),且需要额外考虑牢固地附着方式,不方便实施对抗攻击测试。
上面从模块化功能实体的角度对本申请实施例中的图像处理装置60进行了描述,下面从硬件处理的角度分别对本申请实施例中的图像处理装置进行描述。
需要说明的是,图9所示的输入输出模块601对应的实体设备可以为收发器、射频电路、通信模块和输入/输出(I/O)接口等,处理模块602对应的实体设备可以为处理器。
图9所示的装置均可以具有如图10所示的结构,当图9所示的图像处理装置60具有如图10所示的结构时,图10中的处理器和收发器能够实现前述对应该装置的装置实施例提供的处理模块602和输入输出模块601相同或相似的功能,图10中的存储器存储处理器执行上述图像处理方法时需要调用的计算机程序。
本申请实施例还提供了一种终端设备,如图11所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、销售终端设备(Point of Sales,POS)、车载电脑等任意终端设备,以终端设备为手机为例:
图11示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图11,手机包括:射频(Radio Frequency,RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity,WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解,图11中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图11对手机的各个构成部件进行具体的介绍:
RF电路1010可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1080处理;另外,将设计上行的数据发送给基站。通常,RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(LowNoiseAmplifier,LNA)、双工器等。此外,RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General PacketRadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1030可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031,输入单元1030还可以包括其他输入设备1032。具体地,其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041,可选的,可以采用液晶显示器(LiquidCrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1041。进一步的,触控面板1031可覆盖显示面板1041,当触控面板1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图11中,触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1050,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1041和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1060、扬声器1061,传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1061,由扬声器1061转换为声音信号输出;另一方面,传声器1062将收集的声音信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出处理器1080处理后,经RF电路1010以发送给比如另一手机,或者将音频数据输出至存储器1020以便进一步处理。
Wi-Fi属于短距离无线传输技术,手机通过Wi-Fi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图11示出了Wi-Fi模块1070,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1080是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1080可包括一个或多个处理单元;可选的,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
手机还包括给各个部件供电的电源1090(比如电池),可选的,电源可以通过电源管理系统与处理器1080逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该手机所包括的处理器1080还具有控制执行以上由图像处理装置执行的基于候选扰动图像迭代生成目标扰动图像的方法流程。
本申请实施例还提供了一种服务器,请参阅图12,图12是本申请实施例提供的一种服务器结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(英文全称:central processing units,英文简称:CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图中未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统1141,例如Windows Server,Mac OS X,Unix, Linux,FreeBSD等等。
上述实施例中由服务器所执行的步骤可以基于该图12所示的服务器1100的结构。例如,例如上述实施例中由图9所示的图像处理装置60所执行的步骤可以基于该图12所示的服务器结构。例如,所述中央处理器1122通过调用存储器1132中的指令,执行以下操作:
通过输入输出接口1158获取候选扰动图像以及候选图像;所述候选图像包括当前姿态为第一姿态的预设对象;
基于所述预设对象的当前姿态对所述候选扰动图像投影,获取扰动投影图像;所述扰动投影图像对应的三维扰动形象的姿态与所述预设对象的当前姿态匹配;
基于所述候选图像与所述扰动投影图像得到候选对抗图像,以及获取目标损失值;所述目标损失值基于所述候选对抗图像与目标图像的识别相似度得到;所述目标图像包括所述预设对象或干扰对象;
若所述目标损失值未收敛,则更新所述候选扰动图像和所述候选图像,直至基于新的候选对抗图像和所述目标图像获取的目标损失值收敛;新的候选图像包括当前姿态为第二姿态的预设对象;
将目标损失值收敛时的候选扰动图像作为目标扰动图像。
还可以通过输入输出接口1158输出所述目标扰动图像,以得到水转印扰动贴纸。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上对本申请实施例所提供的技术方案进行了详细介绍,本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请实施例的限制。
Claims (11)
1.一种图像处理方法,其特征在于,所述方法包括:
获取候选扰动图像以及候选图像;所述候选图像包括当前姿态为第一姿态的预设对象;
基于所述预设对象的当前姿态对所述候选扰动图像进行处理,获取扰动投影图像;所述扰动投影图像由对应的三维扰动形象在目标平面投影得到,所述三维扰动形象的姿态与所述预设对象的当前姿态一致,所述目标平面基于所述候选扰动图像得到;
基于所述候选图像与所述扰动投影图像得到候选对抗图像,以及获取目标损失值;所述目标损失值基于所述候选对抗图像与目标图像的识别相似度得到;所述目标图像包括所述预设对象或干扰对象;
若所述目标损失值未收敛,则更新所述候选扰动图像和所述候选图像,直至基于新的候选对抗图像和所述目标图像获取的目标损失值收敛;新的候选图像包括当前姿态为第二姿态的预设对象;
将目标损失值收敛时的候选扰动图像作为目标扰动图像;
其中,若所述目标损失值未收敛,所述更新所述候选扰动图像之前,所述方法还包括:
对预设数据进行注意力增强操作,以对所述候选扰动图像中的重要扰动信息进行直接或间接加权处理;所述预设数据基于所述候选扰动图像得到;
所述注意力增强操作通过预设的注意力模块实现;所述预设的注意力模块是注意力网络、预设卷积层或预设全连接层,所述预设卷积层的卷积核尺寸为1×1。
2.如权利要求1所述的方法,其特征在于,所述对预设数据进行注意力增强操作,包括:
基于所述目标损失值得到所述候选扰动图像的扰动梯度;
对所述扰动梯度进行注意力增强操作,得到加权梯度;
所述更新所述候选扰动图像包括:
基于所述加权梯度更新所述候选扰动图像。
3.如权利要求1所述的方法,其特征在于,所述对预设数据进行注意力增强操作,包括:
基于所述目标图像获取目标图像特征;以及基于所述候选对抗图像获取对抗图像特征,并对所述对抗图像特征中对应候选扰动图像的特征值进行注意力增强操作,得到加权对抗图像特征;
所述获取目标损失值,包括:
根据所述加权对抗图像特征与所述目标图像特征的特征距离,得到所述目标损失值。
4.如权利要求1所述的方法,其特征在于,所述注意力增强操作基于通道级进行数值加权融合。
5.如权利要求1所述的方法,其特征在于,所述注意力模块包括权重参数;
所述对预设数据进行注意力增强操作之前,所述方法还包括:
基于所述目标图像与所述候选对抗图像的识别相似度,得到权重更新损失值;
基于所述权重更新损失值与所述权重参数的数值,得到权重梯度;
基于所述权重梯度更新所述权重参数的数值,得到更新的注意力模块。
6.如权利要求1-5中任一项所述的方法,其特征在于,所述基于所述候选图像与所述扰动投影图像得到候选对抗图像,包括:
对所述候选图像进行色彩变换操作,得到第一图像;
对所述扰动投影图像进行透明处理,得到第二图像;
将所述第一图像与所述第二图像叠加,得到所述候选对抗图像。
7.如权利要求1-5中任一项所述的方法,其特征在于,得到所述目标扰动图像之后,所述方法还包括:
输出所述目标扰动图像,以得到水转印扰动贴纸。
8.一种图像处理装置,其特征在于,该装置包括:
输入输出模块,被配置为获取候选扰动图像以及候选图像;所述候选图像包括当前姿态为第一姿态的预设对象;
处理模块,被配置为基于所述预设对象的当前姿态对所述候选扰动图像进行处理,获取扰动投影图像;所述扰动投影图像由对应的三维扰动形象在目标平面投影得到,所述三维扰动形象的姿态与所述预设对象的当前姿态一致,所述目标平面基于所述候选扰动图像得到;
所述处理模块,还被配置为基于所述候选图像与所述扰动投影图像得到候选对抗图像,以及获取目标损失值;所述目标损失值基于所述候选对抗图像与目标图像的识别相似度得到;所述目标图像包括所述预设对象或干扰对象;
所述处理模块,还被配置为若所述目标损失值未收敛,则更新所述候选扰动图像和所述候选图像,直至基于新的候选对抗图像和所述目标图像获取的目标损失值收敛;新的候选图像包括当前姿态为第二姿态的预设对象;
所述处理模块,还被配置为更新所述候选扰动图像之前,对预设数据进行注意力增强操作,以对所述候选扰动图像中的重要扰动信息进行直接或间接加权处理;所述预设数据基于所述候选扰动图像得到;所述注意力增强操作通过预设的注意力模块实现;所述预设的注意力模块是注意力网络、预设卷积层或预设全连接层,所述预设卷积层的卷积核尺寸为1×1;
所述处理模块,还被配置为将目标损失值收敛时的候选扰动图像作为目标扰动图像。
9.一种计算设备,其特征在于,其包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-7中任一项所述的方法。
11.一种芯片系统,其特征在于,该芯片系统包括:
通信接口,用于输入和/或输出信息;
处理器,用于执行计算机可执行程序,使得安装有所述芯片系统的设备执行如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310711856.9A CN116486463B (zh) | 2023-06-15 | 2023-06-15 | 图像处理方法、相关装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310711856.9A CN116486463B (zh) | 2023-06-15 | 2023-06-15 | 图像处理方法、相关装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116486463A CN116486463A (zh) | 2023-07-25 |
CN116486463B true CN116486463B (zh) | 2023-10-03 |
Family
ID=87219866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310711856.9A Active CN116486463B (zh) | 2023-06-15 | 2023-06-15 | 图像处理方法、相关装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116486463B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935172A (zh) * | 2023-07-31 | 2023-10-24 | 北京瑞莱智慧科技有限公司 | 图像处理方法、相关装置及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990047A (zh) * | 2021-03-26 | 2021-06-18 | 南京大学 | 一种结合面部角度信息的多姿态人脸验证方法 |
CN113487545A (zh) * | 2021-06-24 | 2021-10-08 | 广州玖的数码科技有限公司 | 一种面向姿态估计深度神经网络的扰动图像生成方法 |
CN114005168A (zh) * | 2021-12-31 | 2022-02-01 | 北京瑞莱智慧科技有限公司 | 物理世界对抗样本生成方法、装置、电子设备及存储介质 |
CN114333031A (zh) * | 2021-12-31 | 2022-04-12 | 北京瑞莱智慧科技有限公司 | 活体检测模型的漏洞检测方法、装置及存储介质 |
CN114331829A (zh) * | 2021-09-03 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种对抗样本生成方法、装置、设备以及可读存储介质 |
CN114387647A (zh) * | 2021-12-29 | 2022-04-22 | 北京瑞莱智慧科技有限公司 | 对抗扰动生成方法、装置及存储介质 |
CN115019102A (zh) * | 2022-06-17 | 2022-09-06 | 华中科技大学 | 一种对抗样本生成模型的构建方法及应用 |
CN115937638A (zh) * | 2022-12-30 | 2023-04-07 | 北京瑞莱智慧科技有限公司 | 模型训练方法、图像处理方法、相关装置及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10769411B2 (en) * | 2017-11-15 | 2020-09-08 | Qualcomm Technologies, Inc. | Pose estimation and model retrieval for objects in images |
US11605218B2 (en) * | 2021-02-25 | 2023-03-14 | Tata Consultancy Services Limited | Systems and methods for constructing a modular Siamese network for face verification |
-
2023
- 2023-06-15 CN CN202310711856.9A patent/CN116486463B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990047A (zh) * | 2021-03-26 | 2021-06-18 | 南京大学 | 一种结合面部角度信息的多姿态人脸验证方法 |
CN113487545A (zh) * | 2021-06-24 | 2021-10-08 | 广州玖的数码科技有限公司 | 一种面向姿态估计深度神经网络的扰动图像生成方法 |
CN114331829A (zh) * | 2021-09-03 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种对抗样本生成方法、装置、设备以及可读存储介质 |
CN114387647A (zh) * | 2021-12-29 | 2022-04-22 | 北京瑞莱智慧科技有限公司 | 对抗扰动生成方法、装置及存储介质 |
CN114005168A (zh) * | 2021-12-31 | 2022-02-01 | 北京瑞莱智慧科技有限公司 | 物理世界对抗样本生成方法、装置、电子设备及存储介质 |
CN114333031A (zh) * | 2021-12-31 | 2022-04-12 | 北京瑞莱智慧科技有限公司 | 活体检测模型的漏洞检测方法、装置及存储介质 |
CN115019102A (zh) * | 2022-06-17 | 2022-09-06 | 华中科技大学 | 一种对抗样本生成模型的构建方法及应用 |
CN115937638A (zh) * | 2022-12-30 | 2023-04-07 | 北京瑞莱智慧科技有限公司 | 模型训练方法、图像处理方法、相关装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116486463A (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11978239B2 (en) | Target detection method and apparatus, model training method and apparatus, device, and storage medium | |
CN110321965B (zh) | 物体重识别模型的训练方法、物体重识别的方法及装置 | |
CN111672109B (zh) | 一种游戏地图生成的方法、游戏测试的方法以及相关装置 | |
CN109495616B (zh) | 一种拍照方法及终端设备 | |
CN116310745B (zh) | 图像处理方法、数据处理方法、相关装置及存储介质 | |
CN109951889B (zh) | 一种物联网配网方法及移动终端 | |
CN114444579A (zh) | 通用扰动获取方法、装置、存储介质及计算机设备 | |
CN116486463B (zh) | 图像处理方法、相关装置及存储介质 | |
CN115937638B (zh) | 模型训练方法、图像处理方法、相关装置及存储介质 | |
CN115239941B (zh) | 对抗图像生成方法、相关装置及存储介质 | |
CN115588131B (zh) | 模型鲁棒性检测方法、相关装置及存储介质 | |
CN115081643B (zh) | 对抗样本生成方法、相关装置及存储介质 | |
CN111399819A (zh) | 数据生成方法、装置、电子设备及存储介质 | |
CN114333031A (zh) | 活体检测模型的漏洞检测方法、装置及存储介质 | |
CN115171196B (zh) | 人脸图像处理方法、相关装置及存储介质 | |
CN116958715A (zh) | 一种手部关键点的检测方法、装置以及存储介质 | |
CN117831089A (zh) | 人脸图像处理方法、相关装置及存储介质 | |
CN114943639B (zh) | 图像获取方法、相关装置及存储介质 | |
CN116308978B (zh) | 视频处理方法、相关装置及存储介质 | |
CN117853859B (zh) | 图像处理方法、相关装置及存储介质 | |
CN116935172A (zh) | 图像处理方法、相关装置及存储介质 | |
CN118037608B (zh) | 一种人脸矫正模型的训练方法、姿态矫正方法及相关产品 | |
CN117218506A (zh) | 用于图像识别的模型训练方法、图像识别方法及相关装置 | |
CN118709743A (zh) | 对抗攻击方法、相关装置及存储介质 | |
CN117671755A (zh) | 对抗样本识别模型训练方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |