[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN108960041B - 图像特征提取方法及装置 - Google Patents

图像特征提取方法及装置 Download PDF

Info

Publication number
CN108960041B
CN108960041B CN201810475988.5A CN201810475988A CN108960041B CN 108960041 B CN108960041 B CN 108960041B CN 201810475988 A CN201810475988 A CN 201810475988A CN 108960041 B CN108960041 B CN 108960041B
Authority
CN
China
Prior art keywords
image
matrix
phase
encoding
matrixes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810475988.5A
Other languages
English (en)
Other versions
CN108960041A (zh
Inventor
邵珠宏
薛志毅
尚媛园
赵晓旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan Pengbo Information Technology Co ltd
Zhongshan Baisdi Software Technology Co ltd
Original Assignee
Capital Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Capital Normal University filed Critical Capital Normal University
Priority to CN201810475988.5A priority Critical patent/CN108960041B/zh
Publication of CN108960041A publication Critical patent/CN108960041A/zh
Application granted granted Critical
Publication of CN108960041B publication Critical patent/CN108960041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/175Static expression

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及表情识别技术领域,提供一种图像特征提取方法及装置。该方法包括:将第一人脸表情图像表示为四元数矩阵;计算获得四元数矩阵的三个相位矩阵以及幅值矩阵;分别对三个相位矩阵进行局部编码获得三个编码相位矩阵,以及对幅值矩阵进行局部编码获得编码幅值矩阵;分别对三个编码相位矩阵以及编码幅值矩阵中的元素值进行统计,获得第一人脸表情图像的图像特征。该方法在提取人脸表情图像中的图像特征时,充分考虑人脸表情图像所包含的颜色信息、灰度信息以及其相互之间的内在联系,提取出的图像特征能够有效表征图像中的表情特征,从而使用该图像特征进行表情识别,能够取得较好的识别效果。

Description

图像特征提取方法及装置
技术领域
本发明涉计算机网络技术领域,具体而言,涉及一种图像特征提取方法及装置。
背景技术
在人际交往中,面部表情传递着非常重要的信息。为了能够让计算机获得情感感知和理解能力,表情识别成为近年来的一个研究热点并应用于人机交互、移动互联网和健康管理等领域。
在现有技术中,对于人脸表情识别的方法所处理的图像通常是灰度图像。对于彩色人脸表情图像,一种处理方式是将其转化为灰度图像进行处理,该种处理方式将造成图像的颜色信息丢失。另一种处理方式是对每个颜色通道分别进行处理,该种处理方式未能充分考虑各个颜色通道之间的内在联系。总之,采用上述两种处理方式在处理彩色人脸表情图像方面都存在较大局限性,其提取出的人脸表情图像的图像特征并不能有效地表征图像中表情的特征,进而将该图像特征用于表情识别也无法取得较好的识别效果。
发明内容
有鉴于此,本发明实施例提供一种图像特征提取方法及装置,以解决上述技术问题。
为实现上述目的,本发明提供如下技术方案:
第一方面,本发明实施例提供一种图像特征提取方法,包括
将第一人脸表情图像表示为四元数矩阵;
计算获得四元数矩阵的三个相位矩阵以及幅值矩阵;
分别对三个相位矩阵进行局部编码获得三个编码相位矩阵,以及对幅值矩阵进行局部编码获得编码幅值矩阵;
分别对三个编码相位矩阵以及编码幅值矩阵中的元素值进行统计,获得第一人脸表情图像的图像特征。
可见,在本发明实施例提供的方法中,人脸表情图像被表示为四元数形式,不再局限于传统的灰度图像或者颜色通道图像,通过计算四元数矩阵对应的相位矩阵以及幅值矩阵来获取人脸表情图像的图像特征,从而能够将人脸表情图像作为一个整体进行处理,使得图像所包含的颜色信息、灰度信息以及各种颜色信息之间、颜色信息与灰度信息之间的内在联系在最终获得的图像特征中都能够得到体现,不存在信息损失的情况。因此,该方法提取出的图像特征能够充分反映人脸表情图像中的表情的特征。从而将通过该方法提取出的图像特征应用于人脸表情识别,可以取得较好的识别效果。
结合第一方面,在第一方面的第一种可能的实施方式中,第一人脸表情图像包括红色通道图像、绿色通道图像以及蓝色通道图像,将第一人脸表情图像表示为四元数矩阵,包括:
利用红色通道图像、绿色通道图像以及蓝色通道图像分别表示四元数矩阵的三个虚部矩阵,此时四元数矩阵不存在对应的实部矩阵。RGB色彩模式是图像领域普遍使用的颜色标准,因此本发明实施例提供的方法具有良好的普适性。
结合第一方面,在第一方面的第二种可能的实施方式中,第一人脸表情图像包括红色通道图像、绿色通道图像、蓝色通道图像以及附加通道图像,附加通道图像为深度图像或近红外图像,将第一人脸表情图像表示为四元数矩阵,包括:
利用红色通道图像、绿色通道图像以及蓝色通道图像分别表示四元数矩阵的三个虚部矩阵,以及利用附加通道图像表示四元数矩阵的实部矩阵。深度图像或者近红外图像能够进一步描述人脸的表情特征,对于这类人脸表情图像本发明实施例提供的方法同样能够兼容处理。
结合第一方面、第一方面的第一种可能的实施方式或第一方面的第二种可能的实施方式,在第一方面的第三种可能的实施方式中,计算获得四元数矩阵的三个相位矩阵,包括:
分别计算四元数矩阵与三个预设单位纯四元数的乘积,获得三个乘积结果矩阵;
分别计算三个乘积结果矩阵的相位,获得三个相位矩阵。
如果四元数矩阵是纯四元数矩阵(即不存在对应的实部矩阵),通过与预设单位纯四元数相乘,将其转化为普通的四元数矩阵(即存在对应的实部矩阵),便于进行相位计算。
结合第一方面、第一方面的第一种可能的实施方式或第一方面的第二种可能的实施方式,在第一方面的第四种可能的实施方式中,分别对三个相位矩阵进行局部编码获得三个编码相位矩阵,以及对幅值矩阵进行局部编码获得编码幅值矩阵,包括:
利用局部二值模式(Local Binary Pattern,LBP)或者异或非对称邻域局部梯度编码(Xor Asymmetric Region Local Gradient Coding,XOR-AR-LGC)分别对三个相位矩阵进行局部编码获得三个编码相位矩阵,以及利用LBP或者XOR-AR-LGC对幅值矩阵进行局部编码获得编码幅值矩阵。
LBP或者XOR-AR-LGC能够有效提取图像的局部纹理特征,这些纹理特征能够有效描述人脸表情图像中的表情的特征。
结合第一方面、第一方面的第一种可能的实施方式或第一方面的第二种可能的实施方式,在第一方面的第五种可能的实施方式中,分别对三个编码相位矩阵以及编码幅值矩阵中的元素值进行统计,获得第一人脸表情图像的图像特征,包括:
分别将三个编码相位矩阵以及编码幅值矩阵划分为多个子块;
统计多个子块中的每个子块所包含的元素值的分布直方图,获得多个分布直方图;
将多个分布直方图依次连接,并将连接后生成的总体分布直方图确定为图像特征。
直方图统计是一种较为快捷简便的统计方法,能够快速完成计算出人脸表情图像的图像特征,便于进行图像的批量处理。同时,对图像进行分块统计,在统计精度和统计速度之间取得良好的平衡。
结合第一方面的第五种可能的实施方式,在第一方面的第六种可能的实施方式中,将多个分布直方图依次连接,并将连接后生成的总体分布直方图确定为第一人脸表情图像的图像特征,包括:
将多个分布直方图乘上加权系数后依次连接,并将连接后生成的总体分布直方图确定为图像特征。可以对不同的直方图指定权重系数,以突出其中的重要特征,生成的图像特征参考价值更高。
结合第一方面、第一方面的第一种可能的实施方式或第一方面的第二种可能的实施方式,在第一方面的第七种可能的实施方式中,分别对三个编码相位矩阵以及编码幅值矩阵中的元素值进行统计,获得第一人脸表情图像的图像特征之后,方法还包括:
利用图像特征训练用于对第二人脸表情图像进行分类的分类模型。由于该图像特征充分考虑了人脸表情图像中的颜色信息以及灰度信息,因此训练出的分类模型具有良好的分类效果。显然的,获得的图像特征还可以作为其他用途,不限于用来训练上述分类模型。
结合第一方面的第七种可能的实施方式,在第一方面的第八种可能的实施方式中,分类模型为支持向量机模型或卷积神经网络模型。上述两种分类模型是目前在图像处理领域比较常见的分类模型,其技术成熟,有大量的现成产品或代码可以选择,便于进行实施。
第二方面,本发明实施例提供一种图像特征提取装置,包括:
图像表示模块,用于将第一人脸表情图像表示为四元数矩阵;
相位及幅值计算模块,用于计算获得四元数矩阵的三个相位矩阵以及幅值矩阵;
相位及幅值编码模块,用于分别对三个相位矩阵进行局部编码获得三个编码相位矩阵,以及对幅值矩阵进行局部编码获得编码幅值矩阵;
特征合成模块,用于分别对三个编码相位矩阵以及编码幅值矩阵中的元素值进行统计,获得第一人脸表情图像的图像特征。
第三方面,本发明实施例提供一种计算机存储介质,计算机存储介质中存储有计算机程序指令,计算机程序指令被计算机的处理器读取并运行时,执行第一方面或第一方面的任意一种可能的实施方式提供的方法。
第四方面,本发明实施例提供一种电子设备,包括处理器以及计算机存储介质,计算机存储介质中存储有计算机程序指令,计算机程序指令被处理器读取并运行时,执行第一方面或第一方面的任意一种可能的实施方式提供的方法。
为使本发明的上述目的、技术方案和有益效果能更明显易懂,下文特举实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了一种可应用于本发明实施例中的终端设备的结构框图;
图2示出了本发明实施例提供的图像特征提取方法的流程图;
图3示出了XOR-ARL-GC的子邻域的划分方式示意图;
图4示出了本发明实施例提供的图像特征提取装置的功能模块图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1示出了本发明实施例提供的终端设备的结构示意图。参照图1,终端设备100包括存储器102、存储控制器104,一个或多个(图中仅示出一个)处理器106、外设接口108、射频模块110、音频模块112、显示模块114等。这些组件通过一条或多条通讯总线/信号线116相互通讯。
存储器102可用于存储软件程序以及模块,如本发明实施例中的图像特征提取方法及装置对应的程序指令/模块,处理器106通过运行存储在存储器102内的软件程序以及模块,从而执行各种功能应用以及数据处理,如本发明实施例提供的图像特征提取方法及装置。
存储器102可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。处理器106以及其他可能的组件对存储器102的访问可在存储控制器104的控制下进行。
处理器106可以是一种集成电路芯片,具有信号的处理能力。具体可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、微控制单元(Micro ControllerUnit,MCU)、网络处理器(Network Processor,NP)或者其他常规处理器;还可以是专用处理器,包括数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、现场可编程门阵列(Field Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。
外设接口108将各种输入/输出装置耦合至处理器106以及存储器102。在一些实施例中,外设接口108,处理器106以及存储控制器104可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
射频模块110用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯。
音频模块112向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
显示模块114在终端设备100与用户之间提供一个显示界面。具体地,显示模块114向用户显示视频输出,这些视频输出的内容可包括文字、图形、视频及其任意组合。
可以理解,图1所示的结构仅为示意,终端设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。于本发明实施例中,终端设备100可以是服务器、个人计算机、智能移动设备、智能穿戴设备以及智能车载设备等具有运算处理能力的设备。
第一实施例
图2示出了本发明实施例提供的图像特征提取方法的流程图。参照图2,图像特征提取方法包括:
步骤S10:处理器106将第一人脸表情图像表示为四元数矩阵。
第一人脸图像表情图像可以是普通的RGB图像,包括红色通道图像、绿色通道图像以及蓝色通道图像。此时可以采用(1)式表示第一人脸表情图像:
fq(x,y)=ifR(x,y)+jfG(x,y)+kfB(x,y) (1)
其中,fq(x,y)为第一人脸图像对应的四元数矩阵,fR(x,y)为红色通道图像,fG(x,y)为绿色通道图像,fB(x,y)为蓝色通道图像。在该表示方法中,第一人脸图像对应的四元数矩阵为纯四元数矩阵,其不存在对应的实部矩阵,仅包括三个虚部矩阵,分别为fR(x,y)、fG(x,y)以及fB(x,y)。RGB色彩模式是目前图像领域普遍使用的颜色标准,因此该表示方法适用范围非常广泛。
第一人脸图像表情图像还可以是四通道图像,这类图像在普通RGB图像的红色通道图像、绿色通道图像以及蓝色通道图像基础上还包括通过特殊方式采集的附加通道图像。例如,附加通道图像可以是,但不限于是利用红外摄像头采集的近红外图像,利用深度摄像头采集的深度图像等。附加通道图像通常在颜色信息之外提供了对人脸表情的额外的描述方式。此时可以采用(2)式表示第一人脸表情图像:
fq(x,y)=fD(x,y)+ifR(x,y)+jfG(x,y)+kfB(x,y) (2)
其中,fq(x,y)为第一人脸图像对应的四元数矩阵,fD(x,y)为附加通道图像,fR(x,y)为红色通道图像,fG(x,y)为绿色通道图像,fB(x,y)为蓝色通道图像。在该表示方法中,第一人脸图像对应的四元数矩阵为普通的四元数矩阵,其存在对应的实部矩阵fD(x,y),仅包括三个虚部矩阵,分别为fR(x,y)、fG(x,y)以及fB(x,y)。四通道图像在人脸表情识别领域较为常见,本发明实施例提供的图像特征提取方法同样支持对于上述四通道图像的表示和处理,其适用范围进一步扩大。
当然,第一人脸图像表情图像还可以是灰度图像,此时可以采用(3)式表示第一人脸表情图像:
fq(x,y)=fG(x,y) (3)
其中,fq(x,y)为第一人脸图像对应的四元数矩阵,fG(x,y)为灰度图像。在该表示方法中,第一人脸图像对应的四元数矩阵已经退化为普通的矩阵,这种情况下可以采用现有方法进行第一人脸图像的图像特征提取,在后文中不再详细阐述。
步骤S11:处理器106计算获得四元数矩阵的三个相位矩阵以及幅值矩阵。
首先阐述对于相位矩阵的计算过程。在计算相位矩阵之前,首先将四元数矩阵分别与三个预设单位纯四元数相乘,获得三个乘积结果矩阵。根据之前的阐述,S10中表示四元数矩阵可能是纯四元数矩阵,也可能是普通的四元数矩阵,通过上述乘法运算,相当于对四元数矩阵进行了平移,将其统一转换为普通的四元数矩阵的形式,避免在后面进行相位计算时,(6)式中出现分母为0的情况。这一对四元数矩阵进行平移的过程也称为Clifford平移。模值为1的纯四元数称为单位纯四元数,三个预设单位纯四元数是事先选择好的三个单位纯四元数,其具体选取方法不作限定。不妨使用p1、p2以及p3表示三个预设单位纯四元数,则p1、p2以及p3可以选择(5)式示出的值:
Figure BDA0001664487440000101
当然p1、p2以及p3也可以采用其他值,此处仅为示例。将p1、p2以及p3分别与表示第一人脸图像表情图像的四元数矩阵fq(x,y)相乘,将获得的三个乘积结果矩阵分别记为
Figure BDA0001664487440000102
以及
Figure BDA0001664487440000103
对于任意的四元数q=a+ib+jc+kd,其相位δ可以采用(6)式定义:
Figure BDA0001664487440000104
计算三个乘积结果矩阵的相位,实际上就是计算其中每个矩阵元素的相位(每个矩阵元素都是四元数),根据
Figure BDA0001664487440000105
以及
Figure BDA0001664487440000106
计算出的三个相位矩阵分别记为I1(x,y)、I2(x,y)以及I3(x,y)。
下面再介绍幅值矩阵的计算过程。对于任意的四元数q=a+ib+jc+kd,其幅值A可以采用(7)式定义:
Figure BDA0001664487440000111
可见,幅值A实际上就是四元数的模。计算四元数矩阵的幅值,实际上就是计算其中每个矩阵元素的幅值(每个矩阵元素都是四元数),将计算出的幅值矩阵记为I4(x,y)。
步骤S12:处理器106分别对三个相位矩阵进行局部编码获得三个编码相位矩阵,以及对幅值矩阵进行局部编码获得编码幅值矩阵。
局部编码即采用某种作用于矩阵中每个矩阵元素的邻域的算子对矩阵进行处理,对于图像而言,局部编码可用于有效提取图像的局部纹理特征。对于相位矩阵进行局部编码,可以采用LBP或XOR-AR-LGC中的一种。对于幅值矩阵进行局部编码,也可以采用LBP或XOR-AR-LGC中的一种。当然在某些实施方式中,对相位矩阵或幅值矩阵的局部编码还可以采用其他局部编码方式,例如LBP的各种变种形式。下面以相位矩阵采用LBP进行局部编码同时幅值矩阵采用XOR-AR-LGC进行局部编码的实施方式为例进行阐述。但该示例并不构成对相位矩阵以及幅值矩阵具体所采用的局部编码方式的限定。
对于相位矩阵中的任意一个矩阵元素,其采用LBP进行局部编码可以根据(8)式进行:
Figure BDA0001664487440000112
其中,(xc,yc)表示该矩阵元素的坐标,LBP(xc,yc)表示采用LBP对矩阵元素编码的结果,gc表示该矩阵元素的元素值,gp表示该矩阵元素的邻域中的第p个矩阵元素的元素值,P表示邻域中矩阵元素的个数,s(x)是二值化函数。对于三个相位矩阵I1(x,y)、I2(x,y)以及I3(x,y)中的每个矩阵元素都采用LBP进行局部编码,获得与之对应的三个编码相位矩阵,分别记为g1(x,y)、g2(x,y)以及g3(x,y)。编码相位矩阵偏重于体现人脸表情图像中表面的局部纹理特征。
对于幅值矩阵中的任意一个矩阵元素,其采用XOR-AR-LGC进行局部编码可以按照如下步骤进行:
首先,选取该矩阵元素的大小为(2m+1)×(2n+1)的邻域,其中,m和n均为大于等于1的整数,其取值可以根据实际需求进行选取。然后对该邻域进行划分和编号,共划分出8个子邻域,并将矩阵元素自身也算作一个区域,分别记为Rt(t=1,2,...,9),图3示出了XOR-ARL-GC的子邻域的划分方式示意图。参照图3,R9表示该矩阵元素本身,Rt(t=1,2,...,8)表示该矩阵元素的8个子邻域。其中,R2和R6为边长m×1的矩形区域,R4和R8为边长1×n的矩形区域,R1、R3、R5、R7为边长m×n的矩形区域。之后,利用(9)式计算8位的二进制序列PA:
Figure BDA0001664487440000121
其中,Pt(t=0,1,...,7)分别表示二进制序列PA的8个二进制位,
Figure BDA0001664487440000122
表示子邻域Rt包含的矩阵元素的元素值的均值,h(t)是二值化函数。按照与计算二进制序列PA类似的方法,取另一组m、n值计算8位二进制序列PB,则利用XOR-ARL-GC进行局部编码可以根据(10)式进行:
Figure BDA0001664487440000123
其中,(x,y)表示该矩阵元素的坐标,XOR-AR-LGC(x,y)表示采用XOR-ARL-GC对矩阵元素编码的结果,PA以及PB分别是上面计算出的二进制序列。对于幅值矩阵I4(x,y)中的每个矩阵元素都采用XOR-ARL-GC进行局部编码,获得与之对应的编码幅值矩阵,记为g4(x,y)。编码幅值矩阵偏重于体现人脸表情图像中轮廓的局部纹理特征。
步骤S13:处理器106分别对三个编码相位矩阵以及编码幅值矩阵中的元素值进行统计,获得第一人脸表情图像的图像特征。
对于矩阵元素的元素值的统计方式不作限定,例如,可以采用直方图统计上述四个编码矩阵中元素值的分布,并将统计获得的四个分布直方图依次连接起来构成的总体分布直方图作为第一人脸表情图像的图像特征。直方图统计速度较快,在某些实施方式中,为获得更加精确的统计结果,还可以对分别对三个编码相位矩阵以及编码幅值矩阵进行分块,对划分出的每个子块进行直方图统计。以编码幅值矩阵为例,可以将其划分为S×S个不重叠的矩形子块,其中S为大于等于2的整数。对每个子块包含的矩阵元素的元素值都进行直方图统计,获得S×S个分布直方图。对于三个编码相位矩阵可以采取同样的处理方式获得3×S×S个分布直方图。可以将上述总共4×S×S个分布直方图依次连接起来构成的总体分布直方图作为第一人脸表情图像的图像特征。在该实施方式中,由于对矩阵进行了子块划分,因此统计出的分布直方图体现了局部的特征,故最终获得的图像特征能够更加充分地描述人脸表情的局部特征,同时由于对各个子块仍然通过直方图进行统计,因此该实施方式仍然保持了较高的统计效率,可以快速获得图像特征。
显然的,对于子块的划分还可以采取其他方式,例如还可划分为S1×S2个不重叠的矩形子块,其中S1和S2中均为大于等于1的整数,并且至少有一个大于等于2。
此外,作为一种可选的实施方式,在将各个分部直方图连接为总体分布直方图之前,还可以将其乘上加权系数后再进行连接。例如,在认为编码幅值矩阵中的特征比编码相位矩阵中的特征更重要时,可以对从编码幅值矩阵统计获得的S×S个分布直方图赋与较大的加权系数,而对于从编码相位矩阵统计获得的3×S×S个分布直方图赋与较小的加权系数。通过设置该加权系统,可以对不同的特征进行区分,突出其中的重要特征,弱化其中的非重要特征,使得生成第一人脸表情图像的图像特征的方式更加灵活,并且生成的图像特征能够更好地表征图像中实际的表情特征。
总之,在上述图像特征提取方法中,通过将第一人脸表情图像表示为四元数形式,并分别计算四元数矩阵对应的相位矩阵以及幅值矩阵来获取第一人脸表情图像的图像特征,从而能够将第一人脸表情图像作为一个整体进行分析,充分考虑了图像所包含的颜色信息、灰度信息以及各种颜色信息之间、颜色信息与灰度信息之间的内在联系,同时有效避免了现有技术中将彩色图像转化为灰度图像所产生的信息丢失问题。因此,该方法提取出的图像特征能够充分反映第一人脸表情图像中的表情的特征。
在本发明实施例的某些实施方式中,可以将步骤S13中获得图像特征用于训练能够对第二人脸表情图像进行分类的分类模型。其中,第二人脸表情图像可以表示测试集中的图像,而第一人脸表情图像表示可以训练集中的图像。分类模型可以为,但不限于支持向量机模型或者卷积神经网络模型。上述两种分类模型是目前在图像处理领域比较常见的分类模型,其技术成熟,有大量的现成产品或代码可以选择,其实施成本较低。上述两种分类模型的训练方法均为现有技术,在此处不再进行具体阐述。
根据上述的阐述,由于本方法获得的图像特征充分考虑了人脸表情图像中的颜色信息、灰度信息及其相互关系,因此训练出的分类模型具有良好的分类效果。同时,在某些实施方式中,由于在获得图像特征的过程中采用了直方图统计,因此还能够提高训练分类模型的效率。
可以理解,本发明实施例获得的第一人脸表情图像的图像特征不限于用于训练用于表情识别的分类模型,还可以用于其它用途,例如暂时进行存储不进行后续处理。或者还可以用于处表情识别外的其他技术领域,例如还可以用于训练用于人脸识别的分类模型。
第二实施例
图4示出了本发明第二实施例提供的图像特征提取装置200的功能模块图。参照图4,该装置包括:图像表示模块210、相位及幅值计算模块220、相位及幅值编码模块230以及特征合成模块240。
其中,图像表示模块210用于将第一人脸表情图像表示为四元数矩阵;相位及幅值计算模块220用于计算获得所述四元数矩阵的三个相位矩阵以及幅值矩阵;相位及幅值编码模块230用于分别对所述三个相位矩阵进行局部编码获得三个编码相位矩阵,以及对所述幅值矩阵进行局部编码获得编码幅值矩阵;特征合成模块240用于分别对所述三个编码相位矩阵以及所述编码幅值矩阵中的元素值进行统计,获得所述第一人脸表情图像的图像特征。
本发明第二实施例提供的图像特征提取装置200,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
第三实施例
本发明第三实施例提供一种计算机存储介质,计算机存储介质中存储有计算机程序指令,计算机程序指令被计算机的处理器读取并运行时,执行本发明实施例提供的图像特征提取方法。该计算机存储介质可以实现为,但不限于图1示出的存储器102。
第四实施例
本发明第四实施例提供一种电子设备,包括处理器以及计算机存储介质,计算机存储介质中存储有计算机程序指令,计算机程序指令被处理器读取并运行时,执行本发明提供的图像特征提取方法。该电子设备可以实现为,但不限于图1示出的终端设备100。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得计算机设备执行本发明各个实施例所述方法的全部或部分步骤。前述的计算机设备包括:个人计算机、服务器、移动设备、智能穿戴设备、网络设备、虚拟设备等各种具有执行程序代码能力的设备,前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟、磁带或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (7)

1.一种图像特征提取方法,其特征在于,包括
将第一人脸表情图像表示为四元数矩阵;
计算获得所述四元数矩阵的三个相位矩阵以及幅值矩阵;
分别对所述三个相位矩阵进行局部编码获得三个编码相位矩阵,以及对所述幅值矩阵进行局部编码获得编码幅值矩阵;
分别对所述三个编码相位矩阵以及所述编码幅值矩阵中的元素值进行统计,获得所述第一人脸表情图像的图像特征;
其中,若所述第一人脸表情图像包括红色通道图像、绿色通道图像以及蓝色通道图像,则所述将第一人脸表情图像表示为四元数矩阵,包括:
利用所述红色通道图像、所述绿色通道图像以及所述蓝色通道图像分别表示所述四元数矩阵的三个虚部矩阵;
若所述第一人脸表情图像包括红色通道图像、绿色通道图像、蓝色通道图像以及附加通道图像,所述附加通道图像为深度图像或近红外图像,则所述将第一人脸表情图像表示为四元数矩阵,包括:
利用所述红色通道图像、所述绿色通道图像以及所述蓝色通道图像分别表示所述四元数矩阵的三个虚部矩阵,以及利用所述附加通道图像表示所述四元数矩阵的实部矩阵;
所述计算获得所述四元数矩阵的三个相位矩阵,包括:
分别计算所述四元数矩阵与三个预设单位纯四元数的乘积,获得三个乘积结果矩阵;
分别计算所述三个乘积结果矩阵的相位,获得所述三个相位矩阵。
2.根据权利要求1所述的图像特征提取方法,其特征在于,所述分别对所述三个相位矩阵进行局部编码获得三个编码相位矩阵,以及对所述幅值矩阵进行局部编码获得编码幅值矩阵,包括:
利用局部二值模式LBP或者异或非对称邻域局部梯度编码XOR-AR-LGC分别对所述三个相位矩阵进行局部编码获得三个编码相位矩阵,以及利用所述LBP或者所述XOR-AR-LGC对所述幅值矩阵进行局部编码获得编码幅值矩阵。
3.根据权利要求1所述的图像特征提取方法,其特征在于,所述分别对所述三个编码相位矩阵以及所述编码幅值矩阵中的元素值进行统计,获得所述第一人脸表情图像的图像特征,包括:
分别将所述三个编码相位矩阵以及所述编码幅值矩阵划分为多个子块;
统计所述多个子块中的每个子块所包含的元素值的分布直方图,获得多个分布直方图;
将所述多个分布直方图依次连接,并将连接后生成的总体分布直方图确定为所述图像特征。
4.根据权利要求3所述的图像特征提取方法,其特征在于,所述将所述多个分布直方图依次连接,并将连接后生成的总体分布直方图确定为所述第一人脸表情图像的图像特征,包括:
将所述多个分布直方图乘上加权系数后依次连接,并将连接后生成的总体分布直方图确定为所述图像特征。
5.根据权利要求1所述的图像特征提取方法,其特征在于,所述分别对所述三个编码相位矩阵以及所述编码幅值矩阵中的元素值进行统计,获得所述第一人脸表情图像的图像特征之后,所述方法还包括:
利用所述图像特征训练用于对第二人脸表情图像进行分类的分类模型。
6.根据权利要求5所述的图像特征提取方法,其特征在于,所述分类模型为支持向量机模型或卷积神经网络模型。
7.一种图像特征提取装置,其特征在于,包括:
图像表示模块,用于将第一人脸表情图像表示为四元数矩阵;
相位及幅值计算模块,用于计算获得所述四元数矩阵的三个相位矩阵以及幅值矩阵;
相位及幅值编码模块,用于分别对所述三个相位矩阵进行局部编码获得三个编码相位矩阵,以及对所述幅值矩阵进行局部编码获得编码幅值矩阵;
特征合成模块,用于分别对所述三个编码相位矩阵以及所述编码幅值矩阵中的元素值进行统计,获得所述第一人脸表情图像的图像特征;
其中,若所述第一人脸表情图像包括红色通道图像、绿色通道图像以及蓝色通道图像,则图像表示模块将第一人脸表情图像表示为四元数矩阵,包括:
利用所述红色通道图像、所述绿色通道图像以及所述蓝色通道图像分别表示所述四元数矩阵的三个虚部矩阵;
若所述第一人脸表情图像包括红色通道图像、绿色通道图像、蓝色通道图像以及附加通道图像,所述附加通道图像为深度图像或近红外图像,则图像表示模块将第一人脸表情图像表示为四元数矩阵,包括:
利用所述红色通道图像、所述绿色通道图像以及所述蓝色通道图像分别表示所述四元数矩阵的三个虚部矩阵,以及利用所述附加通道图像表示所述四元数矩阵的实部矩阵;
相位及幅值计算模块计算获得所述四元数矩阵的三个相位矩阵,包括:
分别计算所述四元数矩阵与三个预设单位纯四元数的乘积,获得三个乘积结果矩阵;分别计算所述三个乘积结果矩阵的相位,获得所述三个相位矩阵。
CN201810475988.5A 2018-05-17 2018-05-17 图像特征提取方法及装置 Active CN108960041B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810475988.5A CN108960041B (zh) 2018-05-17 2018-05-17 图像特征提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810475988.5A CN108960041B (zh) 2018-05-17 2018-05-17 图像特征提取方法及装置

Publications (2)

Publication Number Publication Date
CN108960041A CN108960041A (zh) 2018-12-07
CN108960041B true CN108960041B (zh) 2020-11-27

Family

ID=64499223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810475988.5A Active CN108960041B (zh) 2018-05-17 2018-05-17 图像特征提取方法及装置

Country Status (1)

Country Link
CN (1) CN108960041B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902766A (zh) * 2019-03-25 2019-06-18 首都师范大学 一种生物特征识别方法及装置
CN110390307B (zh) * 2019-07-25 2021-06-08 首都师范大学 表情识别方法、表情识别模型训练方法及装置
CN113158825A (zh) * 2021-03-30 2021-07-23 重庆邮电大学 一种基于特征提取的人脸表情识别方法
CN116543001B (zh) * 2023-05-26 2024-01-12 广州工程技术职业学院 彩色图像边缘检测方法及装置、设备、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8165399B2 (en) * 2007-01-30 2012-04-24 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and program
CN103106647A (zh) * 2013-03-06 2013-05-15 哈尔滨工业大学 基于四元数小波和区域分割的多焦点图像融合方法
CN105049851A (zh) * 2015-07-06 2015-11-11 浙江理工大学 基于色彩感知的通用无参考图像质量评价方法
CN105118057A (zh) * 2015-08-18 2015-12-02 江南大学 基于四元数小波变换幅值与相位的图像清晰度评价方法
CN106803242A (zh) * 2016-12-26 2017-06-06 江南大学 基于四元数小波变换的多聚焦图像融合方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8165399B2 (en) * 2007-01-30 2012-04-24 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and program
CN103106647A (zh) * 2013-03-06 2013-05-15 哈尔滨工业大学 基于四元数小波和区域分割的多焦点图像融合方法
CN105049851A (zh) * 2015-07-06 2015-11-11 浙江理工大学 基于色彩感知的通用无参考图像质量评价方法
CN105118057A (zh) * 2015-08-18 2015-12-02 江南大学 基于四元数小波变换幅值与相位的图像清晰度评价方法
CN106803242A (zh) * 2016-12-26 2017-06-06 江南大学 基于四元数小波变换的多聚焦图像融合方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Monogenic Riesz wavelet representation for micro-expression recognition;Carlos Arango Duque 等;《2015 IEEE International Conference on Digital Signal Processing (DSP)》;20150910;第66-74页 *
基于四元数小波幅值相位特征的人脸识别方法;赵艳茹;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120215;I138-2237 *
结合四元数与小波的彩色图像边缘检测算法;许姜严 等;《计算机应用研究》;20100621;第27卷(第5期);第1981-1983页 *
融合多特征和局部二值模式的人脸识别研究;贺迪龙;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215;I138-2739 *

Also Published As

Publication number Publication date
CN108960041A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108960041B (zh) 图像特征提取方法及装置
WO2016127883A1 (zh) 一种图像区域检测方法及装置
CN116188805B (zh) 海量图像的图像内容分析方法、装置和图像信息网络
WO2021175040A1 (zh) 视频处理方法及相关装置
CN107301643B (zh) 基于鲁棒稀疏表示与拉普拉斯正则项的显著目标检测方法
JP2006505075A (ja) 複数のイメージフレームを有するビデオシーケンス検索のための非線形量子化及び類似度マッチング方法
WO2021104097A1 (zh) 表情包生成方法、装置及终端设备
WO2021259336A1 (zh) 一种模态信息补全方法、装置及设备
CN109800659A (zh) 一种动作识别方法及装置
CN106503112B (zh) 视频检索方法和装置
CN109447023A (zh) 确定图像相似度的方法、视频场景切换识别方法及装置
CN116797510A (zh) 图像处理方法、装置、计算机设备和存储介质
Avinash et al. Color hand gesture segmentation for images with complex background
CN112862095A (zh) 基于特征分析的自蒸馏学习方法、设备以及可读存储介质
CN107870923B (zh) 图像检索方法和装置
CN112598074B (zh) 图像处理方法及装置、计算机可读存储介质和电子设备
CN113055666B (zh) 一种视频质量评估方法及装置
CN113010728A (zh) 一种歌曲推荐方法、系统、智能设备及存储介质
CN112784807A (zh) 手语提取方法及计算机可读存储介质、电子设备
CN116152530B (zh) 图像差异的确定方法和装置、存储介质及电子设备
CN113221920B (zh) 图像识别方法、装置、设备、存储介质以及计算机程序产品
CN109086775B (zh) 一种快速流形排序和低秩约束的协同显著性检测方法
Kaur et al. An Empirical Study on Texture Feature Extraction Methods for Image Retriveal.
CN117197707B (zh) 切变镜头的分割方法和装置、存储介质及电子设备
CN108710853B (zh) 人脸识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231009

Address after: Room 105, Building 16, Fushawan Garden, No. 28 Cuijing North Road, Yanzhou Community, West District, Zhongshan City, Guangdong Province, 528400

Patentee after: Zhongshan baisdi Software Technology Co.,Ltd.

Address before: Room 1109, No. 31, Nancheng Section, Guantai Road, Nancheng Street, Dongguan City, Guangdong Province, 523000

Patentee before: Dongguan Pengbo Information Technology Co.,Ltd.

Effective date of registration: 20231009

Address after: Room 1109, No. 31, Nancheng Section, Guantai Road, Nancheng Street, Dongguan City, Guangdong Province, 523000

Patentee after: Dongguan Pengbo Information Technology Co.,Ltd.

Address before: 105 West Third Ring Road North, Haidian District, Beijing

Patentee before: Capital Normal University

TR01 Transfer of patent right