CN107430678A - 使用高斯接收场特征的低成本面部识别 - Google Patents
使用高斯接收场特征的低成本面部识别 Download PDFInfo
- Publication number
- CN107430678A CN107430678A CN201580078349.XA CN201580078349A CN107430678A CN 107430678 A CN107430678 A CN 107430678A CN 201580078349 A CN201580078349 A CN 201580078349A CN 107430678 A CN107430678 A CN 107430678A
- Authority
- CN
- China
- Prior art keywords
- characteristic
- feature
- activation
- passages
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
方法和系统可以提供利用分层特征学习和成对分类的至少一个输入图像的面部识别。可以对输入图像使用接收场理论以生成经预处理的多通道图像。经预处理的图像中的通道可以基于通道内的特征丰富的细节的量而被激活。类似地,局部面片可以基于局部面片内的具判别性的特征而被激活。可以从局部面片提取特征,并且可以选择最具判别性的特征以便执行对集合上的特征匹配。系统可以利用面片特征汇集、成对匹配和大规模训练以便以针对系统存储器和计算二者的低成本快速且精确地执行面部识别。
Description
背景技术
面部识别(FR)最近由于它可以实现在其中的多种多样的应用而受到大量关注,所述应用包括信息安全、法律执行、监控和一般图像理解。随着手持数字设备和社交联网的演进,面部识别进入新的纪元并且遭遇新的挑战。已知的FR系统可能牵涉复杂的过程,其要求造成大量成本的非常大的计算和存储器能力,而手持设备通常具有有限的计算能力和存储器资源。这些因素因而可能使FR系统对于较小的设备(例如手持和移动设备)是不切实际的。另外,移动图像和社交网络图像可能最常在不受控的成像条件下取得。事实上,这些不受控的成像条件可能由于如今可得到的数以亿计的面部图像而导致实际上无限的可变性。简单来说,由于不精确的计算、高成本、大存储器覆盖区和高计算开销,常规的FR系统对于较小的、手持和/或移动设备而言可能不是有用的。
附图说明
通过阅读以下说明书和随附权利要求,并且通过参照随附各图,实施例的各种优点将变得对本领域技术人员是显而易见的,其中:
图1是根据实施例的面部识别框架的概览的示例的图示;
图2是根据实施例的用于面部识别的特征学习的流程图的示例的图示;
图3是根据实施例的迭代大规模学习过程的示例的图示;
图4是根据实施例的迭代大规模学习方法的示例;
图5是根据实施例的用于图像识别的大规模训练过程的示例的框图;
图6是根据实施例的面部识别过程的示例;
图7是根据实施例的面部识别系统的示例的框图;
图8是根据实施例的具有导航控制器的系统的示例的框图;以及
图9是根据实施例的具有小形状因子的系统的示例的框图。
具体实施方式
图1示出利用分层特征学习和大规模分类引擎训练二者的面部识别(FR)系统100的概览。系统100可以包括图像输入接口110、去光照器/预处理器120、特征提取器130、特征选择器140、特征数据库150、大规模分类引擎155、特征匹配器160和类似性检测器170。所图示的系统100使得能够实现输入图像105(即面部的输入图像105)的超完备面部特征的使用,以便快速且精确地执行图像105上的面部识别。系统100可以提供低成本(存储器和计算二者)图像分类模型而同时保持高精度(例如超过94%)。为了实现低成本存储器,所图示的系统100采用简单的超完备子集理论特征。为了实现低成本存储器,所图示的系统100在计算集群上的(经充分多样化的)大规模数据集上训练分类器以实现良好的分类泛化能力。大规模数据集可以包括例如“大数据”、或具有过于大和/或复杂以至于由于例如涉及数据的捕获、分析、存储、共享、传播/共享等的问题而无法被传统数据处理应用实际利用的集合的数据。
此外,系统100可以利用分层特征学习和学习分类以:使用高斯接收场(GRF)在归一化的面部图像中从超完备面片提取低级特征;构建针对面部图像的成对特征表示并且将面部识别问题映射到二元分类问题以便确定面部对是否来自相同的主体;以及提供线性分类器(例如经由支持向量机(SVM)),其利用图像分类模型执行具有良好分类泛化能力的图像分类,所述图像分类模型是用交替方向乘数法(ADMM)算法框架在集群上的大规模数据集上训练的。学习分类可以利用引擎来执行成对分类,所述成对分类可以被优化以快速地实现面部识别决定。在至少一些实施例中,系统100可以体现成包括但不限于笔记本计算机、智能平板电脑、个人数字助理(PDA)、移动互联网设备(MID)、无线智能电话、图像捕获设备、媒体播放器等,其中所图示的系统100可以使得能够实现快速且可靠的面部识别应用,包括例如安全认证(例如计算机登录、检查点校验等)、系统认证(例如门或大门访问控制)、监控(例如人群和诸如地铁、机场、购物中心、超市、体育场等之类的高安全性位置的观察)。
如将更加详细讨论的,系统100可以在输入接口110处从图像源(未示出)(例如相机、数据库等)接收输入图像105。所图示的去光照/预处理器120利用接收场理论对输入图像105建模和处理以得出经预处理的图像125。经预处理的图像125可以由多通道图像表示(参见例如以下的多通道接收场图像210),并且遵循接收场理论,每一个通道可以表示为以某些参数的高斯接收响应图。去光照/预处理器120还可以激活经预处理的图像125(例如多通道图像210)的一个或多个通道以得出(一个或多个)经激活的通道135,例如经激活的通道220。预处理器120还可以标识每一个经激活的通道135内的多个特征丰富的局部面片137。由于多通道图像135(参见例如多通道图像210)中的一些通道比其它通道更具判别性(例如它们具有更强的区分特征的能力),因此仅前面的(top)(例如前P个)最具判别性的通道被激活以用于面部识别(例如经由浮动搜索方法)。预处理器120还可以激活一个或多个局部面片137以便快速且精确地标识面部特征。特征提取器130可以标识前面的(例如前Q个)最具判别性的局部面片,例如局部面片137。为了标识前面的局部面片,特征提取器130可以通过一系列超完备的局部面片137定义一个或多个多通道图像135。局部面片137可以每一个聚焦于不同的身份丰富的面部特征,例如眼睛、鼻子、嘴部等的结构和空间特征。由于不同的局部面片137典型地具有不同判别能力,因此提取器130可以基于每一个局部面片137的判别能力来标识和激活前面的局部面片137。特征选择器140可以利用经激活的局部面片137来在某些空间和结构特征之上进行汇集(pool)以经由机器学习应用(例如线性支持向量机(SVM))获取特征向量,以得出每一个局部面片137的特征描述符。特征匹配器160可以利用判别子空间分析来将(从特征选择器140接收的)每一个局部面片137的特征描述符投影到较低维度子空间并且将不同局部面片137的所学习到的特征联系在一起以获取输入图像(即输入面部)105的完整表示。类似性检测器170可以比较局部面片137(和相关联的所学习到的特征)以确定对集合是否满足预确定的类似性阈值要求(即,对集合是否属于相同个体或面部)。局部面片137和其对应的学习到的特征还可以存储到特征数据库150。特征数据库150还可以包括具有训练算法的大规模分类引擎155以便训练关于对集合{(x, y)}的分类引擎。系统100可以基于N个训练面部样本来训练,并且针对所有N个训练面部样本的所有特征可以被提取和存储到特征数据库150以便帮助使得能够实现本文所公开的系统和方法。
图2图示了依照本公开的面部识别过程200。过程200可以经由分层特征学习方法来提取和分析图像中的一组超完备面部特征,并且利用成对分类方法快速且精确地执行图像的面部识别。如以上关于系统100所讨论的,过程200接收图像205中的输入面部。过程200可以包括若干阶段以便执行超完备面部分析和识别,包括多通道图像生成210、通道激活220、面片激活/选择230、面片特征汇集240、成对匹配250、大规模训练260和分类确定270。
输入图像205的面部可以使用接收场理论来建模,例如高斯接收场(GRF),其被标识为其中光更改其发光的视觉皮层区。视觉皮层中的接收场可以使用高达第4阶的高斯导数运算符来良好地建模。图像的高斯导数可以称为高斯接收场(GRF)图。高斯导数和GRF可以通过以下列出的等式来定义,其中G(x,y)指示高斯核,I(x,y)指示输入图像,0 < m + n≤ 4是导数的阶,并且L(x,y)是响应图或通道。高斯函数可以定义如下:
(1)。
给定所述高斯函数,高斯导数可以定义如下:
(2)。
图像I的高斯接收图可以定义如下:
(3)。
其中⊗标示卷积运算,并且m和n分别表示针对水平和竖直方向的导数的阶。另外,卷积和导数运算的计算次序可以交换并且表示如下:
( (4)。
每一个L σ m,n 可以被视为高斯接收场(GRF)图像的一个通道IGFR = { L σ m,n }。当存在四(4)或更少的导数的阶(即0 < m + n ≤ 4)时,可以存在m和n的十四(14)个不同的组合。在该示例中,当定义平滑核尺寸{0, 3, 5, 7}(在此0意味着无平滑)时,四(4)导数的阶和m和n的十四(14)个不同的组合将得出总计56个通道(即56 = 14 x 4)。另外,允许两个(2)附加梯度(即对角和反对角),通道的总数目将为112(即112 = 56 x 2)。每一个响应图称为通道。由于并非所有通道在执行面部识别时都具有相等的重要性(基于识别精度测试),因此仅激活最具判别性的通道是有帮助的。
为了确定和仅激活最具判别性的通道,基于GRF原理生成一系列多通道图像210。为了确定多通道图像210的更具判别性的通道,定义每一个通道的描述性特征。可以例如通过在4x4空间网格之上进行汇集来获取所述特征。每一个单元可以基于变换(例如T2变换)而由两个(2)值来表示,如下:
Σ(|L σ m,n | + L σ m,n ) (5)
并且
Σ(|L σ m,n | - L σ m,n ) (6)。
该变换得出具有32个维度的特征向量。可以在每一个网格上通过将网格细分成4x4个子单元来利用空间汇集。两层汇集可以得出544个维度的特征向量(即544 = 32 x(1+16))。f σ m,n 可以被标示为接收图L σ m,n 的544维的元特征。然而,可以存在总计112个这样的元特征(即每个通道一个)。
通道激活220可以经由在元特征{f σ m,n }上采用算法(例如顺序向前浮动搜索(SFFS)算法)来执行。优化目标可以是,在最接近的邻域分类的情况下,在假阳性率(FPR)处的真阳性率(TPR)等于0.1%(即TRP @ FPR = 0.1%)。用于执行针对通道(和面片)激活的SFFS的合适算法的示例被提供如下:
输入:具有对应的特征集合F = {f σ m,n }的通道集合/面片集合。J(F k )基于特征F k 而测量最接近的邻域分类精度
初始化:F0 = Ø , k = 0
步骤1:包括
找到最佳特征f + = arg max f∈F\F k J(F k ∪ f),其中
F\Fk意指F排除子集Fk;
Fk+1 = Fk ∪ f + ;k = k + 1;
步骤2:有条件排除
找到最差特征f –= arg max f∈F\F k J(F k – f);
如果J(F k – f – ) > J(F k– 1)
F k– 1 = F k – f – ;k = k – 1;
转到步骤2;
否则
转到步骤1;
输出:对应于F k 的通道/面片子集。
正如以上讨论的L(x,y)那样,还可以存在根据面部界标(例如眼睛、眉毛、鼻子、包括嘴角的嘴部等)的超完备面片。面片激活/选择230可以通过精炼接收场的位置来执行。该精炼可以通过借助于利用用于执行针对面片的SFFS的算法来定义经激活的通道220中的每一个的超完备面片来完成,如以上关于通道激活所讨论的。假定例如存在八个(8)通道并且每一个面片包括四乘四(4x4)个块。可以汇集每一个块以确定统计平均值或偏差。因此,针对每一个面片的特征维度将为128(即128 = 8 x 4 x 4)。可以在图像(例如128 x 128的面部图像)和对应的所选接收图之上定义滑动窗,并且可以允许滑动窗向前滑动四个(4)像素。滑动窗的纵横比可以被定义为1:1、1:2、1:3、1:4、2:1、3:1、4:1、2:3、3:2。也可以针对每一个面片采用4 x 4的空间汇集,并且该空间汇集被约束以使得每一个单元至少包含30个像素。该定义将得出近似10,000个面片。概述的过程200提供通道220和面片230的两阶段激活,其提供许多益处和优点,包括高精度和降低的计算成本。两阶段激活例如是基于生物学的,因为人脑使用分层方案来进行从简单层到复杂层的对象识别。两阶段激活还允许直接计算。由于每一个面片230可以由多通道之上的空间汇集特征来表示,因此特征维度可以定义为32 x P,其中P是活跃通道的数目(例如32 = 4 x 4 x 2,或者由于T2变换,4 x 4空间单元x 2)。在具有该面片描述符的情况下,可以遵循相同的方案(算法),正如以上讨论的通道激活的那样,以便从经激活的面片230的群组确定最具判别性的面片。
为了使经激活的面片230准备用于确定最具判别性的面片,可以执行统计学分析或汇集技术来得出经汇集的面片240。汇集一般被定义为针对样本(在该情况下“像素”)集合的统计量的累积。各种不同的统计学技术可以用于执行汇集,包括最大值汇集(max-汇集(max-pooling))、平均值汇集(μ-汇集)、方差汇集(σ-汇集)、矩汇集(m-汇集)等。最大值汇集可以用于计算面片的每一个单元C i 中的最大值,并且可以通过下式来定义:
(7)。
平均值汇集可以用于计算面片的每一个单元中的平均值,并且可以通过下式来定义:
, (8)
其中E[x]是变量x的期望。
方差汇集可以用于计算面片的每一个单元中的方差值,并且可以通过下式来定义:
(9)。
矩汇集可以用于计算面片的每一个单元中的图像矩值,并且可以通过下式来定义:
, (10)
其中(x c , y c )是单元的中心,p和q是x和y之上的阶。为了方便,可以假定p=1且q=1。
虽然平均值汇集可以提供最佳结果(至少在一些实例中),但是前述中的任何都可以适合于确定最具判别性的面片。然而,针对每一个面片的特征描述符应当被归一化,而不管选择哪个汇集技术。合适的归一化将是比如SIFT的归一化(例如,L 2归一化,随后是剪裁和再归一化)。
一旦已经确定经激活的通道220中的最具判别性者和经激活的面片230中的最具判别性者,经激活的面片230可以利用以上讨论的汇集技术一起汇集在一系列汇集面片240中,以便确定每一个面片内的判别能力。为了做出该确定,线性判别分析(LDA)可以被适配成经由成对匹配函数执行面片级子空间分析。汇集面片240的特征还可以在经变换的特征250的长特征向量上变换。成对主体内协方差矩阵S w 和主体外协方差矩阵S b 可以分别定义如下:
(11)
以及
, (12)
其中当y ij = 1时指示该vi和vj来自相同主体,否则y ij = -1。
优化目标可以定义如下:
(13)。
可以存在许多合适的方式来求解优化,包括例如Fisher方法和最大值裕度投影方法。另外,LDA的利用可以提供投影矩阵P∈R d x p ,其可以将d维面片描述符投影到p维判别子空间中。被投影的维度p可以通过特征值能量来确定。例如,系统可以保留其中LDA的对应特征值维持总能量的99%的第一p维。投影矩阵可以从针对每一个面片的训练集合来学习,其中不同面片可以具有不同的被投影p维。从不同面片学习的面片描述符可以联系在一起以获取特征函数260,所述特征函数260包括足以以与本文中的公开内容一致的方式来精确地匹配输入图像205的输入面部的完整表示。满足预定义的类似性阈值的输入图像可以在分类确定270处输出。
假设例如x i 和x j 是两个面部特征向量。可以利用成对公式化(例如z = g(x i , x j ))来执行对匹配,使得z在x i 和x j 二者来自相同主体(例如图像或面部)时将是正的,否则z将是负的。在该示例中,g(,)是向量函数,其可以是按元素的绝对差。假设特征向量,按元素的绝对差可以定义如下:
(14)。
匹配核由此可以通过下式来确定,如下:
F(x,t) = <w, g(x,t)>, (15)
其中w指示匹配权重。
如本文所讨论的,本公开的系统和方法提供针对存储器和计算二者的低成本分类而同时保持高精度。关于计算,存在影响特征提取的计算复杂度的大致四个主要方面。这些因素包括以下的计算复杂度:GRF图、特征汇集、面片特征投影和特征归一化。
GRF图的计算复杂度可以定义如下:
O (P ∙ w ∙ h), (16)
其中P指示经激活的通道的数目,并且w和h指示经归一化的面部图像的尺寸。
特征汇集的计算复杂度被定义如下:
O (P ∙ Q ∙ w ∙ h), (17)
其中Q指示经激活的面片的数目。另外,积分成像(integral imaging)技术可以用于避免不同面片之中的冗余计算。
面片特征投影的计算复杂度可以定义如下:
O (Q ∙ d ∙ p), (18)
其中d和p分别指示面片描述符的原始维度和投影维度。
特征归一化的计算复杂度可以定义如下:
O (Q ∙ d) (19)。
作为示例,对于128 x 128面部图像,如果假定P = 4,Q = 240,d = 128并且p =100,则所导致的总体特征提取进程将要求近似5Mflops计算性能。不同于其它解决方案,所公开的系统和方法显著降低所要求的计算性能的水平并且对于小型嵌入式设备(例如移动电话、智能电话、智能平板电脑等)中的实现是可负担的。另外,当启用量化时,面片投影矩阵将花费Q ∙ d ∙ p存储器,并且当Q = 240时,估计为近似3MB。再进一步地,线性SVM模型的尺寸与该尺寸相比是可忽略的。作为这些特征和特性的结果,所公开的系统和方法的总体存储器覆盖区是相当小的。
如已经讨论的,系统100利用分层特征学习框架来提供精确的面部识别而同时大幅降低资源要求(例如计算复杂度、存储器和计算成本)并且能够适应到嵌入式设备中。其它已知的解决方案能够针对面部识别提供高精度,包括例如基于子空间的方案、基于度量学习的方案、基于内核机的方案、基于卷积神经网络(CNN)的方案等。然而,不同于本公开的系统,所述其它已知解决方案要求大量存储器和计算资源,使得它们对于使用在具有有限系统资源的移动和手持设备中是不切实际的。以下列出的表1详述了与类似解决方案相比的针对本公开的系统的资源要求。列出复杂度(即计算复杂度)以指示计算复杂度的函数。存储器覆盖区指示以字节计的必需存储器的尺寸。计算成本指示以Flops或每秒浮点运算计的必需计算性能的度量。表1中列出的示例假定训练集合尺寸为N,原始特征维度为d,并且投影维度为p。
表1
另外,虽然系统100降低存储器和计算成本,如以上的表1中所论证的,但是系统100也可以提供高精度(即在94%以上)。以下的表2详述与类似已知的面部识别方法相比的本公开的系统的精度。将结果与国家科学标准研究所(NIST)面部识别竞赛(FRGC)基线相比较。
表2
方法 | 场所(年份) | 以FPR的TRP= 0.1% |
FRGC(特征脸) | CVPR – 2005 | 15% |
Gabor + Kernel Fisher | TPAMI – 2006 | 76% |
具有特殊去照明的Gabor + LTP + KLDA | TIP – 2010 | 88.5% |
多尺度(LPQ + LBP)+ KLDA + 多核融合 | TPAMI – 2012 | 91.5 |
本系统 | 94.5% |
如以上所讨论的,系统100利用成对大规模分类引擎155以便确定面部识别。当训练分类引擎155时,当在{(x,y)}之上采用线性SVM来训练分类引擎155时,训练集合可以被重新公式化为{(x,y)}。针对线性SVM的优化目标可以定义如下:
(20)
其中w指示线性SVM的权重,并且C是用于正则化的可调谐参数。
该目标可以基于许多不同的方法来优化。然而,已学习的分类引擎的识别决定可以仍旧基于最接近的邻域规则。作为结果,对于输入面部v和模板t,类似性可以定义如下:
w T (v ⊖ t) (21)。
虽然可以存在用于线性SVM的许多可用的优化方法,但是由于大的规模,那些方法所必需的训练将仍然非常困难。作为示例,给定训练集合中的N个面部,面部对的数目可以多达K = N (N – 1) / 2。在一些已知的数据集中,训练样本的数目可以大于三千七百万,并且联系在一起的特征维度将近似为20,000。所得整个数据集将相当大,例如若干太字节(TB),并且大大超出可用的移动和手持设备的存储器容量。
由于典型的数据集尺寸如此大并且由于面部识别中的精度是最重要的,因此诸如采样和过滤之类的技术将不足以提供用于训练的合适子集。典型系统(即16GB RAM)上的采样仅可以处理典型的整个对集合中的大约200,000个样本(即大约5%),并且将未能标识整个训练集合中的所有变化。类似地,已经发现,力图移除接近的重复样本的已知过滤技术移除样本的不当百分比(例如小于20%)以改变训练问题的规模。
作为结果,系统100利用大规模分类引擎155来更加有效地生成训练对集合。分类引擎155可以采用被设计用于与大数据一起使用的分布式大规模训练算法,例如随机梯度下降(SGD)和交替方向乘数法(ADMM)。收敛或收敛性可以通过使训练系统变得稳定或不改变所需要的步骤/迭代/世代的数目来定义。ADMM例如充分利用系统的每一个计算节点以更加快速地收敛(即提取)大数据集合的特征,并且可以用于求解大规模问题,例如min f(w)+ g(w)。当f(w)和g(w)具有分离的目标并且由于函数或数据复杂度而难以一起优化时,ADMM可以引入双重变量,例如z,并且将等效约束优化定义为:min f(w) + g(z),服从于w =z。该优化允许例如使用拉格朗日方法通过在z固定的情况下求解w、并且然后针在w固定的情况下求解z、并且重复该双重更新过程直到收敛来求解ADMM。
用于针对以上的等式18中所示的线性SVM的优化目标的训练目的的对集合可以被划分成m个块{B 1 ,…,B m },并且块可以分布到不同的集群节点。通过使用ADMM优化,训练目标可以重写如下:
, (22)
服从于w j – z = 0, ∀ j ,其中是针对双重变量z上的优化的预定义的步长。
遵循以上列出的等式,w 1 ,…, w m 的优化可以被分解成m个独立问题。
图3图示了迭代大规模学习过程的示例。迭代学习过程300在310处通过置乱面部测试对集合(为了准备对特征)而开始。对可以被划分成多个块,例如m个块,并且分布到m个计算节点320、330、340。计算节点320、330、340可以每一个利用大规模训练算法,例如如以上所讨论的ADMM算法,以优化双重变量,例如w和z(即为了求解子问题)。迭代数据循环(即数据循环1、数据循环2和数据循环m)的集合可以由计算节点320、330、340、模块322、332、342和模块350形成。例如,第一数据循环(数据循环1)可以由计算节点1(320)、模块322和模块350形成。第二数据循环(数据循环2)可以由计算节点2(330)、模块332和模块350形成。另一数据循环(数据循环m)可以由计算节点m(340)、模块342和模块350形成。计算节点320、330、340可以通过使第二变量(例如z)在350处维持固定、并且分别向计算节点322、332、342输出第一变量w 1 、w 2 、w m (即更新针对所有机器或计算节点的z)来迭代地求解一个变量,例如w。一旦第一变量w被确定,第一变量w维持恒定地包含在350处并且过程返回到计算节点320、330、340以便确定第二变量z。过程300的双重变量更新进程可以重复,直到收敛,即两个对集合的变量以可接受的精度匹配。换句话说,过程300在z固定的情况下求解w(在350处),然后在w固定的情况下求解z(在350处),并且重复该过程直到w和z匹配。
现在转向图4,示出一种用于图像识别的大规模训练过程的方法。方法400可以以如下方式被实现为一个或多个模块:以可执行软件的方式,所述可执行软件作为存储在存储器的机器或计算机可读存储介质中的逻辑指令集,所述存储器诸如随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、固件、闪速存储器等;以可配置逻辑的方式,所述可配置逻辑诸如例如可编程逻辑阵列(PLA)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD);以使用电路技术的固定功能逻辑硬件的方式,所述电路技术诸如例如专用集成电路(ASIC)、互补金属氧化物半导体(CMOS)或晶体管-晶体管逻辑(TTL)技术或其任何组合。
所图示的处理块402提供划分面部图像的整个数据集。图像的集合可以被划分成数据对的多个子集,例如m个子集。块404提供向不同的计算节点分配数据对的每一个子集,例如在分布式节点环境中。上文关于图3讨论了此类分布式环境的示例。块406提供将每一个数据对子集的变量(例如第一变量z)的值设定成常量,例如0或1。块408提供使用迭代数据循环以用于每一个分布式计算节点。而且,块408可以包括针对每一个子问题来设定对集合的初始值,例如wi=z,其中z是常量。另外,块408可以包括求解子问题以确定wi。块410提供确定z是否收敛。如果在410处“否”,则方法返回到块406并且重复该过程的步骤直到z收敛。如果在410处“是”,则方法行进到块412,其提供中断迭代数据循环并且输出z作为w的最终估计。
图5是示出大规模训练过程(例如以上讨论的迭代学习过程300)在FRGC(面部识别竞赛)的标准测试程序上的精度的示例的图表。图表500用曲线表示大规模训练过程510、第一小规模训练过程520和第二小规模训练过程530的标准测试程序精度。真阳性率(TPR)在纵(y)轴上列出并且等于#correctly-identified-subject-pairs/#total-positive-match-pairs。假阳性率(FPR)在横(x)轴上列出并且等于incorrectly-identified-as-positive-pairs#/total-negative-matches。通过使用最接近的邻域分类,在比较中使用的精度为在假阳性率(FPR)处的真阳性率(TPR)等于0.1%(即TPR @ FPR = 0.1%)。该图表论证了大规模训练带来明显的精度改进。
现在转向图6,示出图像识别的方法。方法600可以以如下方式被实现为一个或多个模块:以可执行软件的方式,所述可执行软件作为存储在存储器的机器或计算机可读存储介质中的逻辑指令集,所述存储器诸如随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、固件、闪速存储器等;以可配置逻辑的方式,所述可配置逻辑诸如例如可编程逻辑阵列(PLA)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD);以使用电路技术的固定功能逻辑硬件的方式,所述电路技术诸如例如专用集成电路(ASIC)、互补金属氧化物半导体(CMOS)或晶体管-晶体管逻辑(TTL)技术或其任何组合。
所图示的处理块602提供接收输入图像。块604提供对输入图像执行去光照和/或预处理以得出经预处理的图像。经预处理的图像可以表示为多通道图像。块606提供激活多通道图像的一个或多个通道。可以以标识最具判别性的通道的方式来激活通道。块608提供激活经激活的通道的一个或多个局部面片。可以以标识最具判别性的局部面片的方式来激活局部面片。块610提供基于多通道图像提取特征集合。特征集合可以通过例如最具判别性的局部面片来确定。块612提供从多通道图像的特征集合选择一个或多个特征。块614提供将所述一个或多个特征匹配到已学习的特征集合,例如特征对集合。块616提供确定所述一个或多个特征是否满足预定义的类似性阈值。
现在转向图7,示出计算系统62,其中系统62可以是移动平台的部分,所述移动平台诸如膝上型电脑、移动互联网设备(MID)、个人数字助理(PDA)、媒体播放器、成像设备、可穿戴计算机等;任何智能设备,诸如智能电话、智能平板电脑、智能TV(电视)等等,或者其任何组合。系统62还可以是固定平台的部分,诸如个人计算机(PC)、服务器、工作站等。所图示的系统62包括一个或多个存储器设备,诸如例如系统存储器64和/或大容量存储72,其中存储器设备可以存储输入图像。系统62还可以包括具有主机处理器54(例如中央处理单元/CPU)的半导体管芯50,所述主机处理器54具有提供对系统存储器64的访问的集成存储器控制器(iMC,未示出),所述系统存储器64可以包括例如双倍数据速率(DDR)同步动态随机存取存储器(SDRAM,例如DD3 SDRAM JEDEC标准JESD79-3C,2008年4月)模块。系统存储器64的模块可以合并到例如单列直插存储器模块(SIMM)、双列直插存储器模块(DIMM)、小型DIMM(SODIMM)等中。
半导体管芯50还可以包括集成到半导体管芯50中(例如,在片上系统/SoC配置中)的图像或图形处理器52(52a-52c)连同主机处理器54和输入/输出(IO)模块66,其中所图示的图形处理器52一般地修改输入图像以便实现各种特殊效果。更特别地,图形处理器52可以包括用以接收输入图像的输入图像模块52a和用以处理每一个输入图像以得出经预处理的(即多通道)图像的图像去光照/预处理器模块52b。去光照/预处理器模块52b还可以激活经预处理的图像的一个或多个通道以得出经激活的通道。去光照/预处理器模块52b还可以标识和激活经激活的通道内的一个或多个特征丰富的局部面片以得出经激活的局部面片以用于面部识别。特征提取和选择模块52c可以标识如更好地适合于面部识别的更具判别性(即最为特征丰富)的局部面片。特征提取和选择模块52c还可以在某些面部特征(例如空间和结构特征)之上利用经激活的局部面片汇集以得出针对每一个局部面片的特征描述符。特征匹配模块52d可以投影每一个局部面片的特征描述符以获取输入图像的完整表示。类似性52e可以比较局部面片和相关联的已学习的特征(例如经由特征向量)以确定对集合是否满足所确定的精度要求。局部面片和对应的已学习的特征(即特征向量)还可以被存储到系统存储器设备(例如系统存储器64和/或大容量存储72)上的特征数据库。
主机处理器54还可以包括一个或多个处理器核(未示出),其中每一个核可以利用指令抓取单元、指令解码器、一级(L1)高速缓存、执行单元等而是功能完整的。主机处理器54可以替换地经由互连系统62中的每一个组件的点对点构造或前侧总线而与iMC的片外变型(还称为北桥)通信。主机处理器54还可以执行操作系统(OS,未示出)。
所图示的主机处理器54经由总线与IO模块66(还称为南桥)通信。iMC/主机处理器54和IO模块66有时称为芯片集。主机处理器54还可以经由网络端口通过IO模块66和网络控制器68操作连接到网络(未示出)。因此,网络控制器68可以提供平台外通信功能以用于多种多样的目的,诸如有线通信或无线通信,包括但不限于蜂窝电话(例如宽带码分多址W-CDMA(全球移动电信系统/UMTS)、CDMA2000(IS-856/IS-2000)等)、Wi-Fi(无线保真,例如电气和电子工程师协会/IEEE 802.11,2007版本)、蓝牙(例如IEEE 802.15.1-2005,无线个域网)、WiMax(例如IEEE 802.16-2004)、全球定位系统(GPS)、扩展频谱(例如900MHz)和其它射频(RF)电话目的。IO模块66还可以与显示器70通信以提供视频、图像和其它内容的视觉输出/呈现。网络控制器68可以与IO模块66通信以提供对用户接口设备(未示出)的支持,所述用户接口设备诸如小键盘、鼠标等,以便允许用户与系统62交互和从系统62感知信息。
IO模块66还可以具有内部控制器(未示出),诸如USB(通用串行总线,例如USB规范2.0、USB实施者论坛)、串行ATA(SATA,例如SATA修订本3.0规范,2009年5月27日,SATA国际组织/SATA-IO)、高清晰度音频和其它控制器。所图示的IO模块66还耦合到大容量存储72,大容量存储72可以包括硬驱动、只读存储器(ROM)、光盘、闪速存储器等。
图形处理器52可以替换地耦合到专用图形存储器(未示出),其中专用图形存储器可以包括例如GDDR(图形DDR)或DDR SDRAM模块或适合于支持图形渲染的任何其它存储器技术。图形处理器52和图形存储器还可能安装在图形/视频卡上,其中图形处理器52可以经由图形总线与主机处理器54通信,所述图形总线诸如快速PCI图形(PEG,例如外围组件互连/PCI Express x16图形150W-ATX规范1.0,PCI特别兴趣小组)总线或加速图形端口(例如AGP V3.0接口规范,2002年9月)总线。图形卡和/或图形处理器52可以集成到系统母板上、配置为母板上的分立卡等。
图8图示了系统700的实施例。在实施例中,系统700可以是媒体系统,但是系统700不限于该上下文。例如,系统700可以被合并到个人计算机(PC)、膝上型计算机、超膝上型计算机、平板、触摸板、便携式计算机、手持式计算机、掌上计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话/PDA、电视、智能设备(例如智能电话、智能平板或智能电视)、移动互联网设备(MID)、消息传递设备、数据通信设备等中。因此,系统700可以用于进行如本文所描述的视图内插。
在实施例中,系统700包括耦合到呈现视觉内容的显示器720的平台702。平台702可以从诸如(一个或多个)内容服务设备730或(一个或多个)内容递送设备740之类的内容设备或者其它类似内容源接收视频比特流内容。包括一个或多个导航特征的导航控制器750可以用于与例如平台702和/或显示器720交互。以下更加详细地描述这些组件中的每一个。
在实施例中,平台702可以包括芯片集705、处理器710、存储器712、存储714、图形子系统715、应用716和/或无线电718(例如网络控制器)的任何组合。芯片集705可以提供处理器710、存储器712、存储714、图形子系统715、应用716和/或无线电718之间的相互通信。例如,芯片集705可以包括能够提供与存储714的相互通信的存储适配器(未描绘)。
处理器710可以被实现为复杂指令集计算机(CISC)或精简指令集计算机(RISC)处理器、x86指令集兼容处理器、多核或任何其它的微处理器或中央处理单元(CPU)。在实施例中,处理器710可以包括(一个或多个)双核处理器、(一个或多个)双核移动处理器等等。
存储器712可以被实现为易失性存储器设备,诸如但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)或静态RAM(SRAM)。
存储714可以被实现为非易失性存储设备,诸如但不限于磁盘驱动、光盘驱动、带驱动、内部存储设备、附接存储设备、闪速存储器、备有电池的SDRAM(同步DRAM)和/或可访问网络的存储设备。在实施例中,存储714可以包括用于当例如包括多个硬驱动时增加针对有价值数字媒体的存储性能增强保护的技术。
图形子系统715可以执行诸如静止图像之类的图像或视频的处理以用于显示。图形子系统715可以是例如图形处理单元(GPU)或视觉处理单元(VPU)。模拟或数字接口可以用于通信耦合图形子系统715和显示器720。例如,该接口可以是高清晰度多媒体接口、显示端口、无线HDMI和/或无线HD顺从技术中的任何。图形子系统715可以被集成到处理器710或芯片集705中。图形子系统715可以是通信耦合到芯片集705的独立卡。
本文描述的图形和/或视频处理技术可以被实现在各种硬件架构中。例如,图形和/或视频功能可以被集成在芯片集内。替换地,可以使用分立的图形和/或视频处理器。作为又一实施例,图形和/或视频功能可以由包括多核处理器的通用处理器来实现。在另一实施例中,功能可以被实现在消费者电子设备中。
无线电718可以是网络控制器,包括能够使用各种适合的无线通信技术发射和接收信号的一个或多个无线电。这样的技术可以涉及跨一个或多个无线网络的通信。示例性无线网络包括(但不限于)无线局域网(WLAN)、无线个域网(WPAN)、无线城域网(WMAN)、蜂窝网络和卫星网络。在跨这样的网络进行通信时,无线电718可以依照以任何版本的一个或多个适用标准进行操作。
在实施例中,显示器720可以包括任何电视类型监视器或显示器。显示器720可以包括例如计算机显示屏、触摸屏显示器、视频监视器、电视类设备和/或电视。显示器720可以是数字和/或模拟的。在实施例中,显示器720可以是全息显示器。显示器720还可以是可接收视觉投影的透明表面。这样的投影可以传达各种形式的信息、图像和/或对象。例如,这样的投影可以是用于移动增强现实(MAR)应用的视觉覆盖。在一个或多个软件应用716的控制之下,平台702可以在显示器720上显示用户界面722。
在实施例中,(一个或多个)内容服务设备730可以由任何国家、国际和/或独立服务来托管且因此经由例如互联网而对平台702来说可访问。(一个或多个)内容服务设备730可以耦合到平台702和/或显示器720。平台702和/或(一个或多个)内容服务设备730可以耦合到网络760以向网络760和从网络760传送(例如发送和/或接收)媒体信息。(一个或多个)内容递送设备740也可以耦合到平台702和/或显示器720。
在实施例中,(一个或多个)内容服务设备730可以包括有线电视盒、个人计算机、网络、电话、能够递送数字信息和/或内容的启用互联网的设备或电器、以及能够在内容提供商与平台702和/或显示器720之间经由网络760或直接地单向或双向传送内容的任何其它类似设备。将领会到,内容可以经由网络760而被单向和/或双向地传送到系统700中的组件和内容提供商中的任何一个以及从其传送。内容的示例可以包括任何媒体信息,包括例如视频、音乐、医疗和游戏信息等等。
(一个或多个)内容服务设备730接收包括媒体信息、数字信息和/或其它内容的诸如有线电视节目之类的内容。内容提供商的示例可以包括任何有线或卫星电视或者收音机或者互联网内容提供商。所提供的示例并不意在限制实施例。
在实施例中,平台702可以从具有一个或多个导航特征的导航控制器750接收控制信号。控制器750的导航特征可以被用于例如与用户界面722交互。在实施例中,导航控制器750可以是指点设备,其可以是允许用户将空间(例如连续且多维的)数据输入到计算机中的计算机硬件组件(特别地,人类接口设备)。诸如图形用户界面(GUI)之类的许多系统以及电视和监视器允许用户使用身体姿势控制数据并向计算机或电视提供数据。
控制器750的导航特征的移动可以通过在显示器上显示的指针、光标、聚焦环或其它视觉指示符的移动而被回送在显示器(例如显示器720)上。例如,在软件应用716的控制之下,位于导航控制器750上的导航特征可以被映射成在例如用户界面722上显示的虚拟导航特征。在实施例中,控制器750可能不是分离的组件,而是被集成到平台702和/或显示器720中。然而,实施例不限于本文示出或描述的元素或者不被限制在本文示出或描述的上下文中。
在实施例中,驱动器(未示出)可以包括使用户能够例如在初始启动之后(在被启用时)利用按钮触摸来即时开启和关闭像电视之类的平台702的技术。当平台被“关闭”时,程序逻辑可以允许平台702将内容流送到媒体适配器或(一个或多个)其它内容服务设备730或(一个或多个)内容递送设备740。此外,芯片集705可以包括针对例如5.1环绕声音频和/或高清晰度7.1环绕声音频的硬件和/或软件支持。驱动器可以包括用于集成图形平台的图形驱动器。在实施例中,图形驱动器可以包括高速外围组件互连(PCI)图形卡。
在各种实施例中,可以集成系统700中示出的组件中的任何一个或多个。例如,可以集成平台702和(一个或多个)内容服务设备730,或者可以集成平台702和(一个或多个)内容递送设备740,或者例如可以集成平台702、(一个或多个)内容服务设备730和(一个或多个)内容递送设备740。在各种实施例中,平台702和显示器720可以是集成单元。例如,可以集成显示器720和(一个或多个)内容服务设备730,或者可以集成显示器720和(一个或多个)内容递送设备740。这些示例不意在限制实施例。
在各种实施例中,系统700可以被实现为无线系统、有线系统或这二者的组合。当被实现为无线系统时,系统700可以包括适于通过无线共享介质进行通信的组件和接口,诸如一个或多个天线、发射器、接收器、收发器、放大器、滤波器、控制逻辑等等。无线共享介质的示例可以包括无线频谱的部分,诸如RF频谱等等。当被实现为有线系统时,系统700可以包括适于通过有线通信介质进行通信的组件和接口(诸如输入/输出(I/O)适配器)、将I/O适配器与对应的有线通信介质连接的物理连接器、网络接口卡(NIC)、盘控制器、视频控制器、音频控制器等等。有线通信介质的示例可以包括导线、线缆、金属引线、印刷电路板(PCB)、背板、开关构造、半导体材料、双绞线、同轴线缆、光纤等等。
平台702可以建立一个或多个逻辑或物理信道来传送信息。信息可以包括媒体信息和控制信息。媒体信息可以指代表示意在针对用户的内容的任何数据。内容的示例可以包括例如来自语音对话的数据、视频会议、流送视频、电子邮件(“电邮”)消息、语音邮件消息、字母数字符号、图形、图像、视频、文本等等。来自语音对话的数据可以是例如话音信息、静默时段、背景噪声、舒适噪声、音调等等。控制信息可以指代表示意在针对自动化系统的命令、指令或控制字的任何数据。例如,控制信息可以被用于将媒体信息路由通过系统或者指示节点以预定的方式处理媒体信息。然而,实施例不限于图8中示出或描述的元素或者不被限制在图8中示出或描述的上下文中。
如以上所描述的,系统700可以以变化的物理样式或形状因子体现。图9图示了其中可体现系统700的小形状因子设备800的实施例。在实施例中,例如,设备800可以被实现为具有无线能力的移动计算设备。例如,移动计算设备可以指代具有处理系统和诸如一个或多个电池之类的移动电力源或供给的任何设备。
如以上所描述的,移动计算设备的示例可以包括个人计算机(PC)、膝上型计算机、超膝上型计算机、平板、触摸板、便携式计算机、手持式计算机、掌上计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话/PDA、电视、智能设备(例如智能电话、智能平板或智能电视)、移动互联网设备(MID)、消息传递设备、数据通信设备等等。
移动计算设备的示例还可以包括被布置成由人穿戴的计算机,诸如手腕计算机、手指计算机、戒指计算机、眼镜计算机、腰带扣计算机、臂章计算机、鞋式计算机、衣物计算机以及其它可穿戴计算机。在实施例中,例如,移动计算设备可以被实现为能够执行计算机应用以及语音通信和/或数据通信的智能电话。尽管一些实施例可以被描述有通过示例的方式而被实现为智能电话的移动计算设备,但是可以领会到,也可以使用其它无线移动计算设备来实现其它实施例。实施例不限于该上下文中。
如图9中所示,设备800可以包括外壳802、显示器804、输入/输出(I/O)设备806以及天线808。设备800还可以包括导航特征812。显示器804可以包括用于显示适于移动计算设备的信息的任何适合的显示单元。I/O设备806可以包括用于将信息录入到移动计算设备中的任何适合的I/O设备。I/O设备806的示例可以包括字母数字键盘、数字键区、触摸板、输入键、按钮、开关、摇臂开关、麦克风、扬声器、语音识别设备和软件等等。还可以通过麦克风将信息录入到设备800中。这样的信息可以被语音识别设备数字化。实施例不限于该上下文中。
附加注释和示例:
示例1可以包括一种面部识别系统,包括存储输入图像的存储器设备、处理器,所述处理器包括接收输入图像的图像输入接口,对输入图像建模以得出多通道图像的预处理器,基于多通道图像提取特征集合的特征提取器,从多通道图像的特征集合选择一个或多个特征的特征选择器,其中所述一个或多个特征是基于区分特征的能力来选择的,将所述一个或多个特征匹配到已学习的特征集合的特征匹配器,以及确定所述一个或多个特征是否满足预定义的类似性阈值的类似性检测器。
示例2可以包括示例1的系统,其中预处理器还激活多通道图像的一个或多个通道以得出一个或多个经激活的通道。
示例3可以包括示例2的系统,其中所述一个或多个经激活的通道是基于其区分特征的能力而确定的。
示例4可以包括示例2的系统,其中预处理器还激活所述一个或多个经激活的通道的一个或多个局部面片。
示例5可以包括示例4的系统,其中所述一个或多个局部面片是基于其区分特征的能力而确定的。
示例6可以包括示例1至5中任何一个的系统,其中特征匹配器利用大规模数据学习过程来执行特征匹配。
示例7可以包括一种面部图像识别装置,包括接收输入图像的图像输入接口,对输入图像建模以得出多通道图像的预处理器,基于多通道图像提取特征集合的特征提取器,从多通道图像的特征集合选择一个或多个特征的特征选择器,其中所述一个或多个特征是基于区分特征的能力来选择的,将所述一个或多个特征匹配到已学习的特征集合的特征匹配器,以及确定所述一个或多个特征是否满足预定义的类似性阈值的类似性检测器。
示例8可以包括示例7的装置,其中预处理器还激活多通道图像的一个或多个通道以得出一个或多个经激活的通道。
示例9可以包括示例8的装置,其中所述一个或多个经激活的通道是基于其区分特征的能力而确定的。
示例10可以包括示例8的装置,其中预处理器还激活所述一个或多个经激活的通道的一个或多个局部面片。
示例11可以包括示例10的装置,其中所述一个或多个局部面片是基于其区分特征的能力而确定的。
示例12可以包括示例7至11中任何一个的装置,其中特征匹配器还利用大规模数据学习过程来执行特征匹配。
示例13可以包括一种识别面部图像的方法,包括对输入图像建模以得出多通道图像,基于多通道图像提取特征集合,从多通道图像的特征集合选择一个或多个特征,其中所述一个或多个特征是基于区分特征的能力来选择的,将所述一个或多个特征匹配到已学习的特征集合,以及确定所述一个或多个特征是否满足预定义的类似性阈值。
示例14可以包括示例13的方法,其中对输入图像建模还包括激活多通道图像的一个或多个通道以得出一个或多个经激活的通道。
示例15可以包括示例14的方法,其中所述一个或多个经激活的通道是基于其区分特征的能力而确定的。
示例16可以包括示例14的方法,其中提取输入图像的特征还包括激活所述一个或多个经激活的通道的一个或多个局部面片。
示例17可以包括示例16的方法,其中所述一个或多个局部面片是基于其区分特征的能力而确定的。
示例18可以包括示例13至17中任何一个的方法,其中特征匹配器利用大规模数据学习过程来执行特征匹配。
示例19可以包括至少一种包括指令集的计算机可读存储介质,所述指令集在由计算设备执行时,使得计算设备:对输入图像建模以得出多通道图像,基于多通道图像提取特征集合,从多通道图像的特征集合选择一个或多个特征,其中所述一个或多个特征是基于区分特征的能力来选择的,将所述一个或多个特征匹配到已学习的特征集合,以及确定所述一个或多个特征是否满足预定义的类似性阈值。
示例20可以包括示例19的至少一种计算机可读存储介质,其中所述指令在被执行时使得计算设备激活多通道图像的一个或多个通道以得出一个或多个经激活的通道。
示例21可以包括示例20的至少一种计算机可读存储介质,其中所述指令在被执行时使得计算设备基于所述一个或多个经激活的通道的区分特征的能力来确定所述一个或多个经激活的通道。
示例22可以包括示例20的至少一种计算机可读存储介质,其中提取输入图像的特征还包括激活所述一个或多个经激活的通道的一个或多个局部面片。
示例23可以包括示例22的至少一种计算机可读存储介质,其中所述一个或多个局部面片是基于其区分特征的能力而确定的。
示例24可以包括示例19至23中任何一个的至少一种计算机可读存储介质,其中特征匹配器还利用大规模数据学习过程来执行特征匹配。
示例25可以包括一种图像识别装置,包括用于对输入图像建模以得出多通道图像的部件,用于基于多通道图像提取特征集合的部件,用于从多通道图像的特征集合选择一个或多个特征的部件,其中所述一个或多个特征是基于区分特征的能力来选择的,用于将所述一个或多个特征匹配到已学习的特征集合的部件,以及用于确定所述一个或多个特征是否满足预定义的类似性阈值的部件。
示例26可以包括示例25的装置,其中对输入图像建模的部件还包括用于激活多通道图像的一个或多个通道以得出一个或多个经激活的通道的部件。
示例27可以包括示例26的装置,其中所述一个或多个经激活的通道是基于其区分特征的能力而确定的。
示例28可以包括示例26的装置,其中用于提取输入图像的特征的部件还包括用于激活所述一个或多个经激活的通道的一个或多个局部面片的部件。
示例29可以包括示例28的装置,其中所述一个或多个局部面片是基于其区分特征的能力而确定的。
示例30可以包括示例25至29中任何一个的装置,其中用于匹配特征的部件利用大规模数据学习过程来执行特征匹配。
本文所公开的技术可以提供快速且有效地确定面部图像中的匹配而同时还提供可以在具有有限系统资源的相对小的移动设备上执行的实现方式的方法。技术可以应用于可以受益于由面部识别提供的安全性和便利性的多种多样的应用。该技术可以被调整成当前和下一代处理器指令集架构,从而得到利用大数据集合(例如大数据)的能力并且潜在地提供可用的最快图像识别功能。
此外,技术可以提供适合于使用在各种应用(包括高、中和低级安全性)内和包括计算、凭证验证、受控访问、拘留、高体积图像搜索、安全和其它在内的各种行业中的质量安全应用。
可以使用硬件元件、软件元件或这二者的组合来实现各种实施例。硬件元件的示例可以包括处理器、微处理器、电路、电路元件(例如晶体管、电阻器、电容器、电感器等等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片集等等。软件的示例可以包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、进程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号或其任何组合。确定是否使用硬件元件和/或软件元件来实现实施例可以依照任何数目的因素而变化,诸如期望的计算速率、功率水平、耐热性、处理循环预算、输入数据速率、输出数据速率、存储器资源、数据总线速度和其它设计或性能约束。
至少一个实施例的一个或多个方面可以通过存储在机器可读介质上的代表指令实现,其表示处理器内的各种逻辑,该逻辑当被机器读取时使该机器构造用于执行本文所描述的技术的逻辑。称作“IP核”的这样的表示可以存储在有形、机器可读介质上且供给到各种客户或制造设施以加载到实际上制作逻辑或处理器的构造机器中。
实施例适用于与所有类型的半导体集成电路(“IC”)芯片一起使用。这些IC芯片的示例包括但不限于处理器、控制器、芯片集组件、可编程逻辑阵列(PLA)、存储器芯片、网络芯片等。此外,在附图中的一些中,信号导体线利用线来表示。一些可以是不同的,以指示更多构成信号路径,具有数字标记,以指示数个构成信号路径,和/或在一个或多个端部处具有箭头,以指示主要的信息流动方向。然而,这不应当以限制性方式来解释。而是,这样添加的细节可以结合一个或多个示例性实施例来使用以促进电路的更容易的理解。任何所表示的信号线,无论是否具有附加信息,都可以实际上包括可以在多个方向上行进并且可以利用任何合适类型的信号方案实现的一个或多个信号,例如利用差分对实现的数字或模拟线、光纤线和/或单端线。
可能给出了示例尺寸/模型/值/范围,但是实施例不限于此。随着制造技术(例如光刻)日趋成熟,预计到可以制造较小尺寸的设备。此外,去到IC芯片和其它组件的公知功率/接地连接可以在图中示出或者为了图示和讨论的简化并且以免使实施例的某些方面模糊而可以不在图中示出。另外,可能以框图形式示出布置以便避免使实施例模糊,并且还鉴于以下事实:关于这样的框图布置的实现方式的详情高度取决于实施例实现在其内的平台,即这样的详情应当良好地处于本领域技术人员的视界内。在阐述具体细节(例如电路)以便描述示例实施例的情况下,对本领域技术人员应当明显的是,实施例可以在没有这些具体细节或者在具有这些具体细节的变型的情况下实践。描述因而要被视为是说明性而非限制性的。
一些实施例可以例如使用可以存储指令或指令集的机器或有形计算机可读介质或制品来实现,所述指令或指令集如果由机器执行,可以使得机器实行依照实施例的方法和/或操作。这样的机器可以包括例如任何合适的处理平台、计算平台、计算设备、处理设备、计算系统、处理系统、计算机、处理器等,并且可以使用硬件和/或软件的任何合适的组合来实现。机器可读介质或制品可以包括例如任何合适类型的存储器单元、存储器设备、存储器制品、存储器介质、存储设备、存储制品、存储介质和/或存储单元,例如存储器、可移除或不可移除介质、可擦除或不可擦除介质、可写入或可重写介质、数字或模拟介质、硬盘、软盘、紧凑盘只读存储器(CD-ROM)、可记录紧凑盘(CD-R)、可重写紧凑盘(CD-RW)、光盘、磁性介质、磁光介质、可移除存储器卡或盘、各种类型的数字多功能盘(DVD)、磁带、磁盒等。指令可以包括使用任何合适的高级、低级、面向对象、视觉、经编译和/或解译的编程语言实现的任何合适类型的代码,诸如源代码、编译代码、解译代码、可执行代码、静态代码、动态代码、经加密的代码等。
除非另行具体陈述,否则可以领会到,诸如“处理”、“计算”、“运算”、“确定”等之类的术语是指计算机或计算系统或类似电子计算设备的动作和/或过程,其操纵表示为计算系统的寄存器和/或存储器内的物理量(例如电子)的数据和/或将所述数据变换成类似地表示为计算系统的存储器、寄存器或其它这样的信息存储、传输或显示设备内的物理量的其它数据。实施例不限于该上下文中。
术语“耦合”可以在本文中用于指代所讨论的组件之间的任何类型的关系,直接的或间接的,并且可以应用于电气、机械、流体、光学、电磁、机电或其它连接。此外,术语“第一”、“第二”等可以在本文中仅用于促进讨论,而不承载特定时间或时间前后含义,除非另行指示。
本领域技术人员将从前述描述领会到,实施例的宽泛技术可以以各种形式实现。因此,虽然结合其特定示例描述了该技术的实施例,但是实施例的真实范围不应当受限于此,因为基于研究附图、说明书和以下权利要求,其它修改将变得对技术实践者来说是显而易见的。
Claims (25)
1.一种系统,包括:
存储输入图像的存储器设备;
处理器,包括,
接收输入图像的图像输入接口,
对输入图像建模以得出多通道图像的预处理器,
基于多通道图像提取特征集合的特征提取器,
从多通道图像的特征集合选择一个或多个特征的特征选择器,其中所述一个或多个特征是基于区分特征的能力来选择的,
将所述一个或多个特征匹配到已学习的特征集合的特征匹配器,以及
确定所述一个或多个特征是否满足预定义的类似性阈值的类似性检测器。
2.根据权利要求1所述的系统,其中预处理器还激活多通道图像的一个或多个通道以得出一个或多个经激活的通道。
3.根据权利要求2所述的系统,其中所述一个或多个经激活的通道是基于其区分特征的能力而确定的。
4.根据权利要求2所述的系统,其中预处理器还激活所述一个或多个经激活的通道的一个或多个局部面片。
5.根据权利要求4所述的系统,其中所述一个或多个局部面片是基于其区分特征的能力而确定的。
6.根据权利要求1至5中任一项所述的系统,其中特征匹配器还利用大规模数据学习过程来执行特征匹配。
7.一种装置,包括:
接收输入图像的图像输入接口;
对输入图像建模以得出多通道图像的预处理器;
基于多通道图像提取特征集合的特征提取器;
从多通道图像的特征集合选择一个或多个特征的特征选择器,其中所述一个或多个特征是基于区分特征的能力来选择的;
将所述一个或多个特征匹配到已学习的特征集合的特征匹配器;以及
确定所述一个或多个特征是否满足预定义的类似性阈值的类似性检测器。
8.根据权利要求7所述的装置,其中预处理器还激活多通道图像的一个或多个通道以得出一个或多个经激活的通道。
9.根据权利要求8所述的装置,其中所述一个或多个经激活的通道是基于其区分特征的能力而确定的。
10.根据权利要求8所述的装置,其中预处理器还激活所述一个或多个经激活的通道的一个或多个局部面片。
11.根据权利要求10所述的装置,其中所述一个或多个局部面片是基于其区分特征的能力而确定的。
12.根据权利要求7至11中任一项所述的装置,其中特征匹配器还利用大规模数据学习过程来执行特征匹配。
13.一种方法,包括:
对输入图像建模以得出多通道图像;
基于多通道图像提取特征集合;
从多通道图像的特征集合选择一个或多个特征,其中所述一个或多个特征是基于区分特征的能力来选择的;
将所述一个或多个特征匹配到已学习的特征集合;以及
确定所述一个或多个特征是否满足预定义的类似性阈值。
14.根据权利要求13所述的方法,其中对输入图像建模还包括激活多通道图像的一个或多个通道以得出一个或多个经激活的通道。
15.根据权利要求14所述的方法,其中所述一个或多个经激活的通道是基于其区分特征的能力而确定的。
16.根据权利要求13所述的方法,其中提取输入图像的特征还包括激活所述一个或多个经激活的通道的一个或多个局部面片。
17.根据权利要求16所述的方法,其中所述一个或多个局部面片是基于其区分特征的能力而确定的。
18.根据权利要求13至17中任一项所述的方法,其中特征匹配器利用大规模数据学习过程来执行特征匹配。
19.包括指令集的至少一种计算机可读存储介质,所述指令集在由计算设备执行时,使得计算设备:
对输入图像建模以得出多通道图像;
基于多通道图像提取特征集合;
从多通道图像的特征集合选择一个或多个特征,其中所述一个或多个特征是基于区分特征的能力来选择的;
将所述一个或多个特征匹配到已学习的特征集合;以及
确定所述一个或多个特征是否满足预定义的类似性阈值。
20.根据权利要求19所述的至少一种计算机可读存储介质,其中所述指令在被执行时使得计算设备激活多通道图像的一个或多个通道以得出一个或多个经激活的通道。
21.根据权利要求20所述的至少一种计算机可读存储介质,其中所述指令在被执行时使得计算设备基于所述一个或多个经激活的通道的区分特征的能力来确定所述一个或多个经激活的通道。
22.根据权利要求20所述的至少一种计算机可读存储介质,其中提取输入图像的特征还包括激活所述一个或多个经激活的通道的一个或多个局部面片。
23.根据权利要求22所述的至少一种计算机可读存储介质,其中所述一个或多个局部面片是基于其区分特征的能力而确定的。
24.根据权利要求19至23中任一项所述的至少一种计算机可读存储介质,其中特征匹配器还利用大规模数据学习过程来执行特征匹配。
25.一种装置,包括:
用于对输入图像建模以得出多通道图像的部件,
用于基于多通道图像提取特征集合的部件,
用于从多通道图像的特征集合选择一个或多个特征的部件,其中所述一个或多个特征是基于区分特征的能力来选择的,
用于将所述一个或多个特征匹配到已学习的特征集合的部件,以及
用于确定所述一个或多个特征是否满足预定义的类似性阈值的部件。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2015/075190 WO2016154781A1 (en) | 2015-03-27 | 2015-03-27 | Low-cost face recognition using gaussian receptive field features |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107430678A true CN107430678A (zh) | 2017-12-01 |
Family
ID=57006454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580078349.XA Pending CN107430678A (zh) | 2015-03-27 | 2015-03-27 | 使用高斯接收场特征的低成本面部识别 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10872230B2 (zh) |
EP (1) | EP3274909A4 (zh) |
CN (1) | CN107430678A (zh) |
WO (1) | WO2016154781A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113412490A (zh) * | 2019-02-05 | 2021-09-17 | 努门塔公司 | 基于感觉运动输入数据的推理和学习 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10192162B2 (en) * | 2015-05-21 | 2019-01-29 | Google Llc | Vector computation unit in a neural network processor |
US10671837B2 (en) | 2015-09-08 | 2020-06-02 | Nec Corporation | Face recognition system, face recognition method, display control apparatus, display control method, and display control program |
CN107527029A (zh) * | 2017-08-18 | 2017-12-29 | 卫晨 | 一种改进的Faster R‑CNN人脸检测方法 |
CN108108711B (zh) * | 2017-12-29 | 2019-12-17 | 深圳云天励飞技术有限公司 | 人脸布控方法、电子设备及存储介质 |
CN110222700A (zh) * | 2019-05-30 | 2019-09-10 | 五邑大学 | 基于多尺度特征与宽度学习的sar图像识别方法及装置 |
CN110879972B (zh) * | 2019-10-24 | 2022-07-26 | 深圳云天励飞技术有限公司 | 一种人脸检测方法及装置 |
TWI718750B (zh) | 2019-11-07 | 2021-02-11 | 國立中央大學 | 來源分離方法、裝置及非暫態電腦可讀取媒體 |
US11687778B2 (en) | 2020-01-06 | 2023-06-27 | The Research Foundation For The State University Of New York | Fakecatcher: detection of synthetic portrait videos using biological signals |
CN111507386B (zh) * | 2020-04-09 | 2023-05-02 | 中国科学院声学研究所南海研究站 | 一种存储文件及网络数据流加密通信检测方法及系统 |
CN112948779B (zh) * | 2020-12-10 | 2022-12-13 | 四川警察学院 | 基于前端获取的多级共享人像大数据系统 |
KR102577276B1 (ko) * | 2022-03-16 | 2023-09-08 | 한국교통대학교산학협력단 | 손바닥 정보 기반 다차원 생체인증장치 및 그 동작 방법 |
CN115798004A (zh) * | 2022-11-27 | 2023-03-14 | 深圳市巨龙创视科技有限公司 | 基于局部区域的人脸打卡方法、装置、电子设备及介质 |
CN116664450A (zh) * | 2023-07-26 | 2023-08-29 | 国网浙江省电力有限公司信息通信分公司 | 基于扩散模型的图像增强方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521581A (zh) * | 2011-12-22 | 2012-06-27 | 刘翔 | 结合生物特征与局部图像特征的并行人脸识别方法 |
CN102968626A (zh) * | 2012-12-19 | 2013-03-13 | 中国电子科技集团公司第三研究所 | 一种人脸图像匹配的方法 |
CN103460250A (zh) * | 2011-04-11 | 2013-12-18 | 英特尔公司 | 基于感兴趣对象的图像处理 |
KR101434533B1 (ko) * | 2013-06-25 | 2014-08-27 | 엔그램테크놀로지(주) | 손가락 동작인식 기반의 카메라 촬영 시스템 및 그 방법 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7657126B2 (en) * | 2005-05-09 | 2010-02-02 | Like.Com | System and method for search portions of objects in images and features thereof |
CN101419671B (zh) | 2008-11-10 | 2011-05-18 | 北方工业大学 | 基于模糊支持向量机的人脸性别识别方法 |
TWI453680B (zh) * | 2010-10-08 | 2014-09-21 | Micro Star Int Co Ltd | 可抑制雜訊及環境影響之臉部辨識方法 |
CN102096823A (zh) | 2011-02-12 | 2011-06-15 | 厦门大学 | 基于高斯模型和最小均方差的人脸检测方法 |
US8948500B2 (en) * | 2012-05-31 | 2015-02-03 | Seiko Epson Corporation | Method of automatically training a classifier hierarchy by dynamic grouping the training samples |
CN103345624A (zh) | 2013-07-15 | 2013-10-09 | 武汉大学 | 一种多通道脉冲耦合神经网络的加权特征人脸识别方法 |
IL231862A (en) * | 2014-04-01 | 2015-04-30 | Superfish Ltd | Image representation using a neural network |
-
2015
- 2015-03-27 CN CN201580078349.XA patent/CN107430678A/zh active Pending
- 2015-03-27 EP EP15886768.9A patent/EP3274909A4/en not_active Ceased
- 2015-03-27 WO PCT/CN2015/075190 patent/WO2016154781A1/en active Application Filing
- 2015-03-27 US US15/562,133 patent/US10872230B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103460250A (zh) * | 2011-04-11 | 2013-12-18 | 英特尔公司 | 基于感兴趣对象的图像处理 |
CN102521581A (zh) * | 2011-12-22 | 2012-06-27 | 刘翔 | 结合生物特征与局部图像特征的并行人脸识别方法 |
CN102968626A (zh) * | 2012-12-19 | 2013-03-13 | 中国电子科技集团公司第三研究所 | 一种人脸图像匹配的方法 |
KR101434533B1 (ko) * | 2013-06-25 | 2014-08-27 | 엔그램테크놀로지(주) | 손가락 동작인식 기반의 카메라 촬영 시스템 및 그 방법 |
Non-Patent Citations (1)
Title |
---|
JIANGUO LI 等: "Large-scale Supervised Hierarchical Feature Learning for Face Recognition", 《ARXIV:1407.1490V1 [CS.CV]》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113412490A (zh) * | 2019-02-05 | 2021-09-17 | 努门塔公司 | 基于感觉运动输入数据的推理和学习 |
Also Published As
Publication number | Publication date |
---|---|
US10872230B2 (en) | 2020-12-22 |
WO2016154781A1 (en) | 2016-10-06 |
EP3274909A4 (en) | 2018-11-21 |
EP3274909A1 (en) | 2018-01-31 |
US20180082107A1 (en) | 2018-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107430678A (zh) | 使用高斯接收场特征的低成本面部识别 | |
CN108229298A (zh) | 神经网络的训练和人脸识别方法及装置、设备、存储介质 | |
KR20130071341A (ko) | 안면 특징 벡터 구성 | |
CN104915673B (zh) | 一种基于视觉词袋模型的目标分类方法和系统 | |
CN105809125A (zh) | 基于多核心arm平台的人脸识别系统 | |
CN106687989A (zh) | 使用标志子集内的线性关系进行面部表情识别的方法和系统 | |
Zeng et al. | Towards resolution invariant face recognition in uncontrolled scenarios | |
Pratama et al. | Face recognition for presence system by using residual networks-50 architecture | |
Gupta et al. | Single attribute and multi attribute facial gender and age estimation | |
CN109255289A (zh) | 一种基于统一式生成模型的跨衰老人脸识别方法 | |
Fang et al. | Generate to adapt: Resolution adaption network for surveillance face recognition | |
Li et al. | Dating ancient paintings of Mogao Grottoes using deeply learnt visual codes | |
Li et al. | Online metric-weighted linear representations for robust visual tracking | |
CN107967461A (zh) | Svm 差分模型训练及人脸验证方法、装置、终端及存储介质 | |
Agbo-Ajala et al. | A lightweight convolutional neural network for real and apparent age estimation in unconstrained face images | |
Yang et al. | Virtual microscopy and grid-enabled decision support for large-scale analysis of imaged pathology specimens | |
US10163000B2 (en) | Method and apparatus for determining type of movement of object in video | |
Bu et al. | Multimodal feature fusion for 3D shape recognition and retrieval | |
Wu et al. | Hierarchical dynamic depth projected difference images–based action recognition in videos with convolutional neural networks | |
Sadeghzadeh et al. | Triplet loss-based convolutional neural network for static sign language recognition | |
CN114299590B (zh) | 人脸补全模型的训练方法、人脸补全方法及系统 | |
Balachandar et al. | Deep learning technique based visually impaired people using YOLO V3 framework mechanism | |
Dong et al. | A supervised dictionary learning and discriminative weighting model for action recognition | |
Yadav et al. | End-to-end bare-hand localization system for human–computer interaction: a comprehensive analysis and viable solution | |
Si | Analysis of calligraphy Chinese character recognition technology based on deep learning and computer-aided technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |