CN110728359B

CN110728359B - 搜索模型结构的方法、装置、设备和存储介质

Info

Publication number: CN110728359B
Application number: CN201910960380.6A
Authority: CN
Inventors: 希滕; 姜志超; 张刚; 温圣召
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2022-04-26
Anticipated expiration: 2039-10-10
Also published as: CN110728359A

Abstract

本申请公开了搜索模型结构的方法、装置、设备和计算机可读存储介质，涉及人工智能领域。该方法包括确定能够基于人脸图像来预测人脸关键点的信息的模型结构搜索空间。该模型结构搜索空间包括多个候选模型结构，其中每个候选模型结构指示将从人脸图像得到的多个特征图融合成用于预测人脸关键点的信息的输出特征图的融合方式，以及在融合中应用于多个特征图的相应操作。该方法还包括在该模型结构搜索空间中搜索适合用于预测特定类型的人脸关键点的信息的模型结构。本公开的实施例能够自动搜索适合用于人脸关键点预测任务的最优模型结构。

Description

搜索模型结构的方法、装置、设备和存储介质

技术领域

本公开的实施例主要涉及人工智能领域，并且更具体地，涉及用于搜索模型结构的方法、装置、设备和计算机可读存储介质。

背景技术

近年来，深度学习技术在很多方向上都取得了巨大的成功。在深度学习技术中，模型结构(即，人工神经网络的结构)的好坏对最终模型的效果有非常重要的影响。由人工设计神经网络结构往往需要设计者具有非常丰富的经验和尝试非常多的组合方式。由于众多网络参数会产生非常多的组合方式，常规的随机搜索几乎是不可行。因此，最近几年神经网络架构搜索技术(Neural Architecture Search，简称NAS)成为研究热点，其利用算法代替繁琐的人工操作来自动搜索最佳的神经网络架构。

基于人脸图像来预测人脸关键点的信息(例如，人脸关键点在人脸图像中的位置和/或其所对应的深度)非常有挑战性。现有的人工设计的模型结构不能很好的解决这一问题，且人工设计的模型结构非常复杂，难以在低成本设备(诸如，手机)上实现实时预测。现有的模型结构自动搜索方法主要针对分类问题，无法直接应用于人脸关键点预测问题的模型结构自动搜索。

发明内容

根据本公开的示例实施例，提供了一种用于搜索模型结构的方案。

在本公开的第一方面中，提供了一种用于搜索模型结构的方法。该方法包括确定能够基于人脸图像来预测人脸关键点的信息的模型结构搜索空间，该模型结构搜索空间包括多个候选模型结构，其中每个候选模型结构指示将从人脸图像得到的多个特征图融合成用于预测人脸关键点的信息的输出特征图的融合方式，以及在融合中应用于多个特征图的相应操作。该方法还包括基于特定人脸关键点的类型，在模型结构搜索空间中搜索适合用于基于人脸图像来预测该特定人脸关键点的信息的模型结构。

在本公开的第二方面中，提供了一种用于搜索模型结构的装置。该装置包括搜索空间确定模块，被配置为确定能够基于人脸图像来预测人脸关键点的信息的模型结构搜索空间，该模型结构搜索空间包括多个候选模型结构，其中每个候选模型结构指示将从人脸图像得到的多个特征图融合成用于预测人脸关键点的信息的输出特征图的融合方式，以及在融合中应用于多个特征图的相应操作。该装置还包括模型结构搜索模块，被配置为基于特定人脸关键点的类型，在模型结构搜索空间中搜索适合用于基于人脸图像来预测该特定人脸关键点的信息的模型结构。

在本公开的第三方面中，提供了一种计算设备，包括一个或多个处理器；以及存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行使，使得该计算设备实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了本公开的多个实施例能够在其中实现的示例系统的示意图；

图2A示出了根据本公开的一些实施例的人脸图像中的稀疏关键点的示意图；

图2B示出了根据本公开的一些实施例的人脸图像中的稠密关键点的示意图；

图3示出了根据本公开的一些实施例的用于搜索模型结构的示例方法的流程图；

图4示出了根据本公开的一些实施例的针对人脸关键点检测问题的示例模型结构搜索空间的示意图；

图5示出了根据本公开的一些实施例的用于在模型结构搜索空间中搜索模型结构的示例方法的流程图；

图6出了根据本公开的一些实施例的从模型结构搜索空间中搜索到的示例模型结构的示意图；

图7示出了根据本公开的实施例的用于搜索模型结构的装置的示意框图；以及

图8示出了能够实施本公开的多个实施例的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

在本公开的实施例的描述中，“模型”可以从训练数据中学习到相应的输入与输出之间的关联，从而在训练完成后可以针对给定的输入，生成对应的输出。例如，神经网络模型被构造为包括多个神经元，每个神经元根据训练获得的参数来处理输入，并产生输出。所有神经元的参数组成神经网络模型的参数集。当神经网络模型的参数集被确定时，该模型可以被运行以执行相应功能。在本文中，术语“神经网络”、“神经网络模型”、“模型”和“网络”可替换地使用。

如以上提及的，基于人脸图像来预测人脸关键点的信息(例如，在人脸图像中定位出人脸关键点的位置并预测其深度)非常有挑战性。现有的人工设计的模型结构不能很好的解决这一问题，且人工设计的模型结构非常复杂，难以在低成本设备(诸如，手机)上实现实时预测。现有的模型结构自动搜索方法主要针对分类问题，无法直接应用于人脸关键点预测问题的模型结构自动搜索。

根据本公开的实施例，提出了一种用于针对人脸关键点预测问题的模型结构自动搜索方案。该方案确定能够基于人脸图像来预测人脸关键点的信息的模型结构搜索空间。该模型结构搜索空间包括多个候选模型结构，其中每个候选模型结构指示将从人脸图像得到的多个特征图融合成用于预测人脸关键点的信息的输出特征图的融合方式，以及在融合中应用于多个特征图的相应操作。然后，基于特定人脸关键点的类型，在该模型结构搜索空间中搜索适合用于预测该特定人脸关键点的信息的模型结构。该方案能够自动搜索适合用于人脸关键点预测任务的最优模型结构，从而提高人脸关键点预测的效率和准确性。

以下将参照附图来具体描述本公开的实施例。图1示出了本公开的多个实施例能够在其中实现的示例系统100的示意图。如图1所示，系统100可以包括模型结构搜索装置110、模型训练装置120和模型应用装置130。模型结构搜索装置110、模型训练装置120和模型应用装置130可以被实现在同一物理设备中，或者被单独地实现在不同的物理设备中。应当理解，在图1中仅出于示例性的目的描述系统100的结构和功能，而不暗示对于本公开的范围的任何限制。本公开的实施例还可以被应用到具有不同的结构和/或功能的系统中。

模型结构搜索装置110可以实现模型结构的自动搜索。如图1所示，针对人脸关键点预测问题(例如，在人脸图像中定位出人脸关键点的位置并预测其深度)，模型结构搜索装置110可以确定模型结构搜索空间，并且在模型结构搜索空间中搜索适合用于基于人脸图像来预测人脸关键点101的信息的模型结构102。

在一些实施例中，模型结构搜索空间可以包括能够用于人脸关键点预测的多个候选模型结构，其中每个候选模型结构指示将从人脸图像得到的多个特征图融合成用于预测人脸关键点的信息的输出特征图的融合方式，以及在融合中应用于多个特征图的相应操作。在一些实施例中，人脸关键点101例如可以是用于勾勒人脸轮廓和/或五官的稀疏关键点，例如如图2A中所示。备选地，人脸关键点101例如也可以是用于描绘人脸细节的稠密关键点，例如如图2B中所示。在一些实施例中，所预测的人脸关键点101的信息可以包括人脸关键点101在人脸图像中的位置和/或其所对应的深度。在一些实施例中，模型结构搜索装置110可以基于人脸关键点101的类型(例如，人脸关键点101是稀疏关键点还是稠密关键点)来在模型结构搜索空间中搜索适合用于预测该类型的人脸关键点的信息的模型结构102。

由模型结构搜索装置110搜索到的模型结构102可以被提供给模型训练装置120进行训练。模型训练装置120可以基于训练数据103并且利用模型结构102进行训练，以得到经训练的模型104。例如，针对人脸关键点预测问题，训练数据103可以包括多个训练图像和关于每个训练图像中的人脸关键点101的真实信息(例如，真实位置和真实深度)。经训练的模型104可以基于任意人脸图像来预测该人脸图像中的人脸关键点101的信息。

由模型训练装置120基于模型结构102而训练得到的模型104可以被提供给模型应用装置130。模型应用装置130可以利用模型104来预测人脸图像105中的人脸关键点101的信息，并生成预测结果106。预测结果106可以指示人脸关键点101在输入图像105中的位置和/或其所对应的深度。

图3示出了根据本公开的一些实施例的用于搜索模型结构的示例方法300的流程图。过程300可以由如图1所示的模型结构搜索装置110来实现。应当理解，方法300还可以包括未示出的附加框和/或可以省略所示出的框。本公开的范围在此方面不受限制。

在框310处，模型结构搜索装置110确定能够基于人脸图像来预测人脸关键点的信息的模型结构搜索空间。

在一些实施例中，模型结构搜索空间可以包括能够基于人脸图像来预测人脸关键点的信息的多个候选模型结构，其中每个候选模型结构指示将从人脸图像得到的多个特征图融合成用于预测人脸关键点的信息的输出特征图的融合方式，以及在融合中应用于多个特征图的相应操作。

图4示出了根据本公开的一些实施例的针对人脸关键点检测问题的示例模型结构搜索空间400的示意图。在模型结构搜索空间400中，示出了原始人脸图像(图4中未示出)经过各种特征变换以及融合而可能得到的特征图401～416。例如，特征图401～416可以被分为输入特征图401、中间特征图402～408和410～416、以及输出特征图409。

在一些实施例中，输入特征图401例如可以是原始人脸图像经过预处理(例如，下采样和卷积操作)而得到的特征图。例如，假设原始图像为RGB图像，其尺度为256*256*3(即，长为256像素，宽为256像素，通道数为3)，经过预处理而得到的特征图401的尺度为64*64*M(即，长为64像素，宽为64像素，通道数为M)。在此所述的“尺度”由图像的长度、宽度和通道数(也称为“维度”)来表示。

在一些实施例中，输出特征图409的尺度例如为64*64*N，其与输入特征图401具有相同的尺寸但是可能具有不同的通道数。输出特征图409可以经过与针对原始图像执行的预处理相对应的后处理(例如，双线性插值)而得到尺度为256*256*N的输出数据(图4中未示出)，以指示所预测的人脸关键点的信息。例如，以二维人脸关键点为例(也即，仅需要预测该人脸关键点在人脸图像中的位置)，输出数据可以指示人脸图像中的多个人脸关键点的二维坐标(例如，x坐标和y坐标)。以三维人脸关键点为例(也即，需要预测该人脸关键点在人脸图像中的位置及其对应的深度)，输出数据可以指示人脸图像中的多个人脸关键点的三维坐标(例如，uv空间中的u坐标和v坐标、以及深度)。

图4中的每个实线箭头指示下采样(例如，2倍下采样)及卷积操作。经过该操作，特征图的长和宽分别减小至原来的1/2。应当理解，图4中的每个实线箭头所指示的卷积操作可以是相同的、或者不同的(例如，卷积核不同)。类似地，图4中的每个虚线箭头指示上采样(例如，2倍上采样)及卷积操作。经过该操作，特征图的长和宽分别增加至原来的2倍。应当理解，图4中的每个虚线箭头所指示的卷积操作可以是相同的、或者不同的(例如，卷积核不同)。图4中的每个点划线箭头指示卷积操作，而不包括上采样或下采样操作。也即，经过该操作，特征图的长和宽保持不变。应当理解，图4中的每个点划线箭头所指示的卷积操作可以是相同的、或者不同的(例如，卷积核不同)。图4中的各个实线箭头、虚线箭头和点划线箭头示出了将从原始人脸图像得到的各种尺度的特征图融合成用于预测人脸关键点的信息的输出特征图409的所有可能的融合方式，以及在融合过程中应用于各种尺度的特征图的相应操作(例如，卷积操作)。

从图4所示的模型结构搜索空间400可以看出，为了得到输出特征图409，选择中间特征图402～408和410～416中的哪些中间特征图进行融合、所选择的中间特征图以何种拓扑结构进行连接、以及在融合时分别对这些特征图执行哪些操作可能存在很多种组合方式。每一种组合方式将构成模型结构搜索空间400中的一种候选模型结构。

返回到图3，在框320处，模型结构搜索装置110基于特定人脸关键点的类型，在模型结构搜索空间中搜索适合用于基于人脸图像来预测该特定人脸关键点的信息的模型结构。

在一些实施例中，特定人脸关键点可以是用于勾勒人脸轮廓和/或五官的稀疏关键点，如图2A所示。备选地，在另一些实施例中，特定人脸关键点可以是用于描绘人脸细节的稠密关键点，如图2B所示。模型结构搜索装置110可以基于特定人脸关键点的类型，在如图4所示的模型结构搜索空间400中搜索适合用于基于人脸图像来预测该特定人脸关键点的信息的模型结构。

图5示出了根据本公开的一些实施例的用于在模型结构搜索空间中搜索模型结构的示例方法500的流程图。方法500例如可以被视为如图3所示的框320的一种示例实现方式。应当理解，方法500还可以包括未示出的附加框和/或可以省略所示出的框。本公开的范围在此方面不受限制。

在框510处，模型结构搜索装置110将模型结构搜索空间所包括的多个候选模型结构之一选择作为种子模型结构。在一些实施例中，种子模型结构可以是随机选择的。

在框520处，模型结构搜索装置110确定用于种子模型结构的模型转移概率。

在一些实施例中，模型转移概率可以指示种子模型结构经过一次转换而被转换成模型结构搜索空间所包括的多个候选模型结构中的每个候选模型结构的相应概率。在此所述的“转换”指代改变种子模型结构中所涉及的一个或多个特征图的融合方式和/或向其应用的操作。例如，假设模型结构搜索空间中包括与种子模型结构不同的第一候选模型结构和第二候选模型结构。在初始情况下，模型结构搜索装置110可以对模型转移概率进行初始化，以使得种子模型结构经过一次转换而被转换成第一候选模型结构的概率和被转换成第二候选模型结构的概率相等。

然后，模型结构搜索装置110可以迭代地执行框530～框560，直到迭代终止条件被满足。

在框530处，模型结构搜索装置110基于种子模型结构和模型转移概率，生成一组候选模型结构。例如，所生成的该组候选模型结构被包括在模型结构搜索空间所包括的多个候选模型结构之中。

在一些实施例中，模型结构搜索装置110可以首先确定待生成的候选模型结构的数量。然后，模型结构搜索装置110可以通过对种子模型结构进行该数量次的转换，来生成一组候选模型结构。由于在初始情况下，种子模型结构经过一次转换而被转换成不同候选模型结构的概率相等，因此最初生成的这组候选模型结构可以是从模型结构搜索空间中任意选择的。

在框540处，模型结构搜索装置110确定该组候选模型结构的性能指标。在一些实施例中，针对该组候选模型结构中的每个候选模型结构，可以利用该候选模型结构来训练用于预测特定人脸关键点的信息的模型。可以利用经训练的模型来执行人脸关键点预测任务(例如，在人脸图像中定位出特定人脸关键点的位置并预测其深度)，以得到预测结果。通过将预测结果与该人脸图像的特定人脸关键点的真实信息进行比较，可以确定该模型的性能指标(例如，预测的准确率等)。所确定的性能指标可以被视为该候选模型结构的性能指标。以此方式，模型结构搜索装置110能够确定该组候选模型结构中的每个候选模型结构的性能指标。

在框550处，模型结构搜索装置110确定迭代终止条件是否被满足。在一些实施例中，迭代终止条件可以包括以下之一：迭代次数达到阈值次数；或者两次迭代中所选的候选模型结构的性能指标变化量低于阈值(也即，收敛)。

如果迭代终止条件不满足，则方法500进行至框560处，其中模型结构搜索装置110基于该组候选模型结构的性能指标，更新模型转移概率。

在一些实施例中，模型结构搜索装置110可以按照该组候选模型结构的性能指标对该组候选模型结构进行排名。模型结构搜索装置110可以基于排名结构，来更新与该组候选模型结构中的每个候选模型结构相关联的模型转移概率，其中与性能指标更好的候选模型结构相关联的模型转移概率将被更新为超过与性能指标更差的候选模型结构相关联的模型转移概率。例如，该组候选模型结构中包括第三候选模型结构和第四候选模型结构，并且第三候选模型结构的性能指标优于第四候选模型的性能指标。在一些实施例中，模型结构搜索装置110可以更新模型转移概率，以使得种子模型结构经过一次转换而被转换成第三候选模型结构的概率超过被转换成第四候选模型结构的概率。

响应于模型转移概率被更新，方法500进行至框530，以进行下一次迭代。以此方式，所选的候选模型结构的性能指标能够越来越好，直到满足迭代终止条件为止。

如果在框550处确定迭代终止条件被满足，则方法500进行至框570，其中模型结构搜索装置110从该组候选模型结构中选择性能指标最好的候选模型结构作为最终模型结构(例如，如图1所示的模型结构102)。

图6出了根据本公开的一些实施例的从如图4所示的模型结构搜索空间400搜索到的示例模型结构600的示意图。例如，示例模型结构600是模型结构搜索装置110通过执行如图3所示的方法300而得到的。

如图6所示，特征图401经过2倍下采样和卷积操作f4被转换成特征图402，特征图402经过2倍下采样和卷积操作f5被转换成特征图403，特征图403经过2倍下采样和卷积操作f6被转换成特征图404，特征图404经过2倍下采样和卷积操作f7被转换成特征图405。特征图404和特征图405被融合成特征图406，其中在融合过程中对特征图404执行卷积操作f3并且对特征图405执行2倍上采样和卷积操作f11。特征图403和特征图406被融合成特征图407，其中在融合过程中对特征图403执行卷积操作f2并且对特征图406执行2倍上采样和卷积操作f10。特征图402和特征图407被融合成特征图408，其中在融合过程中对特征图402执行卷积操作f1并且对特征图407执行2倍上采样和卷积操作f9。最终，输入特征图401和特征图408被融合成输出特征图409，其中在融合过程中对特征图401执行卷积操作f0并且对特征图408执行2倍上采样和卷积操作f8。

通过以上描述能够看出，本公开的实施例提出了一种用于针对人脸关键点预测问题的模型结构自动搜索方案。该方案能够确定基于人脸图像来预测人脸关键点的信息的模型结构搜索空间。该模型结构搜索空间包括多个候选模型结构，其中每个候选模型结构指示将从人脸图像得到的多个特征图融合成用于预测人脸关键点的信息的输出特征图的融合方式，以及在融合中应用于多个特征图的相应操作。然后，基于特定人脸关键点的类型，在该模型结构搜索空间中搜索适合用于预测该特定人脸关键点的信息的模型结构。本公开的实施例能够自动搜索适合用于人脸关键点预测任务的最优模型结构，从而提高人脸关键点预测的效率和准确性。

图7示出了根据本公开实施例的用于搜索模型结构的装置700的示意性框图。装置700可以被包括在如图1所示的模型结构搜索装置110中或者被实现为模型结构搜索装置110。如图7所示，装置700可以包括搜索空间确定模块710，被配置为确定能够基于人脸图像来预测人脸关键点的信息的模型结构搜索空间，该模型结构搜索空间包括多个候选模型结构，其中每个候选模型结构指示将从人脸图像得到的多个特征图融合成用于预测人脸关键点的信息的输出特征图的融合方式，以及在融合中应用于多个特征图的相应操作。装置700还可以包括模型结构搜索模块720，被配置为基于特定人脸关键点的类型，在模型结构搜索空间中搜索适合用于基于人脸图像来预测该特定人脸关键点的信息的模型结构。

在一些实施例中，特定人脸关键点包括用于勾勒人脸轮廓和/或五官的稀疏关键点。

在一些实施例中，特定人脸关键点包括用于描绘人脸细节的稠密关键点。

在一些实施例中，特定人脸关键点的信息包括以下至少一项：特定人脸关键点在人脸图像中的位置；以及特定人脸关键点所对应的深度。

在一些实施例中，模型结构搜索模块还包括：种子选择单元，被配置为选择多个候选模型结构之一作为种子模型结构；概率确定单元，被配置为确定用于种子模型结构的模型转移概率，该模型转移概率指示种子模型结构经过一次转换而被转换成多个候选模型结构中的每个候选模型结构的相应概率；迭代单元，被配置为迭代地执行以下操作，直到迭代终止条件被满足：基于种子模型结构和模型转移概率，生成一组候选模型结构；确定一组候选模型结构的性能指标；以及响应于迭代终止条件未被满足，基于一组候选模型结构的性能指标，更新模型转移概率；以及模型结构确定单元，被配置为响应于迭代终止条件被满足，将一组候选模型结构中性能指标最好的候选模型结构确定为模型结构。

在一些实施例中，迭代终止条件包括以下之一：迭代次数达到阈值次数；或者一组候选模型结构的性能指标变化量低于阈值。

在一些实施例中，多个候选模型结构包括第一候选模型结构和第二候选模型结构，并且概率确定单元还被配置为：初始化模型转移概率，以使得种子模型结构经过一次转换而被转换成第一候选模型结构的概率与被转换成第二候选模型结构的概率相等。

在一些实施例中，迭代单元还被配置为：确定待生成的候选模型结构的数量；以及通过对种子模型结构进行该数量的转换，来生成一组候选模型结构。

在一些实施例中，一组候选模型结构包括第三候选模型结构和第四候选模型结构，第三候选模型结构的性能指标优于第四候选模型结构的性能指标，并且其中迭代单元还被配置为：更新模型转移概率，使得种子模型结构经过一次转换而被转换成第三候选模型结构的概率超过被转换成第四候选模型结构的概率。

在一些实施例中，迭代单元还被配置为：针对一组候选模型结构中的每个候选模型结构，训练该候选模型结构以得到用于基于人脸图像来预测特定人脸关键点的信息的模型；利用该模型，基于人脸图像来预测该特定人脸关键点的信息；以及基于模型的预测结果，确定候选模型结构的性能指标。

图8示出了可以用来实施本公开的实施例的示例设备800的示意性框图。设备800可以用于实现如图1所示的模型结构搜索装置110、模型训练装置120和/或模型应用装置130。如图所示，设备800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元801执行上文所描述的各个方法和处理，例如过程300和/或500。例如，在一些实施例中，过程300和/或500可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由CPU801执行时，可以执行上文描述的过程300和/或500的一个或多个步骤。备选地，在其他实施例中，CPU 801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行过程300和/或500。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于搜索模型结构的方法，包括：

确定能够基于人脸图像来预测人脸关键点的信息的模型结构搜索空间，所述模型结构搜索空间包括多个候选模型结构，其中每个候选模型结构指示将从人脸图像得到的多个特征图融合成用于预测人脸关键点的信息的输出特征图的融合方式，以及在所述融合中应用于所述多个特征图的相应操作；以及

基于特定人脸关键点的类型，在所述模型结构搜索空间中搜索适合用于基于人脸图像来预测所述特定人脸关键点的信息的模型结构，包括：

选择所述多个候选模型结构之一作为种子模型结构；

确定用于所述种子模型结构的模型转移概率，所述模型转移概率指示所述种子模型结构经过一次转换而被转换成所述多个候选模型结构中的每个候选模型结构的相应概率；

迭代地执行以下操作，直到迭代终止条件被满足：

基于所述种子模型结构和所述模型转移概率，生成一组候选模型结构；

确定所述一组候选模型结构的性能指标；以及

响应于所述迭代终止条件未被满足，基于所述一组候选模型结构的所述性能指标，更新所述模型转移概率；以及

响应于所述迭代终止条件被满足，将所述一组候选模型结构中性能指标最好的候选模型结构确定为所述模型结构。

2.根据权利要求1所述的方法，其中所述特定人脸关键点包括用于勾勒人脸轮廓和/或五官的稀疏关键点。

3.根据权利要求1所述的方法，其中所述特定人脸关键点包括用于描绘人脸细节的稠密关键点。

4.根据权利要求1所述的方法，其中所述特定人脸关键点的所述信息包括以下至少一项：

所述特定人脸关键点在人脸图像中的位置；以及

所述特定人脸关键点所对应的深度。

5.根据权利要求1所述的方法，其中所述迭代终止条件包括以下之一：

迭代次数达到阈值次数；或者

所述一组候选模型结构的性能指标变化量低于阈值。

6.根据权利要求1所述的方法，其中所述多个候选模型结构包括第一候选模型结构和第二候选模型结构，并且确定所述模型转移概率包括：

初始化所述模型转移概率，以使得所述种子模型结构经过一次转换而被转换成所述第一候选模型结构的概率与被转换成所述第二候选模型结构的概率相等。

7.根据权利要求1所述的方法，其中生成所述一组候选模型结构包括：

确定待生成的候选模型结构的数量；以及

通过对所述种子模型结构进行所述数量的转换，来生成所述一组候选模型结构。

8.根据权利要求1所述的方法，其中所述一组候选模型结构包括第三候选模型结构和第四候选模型结构，所述第三候选模型结构的性能指标优于所述第四候选模型结构的性能指标，并且更新所述模型转移概率包括：

更新所述模型转移概率，使得所述种子模型结构经过一次转换而被转换成所述第三候选模型结构的概率超过被转换成所述第四候选模型结构的概率。

9.根据权利要求1所述的方法，其中确定所述一组候选模型结构的性能指标包括：

针对所述一组候选模型结构中的每个候选模型结构，

训练所述候选模型结构以得到用于基于人脸图像来预测所述特定人脸关键点的信息的模型；

利用所述模型，基于人脸图像来预测所述特定人脸关键点的信息；以及

基于所述模型的预测结果，确定所述候选模型结构的性能指标。

10.一种用于搜索模型结构的装置，包括：

搜索空间确定模块，被配置为确定能够基于人脸图像来预测人脸关键点的信息的模型结构搜索空间，所述模型结构搜索空间包括多个候选模型结构，其中每个候选模型结构指示将从人脸图像得到的多个特征图融合成用于预测人脸关键点的信息的输出特征图的融合方式，以及在所述融合中应用于所述多个特征图的相应操作；以及

模型结构搜索模块，被配置为基于特定人脸关键点的类型，在所述模型结构搜索空间中搜索适合用于基于人脸图像来预测所述特定人脸关键点的信息的模型结构，所述模型结构搜索模块还包括：

种子选择单元，被配置为选择所述多个候选模型结构之一作为种子模型结构；

概率确定单元，被配置为确定用于所述种子模型结构的模型转移概率，所述模型转移概率指示所述种子模型结构经过一次转换而被转换成所述多个候选模型结构中的每个候选模型结构的相应概率；

迭代单元，被配置为迭代地执行以下操作，直到迭代终止条件被满足：

确定所述一组候选模型结构的性能指标；以及

响应于所述迭代终止条件未被满足，基于所述一组候选

模型结构的所述性能指标，更新所述模型转移概率；以及

模型结构确定单元，被配置为响应于所述迭代终止条件被满足，将所述一组候选模型结构中性能指标最好的候选模型结构确定为所述模型结构。

11.根据权利要求10所述的装置，其中所述特定人脸关键点包括用于勾勒人脸轮廓和/或五官的稀疏关键点。

12.根据权利要求10所述的装置，其中所述特定人脸关键点包括用于描绘人脸细节的稠密关键点。

13.根据权利要求10所述的装置，其中所述特定人脸关键点的所述信息包括以下至少一项：

所述特定人脸关键点在人脸图像中的位置；以及

所述特定人脸关键点所对应的深度。

14.根据权利要求10所述的装置，其中所述迭代终止条件包括以下之一：

迭代次数达到阈值次数；或者

所述一组候选模型结构的性能指标变化量低于阈值。

15.根据权利要求10所述的装置，其中所述多个候选模型结构包括第一候选模型结构和第二候选模型结构，并且所述概率确定单元还被配置为：

16.根据权利要求10所述的装置，其中所述迭代单元还被配置为：

确定待生成的候选模型结构的数量；以及

17.根据权利要求10所述的装置，其中所述一组候选模型结构包括第三候选模型结构和第四候选模型结构，所述第三候选模型结构的性能指标优于所述第四候选模型结构的性能指标，并且其中所述迭代单元还被配置为：

18.根据权利要求10所述的装置，其中所述迭代单元还被配置为：

针对所述一组候选模型结构中的每个候选模型结构，

19.一种计算设备，包括：

一个或多个处理器；以及

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述计算设备实现根据权利要求1-9中任一项所述的方法。

20.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1-9中任一项所述的方法。