CN115494935A

CN115494935A - 手势识别方法、电子设备及存储介质

Info

Publication number: CN115494935A
Application number: CN202110679683.8A
Authority: CN
Inventors: 李进; 常少康; 王康锐
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2022-12-20
Also published as: EP4336312A1; EP4336312A4; WO2022262359A1

Abstract

本申请实施例提供一种手势识别方法、电子设备及存储介质，涉及通信技术领域，该方法包括：发送预设频率的超声波；使用多个麦克风分别接收超声波对应的超声波回波，得到多个第一声波信号；根据手势识别区域对多个第一声波进信号进行累加处理，得到第二声波信号，其中，手势识别区域是与预设频率相关联的频率区域，第二声波信号在手势识别区域的振幅大于每个第一声波信号在手势识别区域的振幅；根据第二声波信号进行手势识别。本申请实施例提供的方法，能够提升手势的识别距离。

Description

手势识别方法、电子设备及存储介质

技术领域

本申请实施例涉及通信技术领域，尤其涉及一种手势识别方法、电子设备及存储介质。

背景技术

随着信息技术的发展，手势正在成为一种越来越流行的与计算机、手机、音箱等设备交互的方式。目前，通常有两种技术实现手势识别。第一种是计算机视觉技术，计算机视觉的发展能够有效、准确的完成手势识别，但其对光照等条件较为敏感，易受可视角的范围限制，部署相对复杂。第二种是超声波手势，该方法利用设备中的扬声器发出超声波，在一定距离内经过空气中移动物体(如手势动作)的反射后会产生多普勒频移，设备中的麦克风接收反射信号，通过多普勒频移来推断各种手势。

然而，超声波在介质中传播时，随着传播距离的增加，其能量会逐渐减弱，这种现象叫超声的衰减。远距离识别效果不好主要是因为距离越远，移动物体所能反射的回波能量衰减的越厉害。现有超声波手势识别距离普遍不超过2米，也就是说，超声波手势的识别距离较短。此外，由于超声波手势识别易受全频段噪声、单频点噪声、设备自身发出的声音的干扰，因此，超声波手势识别的抗噪声干扰能力也较差。

发明内容

本申请实施例提供了一种手势识别方法、电子设备及存储介质，以提供一种手势识别的方式，由此可以提升手势识别的距离。

第一方面，本申请实施例提供了一种手势识别方法，应用于电子设备，该电子设备包括多个麦克风，包括：

发送预设频率的超声波；其中，该预设频率可以是超声波的中心频点，示例性的，如24KHZ、48KHz或96KHz等。

使用多个麦克风分别接收超声波对应的超声波回波，得到多个第一声波信号；其中，该超声波在其传播路径上遭遇用户的手掌的阻挡，则该超声波会产生回波。

根据手势识别区域对多个第一声波进信号进行累加处理，得到第二声波信号，其中，手势识别区域是与预设频率相关联的频率区域，第二声波信号在手势识别区域的振幅大于每个第一声波信号在手势识别区域的振幅。

根据第二声波信号进行手势识别。

本申请实施例中，通过对多个麦克风在手势识别区域的振幅的累加，由此可以提到手势识别区域的能量，进而可以在更远的距离上有效的识别用户的手势。

其中一种可能的实现方式中，手势识别区域是基于多普勒频移原理，根据预设频率和手势速度确定的频率区域。

其中一种可能的实现方式中，还包括：

在第二声波信号在手势识别区域的振幅大于预设振幅的情况下，确定检测到手势。

本申请实施例中，通过手势识别区域的振幅的判断，可以有效识别手势，由此可以提高手势识别的效率。

其中一种可能的实现方式中，手势识别区域包括位于预设频率以左的远离手势识别区域，和/或位于预设频率以右的靠近手势识别区域；还包括：

在第二声波信号在远离手势识别区域的振幅大于预设振幅的情况下，确定检测到远离手势；

在第二声波信号在靠近手势识别区域的振幅大于预设振幅的情况下，确定检测到靠近手势。

本申请实施例中，通过区分手势识别区域的类型，确定不同类型的手势，可以提高手势识别的灵活性。

其中一种可能的实现方式中，根据手势识别区域对多个第一声波进信号进行累加处理，得到第二声波信号，包括：

分别对多个第一声波信号进行归一化处理，得到多个归一化的第一声波信号；

根据手势识别区域对多个归一化的第一声波信号进行累加处理，得到第二声波信号，其中，手势识别区域是与预设频率相关联的频率区域，第二声波信号在手势识别区域的振幅大于每个归一化的第一声波信号在手势识别区域的振幅。

本申请实施例中，通过对手势识别区域的振幅进行归一化处理，可以减小多个麦克风之间的位置不同导致的振幅的绝对值差异，从而可以提高识别的准确度。

其中一种可能的实现方式中，根据第二声波信号进行手势识别，具体包括：

对第二声波信号进行噪声过滤处理，得到噪声过滤后的第二声波信号；

根据噪声过滤后的第二声波信号进行手势识别。

本申请实施例中，通过对噪声进行过滤，可以提高抗干扰能力，进而可以提高识别的准确度。

其中一种可能的实现方式中，噪声过滤处理包括环境底噪过滤、单频点噪声过滤、电子设备自身发声过滤中的至少一种噪声过滤处理。

其中一种可能的实现方式中，发送预设频率的超声波，具体包括：

响应于检测到的预设触发事件，发送预设频率的超声波，其中，预设触发事件为闹钟响铃、来电、定时提醒、开关灯事件中的任一项事件。

其中一种可能的实现方式中，还包括：

在确定检测到手势的情况下，执行关闭闹钟响铃、接听或拒接来电、关闭定时提醒、开灯或关灯中的任一项操作。

其中一种可能的实现方式中，第二声波信号还包括非手势识别区域，第二声波信号的非手势识别区域的振幅由多个第一声波进信号的非手势识别区域的振幅的平均值确定。

其中一种可能的实现方式中，电子设备为智能音箱、手机、大屏、平板、智能开关中的任一种电子设备。

第二方面，本申请实施例提供一种手势识别装置，应用于电子设备，该电子设备包括多个麦克风，包括：

发送模块，用于发送预设频率的超声波；

接收模块，用于使用多个麦克风分别接收超声波对应的超声波回波，得到多个第一声波信号；

累加模块，用于根据手势识别区域对多个第一声波进信号进行累加处理，得到第二声波信号，其中，手势识别区域是与预设频率相关联的频率区域，第二声波信号在手势识别区域的振幅大于每个第一声波信号在手势识别区域的振幅；

识别模块，用于根据第二声波信号进行手势识别。

其中一种可能的实现方式中，上述装置还包括：

第一确定模块，用于在第二声波信号在手势识别区域的振幅大于预设振幅的情况下，确定检测到手势。

其中一种可能的实现方式中，手势识别区域包括位于预设频率以左的远离手势识别区域，和/或位于预设频率以右的靠近手势识别区域，上述装置还包括：

第二确定模块，用于在第二声波信号在远离手势识别区域的振幅大于预设振幅的情况下，确定检测到远离手势；

其中一种可能的实现方式中，上述累加模块还用于分别对多个第一声波信号进行归一化处理，得到多个归一化的第一声波信号；

其中一种可能的实现方式中，上述识别模块还用于对第二声波信号进行噪声过滤处理，得到噪声过滤后的第二声波信号；

根据噪声过滤后的第二声波信号进行手势识别。

其中一种可能的实现方式中，上述噪声过滤处理包括环境底噪过滤、单频点噪声过滤、电子设备自身发声过滤中的至少一种噪声过滤处理。

其中一种可能的实现方式中，上述发送模块还用于响应于检测到的预设触发事件，发送预设频率的超声波，其中，预设触发事件为闹钟响铃、来电、定时提醒、开关灯事件中的任一项事件。

其中一种可能的实现方式中，上述装置还包括：

执行模块，用于在确定检测到手势的情况下，执行关闭闹钟响铃、接听或拒接来电、关闭定时提醒、开灯或关灯中的任一项操作。

其中一种可能的实现方式中，上述电子设备为智能音箱、手机、大屏、平板、智能开关中的任一种电子设备。

第三方面，本申请实施例提供一种电子设备，包括：

存储器，上述存储器用于存储计算机程序代码，上述计算机程序代码包括指令，上述电子设备包括多个麦克风，当上述电子设备从上述存储器中读取上述指令，以使得上述电子设备执行以下步骤：

发送预设频率的超声波；

使用多个麦克风分别接收超声波对应的超声波回波，得到多个第一声波信号；

根据手势识别区域对多个第一声波进信号进行累加处理，得到第二声波信号，其中，手势识别区域是与预设频率相关联的频率区域，第二声波信号在手势识别区域的振幅大于每个第一声波信号在手势识别区域的振幅；

根据第二声波信号进行手势识别。

其中一种可能的实现方式中，上述指令被上述电子设备执行时，使得上述电子设备还执行以下步骤：

其中一种可能的实现方式中，手势识别区域包括位于预设频率以左的远离手势识别区域，和/或位于预设频率以右的靠近手势识别区域，上述指令被上述电子设备执行时，使得上述电子设备还执行以下步骤：

其中一种可能的实现方式中，上述指令被上述电子设备执行时，使得上述电子设备执行根据手势识别区域对多个第一声波进信号进行累加处理，得到第二声波信号的步骤包括：

其中一种可能的实现方式中，上述指令被上述电子设备执行时，使得上述电子设备执行根据第二声波信号进行手势识别的步骤包括：

根据噪声过滤后的第二声波信号进行手势识别。

其中一种可能的实现方式中，上述指令被上述电子设备执行时，使得上述电子设备执行发送预设频率的超声波的步骤包括：

第四方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如第一方面所述的方法。

第五方面，本申请实施例提供一种计算机程序，当上述计算机程序被计算机执行时，用于执行第一方面所述的方法。

在一种可能的设计中，第五方面中的程序可以全部或者部分存储在与处理器封装在一起的存储介质上，也可以部分或者全部存储在不与处理器封装在一起的存储器上。

附图说明

图1为本申请实施例提供应用场景的示意图；

图2为本申请实施例提供的电子设备的硬件结构示意图；

图3为本申请实施例提供的手势识别方法的流程示意图；

图4为本申请实施例提供的手势识别区域划分示意图；

图5为本申请实施例提供手势识别区域累加示意图；

图6a和图6b为本申请实施例提供的环境噪声过滤示意图；

图7为本申请实施例提供的单频点噪声过滤示意图；

图8为本申请实施例提供的手势识别效果示意图；

图9为本申请实施例提供的手势识别装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

计算机视觉识别需要设备安装摄像头，且该设备需具备一定的数据处理能力，因此，成本较高。而超声波手势识别具有通用性，可以在大部分算力有限的设备上实现手势识别，例如，可以利用设备自带的扬声器和麦克风进行手势识别，无需对设备现有的硬件进行任何的改动。

基于上述问题，本申请实施例提出了一种手势识别方法，可以提高超声波手势识别的距离。

现结合图1-图8对本申请实施例提供的手势识别方法进行说明，如图1所示为本申请实施例提供的应用场景，参考图1，上述应用场景包括设备10及用户20。其中，设备10可以包括一个或多个扬声器及多个麦克风。扬声器可以发送超声波，麦克风可以接收上述超声波经过用户20反射后的回波。示例性地，设备10可以包括4个或6个扬声器及4个或6个麦克风。

上述设备10可以是具有扬声器和麦克风的智能设备，例如，智能音箱。可以理解的是，上述智能音箱仅为示例性说明，在一些实施例中，也可以是其他具有扬声器和麦克风的智能设备，包括但不限于手机、平板、大屏、智能机器人、智能开关等。本申请实施例对上述智能设备10的具体形式不做特殊限定。

下面结合图2首先介绍本申请以下实施例中提供的示例性电子设备。图2示出了电子设备100的结构示意图，该电子设备100可以是上述设备10。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，音频模块150，扬声器150A，麦克风150B，无线通信模块160。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

本申请实施例提供的手势识别方法的执行可以由处理器110来控制或调用其他部件来完成，比如调用内部存储器121中存储的本申请实施例的处理程序，以实现对用户的手势识别。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其它电子设备，例如AR设备等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种功能应用以及数据处理。

电子设备100可以通过音频模块150，扬声器150A，麦克风150B，以及应用处理器等实现音频功能。例如音乐播放，录音等。在一些实施例中，电子设备100可以包括1个或S个扬声器150A；此外，电子设备100还可以包括S个麦克风150B，S为大于1的正整数。

如图3所示为本申请实施例提供的手势识别方法一个实施例的流程示意图，包括：

步骤301，设备10播放超声波。

具体地，上述超声波可以通过设备10中的扬声器进行播放。设备10播放的超声波可以是预设的存储于设备10的存储器中的超声波音频文件。上述超声波的频率(或者说中心频点)可以预先设定，例如，24KHz、48KHz或96KHz等。可以理解的是，本申请实施例对上述超声波的预设频率不作特殊限定。在具体实现时，上述设备10播放超声波的触发可以是事件触发。示例性的，以闹钟为例，若用户在设备10上设定了闹钟，则当设备10闹钟响起时，设备10可以同时播放超声波，即，设备10播放超声波可以是由闹钟响起事件触发的。由此，若用户在设备10附近做出手势，则设备10可以通过接收超声波的回波识别用户的手势，判断该手势是否对应于关闭闹钟的手势，以确定是否关闭闹钟。可以理解的是，上述示例仅示例性的示出了闹钟的场景，并不构成对本申请实施例的限定，在一些实施例中，也可以通过其他场景触发设备10播放超声波。例如，来电的场景，当设备10上接收到来电后，设备10可以根据该来电事件触发播放上述超声波。再例如，定时提醒的场景，当设备10上发出定时提醒后，设备10可以根据该定时提醒事件触发播放上述超声波。再例如，开关灯的场景，当设备10进行开灯或关灯的控制后，设备10可以根据该开关灯事件触发播放上述超声波。

步骤302，设备10接收超声波回波，对超声波回波中的振幅进行归一化，并对手势识别区域的归一化振幅进行累加，得到归一化超声波回波。

具体地，当设备10的扬声器播放超声波后，若该超声波在其传播路径上遭遇用户20的手掌的阻挡，则该超声波会产生回波。此时，设备10中的多个麦克风可以采集上述超声波回波，由此可以得到每个麦克风的回波数据。上述回波数据可以用于对用户的手势进行识别。

可以理解的是，上述回波数据为原始音频数据，也就是时域数据，因此，可以将上述时域数据经过快速傅里叶变换(Fast Fourier Transform，FFT)之后，得到频域数据。上述示例仅示例性的示出了通过FFT得到频域数据的方式，并不构成对本申请实施例的限定，在一些实施例中，也可以通过其他转换方式得到频域数据。

当获取到每个麦克风采集的时域麦克风12数据对应的频域数据后，可以对每个麦克风采集的时域数据对应的频域数据在手势识别区域的振幅进行累加，由此可以得到累加超声波回波。其中，手势识别区域的具体含义将在后续部分详细说明。通过对多个麦克风采集的时域数据对应的频域数据的手势识别区域的振幅进行累加，可以对手势识别区域的振幅进行叠加，也就是说，可以扩大手势识别区域的频域能量，设备10更容易根据频域数据识别出手势，由此可以提高设备10对手势的识别距离，即，设备10可以识别更远处的手势。

优选地，当获取到每个麦克风采集到的时域数据对应的频域数据后，可以对每个麦克风采集到的时域数据对应的频域数据的振幅进行归一化处理，由此可以得到每个麦克风采集到的时域数据对应的频域数据的归一化振幅。接着，可以对所有麦克风的手势识别区域的归一化振幅进行累加，由此可以得到归一化累加超声波回波。

需要说明的是，由于对手势识别区域的频域数据进行识别，才能识别出手势，而对多个麦克风的手势识别区域的频域数据进行累加，才能扩大手势识别区域的频域能量，因此，手势识别区域之外的频域数据不进行累加，由此可以避免其他区域的频域数据在能量增强后会对手势识别区域的频域数据造成干扰。

示例性的，上述归一化振幅累加的方式可以通过如下公式实现：

其中，E_sum为手势识别区域中累加后的归一化振幅，E_i为第i麦克风的手势识别区域中的归一化振幅，Ei,max为第i个麦克风采集到的时域数据对应的频域数据中的最大的振幅，n为设备10中麦克风的总数。在具体实现时，该最大的振幅Ei,max可以是每个麦克风的中心频点对应的振幅，也就是说，该最大振幅Ei,max为每个麦克风采集的时域数据对应的频域数据中的整个频域中的最大振幅。经过上述所有麦克风的手势识别区域的归一化振幅累加后，多个麦克风的手势识别区域的归一化振幅可以组合为一个归一化振幅累加值Esum，也就是说，通过多个麦克风的归一化振幅的累加，将手势识别区域的归一化振幅进行扩大。

需要说明的是，上述手势识别区域之外的频域数据可以由多个麦克风的手势识别区域之外的频域数据的平均值获得。例如，可以将多个麦克风的手势识别区域之外的区域的振幅计算获得平均值。以两个麦克风为例，E₁₁为第一个麦克风的手势识别区域之外的区域的振幅，E₁₂为第二个麦克风的手势识别区域之外的区域的振幅，则多个麦克风的手势识别区域之外的振幅的平均值可以是(E₁₁+E₁₂)/2。

可以理解的是，每个麦克风位于设备10内的不同位置(例如，环形排列)，从而每个麦克风与用户的距离不同，超声波在空气中的衰减很快，因此导致每个麦克风接收到的超声波回波的振幅绝对值差异较大。而上述

为振幅归一化处理后得到的值，由于归一化处理得到后的值表征的是每个麦克风各自采集到的振幅相对于超声波中心频率振幅的百分比，由此可以避免对振幅绝对值的直接累加，进而可以避免麦克风之间的差异导致振幅绝对值带来的差异，从而可以使得统计更准确，更符合手势识别算法原理，可以更好的延长手势识别距离。

现结合图4对超声波回波中的手势识别区域进行说明。如图4所示，频域波形400为任一麦克风采集到的超声波回波经过归一化处理后得到的频域数据。其中，该频域波形400的横轴为频率，纵轴为振幅。该频域波形400包括慢速手势区域410、手势识别区域420及中心频点430。可以理解的是，该中心频点430为超声波回波的中心频率。通常在中心频率附近的能量最高，因此，在中心频点430附近的振幅最高(如图4所示的尖峰)。慢速手势区域410为对低速移动的物体进行识别的区域，也就是说，慢速手势区域410的频点对应的是非正常的手势，例如，用户在走路等慢速移动的场景。在实际应用中，由于设备10在探测到用户走路时会误认为是手势，用户在走路对手势识别而言是一种无需识别的场景，因此，需要区分是用户正常的手势还是用户在走路。因此，本申请实施例可以对慢速手势区域410进行过滤，仅对手势识别区域420进行手势识别。

上述确定手势识别区域420的方式可以通过多普勒公式，示例性的，当用户靠近设备10时，该多普勒公式如下所示：

当用户远离设备10时，该多普勒公式如下所示：

其中，f_r为麦克风的接收频率，f_t为扬声器的原始频率，也就是播放的超声波的中心频率，C为声音速度，v为用户的手速。

在具体实现时，以图4为例，当用户靠近设备10时，假设用户慢速移动的速度v1＝1m/s，则将该v1代入上述多普勒公式(1)，可以得到频点fr1；接着，假设用户最大手速为v2＝6m/s，则将该v2代入上述多普勒公式(2)，可以得到频点fr2；当获取到上述频点fr1及频点fr2后，则可以确定频点fr1与频点fr2之间的频域区间为手势识别区域420，该手势识别区域420包括用户正常手速(例如，该正常手速为v1与v2之间)对应的频域，在该手势识别区域420内，可以对用户的手势进行识别。

接着，当用户远离设备10时，分别将v1和v2代入上述多普勒公式(2)，可以得到频点fr3及频点fr4。当获取到上述频点fr3及频点fr4后，则可以确定频点fr3与频点fr1之间频域区间为慢速手势区域410，该慢速手势区域410包括小于移动速度v1的手速对应的频域，在该慢速手势区域410内无需对用户手势进行识别；频点fr3与频点fr4之间的频域区间为手势识别区域420。

接着，结合图5，以两个麦克风为例(例如，麦克风1和麦克风2)进行说明，图5为对进行归一化处理的振幅累加示意图。频域波形510为麦克风1采集到的超声波回波经过归一化处理后得到的频域数据，频域波形510包括手势识别区域511；频域波形520为麦克风2采集到的超声波回波经过归一化处理后得到的频域数据，频域波形520包括手势识别区域521。通过对麦克风1的手势识别区域的振幅与麦克风2的手势识别区域的振幅的累加，可以得到频域波形500，可见，频域波形500中的手势识别区域501的归一化振幅比麦克风1的手势识别区域的振幅和麦克风2的手势识别区域的振幅都高，也就是说，通过对多个麦克风的超声波回波在手势识别区域的归一化振幅进行累计，由于可以对超声波回波进行增强，有助于对手势的识别。

需要说明的是，下文以归一化振幅为例进行说明，但本申请所申请并不限定必须对超声波的回波进行归一化处理，也就是说，也可以不进行归一化处理而是直接对超声波回波的振幅进行累加后进行下文步骤的噪声的滤除。

步骤303，设备10过滤环境底噪。

具体地，为了准确识别用户的手势，设备10可以对上述手势识别区域进行环境底噪的过滤，由此可以提高抗干扰能力，使得手势识别更准确。其中，上述环境底噪的过滤可以通过如下公式进行：

E_i’＝E_sum-E_noise；其中，E_i’为手势识别区域进行环境底噪过滤后的振幅；E_noise为环境底噪平均振幅，可以理解的是，该环境底噪平均振幅可以是环境底噪的归一化振幅的平均值。在具体实现时，该环境底噪平均振幅E_noise可以是手势识别区域(例如图4中的区域420)以外左右两边M个频点的平均振幅。

需要说明的是，上述M的值可以预先设置，在具体实现时，若M取值过小，则可能导致样本量不够，若M取值过大，则可能导致计算量过大，因此，该M的值可以为经验值。

接着，结合图6a和图6b进行示例性说明。如图6a所示，频域波形600为多个麦克风对采集到的频域数据在手势识别区域进行归一化累加后得到的频域波形，该频域波形600包括慢速手势区域610、手势识别区域620、环境噪声区域630及中心频点640接着，可以对手势识别区域620进行环境底噪的过滤，其中，环境底噪的过滤可以是将手势识别区域620中的归一化振幅累加值减去环境底噪平均振幅。当对图6a所示的手势识别区域620进行环境底噪的过滤之后，可以得到如图6b所示的环境底噪过滤后的频域波形601。通过对上述环境底噪的过滤，可以提高抗干扰能力。

步骤304，设备10进行单频点噪声的过滤。

可选地，在手势识别的过程中，可能会出现持续性影响某个或某些频点的噪声，例如，设备10的附近的设备(例如电脑)中的风扇引起的噪声，由于风扇通常在固定的频率工作，会导致在某个固定频率的噪声。因此，设备10还可以对这些单频点噪声进行过滤，由此可以提高手势识别的准确率。上述单频点噪声过滤可以通过Alpha滤波方法进行。可以理解的是，上述示例仅示例性的示出了通过Alpha滤波方式对单频点噪声进行过滤，并不构成对本申请实施例的限定，在一些实施例中，还可以通过其他方式对单频点噪声进行过滤。

在具体实现时，由于上述单频点噪声的特征是只会影响特定频率，且在某些频点上的振幅较大，且持续存在。因此，可以首先预设一个单频点参考噪声，该单频点参考噪声的初始振幅可以由最早采集到的m个累加后的归一化振幅累加值E_sum的平均值确定，其中，上述最早采集的时刻可以是在设备10启动(例如，上电)后，在该时刻，通常不存在任何手势。可以理解的是，设备10的麦克风在采集超声波回波时，可以依次采集上述超声波回波的音频帧，因此，设备10的麦克风可以依次采集上述最早采集到的m个音频帧，并可以计算每个音频帧对应的归一化振幅累加值E_sum。接着，进一步对上述m个音频帧对应的归一化振幅累加值E_sum计算平均值，由此可以得到单频点参考噪声振幅。由于一般情况下，前三个音频帧中不包含任何手势信息，因此，优选地，上述m可以为3。需要说明的是，上述m为3仅为本申请实施例的优选方式，并不构成对本申请实施例的限定，在一些实施例中，上述m也可以为其他数值。

接着，可以通过如下公式进行单频点噪声的过滤：

E′＝E_sum-E_alpha；其中，E’为单频点噪声过滤后的振幅，E_alpha为单频点参考噪声振幅。

可选地，还可以进一步对上述单频点参考噪声振幅E_alpha进行实时更新。上述单频点参考噪声振幅E_alpha更新的方式可以是：若当前没有识别出手势，则可以认为当前的频域数据中包含最新的单频点噪声，可以对E_alpha进行更新。上述更新的方式可以通过如下公式进行：

E′_alpha＝E_alpha*α+E_sum*(1-α)；其中，E_alpha’为更新后的单频点参考噪声振幅，α为预设系数。通过对单频点参考噪声振幅的更新，可以使得第一设备10在过滤单频点噪声时，都是基于最新的参考噪声振幅，由此可以提高手势识别的准确率。

需要说明的是，上述识别是否存在手势的判断结果可以根据E’确定，示例性的，若E’小于或等于预设阈值，则可以确定当前采集到的频域数据中不存在手势。

图7为单频点噪声的过滤效果图。如图7所示，波形710为单频点噪声过滤前的频域波形，波形710包含在特定频点X附近的噪声，波形720为单频点噪声过滤后的频域波形。可以看到，图7所示的单频点噪声过滤之后，特定频点X附近的噪声被成功滤除。从而，通过对上述单频点噪声的过滤，可以提高抗干扰能力。

可以理解的是，本步骤204与步骤203的执行顺序可以不分先后。也就是说，本步骤204可以在步骤203之前执行，可以在步骤203之后执行，也可以与步骤203同时执行。

步骤305，设备10过滤自身发出的声音。

具体地，由于设备10的扬声器在发出声音时，会影响麦克风采集到的频域数据，产生若干无规则、无规律的波峰，例如，设备10在振铃时播放超声波，该振铃声会导致麦克风采集到的超声波回波的数据中产生若干无规则、无规律的波峰。可以理解的是，上述振铃声是低频的脉冲波，且这些脉冲波无规则、无规律地分布在全频段的频域数据上。而这些无规则、无规律的波峰会影响手势识别区域的频域数据，由此会影响手势的识别，因此，设备10还可以通过回声消除或高通滤波的方式对设备10自身发出的声音进行过滤，由此可以提高抗干扰能力。需要说明的是，由于振铃声是低频数据，因此，通过高通滤波可以将上述振铃产生的噪声进行滤除。

可以理解的是，本步骤205与步骤203及步骤204的执行顺序可以不分先后。也就是说，本步骤205可以在步骤203或步骤204之前执行，可以在步骤203或步骤204之后执行，也可以与步骤203和/或步骤204同时执行。

步骤306，设备10进行能量放大。

具体地，当设备10对上述超声波回波进行环境底噪的过滤和/或单频点噪声的过滤和/或自身声音的过滤后，还可以对上述进行环境底噪的过滤和/或单频点噪声的过滤和/或自身声音的过滤后的频域数据进行能量放大。在具体实现时，上述能量放大的方式可以通过如下公式实现：

E″＝E₁*factor；其中，E”为放大后的振幅，E₁为进行环境底噪的过滤和/或单频点噪声的过滤和/或自身声音的过滤后的频域数据的振幅，factor为预设放大倍数。

步骤307，设备10进行手势识别。

具体地，为了避免误判，第一设备10可以获取足够数量的音频帧进行识别，上述音频帧的数量可以预先设定。在具体实现时，设备10可以采集预设时长内的音频数据，设备10也可以采集预设数量的音频帧，以保证设备10可以采集到一定数量的音频数据。其中，上述音频数据可以是上述超声波的回波数据，通过对上述音频数据进行采样，可以获得多个音频帧。可以理解的是，本申请实施例对采集预设数量的音频数据的方式不做特殊限定。

当设备10获取到一定数量的音频帧后，可以通过步骤202-步骤206对上述音频帧进行处理，由此可以得到归一化累加以及噪声过滤后的频域波形，接着，可以根据上述波形进行手势识别，由此可以确定是否存在用户的手势。

在具体实现时，可以检测音频帧中的手势识别区域中是否存在超过预设振幅阈值的频点，若检测到音频帧中的手势识别区域中存在超过预设振幅阈值的频点，则可以确定存在用户手势，若检测到音频帧中的手势识别区域中不存在超过预设振幅阈值的频点，则可以确定不存在用户手势。其中，该用户手势可以是关闭振铃的手势、接听来电或关闭来电的手势，关闭定时提醒的手势或开灯或关灯的手势。

若设备10确认存在手势(例如，关闭振铃的手势)，则可以根据当前识别出的手势执行对应的操作，例如，若设备10在振铃时检测到用户关闭振铃的手势，此时，设备10可以关闭振铃。若设备10未识别到手势，则设备10可以继续采集超声波的回波数据，并可以进一步根据超声波的回波数据识别用户的手势。

图8为手势识别效果示意图。如图8所示，频域波形800为单个麦克风采集到的超声波回波的频域波形，当用户手势与设备10距离较远时，由于频域波形800的手势识别区域810的振幅没有超过预设振幅阈值，因此，通过单个麦克风无法对远距离的用户手势进行识别。频域波形801为多个麦克风累加、噪声过滤以及能量放大后的频域波形，由于频域波形801的手势识别区域811的振幅已经超过预设振幅阈值，因此，可以确认存在用户的手势，也就是说，通过上述多个麦克风累加、噪声过滤以及能量放大，能够识别远距离的用户手势，从而通过本申请技术方案，可以提升手势识别的距离。

可以理解的是，上面实施例中，步骤201-步骤207均为可选步骤，本申请只提供一种可行的实施例，还可以包括比步骤201-步骤207更多或更少的步骤，本申请对此不做限定。

图9为本申请手势识别装置一个实施例的结构示意图，如图9所示，上述手势识别装置90，应用于电子设备，该电子设备包括多个麦克风，可以包括：发送模块91、接收模块92、累加模块93及识别模块94；其中，

发送模块91，用于发送预设频率的超声波；

接收模块92，用于使用多个麦克风分别接收超声波对应的超声波回波，得到多个第一声波信号；

累加模块93，用于根据手势识别区域对多个第一声波进信号进行累加处理，得到第二声波信号，其中，手势识别区域是与预设频率相关联的频率区域，第二声波信号在手势识别区域的振幅大于每个第一声波信号在手势识别区域的振幅；

识别模块94，用于根据第二声波信号进行手势识别。

其中一种可能的实现方式中，上述装置90还包括：

第一确定模块95，用于在第二声波信号在手势识别区域的振幅大于预设振幅的情况下，确定检测到手势。

其中一种可能的实现方式中，手势识别区域包括位于预设频率以左的远离手势识别区域，和/或位于预设频率以右的靠近手势识别区域，上述装置90还包括：

第二确定模块96，用于在第二声波信号在远离手势识别区域的振幅大于预设振幅的情况下，确定检测到远离手势；

其中一种可能的实现方式中，上述累加模块93还用于分别对多个第一声波信号进行归一化处理，得到多个归一化的第一声波信号；

其中一种可能的实现方式中，上述识别模块94还用于对第二声波信号进行噪声过滤处理，得到噪声过滤后的第二声波信号；

根据噪声过滤后的第二声波信号进行手势识别。

其中一种可能的实现方式中，上述发送模块91还用于响应于检测到的预设触发事件，发送预设频率的超声波，其中，预设触发事件为闹钟响铃、来电、定时提醒、开关灯事件中的任一项事件。

其中一种可能的实现方式中，上述装置90还包括：

执行模块97，用于在确定检测到手势的情况下，执行关闭闹钟响铃、接听或拒接来电、关闭定时提醒、开灯或关灯中的任一项操作。

可以理解的是，上述电子设备100等为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

本申请实施例可以根据上述方法示例对上述电子设备100等进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种手势识别方法，应用于电子设备，其特征在于，所述电子设备包括多个麦克风，所述方法包括：

发送预设频率的超声波；

使用多个所述麦克风分别接收所述超声波对应的超声波回波，得到多个第一声波信号；

根据手势识别区域对多个所述第一声波进信号进行累加处理，得到第二声波信号，其中，所述手势识别区域是与所述预设频率相关联的频率区域，所述第二声波信号在所述手势识别区域的振幅大于每个所述第一声波信号在所述手势识别区域的振幅；

根据所述第二声波信号进行手势识别。

2.根据权利要求1所述的方法，其特征在于，所述手势识别区域是基于多普勒频移原理，根据所述预设频率和手势速度确定的频率区域。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

在所述第二声波信号在所述手势识别区域的振幅大于预设振幅的情况下，确定检测到手势。

4.根据权利要求2所述的方法，其特征在于，所述手势识别区域包括位于所述预设频率以左的远离手势识别区域，和/或位于所述预设频率以右的靠近手势识别区域；所述方法还包括：

在所述第二声波信号在所述远离手势识别区域的振幅大于预设振幅的情况下，确定检测到远离手势；

在所述第二声波信号在所述靠近手势识别区域的振幅大于所述预设振幅的情况下，确定检测到靠近手势。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述根据手势识别区域对多个所述第一声波进信号进行累加处理，得到第二声波信号，包括：

分别对多个所述第一声波信号进行归一化处理，得到多个归一化的第一声波信号；

根据所述手势识别区域对多个所述归一化的第一声波信号进行累加处理，得到所述第二声波信号，其中，所述手势识别区域是与所述预设频率相关联的频率区域，所述第二声波信号在所述手势识别区域的振幅大于每个所述归一化的第一声波信号在所述手势识别区域的振幅。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述根据所述第二声波信号进行手势识别，具体包括：

对所述第二声波信号进行噪声过滤处理，得到噪声过滤后的第二声波信号；

根据所述噪声过滤后的第二声波信号进行手势识别。

7.根据权利要求6所述的方法，其特征在于，所述噪声过滤处理包括环境底噪过滤、单频点噪声过滤、电子设备自身发声过滤中的至少一种噪声过滤处理。

8.根据权利要求1-7中任一项所述的方法，其特征在于，所述发送预设频率的超声波，具体包括：

响应于检测到的预设触发事件，发送预设频率的超声波，其中，所述预设触发事件为闹钟响铃、来电、定时提醒、开关灯事件中的任一项事件。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.根据权利要求1-9中任一项所述的方法，其特征在于，所述第二声波信号还包括非手势识别区域，所述第二声波信号的非手势识别区域的振幅由多个所述第一声波进信号的非手势识别区域的振幅的平均值确定。

11.根据权利要求1-10中任一项所述的方法，其特征在于，所述电子设备为智能音箱、手机、大屏、平板、智能开关中的任一种电子设备。

12.一种电子设备，其特征在于，包括：存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括指令，当所述电子设备从所述存储器中读取所述指令，以使得所述电子设备执行如权利要求1-11中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在所述电子设备上运行时，使得所述电子设备执行如权利要求1-11中任一项所述的方法。

14.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1-11中任一项所述的方法。