CN108702458B

CN108702458B - 拍摄方法和装置

Info

Publication number: CN108702458B
Application number: CN201780013463.3A
Authority: CN
Inventors: 张李亮; 刘平; 庞磊; 徐希楠
Original assignee: SZ DJI Technology Co Ltd
Current assignee: SZ DJI Technology Co Ltd
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2021-07-30
Anticipated expiration: 2037-11-30
Also published as: CN108702458A; US11388333B2; US20200275018A1; WO2019104681A1

Abstract

本发明提供一种拍摄方法和装置，所述拍摄方法包括：识别到声音信息；根据所述声音信息，控制云台转动以控制相机的拍摄方向；在确定出所述相机满足触发条件时，控制所述相机执行拍摄功能。本发明通过声音信息来控制云台转动以控制相机的拍摄方向，并在相机满足触发条件时，控制相机自动执行拍摄功能，无需用户手持操作相机，一方面相机至用户的距离可以更长，相机拍摄方向更加灵活；另一方面能够解放用户的双手，用户可以自由地摆出各种姿态。

Description

拍摄方法和装置

技术领域

本发明涉及拍摄领域，尤其涉及一种拍摄方法和装置。

背景技术

传统的自拍需要用户手持相机来调整拍摄角度，并需要手动触发相机的拍摄按钮进行拍摄。拍摄的距离和角度会收到用户胳膊的长度的限制。进一步，由于需要用户手持相机，用户无法自由地摆出各种姿态，限制了用户姿态。此外，用户通过手动按下拍摄按钮使得相机容易发生抖动，降低了拍摄的质量。

发明内容

本发明提供一种拍摄方法和装置。

根据本发明的第一方面，提供一种拍摄方法，包括：识别到声音信息；根据所述声音信息，控制云台转动以控制相机的拍摄方向；在确定出所述相机满足触发条件时，控制所述相机执行拍摄功能。

根据本发明的第二方面，提供一种拍摄装置，包括相机、云台和处理器，所述相机至少部分搭载在所述云台上，所述处理器与所述相机、所述云台分别通信连接；其中所述处理器包括一个或多个，单独地或共同地工作，所述处理器用于，识别到声音信息，根据所述声音信息，控制所述云台转动以控制所述相机的拍摄方向，并在确定出所述相机满足触发条件时，控制所述相机执行拍摄功能。

根据本发明的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如下步骤：识别到声音信息；根据所述声音信息，控制云台转动以控制相机的拍摄方向；在确定出所述相机满足触发条件时，控制所述相机执行拍摄功能。

由以上本发明实施例提供的技术方案可见，本发明通过声音信息来控制云台转动以控制相机的拍摄方向，并在相机满足触发条件时，控制相机自动执行拍摄功能，无需用户手持操作相机，一方面相机至用户的距离可以更长，相机拍摄方向更加灵活；另一方面能够解放用户的双手，用户可以自由地摆出各种姿态。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中的拍摄装置的立体图；

图2是本发明一实施例中的拍摄装置在另一方向上的立体图；

图3是本发明一实施例中的拍摄装置的结构框图；

图4是本发明一实施例中的拍摄方法的流程图；

图5是本发明一具体实施例中的拍摄方法的流程图；

图6是本发明另一具体实施例中的拍摄方法的流程图；

图7是本发明又一具体实施例中的拍摄方法的流程图；

图8是本发明还一具体实施例中的拍摄方法的流程图。

附图标记：

100：相机；110：相机本体；120：相机镜头；130：显示屏；200：云台；210：偏航轴；220：俯仰轴；230：横滚轴；300：处理器。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图，对本发明的拍摄方法和装置进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

结合图1和图2，本发明实施例提供一种拍摄装置，所述拍摄装置可包括相机100和云台200。其中，所述相机100至少部分搭载于云台200上，可以通过云台200控制相机100的拍摄方向。具体地，所述相机100可包括相机本体110和相机镜头120，所述云台200设于所述相机本体110上，所述相机镜头120搭载于所述云台200上，通过所述云台200控制所述相机镜头120的转动，从而实现对相机镜头120拍摄方向的控制。进一步地，所述相机镜头120可包括透镜和与所述透镜配合的图像传感器，比如，CCD(英文全称：Charge-coupled Device，中文全称：电荷耦合元件)。云台200控制相机100的拍摄方向的实现方式并不限于此，比如，在其他实施例中，相机100整体搭载在云台200上，通过云台200控制相机100整体转动，从而对相机100的拍摄方向进行控制。

此外，相机本体110上还可设有显示屏130，可实时显示相机100的拍摄画面。优先地，所述显示屏130朝向使用者。

本实施例中，所述云台200可为两轴云台或三轴云台，本实施例以所述云台200为三轴云台为例进一步说明。又结合图1和图2，所述云台200可包括偏航轴210、俯仰轴220和横滚轴230，分别用于控制相机100在偏航方向、俯仰方向和横滚方向的姿态。

进一步地，参见图3，所述拍摄装置还可包括处理器300，所述处理器300能够获得所述相机100的实时拍摄画面，并能够控制云台200的转动和相机100的工作。本实施例中，所述处理器300可为云台处理器，也可为相机处理器，或者，云台处理器和相机处理器，其中，云台处理器和相机处理器通信连接。当然，所述处理器300也可为独立设置的处理器，与云台处理器、相机处理器分别通信连接。本实施例以处理器300为独立设置的处理器为例进行说明。

实施例一

图4为本发明实施例一提供的一种拍摄方法的流程图。本实施例中，所述拍摄方法的执行主体为拍摄设备的处理器300。

如图4所示，所述拍摄方法可包括以下步骤：

步骤S401：识别到声音信息；

其中，所述声音信息可包括声源方位和声音内容。其中，声源是指发出声音信息的物体，所述声源方位是指声源相对于相机100的方向。所述声音内容可包括用于指示待控制相机100执行相应功能的控制指令，还可包括除控制指令之外的其他声音内容。进一步地，所述控制指令为预先定义的指令，以区别于除控制指令之外的其他声音内容。本实施例中，所述控制指令可包括待控制相机100的相机标识和所述相机100待执行的动作。所述相机100待执行的动作可包括：用于指示所述相机100执行拍摄功能、用于指示所述相机100激活跟踪功能、用于指示所述相机100停止跟踪功能或者其他的待执行动作。更进一步地，所述声音信息的声源可为机械设备，也可为用户。需要说明的是，本发明实施例中，当所述声源为机械设备时，所述目标对象为距离所述声源最近的用户。当所述声源为用户时，所述目标对象为所述声源(即发出声音信息的用户)。

在一实施例中，所述拍摄装置还可包括至少一声音识别装置(未显示)，至少一声音识别装置与所述处理器300通信连接。可选地，至少一所述声音识别装置设于所述相机本体110上，步骤S401具体包括：基于至少一所述声音识别装置识别到声音信息。本实施例中，声音识别装置采集语音数据，并将语音数据处理成声音信息(可包括声源方位和声音内容)发送至处理器300。其中，所述声音识别装置可包括一个或多个。所述声音识别装置包括多个时，可将多个声音识别装置设置在相机本体110的不同位置处，从而识别不同方位的语音信息，获得准确的声源方位，从而可根据声音方位来控制云台200的转动。

在另一实施例中，所述相机100可包括声音采集模块(未显示)，例如，麦克风或其他声音采集模块。步骤S401具体包括：接收所述相机100上的声音采集模块采集的语音数据，并识别所述语音数据的声音信息。进一步地，所述识别所述语音数据的声音信息可包括：根据语音识别模型，识别所述语音数据的声源方向，从而控制云台200转动以控制相机100自动对准声源方向。另外，所述识别所述语音数据的声音信息还可包括：根据语音识别模型，识别所述语音数据的声音内容。更进一步地，所述根据语音识别模型，识别所述语音数据的声源方向和/或声音内容之前还可包括：基于深度学习技术，获得所述语音识别模型。具体地，可采集足够数量(可根据需要设定)的各个国家和地区的语音数据，基于深度学习技术训练获得所述语音识别模型，鲁棒性强，适用性广，能够满足各种人群在各种场景中的准确识别。相比传统的使用人工设计的语音特征等方法来完成对语音的分类，本发明基于深度学习技术的语音识别方式精度更高。需要说明的是，本发明实施例中，深度学习技术为现有的深度学习技术。

当然，在其他实施例中，步骤S401的执行主体也可为与处理器300通信连接的独立设置的声音识别装置。所述声音识别装置识别到声音信息后，发送所述声音信息至所述处理器300。

步骤S402：根据所述声音信息，控制云台200转动以控制相机100的拍摄方向；

通过步骤S402，通过台转动控制相机100转动以实现对用户的定位。相比传统手持相机100的自拍的方式，本实施例通过声音信息控制云台200转动以控制相机100的拍摄方向可以同时监控多个位置。参见图5，步骤S402具体包括：控制云台200转动以控制所述相机100转动至朝向所述声源方位。具体地，通过云台200带动相机镜头120转动至朝向所述声源方位，从而对准拍摄目标。

进一步地，所述识别到声音信息之后，根据所述声音信息，控制云台200转动以控制相机100的拍摄方向之前，还可包括：对所述声音信息进行滤波处理，滤除噪音，获得更为准确的声音信息，从而准确地对目标进行跟踪。可采用现有任意类型的滤波方式对所述声音信息进行滤波处理。

步骤S403：在确定出所述相机100满足触发条件时，控制所述相机100执行拍摄功能。

其中，拍摄功能可为拍摄视频录像、也可为拍摄图片，可根据用户的实际需求进行选择。本发明实施例中，通过声音信息来云台200转动以控制控制相机100的拍摄方向，并在相机100满足触发条件时，控制相机100自动执行拍摄功能，无需用户手持操作相机100，一方面相机100至用户的距离可以更长，相机100拍摄方向更加灵活；另一方面能够解放用户的双手，用户可以自由地摆出各种姿态。

本实施例中，可控制相机100执行即时拍摄功能、延时拍摄功能或连拍功能等拍摄功能。其中，控制相机100执行的拍摄功能可由用户预先设定，从而满足不同的用户需求。例如，在一实施例中，用户预先设定的相机100的拍摄功能为即时拍摄功能，步骤S403具体包括：在确定出所述相机100满足触发条件时，控制所述相机100立即执行拍摄功能。

在另一实施例中，用户预先设定的相机100的拍摄功能为延时拍摄功能，步骤S403具体包括：在确定出所述相机100满足触发条件时，控制所述相机100以预设时长执行延时拍摄功能。控制相机100延时执行拍摄功能的预设时长可根据用户需求设定，例如，预设时长可为3秒，在确定出相机100满足触发条件时，控制相机100倒计时3秒后再执行拍摄功能，从而满足用户的需求。

在又一实施例中，用户预先设定的相机100的拍摄功能为连拍功能，步骤S403具体包括：在确定出所述相机100满足触发条件时，控制所述相机100执行连拍功能。其中，控制相机100执行连拍功能是指控制相机100连续拍摄多张图片，例如，5张，在确定出相机100满足触发条件时，控制相机100连续拍摄5张图片。多张图片拍摄的时间间隔可根据需要设定，从而满足不同的用户需求。

本实施例中，参见图6，所述触发条件可包括：确定出所述相机100捕捉到特定特征信息。本实施例中，特定特征信息指用户特征信息，比如，人脸特征信息、用户轮廓信息等。本实施例以特定特征信息为人脸特征信息为例进一步说明。进一步地，所述确定出所述相机100捕捉到特定特征信息具体包括：根据所述相机100的拍摄画面，基于视觉识别技术(比如，人脸识别模型)，识别到人脸特征信息。可选地，本实施例是基于深度学习技术，获得所述人脸识别模型的。具体地，可采集足够数量(可根据需要设定)的各个国家和地区的人脸数据，基于深度学习技术训练获得所述人脸识别模型，鲁棒性强，适用性广，能够满足各种人群在各种场景中的准确识别。相比传统的使用人工设计的人脸特征等方法来完成对人脸的分类，本发明基于深度学习技术的人脸识别方式精度更高。

本实施例中，所述声音信息可包括控制指令，通过控制指令来触发相机100执行相应的功能，彻底解放用户的双手，相机100拍摄自动化程度更高。其中，所述控制指令可包括待控制相机100的相机标识和所述相机100待执行的动作。例如，在一实施例中，所述相机100待执行的动作用于指示所述相机100执行拍摄功能。进一步地，又参见图6，所述触发条件还包括：确定出所述声音信息包括用于指示所述相机100执行拍摄功能的控制命令，通过声音信息触发相机100执行拍摄功能，替代现有手动触发相机100拍摄按钮，一方面解放了用户双手，相机100与用户的距离不受限制，拍摄角度也更佳灵活，并且，用户也可以摆出任意姿态。另一方面相机100不会产生抖动，获得的视频录像或图片质量更佳。

在另一实施例中，所述相机100待执行的动作用于指示所述相机100激活跟踪功能。所述确定出所述相机100捕捉到特定特征信息之后还可包括：控制所述云台200转动以控制所述相机100对所述特定特征信息对应的目标对象进行跟踪，从而通过声音信息开启相机100的自动跟踪功能，无需用户手动开启相机100的自动跟踪功能，方便快捷。

在又一实施例中，所述相机100待执行的动作用于指示所述相机100停止跟踪功能。所述确定出所述相机100捕捉到特定特征信息之后还可包括：控制所述云台200停止转动以控制所述相机100停止跟踪所述特定特征信息对应的目标对象，通过声音信息关闭相机100的自动跟踪功能，无需用户手动关闭相机100的自动跟踪功能，方便快捷。

在一具体实现方式中，待控制相机100的相机标识为标识1，标识1的相机100的控制指令包括：(标识1，自拍模式)、(标识1，拍摄)和(标识1，停止)。其中，当识别到用户发出“标识1，自拍模式”的声音内容时，通过云台200控制相机100转动至朝向用户的方向，从而实现相机100自动跟踪功能的开启，进一步基于视觉识别技术控制云台200转动以控制相机100对目标对象进行跟踪。当识别到用户发出“标识1，拍摄”的声音内容时，控制相机100执行拍摄功能。当相机100识别到用户发出“标识1，停止”的声音内容时，控制云台200停止转动，从而控制相机100关闭自动跟踪功能。本实施例能够通过声音信息控制相机100激活自动跟踪功能、执行拍摄功能以及关闭自动跟踪功能，无需用户手动操作，即可实现对相机100的控制，相机100至用户的距离可以更长，且解放了用户双手，相机100拍摄的画面更加稳定。本实施例中，根据“标识1，停止”的声音内容控制相机100执行关闭自动跟踪功能之前，相机100已开启自动跟踪功能。具体地，根据“标识1，停止”的声音内容控制相机100执行关闭自动跟踪功能是在根据“标识1，自拍模式”的声音内容控制相机100执行开启自动跟踪功能后执行的。此外，控制相机100关闭自动跟踪功后，若识别到用户再次发出其他需要响应的控制指令，比如，用户发出“标识1，自拍模式”的声音内容，会再次控制云台200转动以控制相机100开启自动跟踪功能，否则，相机100无法执行自动跟踪功能。本实施例中，自动跟踪功能是指根据声音信息和视觉识别技术来控制云台200转动，从而使得相机100能够定位用户并锁定，产生持续跟随的功能。

进一步地，步骤S402之后还可包括：识别所述声音信息对应的目标对象，获得所述目标对象的特征信息。当所述声音信息的声源为机械设备时，所述目标对象为距离所述声源最近的用户。例如，用户开门时，所述声源为门，相机100识别到的目标对象即为开门的用户，云台200会自动转动朝向门的方向并且使用视觉识别检测人脸。当所述声音信息的声源为用户时，所述目标对象为所述声源，通过声音来控制云台200转动以带动相机100朝向说话的用户并且检测人脸，彻底解放用户的双手。

更进一步地，所述识别所述声音信息对应的目标对象，获得所述目标对象的特征信息之后还可包括：根据所述特征信息，控制所述云台200转动以控制所述相机100对所述目标对象进行跟踪。本实施例的相机100是基于视觉识别技术实现对目标对象的跟踪的，识别目标对象的精度高。具体地，所述根据所述特征信息，控制所述云台200转动以控制所述相机100对所述目标对象进行跟踪具体包括：根据所述特征信息，控制所述云台200转动以使得所述目标对象位于所述相机100的拍摄画面中，实现相机100的自动构图，从而保证相机100能够始终跟踪到目标对象，拍摄方式的自动化程度和精度均较高，给用户提供较大的便利。

在一些例子中，云台200控制相机100转动以使得所述目标对象位于所述相机100的拍摄画面中具体包括：控制所述云台200转动以使得所述目标对象位于所述相机100的拍摄画面中的特定位置。可选地，控制目标对象的人脸位于拍摄画面的中部位置，或者，控制目标对象的人脸位于拍摄画面中2/3高度线上，或者，也可控制目标对象的其他区域位于拍摄画面中的中部位置、2/3高度线上或其他位置。

在另一些例子中，云台200控制相机100转动以使得所述目标对象位于所述相机100的拍摄画面中具体包括：控制所述云台200转动以使得所述目标对象在所述相机100的拍摄画面中的像素为预设像素大小。可选地，控制目标对象在拍摄画面中的像素为800*600。进一步地，可控制目标对象完全位于拍摄画面中，或控制目标对象至少部分(包括人脸)位于拍摄画面中。

进一步地，本实施例可根据相机100的拍摄画面进行视频录像或拍摄图片，且生成视频录像或图片的过程无需用户手动操作，彻底解放用户双手，用户体验佳。例如，在一些实施例中，参见图7，所述根据所述特征信息，控制所述云台200转动以控制所述相机100对所述目标对象进行跟踪的同时还可包括：根据所述相机100的拍摄画面，生成视频录像或图片，实现对目标对象的自动化拍摄。

在另一些实施例中，参见图8，所述根据所述特征信息，控制所述云台200转动以控制所述相机100对所述目标对象进行跟踪的同时还可包括：根据所述相机100的拍摄画面和所述声音信息，生成视频录像或图片，实现对目标对象的自动化拍摄，且获得的视频录像或图片内容更加丰富。本实施例中，当所述声音信息为除控制指令之外的其他声音内容时，所生成的视频录像或图片中可携带有当前的声音信息。

更进一步地，用户可根据所述所生成视频录像或图片发出控制指令，从而触发相机100执行相应的功能。用户也可根据所述所生成视频录像或图片摆出任意姿态或进行位置移动等等，从而给用户带来更丰富的自拍体验。

此外，所述识别所述声音信息对应的目标对象，获得所述目标对象的特征信息之后还可包括：再次识别到声音信息，并识别当前识别到的声音信息对应的目标对象，获得当前识别到的声音信息对应的目标对象的特征信息。接着，判断当前识别到声音信息对应的目标对象与前一次识别到的声音信息对应的目标对象是否为同一目标对象。在判断出当前识别到声音信息对应的目标对象与前一次识别到的声音信息对应的目标对象为同一目标对象时，控制所述云台200以使相机100持续跟踪所述目标对象即可。在判断出当前识别到声音信息对应的目标对象与前一次识别到的声音信息对应的目标对象为不同目标对象时，控制云台200以使所述相机100转动至朝向当前识别到的声音信息对应的目标对象，从而切换跟踪的目标对象，确保相机100实时对准当前发出声音信息的目标对象。

具体地，当确定出当前识别到的声音信息对应的目标对象的特征信息与于前一次识别到的声音信息对应的目标对象的特征信息的差异大于预设差异值时，表明当前识别到声音信息对应的目标对象与前一次识别到的声音信息对应的目标对象为不同目标对象，此时，控制所述相机100转动至朝向当前识别到的声音信息对应的目标对象，对新的目标对象进行跟踪。当确定出当前识别到的声音信息对应的目标对象的特征信息与于前一次识别到的声音信息对应的目标对象的特征信息的差异小于或等于预设差异值时，表明当前识别到声音信息对应的目标对象与前一次识别到的声音信息对应的目标对象为同一目标对象，通过云台200控制相机100转动以继续跟踪该目标对象即可。

在一具体实现方式中，根据两次识别到的目标对象的人脸特征信息来判断两次识别到的目标对象是否为同一目标对象，当两次识别到的目标对象的人脸特征信息的差异大于5％时，则表明两次识别到的目标对象为不同的目标对象，通过云台200控制相机100转动至朝向最近一次识别到的目标对象。而当两次识别到的目标对象的人脸特征信息的差异小于或等于5％时，则表明两次识别到的目标对象为同一目标对象，通过云台200控制相机100始终对准该目标对象即可。需要说明的是，此处的目标对象均为用户。当所述声音信息的声源为机械设备时，所述目标对象为距离所述声源最近的用户。当所述声音信息的声源为用户时，所述目标对象为所述声源(即说话的用户)。

实施例二

结合图1至图3，本发明实施例二提供一种拍摄装置，所述拍摄装置可包括相机100、云台200和处理器300。其中，所述相机100至少部分搭载在所述云台200上，本实施例可通过云台200转动来控制相机100的拍摄方向。具体地，所述相机100可包括相机本体110和相机镜头120，所述云台200设于所述相机本体110上，所述相机镜头120搭载于所述云台200上，通过所述云台200控制所述相机镜头120的转动，从而实现对对相机镜头120拍摄方向的控制。进一步地，所述相机镜头120可包括透镜和与所述透镜配合的图像传感器，比如，CCD(英文全称：Charge-coupled Device，中文全称：电荷耦合元件)。云台200控制相机100的拍摄方向的实现方式并不限于此，比如，在其他实施例中，相机100整体搭载在云台200上，通过云台200控制相机100整体转动，从而对相机100的拍摄方向进行控制。

进一步地，所述处理器300与所述相机100、所述云台200分别通信连接，所述处理器300能够获得所述相机100的实时拍摄画面，并能够控制云台200的转动和相机100的工作。本实施例中，所述处理器300可为云台处理器，也可为相机处理器，或者，云台处理器和相机处理器，其中，云台处理器和相机处理器通信连接。当然，所述处理器300也可为独立设置的处理器，与云台处理器、相机处理器分别通信连接。本实施例以处理器300为独立设置的处理器为例进行说明。

本实施例中，所述处理器300可包括一个或多个，单独地或共同地工作。所述处理器300可用于识别到声音信息。接着，根据所述声音信息，控制所述相机100的拍摄方向。具体地，本实施例的处理器300用于根据所述声音信息，控制云台200转动以控制所述相机镜头120的拍摄方向。进一步地，处理器300在确定出所述相机100满足触发条件时，控制所述相机100执行拍摄功能。其中，拍摄功能可为拍摄视频录像、也可为拍摄图片，可根据用户的实际需求进行选择。本发明实施例中，处理器300通过声音信息来控制相机100的拍摄方向，并在确定出相机100满足触发条件时，控制相机100自动执行拍摄功能，无需用户手持操作相机100，一方面相机100至用户的距离可以更长，且相机100的拍摄方向更加灵活；另一方面能够解放用户的双手，用户可以自由地摆出各种姿态。

其中，所述声音信息可包括声源方位，还可包括声音内容。其中，所述声音内容可包括用于指示待控制相机100执行相应功能的控制指令，还可包括除控制指令之外的其他声音内容。进一步地，所述控制指令为预先定义的指令，以区别于除控制指令之外的其他声音内容。本实施例中，所述控制指令可包括待控制相机100的相机标识和所述相机100待执行的动作。所述相机100待执行的动作可包括：用于指示所述相机100执行拍摄功能、用于指示所述相机100激活跟踪功能、用于指示所述相机100停止跟踪功能或者其他的待执行动作。更进一步地，所述声音信息的声源可为机械设备，也可为用户。

在一实施例中，所述拍摄装置还可包括声音识别装置(未显示)。所述声音识别装置可设于所述相机本体110上，且所述声音识别装置与所述处理器300通信连接。本实施例的声音识别装置用于识别声音信息并发送至所述处理器300。具体地，声音识别装置采集语音数据，并将语音数据处理成声音信息(可包括声源方位和声音内容)发送至处理器300。所述声音识别装置可包括一个或多个。所述声音识别装置包括多个时，可将多个声音识别装置设置在相机本体110的不同位置处，从而识别不同方位的语音信息，获得准确的声源方位。本实施例的声音识别装置可选择现有任意类型的能够识别声源方位和声音内容的声音识别装置。

在另一实施例中，所述相机100还可包括声音采集模块(未显示)。所述声音采集模块设于所述相机本体110上并与所述处理器300电连接。其中，所述声音采集模块用于采集语音数据并发送至所述处理器300，所述处理器300用于识别所述语音数据的声音信息。进一步地，所述处理器300识别所述语音数据的声音信息具体包括：根据语音识别模型，识别所述语音数据的声源方向，从而控制云台200转动以控制相机100自动对准声源方向。另外，所述处理器300识别所述语音数据的声音信息还可包括：根据语音识别模型，识别所述语音数据的声音内容。更进一步地，所述处理器300根据语音识别模型，识别所述语音数据的声源方向和/或声音内容之前还可包括：基于深度学习技术，获得所述语音识别模型。具体地，可采集足够数量(可根据需要设定)的各个国家和地区的语音数据，基于深度学习技术训练获得所述语音识别模型，鲁棒性强，适用性广，能够满足各种人群在各种场景中的准确识别。相比传统的使用人工设计的语音特征等方法来完成对语音的分类，本发明基于深度学习技术的语音识别方式精度更高。需要说明的是，本发明实施例中，深度学习技术为现有的深度学习技术。可选地，所述声音采集模块为麦克风或其他声音采集模块。

所述处理器300根据所述声音信息，控制云台200转动以控制所述相机100的拍摄方向具体包括：控制云台200转动以控制所述相机100转动至朝向所述声源方位，实现对用户的定位，相比传统相机100固定的方式，本实施例通过声音信息控制云台200转动以控制相机100的拍摄方向可以同时监控多个位置。

进一步地，所述处理器300识别到声音信息之后，根据所述声音信息，控制所述云台200转动以控制所述相机100的拍摄方向之前还可包括：对所述声音信息进行滤波处理，滤除噪音，获得更为准确的声音信息，从而准确地对目标进行跟踪。其中，所述处理器300可采用现有任意类型的滤波方式对所述声音信息进行滤波处理。

本实施例中，处理器300可控制相机100执行即时拍摄功能、延时拍摄功能或连拍功能等拍摄功能。其中，处理器300控制相机100执行的拍摄功能可由用户预先设定，从而满足不同的用户需求。例如，在一实施例中，用户预先设定的相机100的拍摄功能为即时拍摄功能，所述处理器300确定出所述相机100满足触发条件时，控制所述相机100执行拍摄功能的步骤具体包括：在确定出所述相机100满足触发条件时，控制所述相机100立即执行拍摄功能。

在另一实施例中，用户预先设定的相机100的拍摄功能为延时拍摄功能，所述处理器300确定出所述相机100满足触发条件时，控制所述相机100执行拍摄功能的步骤具体包括：在确定出所述相机100满足触发条件时，控制所述相机100以预设时长执行延时拍摄功能。处理器300控制所述相机100延时执行拍摄功能的预设时长可根据用户需求设定，例如，预设时长可为3秒，在处理器300确定出所述相机100满足触发条件时，处理器300控制所述相机100倒计时3秒后执行拍摄功能，从而满足用户的需求。

在又一实施例中，用户预先设定的相机100的拍摄功能为连拍功能，所述处理器300确定出所述相机100满足触发条件时，控制所述相机100执行拍摄功能的步骤包括：在确定出所述相机100满足触发条件时，控制所述相机100执行连拍功能。处理器300控制所述相机100执行连拍功能是指处理器300控制所述相机100连续拍摄多张图片，例如，5张，在处理器300确定出所述相机100满足触发条件时，处理器300会控制所述相机100连续拍摄5张图片。多张图片拍摄的时间间隔可根据需要设定，从而满足不同的用户需求。

本实施例中，所述触发条件包括：所述处理器300确定出所述相机100捕捉到特定特征信息。本实施例中，特定特征信息指用户特征信息，比如，人脸特征信息、用户轮廓信息等。本实施例以特定特征信息为人脸特征信息为例进一步说明。进一步地，所述处理器300确定出所述相机100捕捉到特定特征信息具体包括：根据所述相机100的拍摄画面，基于视觉识别技术(比如，人脸识别模型)，识别到人脸特征信息。可选地，所述处理器300是基于深度学习技术，获得所述人脸识别模型的。具体地，可采集足够数量(可根据需要设定)的各个国家和地区的人脸数据，基于深度学习技术训练获得所述人脸识别模型，鲁棒性强，适用性广，能够满足各种人群在各种场景中的准确识别。相比传统的使用人工设计的人脸特征等方法来完成对人脸的分类，本发明基于深度学习技术的人脸识别方式精度更高。

本实施例中，所述声音信息包括控制指令，通过控制指令来触发处理器300控制相机100执行相应的功能，彻底解放用户的双手，相机100拍摄的自动化程度更高。其中，所述控制指令包括待控制相机100的相机标识和所述相机100待执行的动作。例如，在一实施例中，所述相机100待执行的动作用于指示所述相机100执行拍摄功能。进一步地，所述触发条件还包括：所述处理器300确定出所述声音信息包括用于指示所述相机100执行拍摄功能的控制命令。处理器300通过声音信息触发相机100执行拍摄功能，替代现有手动触发按钮的方式，一方面解放了用户双手，相机100与用户的距离不受限制，拍摄角度也更佳灵活，并且，用户也可以摆出任意姿态。另一方面相机100不会产生抖动，获得的视频录像或图片质量更佳。

在另一实施例中，所述相机100待执行的动作用于指示所述相机100激活跟踪功能。所述处理器300在确定出所述相机100捕捉到特定特征信息之后还可包括：控制云台200转动以控制所述相机100对所述特定特征信息对应的目标对象进行跟踪，从而通过声音信息开启相机100的自动跟踪功能，无需用户手动开启相机100的自动跟踪功能，方便快捷。

在又一实施例中，所述相机100待执行的动作用于指示所述相机100停止跟踪功能。所述处理器300在确定出所述相机100捕捉到特定特征信息之后还可包括：控制云台200停止转动以控制所述相机100停止跟踪所述特定特征信息对应的目标对象，无需用户手动关闭相机100的自动跟踪功能，方便快捷。

在一具体实现方式中，待控制相机100的相机标识为标识1，标识1的相机100的控制指令包括：(标识1，自拍模式)、(标识1，拍摄)和(标识1，停止)。其中，当处理器300识别到用户发出“标识1，自拍模式”的声音内容时，处理器300会通过云台200控制相机100转动至朝向用户的方向，从而实现相机100自动跟踪功能的开启，进一步地，处理器300会基于视觉识别技术，控制云台200转动以控制相机100对目标对象进行跟踪。当处理器300识别到用户发出“标识1，拍摄”的声音内容时，处理器300会控制相机100执行拍摄功能，获得对应的视频录像或图片。当处理器300识别到用户发出“标识1，停止”的声音内容时，处理器300会控制云台200停止转动，以关闭相机100的自动跟踪功能，使得相机100停止对目标对象的跟踪。本实施例的处理器300通过声音信息触发相机100激活自动跟踪功能、执行拍摄功能以及关闭自动跟踪功能，无需用户手动操作，即可实现对相机100的控制，相机100至用户的距离可以更长，且解放了用户双手，相机100拍摄的画面更加稳定。本实施例中，处理器300根据“标识1，停止”的声音内容控制相机100关闭自动跟踪功能之前，相机100已开启自动跟踪功能。具体地，处理器300根据“标识1，停止”的声音内容控制相机100关闭自动跟踪功能是在处理器300根据“标识1，自拍模式”的声音内容控制相机100开启自动跟踪功能后执行的。

此外，处理器300控制相机100关闭自动跟踪功后，当再次识别到用户发出其他需要响应的控制指令，比如，用户发出“标识1，自拍模式”的声音内容时，处理器300会再次控制相机100开启自动跟踪功能，否则，处理器300无法控制相机100执行自动跟踪功能。本实施例中，自动跟踪功能是指处理器300根据声音信息和视觉识别技术来控制云台200转动，以控制相机100定位用户并锁定，并产生持续跟随的功能。

进一步地，所述处理器300根据所述声音信息，控制云台200转动以控制所述相机100的拍摄方向之后还可包括：识别所述声音信息对应的目标对象，获得所述目标对象的特征信息。具体地，处理器300识别所述声音信息对应的目标对象，获得所述目标对象的特征信息的过程为：根据所述声音信息，控制所述云台200转动以控制相机100对准目标对象，接着根据相机100的拍摄画面，识别到所述目标对象的特征信息(比如人脸特征信息、轮廓信息等)。本实施例中，当所述声音信息的声源为机械设备时，所述目标对象为距离所述声源最近的用户。例如，用户开门时，所述声源为门，处理器300识别到的目标对象即为开门的用户，云台200会自动转动朝向门的方向并且使用视觉识别检测人脸。当所述声音信息的声源为用户时，所述目标对象为所述声源，通过声音来控制云台200转动以带动相机100朝向说话的用户并且检测人脸，彻底解放用户的双手。

更进一步地，所述处理器300识别所述声音信息对应的目标对象，获得所述目标对象的特征信息之后还可包括：根据所述特征信息，控制所述云台200转动以控制所述相机100对所述目标对象进行跟踪。本实施例的处理器300是根据相机100的拍摄画面，基于视觉识别技术控制所述云台200转动以控制所述相机100对目标对象进行跟踪的，识别目标对象的精度高。具体地，所述处理器300根据所述特征信息，控制所述云台200转动以控制所述相机100对所述目标对象进行跟踪的步骤具体包括：根据所述特征信息，控制所述云台200转动以使得所述目标对象位于所述相机100的拍摄画面中，实现相机100的自动构图，从而保证相机100能够始终跟踪到目标对象，相机100拍摄方式的自动化程度和精度均较高，给用户提供较大的便利。

在一些例子中，所述处理器300控制所述云台200转动以使得所述目标对象位于所述相机100的拍摄画面中的步骤具体包括：控制所述云台200转动以使得所述目标对象位于所述相机100的拍摄画面中的特定位置。可选地，处理器300控制所述云台200转动以控制目标对象的人脸位于拍摄画面的中部位置，或者，处理器300控制所述云台200转动以控制目标对象的人脸位于拍摄画面中2/3高度线上，或者，处理器300也可控制所述云台200转动以控制目标对象的其他区域位于拍摄画面中的中部位置、2/3高度线上或其他位置。

在另一些例子中，所述处理器300控制所述云台200转动以使得所述目标对象位于所述相机100的拍摄画面中具体包括：控制所述云台200转动以使得所述目标对象在所述相机100的拍摄画面中的像素为预设像素大小。可选地，处理器300控制所述云台200转动以控制目标对象在拍摄画面中的像素为800*600。进一步地，处理器300可控制所述云台200转动以控制目标对象完全位于拍摄画面中，或处理器300可控制所述云台200转动以控制目标对象至少部分(包括人脸)位于拍摄画面中。

进一步地，本实施例的处理器300可根据相机100的拍摄画面进行视频录像或拍摄图片，且生成视频录像或图片的过程无需用户手动操作，彻底解放用户双手，用户体验佳。例如，在一些实施例中，所述处理器300根据所述特征信息，控制所述云台200转动以控制所述相机100对所述目标对象进行跟踪的同时还可包括：根据所述相机100的拍摄画面，生成视频录像或图片，实现对目标对象的自动化拍摄。

在另一些实施例中，所述处理器300根据所述特征信息，控制所述云台200转动以控制所述相机100对所述目标对象进行跟踪的同时还可包括：根据所述相机100的拍摄画面和所述声音信息，生成视频录像或图片，实现对目标对象的自动化拍摄，且获得的视频录像或图片内容更加丰富。本实施例中，当所述声音信息为除控制指令之外的其他声音内容时，处理器300所生成的视频录像或图片中可携带有当前的声音信息。

更进一步地，参见图1，所述相机本体110还可包括显示屏130，所述显示屏130与所述处理器300电连接。所述显示屏130可实时显示所述处理器300生成的视频录像或图片。优先地，所述显示屏130朝向使用者，方便使用者根据显示屏130显示的视频录像或图片发出对应的控制指令、摆出任意姿态或者进行位置移动等等，从而给使用者带来更丰富的自拍体验。

此外，所述处理器300识别所述声音信息对应的目标对象，获得所述目标对象的特征信息之后还可包括：再次识别到声音信息，识别当前识别到的声音信息对应的目标对象，获得当前识别到的声音信息对应的目标对象的特征信息。接着，处理器300会判断当前识别到声音信息对应的目标对象与前一次识别到的声音信息对应的目标对象是否为同一目标对象。在处理器300判断出当前识别到声音信息对应的目标对象与前一次识别到的声音信息对应的目标对象为同一目标对象时，控制云台200转动以使所述相机100持续跟踪所述目标对象即可。在处理器300判断出当前识别到声音信息对应的目标对象与前一次识别到的声音信息对应的目标对象为不同目标对象时，控制云台200转动以控制所述相机100转动至朝向所述相机100当前识别到的声音信息对应的目标对象，从而切换跟踪的目标对象，确保相机100实时对准当前发出声音信息的目标对象。

具体地，当处理器300确定出当前识别到的声音信息对应的目标对象的特征信息与于前一次识别到的声音信息对应的目标对象的特征信息的差异大于预设差异值时，表明处理器300当前识别到声音信息对应的目标对象与处理器300前一次识别到的声音信息对应的目标对象为不同目标对象，此时，处理器300会控制云台200转动以控制所述相机100转动至朝向所述当前识别到的声音信息对应的目标对象，对新的目标对象进行跟踪。当处理器300确定出当前识别到的声音信息对应的目标对象的特征信息与于前一次识别到的声音信息对应的目标对象的特征信息的差异小于或等于预设差异值时，表明处理器300当前识别到声音信息对应的目标对象与处理器300前一次识别到的声音信息对应的目标对象为同一目标对象，处理器300控制云台200转动以控制相机100继续跟踪该目标对象即可。

在一具体实现方式中，处理器300根据两次识别到的目标对象的人脸特征信息来判断两次识别到的目标对象是否为同一目标对象，当两次识别到的目标对象的人脸特征信息的差异大于5％时，则表明处理器300两次识别到的目标对象为不同的目标对象，处理器300会控制云台200转动以控制相机100转动至朝向最近一次识别到的目标对象。而当两次识别到的目标对象的人脸特征信息的差异小于或等于5％时，则表明处理器300两次识别到的目标对象为同一目标对象，相机100控制云台200转动以控制相机100始终对准该目标对象即可。需要说明的是，此处的目标对象均为用户。当所述声音信息的声源为机械设备时，所述目标对象为距离所述声源最近的用户。当所述声音信息的声源为用户时，所述目标对象为所述声源(即说话的用户)。

可参见实施例一的拍摄方法对实施例的拍摄装置进一步解释。

实施例三

本发明实施例三提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器300执行时实现实施例一所述的拍摄方法的步骤。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

“具体示例”、或“一些示例”等的描述意指结合所述实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施例的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施例中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施例中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种拍摄方法，其特征在于，包括：

识别到声音信息；

根据所述声音信息中的声源方位，控制云台转动以控制相机朝向所述声源方位从而开启自动跟踪功能；

识别所述声音信息对应的目标对象，确定出所述相机捕捉到所述目标对象的用户特征信息后，控制所述云台转动以控制所述相机对所述目标对象进行跟踪；其中，当所述声音信息的声源为机械设备时，所述目标对象为距离所述声源最近的用户；当所述声音信息的声源为用户时，所述目标对象为所述声源；

在确定出相机满足触发条件时，控制所述相机执行拍摄功能；

所述触发条件包括：确定所述声音信息包括用于指示所述相机执行拍摄功能的控制命令，以及所述相机捕捉到用户特征信息，所述用户特征信息包括人脸特征信息和用户轮廓信息中的至少一个。

2.根据权利要求1所述的方法，其特征在于，所述识别到声音信息，包括：

基于所述相机上的声音识别装置识别到声音信息。

3.根据权利要求1所述的方法，其特征在于，所述识别到声音信息，包括：

接收所述相机上的声音采集模块采集的语音数据；

识别所述语音数据的声音信息。

4.根据权利要求3所述的方法，其特征在于，所述识别所述语音数据的声音信息，包括：

根据语音识别模型，识别所述语音数据的声源方向。

5.根据权利要求4所述的方法，其特征在于，所述根据语音识别模型，识别所述语音数据的声源方向之前，还包括：

基于深度学习技术，获得所述语音识别模型。

6.根据权利要求1所述的方法，其特征在于，所述声音信息包括控制指令，所述控制指令包括待控制相机的相机标识和所述相机待执行的动作。

7.根据权利要求6所述的方法，其特征在于，所述相机待执行的动作用于指示所述相机停止跟踪功能；

确定出所述相机捕捉到用户特征信息之后，包括：

控制所述云台停止转动以控制所述相机停止跟踪所述用户特征信息对应的目标对象。

8.根据权利要求1所述的方法，其特征在于，所述控制所述云台转动以控制所述相机对所述目标对象进行跟踪，包括：

控制所述云台转动以使得所述目标对象位于所述相机的拍摄画面中。

9.根据权利要求8所述的方法，其特征在于，所述控制所述云台转动以使得所述目标对象位于所述相机的拍摄画面中，包括：

控制所述云台转动以使得所述目标对象位于所述相机的拍摄画面中的特定位置。

10.根据权利要求8所述的方法，其特征在于，所述控制所述云台转动以使得所述目标对象位于所述相机的拍摄画面中，包括：

控制所述云台转动以使得所述目标对象在所述相机的拍摄画面中的像素为预设像素大小。

11.根据权利要求10所述的方法，其特征在于，所述控制所述云台转动以控制所述相机对所述目标对象进行跟踪的同时，还包括：

根据所述相机的拍摄画面，生成视频录像或图片；

或者，

根据所述相机的拍摄画面和所述声音信息，生成视频录像或图片。

12.根据权利要求1所述的方法，其特征在于，所述识别所述声音信息对应的目标对象之后，还包括：

再次识别到声音信息；

识别当前识别到的声音信息对应的目标对象，获得当前识别到的声音信息对应的目标对象的特征信息；

确定出当前识别到的声音信息对应的目标对象的特征信息与前一次识别到的声音信息对应的目标对象的特征信息的差异大于预设差异值时，控制所述云台转动以控制所述相机朝向所述相机当前识别到的声音信息对应的目标对象。

13.根据权利要求1所述的方法，其特征在于，所述确定出所述相机满足触发条件时，控制所述相机执行拍摄功能，包括：

在确定出所述相机满足触发条件时，控制所述相机立即执行拍摄功能。

14.根据权利要求1所述的方法，其特征在于，所述确定出所述相机满足触发条件时，控制所述相机执行拍摄功能，包括：

在确定出所述相机满足触发条件时，控制所述相机以预设时长执行延时拍摄功能。

15.根据权利要求1所述的方法，其特征在于，所述确定出所述相机满足触发条件时，控制所述相机执行拍摄功能，包括：

在确定出所述相机满足触发条件时，控制所述相机执行连拍功能。

16.根据权利要求1所述的方法，其特征在于，所述识别到声音信息之后，所述根据所述声音信息，控制云台转动以控制相机的拍摄方向之前，还包括：

对所述声音信息进行滤波处理。

17.一种拍摄装置，其特征在于，包括相机、云台和处理器，所述相机至少部分搭载在所述云台上，所述处理器与所述相机、所述云台分别通信连接；

其中所述处理器包括一个或多个，单独地或共同地工作，所述处理器用于，识别到声音信息，根据所述声音信息中的声源方位，控制云台转动以控制相机朝向所述声源方位从而开启自动跟踪功能；识别所述声音信息对应的目标对象，确定出所述相机捕捉到所述目标对象的用户特征信息，控制所述云台转动以控制所述相机对所述目标对象进行跟踪；其中，当所述声音信息的声源为机械设备时，所述目标对象为距离所述声源最近的用户；当所述声音信息的声源为用户时，所述目标对象为所述声源；

在确定出所述相机满足触发条件时，控制所述相机执行拍摄功能；

所述触发条件包括：确定所述声音信息包括用于指示所述相机执行拍摄功能的控制命令，以及所述相机捕捉到用户特征信息，所述用户特征信息包括人脸特征信息和用户轮廓信息中的至少一个；

其中，所述控制指令包括所述相机待执行的动作，所述相机待执行的动作用于指示所述相机激活跟踪功能。

18.根据权利要求17所述的拍摄装置，其特征在于，所述拍摄装置还包括声音识别装置，所述声音识别装置与所述处理器电连接；

所述处理器用于通过所述声音识别装置识别到声音信息。

19.根据权利要求17所述的拍摄装置，其特征在于，所述相机还包括声音采集模块，所述声音采集模块与所述处理器电连接；

所述声音采集模块用于采集语音数据并发送至所述处理器；

所述处理器用于识别所述语音数据的声音信息。

20.根据权利要求19所述的拍摄装置，其特征在于，所述声音采集模块为麦克风。

21.根据权利要求19所述的拍摄装置，其特征在于，所述处理器识别所述语音数据的声音信息，包括：

根据语音识别模型，识别所述语音数据的声源方向。

22.根据权利要求21所述的拍摄装置，其特征在于，所述处理器在根据预设的语音识别模型，识别所述语音数据的声源方向之前，还包括：

基于深度学习技术，获得所述语音识别模型。

23.根据权利要求17所述的拍摄装置，其特征在于，所述声音信息包括控制指令，所述控制指令包括待控制相机的相机标识和所述相机待执行的动作。

24.根据权利要求23所述的拍摄装置，其特征在于，所述相机待执行的动作用于指示所述相机停止跟踪功能；

所述处理器确定出所述相机捕捉到用户特征信息之后，包括：

25.根据权利要求17所述的拍摄装置，其特征在于，所述处理器根据所述特征信息，控制所述云台转动以控制所述相机对所述目标对象进行跟踪，包括：

根据所述特征信息，控制所述云台转动以使得所述目标对象位于所述相机的拍摄画面中。

26.根据权利要求25所述的拍摄装置，其特征在于，所述处理器控制所述云台转动以使得所述目标对象位于所述相机的拍摄画面中，包括：

27.根据权利要求25所述的拍摄装置，其特征在于，所述处理器控制所述目标对象位于所述相机的拍摄画面中，包括：

28.根据权利要求17所述的拍摄装置，其特征在于，所述处理器根据所述特征信息，控制所述云台转动以控制所述相机对所述目标对象进行跟踪的同时，还包括：

根据所述相机的拍摄画面，生成视频录像或图片；

或者，

29.根据权利要求17所述的拍摄装置，其特征在于，所述处理器识别所述声音信息对应的目标对象，获得所述目标对象的特征信息之后，还包括：

再次识别到声音信息；

确定出当前识别到的声音信息对应的目标对象的特征信息与前一次识别到的声音信息对应的目标对象的特征信息的差异大于预设差异值时，控制所述云台转动以控制所述相机朝向当前识别到的声音信息对应的目标对象。

30.根据权利要求17所述的拍摄装置，其特征在于，所述处理器确定出所述相机满足触发条件时，控制所述相机执行拍摄功能，包括：

31.根据权利要求17所述的拍摄装置，其特征在于，所述处理器确定出满足触发条件时，执行拍摄功能，包括：

32.根据权利要求17所述的拍摄装置，其特征在于，所述处理器确定出满足触发条件时，执行拍摄功能，包括：

33.根据权利要求17所述的拍摄装置，其特征在于，所述处理器识别到声音信息之后，所述处理器根据所述声音信息，控制所述云台转动以控制所述相机的拍摄方向之前，还包括：

对所述声音信息进行滤波处理。

34.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至16任一项所述的拍摄方法的步骤。