CN111176430B

CN111176430B - 一种智能终端的交互方法、智能终端及存储介质

Info

Publication number: CN111176430B
Application number: CN201811348981.3A
Authority: CN
Inventors: 吴炽强
Original assignee: Qiku Internet Network Scientific Shenzhen Co ltd
Current assignee: Qiku Internet Network Scientific Shenzhen Co ltd
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2023-10-13
Anticipated expiration: 2038-11-13
Also published as: CN111176430A

Abstract

本发明公开一种智能终端的交互方法、智能终端及存储介质。该智能终端的交互方法包括对获取到的用户图像进行分析得到其中包含的唇形特征；对所述唇形特征进行识别得到与所述唇形特征匹配的指令信息；根据所述指令信息的指令内容执行相应的操作。通过上述方式可令智能终端在不依赖于用户的语音信息，不受周围环境声音的影响的情况下通过用户图像对用户的指令信息进行获取，提升了智能终端的人机交互的适用性，也提升了用户体验。

Description

一种智能终端的交互方法、智能终端及存储介质

技术领域

本发明涉及智能终端的人机交互技术领域，尤其涉及一种智能终端的交互方法、智能终端及存储介质。

背景技术

随着智能终端的发展，能够与通过用户的语音指令执行相应操作或与用户进行人机交互的智能设备越来越普遍。现有技术中，智能音箱、手机、智能机器人等智能设备可以获取用户的指令与用户进行智能人机交互，例如，根据用户的语音控制指令执行相应播放音乐、视频等操作，或根据用户的发问进行相应回答进而与用户进行聊天互动等。

但用户在户外的嘈杂环境中通过语音与智能终端进行交互时，可能由于环境内存在噪声导致智能终端无法正确对用户的语音指令进行识别，导致交互错误等情况；或在如车厢等人较多的环境中，或图书馆、电影院等不便于出声的环境中时，用户通过语音与智能终端进行交互可能会对周围的其他人造成干扰，也该自己带来不便；由此，现有技术的智能终端的人机交互方法不能满足更多情况的适用。

发明内容

本发明的目的在于提供一种智能终端的交互方法、智能终端及存储介质，该智能终端的用户交互方法提高智能终端交互的适用性。

为实现上述目的，本发明提供一种智能终端的交互方法，所述交互方法包括：

对获取到的用户图像进行分析得到其中包含的唇形特征；

对所述唇形特征进行识别得到与所述唇形特征匹配的指令信息；

根据所述指令信息的指令内容执行相应的操作。

另一方面，本发明提出了一种智能终端，该智能终端包括图像获取装置、人机交互电路、存储器和处理器，所述图像获取装置、人机交互电路、存储器和处理器相互连接；

所述存储器用于存储所述处理器执行的计算机指令以及相应的深度学习模型；

所述处理器用于执行所述计算机指令以生成相应的人机交互的控制指令，并向所述人机交互电路发送所述控制指令，以使所述人机交互电路根据所述控制指令实现上述智能终端的交互方法。

另一方面，本发明还提出了一种存储介质，该存储介质存储有计算机程序数据，所述计算机程序数据能够被执行以实现上述智能终端的交互方法。

有益效果：区别于现有技术，本发明的智能终端的交互方法通过对用户图像进行分析得到相应的唇形特征，进而利用分析得到的唇形特征进行匹配得到相应的指令信息，从而根据得到的指令信息执行相应操作。在本申请的智能终端的交互方法的执行过程中不依赖于用户的语音信息，且不受周围环境声音的影响，用户可以不发出声音或发出很小的声音，或用户周围有较大的噪声，智能终端仍可通过用户图像对用户的指令信息进行获取，提升了智能终端的人机交互的适用性，也提升了用户体验。

附图说明

图1是本发明智能终端的交互方法第一实施例的流程示意图；

图2是本发明智能终端的交互方法第二实施例的流程示意图；

图3是本发明智能终端的交互方法第三实施例的流程示意图；

图4是本发明智能终端的交互方法第四实施例的流程示意图；

图5是本发明智能终端的交互方法第五实施例的流程示意图；

图6是图5中步骤S51的一实施方式的流程示意图；

图7是本发明智能终端的交互方法第六实施例的流程示意图；

图8是本发明智能终端的交互方法第七实施例的流程示意图；

图9是本发明智能终端一实施例的结构示意图；

图10是本申请存储介质一实施例的结构示意图。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明做进一步详细描述。显然，所描述的实施方式仅仅是本发明的一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，均属于本发明保护的范围。

请参阅图1，图1是本发明智能终端的交互方法第一实施例的流程示意图。如图1所示，本实施例的智能终端的交互方法至少可包括如下步骤：

在步骤S11中，对获取到的用户图像进行分析得到其中包含的唇形特征。

当用户向智能终端发出控制指令时，智能终端开启拍摄装置对用户进行拍摄，获取相应的用户图像，进而对获取到的用户图像进行分析进而得到用户图像中包含的唇形特征。

本实施例中，用户图像为一段时间内的视频图像，分析得到的唇形特征为视频图像中的随时间分布的唇形特征序列，即对视频图像进行分析，得到这段时间内用户的唇形的持续变化状况，进而得到这段时间内随时间分布的唇形特征序列；该唇形特征序列包含了这段时间内每个时间点对应的用户的唇形特征，唇形特征包含了出现的每个唇形的形状，以及唇形变化快慢等特征。

本实施例中智能终端可以为手机、电脑、平板电脑、带有摄像头的智能音箱、机器人等能够与用户进行人机互动的智能设备，本申请对此不作具体限制。

在步骤S12中，对唇形特征进行识别得到与唇形特征匹配的指令信息。

进一步，利用步骤S11中识别到的唇形特征中包含的每个唇形特征，对每个唇形特征进行匹配，进而得到与唇形特征序列匹配的指令信息。

在一实施方式中，智能终端可通过存储的第一深度学习神经网络，对唇形特征进行识别得到与唇形特征匹配的指令信息。智能终端中存储有对唇形特征进行学习而形成的第一深度学习神经网络，由此，将步骤 S11中分析得到的唇形特征作为第一深度学习神经网络的输入数据进行输入，令第一深度学习神经网络对输入的唇形特征进行识别输出与唇形特征匹配的指令信息。

本实施例中，第一深度学习神经网络可由另一具有较强计算功能的服务器、计算机等设备根据收集到包括唇形特征和与唇形特征对应的指令信息进行学习而生成，进一步，将生成的第一深度学习神经网络加载至本发明的智能终端中，以使智能终端可利用第一深度学习神经网络执行本步骤的执行内容。在其他实施方式中，若智能终端本身具有较强的计算能力和数据存储能力，则也可由智能终端本身根据收集到包括唇形特征和与唇形特征对应的指令信息进行深度学习形成相应的第一深度学习神经网络。

在步骤S13中，根据指令信息的指令内容执行相应的操作。

通过步骤S12，智能终端即可通过用户图像得到其中包含的指令信息，进而根据该指令信息的指令内容执行相应操作。进一步，若指令信息为控制类型的指令信息，相应的指令内容则为控制内容，例如，打开某APP、查找某联系人的联系方式、向某联系人发送消息等，则智能终端可根据相应的控制内容执行相应操作；若指令信息为提问类型的指令信息，相应的指令内容即为提问内容，例如，某地区今天的天气如何、如何去到某大厦等，则智能终端可根据相应的提问内容进行搜索，并将搜索结果反馈给用户。

本申请的智能终端的交互方法通过对用户图像进行分析得到相应的唇形特征，进而利用分析得到的唇形特征进行匹配得到相应的指令信息，从而根据得到的指令信息执行相应操作。在本申请的智能终端的交互方法的执行过程中不依赖于用户的语音信息，且不受周围环境声音的影响，用户可以不发出声音或发出很小的声音，或用户周围有较大的噪声，智能终端仍可通过用户图像对用户的指令信息进行获取，提升了智能终端的人机交互的适用性，也提升了用户体验。

进一步，基于上述的第一深度学习神经网络，本申请在图1所示的交互方法第一实施例的基础上还提出了图2所示的智能终端的交互方法第二实施例的流程示意图。本实施例的智能终端的交互方法在于建立用于构建第一深度学习神经网络的第一深度学习数据库。如图2所示，本实施例至少可包括如下步骤：

在步骤S21中，获取用户的语音数据，并记录对应的人脸图像。

在执行图1所示的交互方法第一实施例之前，用户通过具有拍摄功能的智能终端录入语音数据，智能终端接收到用户的语音数据的同时开启拍摄装置，拍摄用户录入语音数据时对应的人脸图像，可以理解的，人脸图像为用户录入语音数据过程中的人脸视频图像。

在步骤S22中，对语音数据进行分析得到其中包含的指令信息，并从人脸图像中分析得到与指令信息对应的唇形特征。

进一步，对语音数据进行分析可得到语音数据中包含的指令信息，同时，利用人脸识别算法可从上述人脸图像中分析得到相应的唇形特征，进而继续执行步骤S23。

在步骤S23中，建立指令信息与唇形特征之间的关联关系，并生成用于构建第一深度学习神经网络的第一深度学习数据库。

利用步骤S22中得到的指令信息和唇形特征，建立两者的关联关系，在一实施方式中，语音数据中的指令信息可携带与其对应的时间戳，同样，分析得到的唇形特征也携带有与其对应的时间戳，根据指令信息和唇形特征携带的相同的时间戳，即可将指令信息与唇形特征之间进行关联对应。例如，指令信息从语音数据的时间点a开始，到时间点b结束，则可从分析得到的唇形特征中提取时间点a至时间点b之间的唇形特征，进而可将该指令信息与提取的唇形特征进行关联。

由此，即可对建立了关联关系的指令信息和唇形特征进行存储，当存储的数据量足够大时，即存储了大量的具有关联关系的指令信息和唇形特征后，即可利用存储的大量的具有关联关系的指令信息和唇形特征即可建立第一深度学习数据库。本实施例中，第一深度学习数据库用于提供给初步的深度学习模型进行学习，进而构建用于执行图1中所示的交互方法的第一深度学习神经网络。本实施例中，可根据现有深度学习模型构建初步深度学习神经网络模型，进一步将上述的第一深度学习数据库作为初步深度学习神经网络模型的训练集进行学习，进而构建上述第一深度学习神经网络。

上述实施方式中建立的第一深度学习数据库中包含的数据包括相互关联的指令信息和唇形特征，由此，基于上述第一深度学习数据库训练构建而成的第一深度学习神经网络可用于执行图1中步骤S12根据唇形特征识别得到相应的指令信息的内容。在其他实施方式中，第一深度学习数据库中还可包括用户图像、唇形特征、与唇形特征匹配的指令信息、以及与指令信息对应的指令内容，此时根据第一深度学习数据库训练而构建的第一深度学习神经网络可完成图1所示的智能终端的交互方法第一实施例的全部步骤。

本实施例结合深度学习神经网络，通过采集大量的用户的唇形特征及对应的指令信息建立相应的数据库，通过深度学习神经网络对数据库中的数据进行学习，将利用用户图像分析得到唇形特征作为深度学习神经网络的输入数据，令深度学习神经网络根据学习结果输出对应的指令信息，能够提高指令信息匹配的准确度。此外，在后续用户的智能终端的使用过程中，可根据采集到的数据对数据库进行不断更新，深度学习神经网络也可不断的进行学习，令后续的交互过程更加贴合用户的实际需求，且匹配的指令信息的准确度更高。

进一步，请参阅图3，图3是本发明智能终端的交互方法第三实施例的流程示意图。如图3所示，本实施例的智能终端的交互方法至少可包括如下步骤：

在步骤S31中，对获取到的用户图像进行分析得到其中包含的唇形特征。

本实施例的步骤S31与图1所示的步骤S11相同，具体执行内容请参见步骤S11的说明，此处不再赘述。

在步骤S32中，对唇形特征进行识别得到与唇形特征匹配的指令信息和与唇形特征匹配的情绪信息。

本实施例中，除了类似于图1所示的步骤S12，利用步骤S31中识别到的唇形特征中包含的每个唇形特征，匹配得到与唇形特征对应的指令信息。进一步，利用步骤S31中识别到的唇形特征中包含的每个唇形特征，匹配得到相应的情绪信息。

可以理解的是，用户在不同的情绪状态下，唇形的形状、唇形变化快慢等特征也会不同，由此，可根据识别得到的唇形特征进行匹配得到相应的情绪信息，该情绪信息可表征用户对应的情绪为开心、愤怒、低沉、抑郁等不同的情绪表现。

在一实施方式中，智能终端可通过存储的第二深度学习神经网络，对唇形特征进行识别得到与唇形特征匹配的指令信息和情绪信息。智能终端中存储有对唇形特征进行学习而形成的第二深度学习神经网络，由此，将步骤S31中分析得到的唇形特征作为第二深度学习神经网络的输入数据进行输入，令第二深度学习神经网络对输入的唇形特征进行识别输出与唇形特征匹配的指令信息和情绪信息。

本实施例中，第二深度学习神经网络可由另一具有较强计算功能的服务器、计算机等设备根据收集到包括唇形特征、与唇形特征对应的指令信息以及与唇形特征对应的情绪信息进行学习而生成，进一步，将生成的第二深度学习神经网络加载至本发明的智能终端中，以使智能终端可利用第二深度学习神经网络执行步骤S32的上述内容。在其他实施方式中，若智能终端本身具有较强的计算能力和数据存储能力，则也可由智能终端本身根据收集到包括唇形特征、与唇形特征对应的指令信息以及与唇形特征对应的情绪信息进行深度学习形成相应的第二深度学习神经网络。

在步骤S33中，根据指令信息和情绪信息与用户进行智能交互。

进一步，在根据指令信息的指令内容执行相应操作时，可结合匹配到的情绪信息与用户进行智能交互，例如，匹配到用户的情绪信息表征用户处于低沉的状态，则可在智能终端的显示界面播放鼓励的动画等。

进一步，基于上述的第二深度学习神经网络，本申请在图3所示的交互方法第三实施例的基础上还提出了图4所示的智能终端的交互方法第四实施例的流程示意图。本实施例的智能终端的交互方法在于建立用于构建第二深度学习神经网络的第二深度学习数据库。如图4所示，本实施例至少可包括如下步骤：

在步骤S41中，获取用户的语音数据，并记录对应的人脸图像。

在执行图3所示的交互方法第三实施例之前，用户通过具有拍摄功能的智能终端录入语音数据，智能终端接收到用户的语音数据的同时开启拍摄装置，拍摄用户录入语音数据时对应的人脸图像，可以理解的，人脸图像为用户录入语音数据过程中的人脸视频图像。

在步骤S42中，对语音数据进行分析得到相应的情绪信息以及其中包含的指令信息，并从人脸图像中分析得到与情绪信息和指令信息对应的唇形特征。

进一步，对语音数据进行分析可得到语音数据中包含的指令信息和情绪信息，同时，利用人脸识别算法可从上述人脸图像中分析得到相应的唇形特征，进而继续执行步骤S43。

在步骤S43中，建立情绪信息、指令信息和唇形特征之间的关联关系，并生成用于构建第二深度学习神经网络的第二深度学习数据库。

利用步骤S42中得到的指令信息、情绪信息以及唇形特征，分别建立唇形特征与情绪信息，以及唇形特征与指令信息之间的关联关系，在一实施方式中，语音数据中的指令信息和情绪信息可携带与其对应的时间戳，同样，分析得到的唇形特征也携带有与其对应的时间戳，根据指令信息和唇形特征携带的相同的时间戳，即可将指令信息与唇形特征之间进行关联对应，同时将情绪信息与唇形特征之间进行关联对应。例如，指令信息从语音数据的时间点a开始，到时间点b结束，则可从分析得到的唇形特征中提取时间点a至时间点b之间的唇形特征，进而可将该指令信息与提取的唇形特征进行关联；同时，根据时间a至时间点b之间的语音数据进行分析得到对应的情绪信息，进一步将上述提取的时间点a至时间点b之间的唇形特征与该情绪信息进行关联。

由此，即可对建立了关联关系的指令信息和唇形特征进行存储，同时对建立了关联关系的情绪信息和唇形特征进行存储，当存储的数据量足够大时，即存储了大量的具有关联关系的指令信息、情绪信息和唇形特征后，即可利用存储的大量的具有关联关系的指令信息、情绪信息和唇形特征建立第二深度学习数据库。本实施例中，将第二深度学习数据库作为根据深度学习模型建立的初步深度学习神经网络模型的训练集，令初步的深度学习模型利用第二深度学习数据库进行学习，进而构建用于执行图3中所示的交互方法的第二深度学习神经网络。

上述实施方式中建立的第二深度学习数据库中包含的数据包括相互关联的指令信息和唇形特征，以及相互关联的情绪信息和唇形特征；由此，基于上述第二深度学习数据库训练构建而成的第二深度学习神经网络可用于执行图3中步骤S32对唇形特征进行识别得到与唇形特征匹配的指令信息和与唇形特征匹配的情绪信息的内容。在其他实施方式中，第二深度学习数据库中还可包括用户图像、唇形特征、与唇形特征匹配的指令信息，与唇形特征匹配的情绪信息、以及与指令信息对应的指令内容，此时根据第二深度学习数据库训练而构建的第二深度学习神经网络可完成图3所示的智能终端的交互方法第三实施例的全部步骤。

本实施例中，第一深度学习神经网络和第二深度学习神经网络可基于相同的初步深度学习神经网络模型，根据不同的数据内容训练得到，由此，第一深度学习神经网络和第二深度学习神经网络的神经网络结构可相同或类似，本申请不做具体限制。

进一步，请参阅图5，图5是本发明智能终端的交互方法第五实施例的流程示意图。如图5所示，本实施例的智能终端的交互方法至少可包括如下步骤：

在步骤S51中，根据获取到的用户图像对用户进行身份识别，判断用户是否为已注册用户。

当用户向智能终端发出控制指令时，智能终端开启拍摄装置对用户进行拍摄，获取相应的用户图像。本实施例中，智能终端根据获取到的用户图像对用户进行身份识别，判断发出控制指令的用户是已注册用户或未注册用户。若用户是已注册用户，则可对进一步执行后续的步骤S52 至步骤S54；若用户是未注册用户，则执行步骤S55。

进一步，请参阅图6，步骤S51可包括如下步骤：

在步骤S511中，从用户图像中提取对应的二维图像信息或二维特征信息，判断是否能够从预先存储的用户二维图像信息或用户二维特征信息中查找到与其匹配的二维图像信息或二维特征信息。

本实施例中，先从获得的用户图像中获取包含的二维图像信息或二维特征信息，进一步，将获取的二维图像信息或二维特征信息与预先存储的用户二维图像信息或用户二维特征信息进行匹配，可以理解的，由于当前是对用户是否为已注册用户进行识别，即智能终端不能确定获取的用户图像中的二维图像信息或二维特征信息是否与已注册用户的用户二维图像信息或用户二维特征信息匹配，因此，本实施例中智能终端的操作是判断是否能够从存储的已注册用户的用户二维图像信息或用户二维特征信息中查找到与其匹配的二维图像信息或二维特征信息，若是，则说明此时通过用户图像得到的二维图像信息或二维特征信息为已注册用户的用户二维图像信息或用户二维特征信息，则继续执行步骤S512，进一步对用户是否为已注册用户进行识别；否则，执行步骤S514。

其中，二维图像信息可以指图像中包含的所有区域的二维图像信息，也可以是先对用户图像进行人脸识别，然后对人脸识别区域提取的二维图像信息。二维特征信息可以指对用户图像进行特征识别，对识别到的特征区域提取的二维特征信息，例如，对用户图像中人脸进行的特征识别，对人脸中包含的五官特征进行识别，进而提取识别到的五官特征的二维特征信息。

在步骤S512中，从用户图像中提取对应的图像深度信息或深度特征信息，并获取与其匹配的二维图像信息或二维特征信息对应的用户深度信息或用户深度特征信息，判断图像深度信息或深度特征信息与用户深度信息或用户深度特征信息是否匹配。

当步骤S511的判断结果为能够从预先存储的用户二维图像信息或用户二维特征信息中查找到与其匹配的二维图像信息或二维特征信息时，本实施例进一步提取上述二维图像信息或二维特征信息对应区域的图像深度信息或深度特征信息。进一步，根据上述与用户图像中的二维图像信息或二维特征信息匹配的用户二维图像信息或用户二维特征信息，获取与该用户二维图像信息或用户二维特征信息对应的用户深度信息或用户深度特征信息。进一步，判断图像深度信息或深度特征信息与用户深度信息或用户深度特征信息是否匹配，若是，则执行步骤S513，以确定用户为已注册用户，否则，执行步骤S514，以确定用户为未注册用户。

本实施例在通过二维信息进行用户识别后进一步通过三维信息进行用户识别，可排除拍摄到的用户图像中包含的用户照片等物品对识别结果的影响。

图像深度信息可以是与上述二维图像信息的区域对应的深度信息，深度特征信息可以是与上述二维特征信息的区域对应的深度信息。

本实施例中，拍摄装置可为设置在智能终端上的深度相机，由此其拍摄的图像中可包含有深度信息，以执行上述匹配操作。

在步骤S513中，确定用户为已注册用户。

当步骤S511和步骤S512的判断结果均为肯定结果时，则可确定发出控制指令的用户为已注册用户。进而可继续执行步骤S52继续执行后续步骤。

在步骤S514中，确定用户为未注册用户。

当步骤S511或步骤S512中任意一个判断步骤的判断结果为否定结果时，则可确定发出控制指令的用户为未注册用户，此时，执行步骤S55。

在步骤S52中，对获取到的用户图像进行分析得到其中包含的唇形特征。

在步骤S53中，对唇形特征进行识别得到与唇形特征匹配的指令信息。

在步骤S54中，根据指令信息的指令内容执行相应的操作。

本实施例中步骤S52至步骤S54与图1所示的交互方法第一实施例的步骤S11至步骤S13相同，具体执行内容请参见图1所示的交互方法第一实施例的步骤S11至步骤S13的说明，此处不再赘述。

在步骤S55中，提示用户进行注册。

当通过步骤S51确定发出控制指令的用户为未注册用户时，可提示用户进行注册，若用户完成注册，则可根据对该用户的唇形特征进行采集，并采集与该用户的唇形特征对应的指令信息，进而在令根据图2所示的交互方法构建的第一深度学习神经网络对该用户的唇形特征和指令信息进行学习，以在该用户后续使用智能终端时，可利用第一深度学习神经网络执行图1所示的交互方法第一实施例。

进一步，本实施例对用户身边识别也可以与图3所示的智能终端的交互方法第三实施例进行结合，即在识别到用户为已注册用户后，进一步结合通过唇形特征匹配到的情绪信息，根据指令信息和情绪信息与用户进行智能交互。此时，若用户为未注册用户，且完成注册后，可根据对该用户的唇形特征进行采集，并采集与该用户的唇形特征对应的指令信息和情绪信息，进而根据图4所示的交互方法构建的第二深度学习神经网络对该用户的唇形特征、指令信息以及情绪信息进行学习，以在该用户后续使用智能终端时，可利用第二深度学习神经网络执行图3所示的交互方法第三实施例。

进一步，请参阅图7，图7是本发明智能终端的交互方法第六实施例的流程示意图。如图7所示，本实施例的交互方法至少可包括如下步骤：

在步骤S61中，对获取到的用户图像，根据用户图像对用户进行身份识别，并根据用户图像分析得到其中包含的唇形特征。

本实施例除了和图1所示的交互方法第一实施例的步骤S11中记载的根据用户图像分析得到其中的唇形特征外，还对用户进行身份识别，本实施例中，对用户进行身份识别可与图5所示的步骤S51相同对用户是否为已注册用户进行识别，同时可识别到用户的身份信息。

在步骤S62中，对唇形特征进行识别得到与唇形特征匹配的指令信息。

步骤S62与图1所示的交互方法第一实施例的步骤S12相同，具体执行内容请参见图1所示的交互方法第一实施例的步骤S12的说明，此处不再赘述。

在步骤S63中，确定指令信息中包含的关联身份关键词。

在应用中，智能终端可对应多个已注册用户，本实施例的智能终端能够根据某一已注册用户的设置或指令将该智能终端对应多个已注册用户通过关联身份关键词进行关联，进而对多个已注册用户建立关联关系。当智能终端从分析得到的指令信息中分析出其包含的关联身份关键词时，则可对该关联身份关键词进行确认。

在步骤S64中，根据关联身份关键词查找对应的其他用户，并提取与其他用户对应的历史交互数据。

进一步，智能终端即可根据确定的关联身份关键词查找到对应的已注册的其他用户，并根据查找到的已注册的其他用户的身份信息获取与该其他用户对应的历史交互数据，其他用户对应的历史交互数据可表征其他用户的使用习惯、喜好、用户状态的用户特征。

在步骤S65中，利用指令信息以及历史交互数据与用户进行智能交互。

进一步，即可根据智能终端识别到与唇形特征匹配的指令信息和查找到的已注册的其他用户的历史交互数据与该用户进行智能交互。由此，即可利用其它用户的交互信息与该用户进行智能交互，使该用户可对其他用户的状态、喜好、习惯等进行了解，提升用户体验，使得交互内容更加丰富。

通过具体应用例对上述实施例进行说明：如果在一个家庭中包括家庭成员A、家庭成员B和家庭成员C，其中，家庭成员A为妈妈，家庭成员B为爸爸，家庭成员C为儿子，上述3个家庭成员均为智能音箱的已注册用户，则可根据家庭成员A的设置或指令利用“夫妻”这一关联身份关键词对家庭成员A和家庭成员B建立关联关系，利用“子女”这一关联身份关键词对家庭成员A、B和家庭成员C建立关联关系。由此，智能终端即可根据建立的关联关系确定家庭成员A和家庭成员B为彼此的妻子和丈夫，家庭成员C为家庭成员A和家庭成员B的儿子。当智能终端根据获取到的用户图像，确定发出控制指令的用户为家庭成员A，同时根据用户图像分析得到的唇形特征匹配到指令信息为“今天儿子的作业做完没有？”，由此，可确定关联身份关键词为“儿子”，则智能终端可根据已建立的家庭成员的关联关系确定“儿子”对应于家庭成员C，则可对应提取今天与家庭成员C的交互数据，并根据今天与家庭成员C 的交互数据回答家庭成员A的提问，与家庭成员A进行智能交互。

进一步，请参阅图8，图8是本发明智能终端的交互方法第七实施例的流程示意图。如图8所示，本实施例的交互方法至少可包括如下步骤：

在步骤S71中，确定获取到的用户图像中包含有多个用户，对多个用户分别进行身份识别，根据识别结果确定多个用户之间的优先级关系。

本实施例中，可对多个用户根据用户身份信息设置优先级关系。当智能终端获取的用户图像中可包含多个用户时，可对用户图像中包含的多个用户分别进行身份识别，根据身份识别的识别结果确定多个用户之间的优先级关系。

在步骤S72中，对获取到的用户图像进行分析得到多个用户各自对应的多个唇形特征。

在步骤S73中，对多个唇形特征分别进行识别得到与多个唇形特征各自匹配的多个指令信息。

在步骤S74中，根据多个指令信息各自对应的指令内容，按照优先级关系依次执行相应的操作。

本实施例中，步骤S72至步骤S74的实施内容与图1所示的交互方法第一实施例中的步骤S11至步骤S13类似，不同在于本实施例中的智能音箱根据用户图像确定其中包含多个用户，进一步对每个用户的唇形特征进行分析，进而得到与每个用户的唇形特征各自匹配的指令信息。进一步，根据步骤S71中确定的多个用户之间的优先级关系，按照优先级关系依次执行与身份信息对应的指令信息的操作。

进一步，图6和图7所示的交互方法第六实施例和第七实施例同样可采用上述的第一深度学习神经网络来执行，此外，图7和图8所示的交互方法第六实施例和第七实施例也可结合图3所示的交互方法第三实施例，即结合通过唇形特征匹配到的情绪信息与用户进行智能交互，此时，可通过上述的第二深度学习神经网络来执行。

进一步，请参阅图9，图9是本发明智能终端一实施例的结构示意图。如图9所示，本实施例的智能终端100包括图像获取装置104、人机交互电路103、存储器102以及处理器101，图像获取装置104、人机交互电路103、存储器102以及处理器101相互连接。图像获取装置104 为相机等拍摄装置；在一实施例中可为深度相机，进而可获取拍摄到的用户图像的深度信息。人机交互电路103可包括设置在智能终端内部的人机交互芯片及相关电路，还包括设置在智能终端外壳上的人机交互界面，用于根据处理器101的指令与用户进行人机交互，进行人机交互时可通过人机交互界面显示相关交互内容，或拟人化的表情等。存储器102 设置在智能音箱100内部，用于存储处理器101执行的计算机指令。处理器101用于执行存储器102存储的计算机指令以生成相应的人机交互的控制指令，并向人机交互电路103发送控制指令，以使人机交互电路 103根据控制指令实现上述图1至图8所示的智能终端的交互方法第一实施例至第七实施例中的任意实施例，具体实施内容请参见上述图1至图8所示的智能终端的交互方法第一实施例至第七实施例，此处不再赘述。

请参阅图10，图10是本申请存储介质一实施例的结构示意图。如图10所示，本实施例中的存储介质200中存储有能够被执行的计算机程序数据201，该计算机程序数据201被执行能够实现图1至图8所示的智能终端的交互方法第一实施例至第七实施例中的任意实施例。

本实施例中，该存储介质200可以是智能终端的存储模块、移动存储装置(如移动硬盘、U盘等)、网络云盘、应用存储平台或服务器等具备存储功能的介质。此外，该存储介质还可以为上述图9中所示的存储器102。

以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围。

Claims

1.一种智能终端的交互方法，其特征在于，包括：

对获取到的用户图像进行分析得到其中包含的唇形特征，以及对所述用户图像进行身份识别得到用户的身份；

确定所述指令信息中包含的关联身份关键词；

根据所述关联身份关键词查找对应的其他用户，并提取与所述其他用户对应的历史交互数据；

根据所述指令信息的指令内容以及所述历史交互数据与所述用户进行智能交互。

2.根据权利要求1所述的智能终端的交互方法，其特征在于，所述唇形特征为随时间分布的唇形特征序列。

3.根据权利要求1所述的交互方法，其特征在于，所述交互方法还包括：

获取所述用户的语音数据，并记录对应的人脸图像；

对所述语音数据进行分析得到其中包含的指令信息，并从所述人脸图像中分析得到与所述指令信息对应的唇形特征；

建立所述指令信息与所述唇形特征之间的关联关系，并生成用于构建第一深度学习神经网络的第一深度学习数据库；

其中所述第一深度学习神经网络用于对所述唇形特征进行识别得到与所述唇形特征匹配的指令信息。

4.根据权利要求1所述的交互方法，其特征在于，所述对所述唇形特征进行识别得到与所述唇形特征匹配的指令信息，还包括：

对所述唇形特征进行识别得到与所述唇形特征匹配的情绪信息；

根据所述指令信息和所述情绪信息与所述用户进行智能交互。

5.根据权利要求4所述的交互方法，其特征在于，所述交互方法还包括：

获取所述用户的语音数据，并记录对应的人脸图像；

对所述语音数据进行分析得到相应的情绪信息以及其中包含的指令信息，并从所述人脸图像中分析得到与所述情绪信息和所述指令信息对应的唇形特征；

建立所述情绪信息、所述指令信息和所述唇形特征之间的关联关系，并生成用于构建第二深度学习神经网络的第二深度学习数据库；

其中，所述第二深度学习神经网络用于对所述语音数据进行分析得到相应的情绪信息以及其中包含的指令信息，并从所述人脸图像中分析得到与所述情绪信息和所述指令信息对应的唇形特征。

6.根据权利要求1所述的交互方法，其特征在于，在所述对获取到的用户图像进行分析得到其中包含的唇形特征之前，还包括：

根据所述获取到的用户图像对用户进行身份识别，判断所述用户是否为已注册用户；

若是，则执行所述对获取到的用户图像进行分析得到其中包含的唇形特征的步骤；

否则提示所述用户进行注册。

7.根据权利要求6所述的交互方法，其特征在于，所述根据所述获取到的用户图像对用户进行身份识别，判断所述用户是否为已注册用户，包括：

从所述用户图像中提取对应的二维图像信息或二维特征信息，判断是否能够从预先存储的用户二维图像信息或用户二维特征信息中查找到与其匹配的二维图像信息或二维特征信息；

若是，从所述用户图像中提取对应的图像深度信息或深度特征信息，并获取所述与其匹配的二维图像信息或二维特征信息对应的用户深度信息或用户深度特征信息，判断所述图像深度信息或深度特征信息与用户深度信息或用户深度特征信息是否匹配；若是，则确定所述用户为已注册用户；

否则，确定所述用户为未注册用户。

8.根据权利要求1所述的交互方法，其特征在于，所述交互方法还包括：

确定获取到的用户图像中包含有多个用户，对所述多个用户分别进行身份识别，根据识别结果确定所述多个用户之间的优先级关系；

对获取到的用户图像进行分析得到所述多个用户各自对应的多个唇形特征；

对所述多个唇形特征分别进行识别得到与所述多个唇形特征各自匹配的多个指令信息；

确定每个所述指令信息中包含的关联身份关键词；

根据每个所述关联身份关键词查找对应的其他用户，并提取与所述其他用户对应的历史交互数据；

根据每个所述指令信息对应的指令内容以及所述历史交互数据，按照所述优先级关系依次与所述用户进行智能交互。

9.一种智能终端，其特征在于，包括图像获取装置、人机交互电路、存储器和处理器，所述图像获取装置、人机交互电路、存储器和处理器相互连接；

所述处理器用于执行所述计算机指令以生成相应的人机交互的控制指令，并向所述人机交互电路发送所述控制指令，以使所述人机交互电路根据所述控制指令实现权利要求1-8任意一项所述的智能终端的交互方法。

10.一种存储介质，其特征在于，存储有计算机程序数据，所述计算机程序数据能够被执行以实现如权利要求1-8任意一项所述的智能终端的交互方法。