CN111401147B

CN111401147B - 基于视频行为数据的智能分析方法、装置及存储介质

Info

Publication number: CN111401147B
Application number: CN202010122870.1A
Authority: CN
Inventors: 吴智炜
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2024-06-04
Anticipated expiration: 2040-02-26
Also published as: CN111401147A

Abstract

本发明涉及人工智能技术，揭露了一种基于视频行为数据的智能分析方法，包括：接收预先录制的用户视频，将所述用户视频执行语音提取操作得到语音数据和视频数据，将所述视频数据输入至预先训练完成的表情识别模型得到表情识别结果，将所述语音数据输入至预先训练完成的语态识别模型得到语态识别结果，根据所述语态识别结果与所述表情识别结果构建分类树得到深度浅层心理特征集，根据所述深度浅层心理特征集构建目标函数，求解目标函数的偏导数得到偏置值，若所述偏置值小于或等于所述预设偏置误差，则输出心理状态分析结果。本发明还提出一种基于视频行为数据的智能分析装置以及一种计算机可读存储介质。本发明可以实现精准高效的基于视频行为数据的智能分析功能。

Description

基于视频行为数据的智能分析方法、装置及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于视频行为数据的智能分析的方法、装置及计算机可读存储介质。

背景技术

基于视频行为数据的智能分析目前已应用于多个领域，如保险公司在理赔过程中，先通过录像设备录取业务人员与待理赔人员的交流视频，然后通过智能分析待理赔人员是否有骗保行为，公安系统审查犯人时，通过分析犯人的心理状态给予犯人心理打击从而希望犯人坦诚相待。

目前常见的基于视频行为数据的智能分析是通过录取微表情、肢体动作及说话语气等视频，通过相关心理专家进行观察分析从而总结出心理状态情况，虽然可以达到心理状态识别的目的，但由于需要投入大量的时间、人力进行分析，因此在如保险、侦查等领域效率较低。

发明内容

本发明提供一种基于视频行为数据的智能分析方法、装置及计算机可读存储介质，其主要目的在于通过模型识别出用户的表情与语态，进而进行心理状态的智能分析。

为实现上述目的，本发明提供的一种基于视频行为数据的智能分析方法，包括：

接收预先录制的用户视频，将所述用户视频执行语音提取操作得到语音数据和不包括语音数据的视频数据；

将所述视频数据输入至预先训练完成的表情识别模型中进行表情识别得到表情识别结果；

将所述语音数据输入至预先训练完成的语态识别模型中进行语态识别得到语态识别结果；

根据所述语态识别结果与所述表情识别结果构建分类树，及根据所述分类树得到深度浅层心理特征集，根据所述深度浅层心理特征集构建目标函数，求解目标函数的偏导数得到偏置值，若所述偏置值大于预设偏置误差，则将所述语态识别结果与所述表情识别结果反馈给预设用户，若所述偏置值小于或等于所述预设偏置误差，则根据所述表情识别结果及语态识别结果生成心理状态分析结果，并输出所述心理状态分析结果。

可选地，所述语音提取操作包括：

将所述用户视频进行预加重操作；

将所述预加重操作后的用户视频进行分帧加窗操作；

基于离散傅里叶变化法从所述分帧加窗操作后的用户视频分离出语音数据，得到所述语音数据和所述不包括语音数据的视频数据。

可选地，所述基于视频行为数据的智能分析方法还包括训练所述表情识别模型，所述训练包括：

构建所述表情识别模型；

建立人脸表情库和对比表情库；

根据所述表情识别模型定位裁剪出所述人脸表情库的人脸区域，得到裁剪人脸表情库；

利用所述表情识别模型预测所述裁剪人脸表情库的特征点，判断所述裁剪人脸表情库的特征点与所述对比表情库的误差，若误差大于预设误差，则调整所述表情识别模型的参数，并重新预测所述裁剪人脸表情库的特征点，若误差小于所述预设误差，则退出预测，完成所述表情识别模型的训练。

可选地，所述深度浅层心理特征集是使用基尼指数法计算所述分类树的基尼指数得到；

其中，所述基尼指数法为：

其中，A表示所述深度浅层心理特征集，D表示所述语态识别结果与所述表情识别结果构成的集合，T_s表示不同标签分类的数据量，T₁表示愤怒标签的数据量，T₂表示喜悦标签的数据量，K表示所述语态识别结果与所述表情识别结果构成的集合的数据量。

可选地，所述根据所述深度浅层心理特征集构建目标函数，求解目标函数的偏导数得到偏置值，包括：

基于所述深度浅层心理特征集分别构建惩罚项和误差函数；

将所述误差函数和所述惩罚项相加得到目标函数；

求解所述误差函数的一阶偏导结果和二阶偏导结果；

根据所述一阶偏导结果和所述二阶偏导结果，反向推导得到目标函数内的偏置值。

此外，为实现上述目的，本发明还提供一种基于视频行为数据的智能分析装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的基于视频行为数据的智能分析程序，所述基于视频行为数据的智能分析程序被所述处理器执行时实现如下步骤：

将所述视频数据输入至预先训练完成的表情识别模型中进行表情识别，得到表情识别结果；

将所述语音数据输入至预先训练完成的语态识别模型中进行语态识别，得到语态识别结果；

根据所述语态识别结果与所述表情识别结果构建分类树，及根据所述分类树得到深度浅层心理特征集，将所述深度浅层心理特征集输入至预先构建的心理分析模型得到偏置值，若所述偏置值大于预设偏置误差，则将所述语态识别结果与所述表情识别结果反馈给预设用户，若所述偏置值小于或等于所述预设偏置误差，则根据所述表情识别结果及语态识别结果生成心理状态分析结果，并输出所述心理状态分析结果。

可选地，所述语音提取操作包括：

将所述用户视频进行预加重操作；

将所述预加重操作后的用户视频进行分帧加窗操作；

可选地，所述基于视频行为数据的智能分析程序被所述处理器执行时还实现如下步骤：训练所述表情识别模型，所述训练包括：

构建所述表情识别模型；

建立人脸表情库和对比表情库；

其中，所述基尼指数法为：

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于视频行为数据的智能分析程序，所述基于视频行为数据的智能分析程序可被一个或者多个处理器执行，以实现如上所述的基于视频行为数据的智能分析方法的步骤。

本发明预先录制的用户视频，并通过语音提取操作得到语音数据和不包括语音数据的视频数据，并通过模型进行表情和语态的识别，得到识别结果，因此智能化程度高，不需要投入大量的时间、人力进行干预；同时，根据构建的分类树并进行误差分析，可自动化的完成心理状态分析。因此本发明提出的基于视频行为数据的智能分析方法、装置及计算机可读存储介质，可以实现智能分析心理状态的目的。

附图说明

图1为本发明一实施例提供的基于视频行为数据的智能分析方法的流程示意图；

图2为本发明一实施例提供的基于视频行为数据的智能分析装置的内部结构示意图；

图3为本发明一实施例提供的基于视频行为数据的智能分析装置中基于视频行为数据的智能分析程序的模块示意图；

图4为本发明一实施例提供的基于视频行为数据的智能分析中语态识别模型的结构图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于视频行为数据的智能分析方法。参照图1所示，为本发明一实施例提供的基于视频行为数据的智能分析方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，基于视频行为数据的智能分析方法包括：

S1、接收预先录制的用户视频，将所述用户视频执行语音提取操作得到语音数据和不包括语音数据的视频数据。

优选地，所述预先录制的用户视频可根据场景不同进行划分，如保险公司在理赔过程中，录取业务人员与待理赔人员的交流视频，公安系统审查犯人时，录取审查犯人时的整个审查过程。

较佳地，所述将所述用户视频进行语音提取操作得到语音数据和不包括语音的视频数据，包括：将所述用户视频进行预加重操作，将所述预加重操作后的用户视频进行分帧加窗操作，基于离散傅里叶变化从所述分帧加窗操作后的用户视频分离出语音数据。

所述预加重操作是为了补偿所述用户视频的语音信号，因为人声的发音系统会抑制高频部分，此外为使高频部分的语音能量和低频部分的语音能量有相似的幅度，从而使信号的频谱变得平坦，保持在低频到高频的整个频带中能用同样的信噪比，则需要提升高频部分的能量。所述预加重操作的计算法可采用：

y(n)＝x(n)-μx(n-1)

其中，y(n)为所述预加重操作后的用户视频，x(n)是所述用户视频，n为波形，μ为所述预加重操作的调节值，取值范围在[0.9,1.0]。

优选地，所述分帧加窗操作是为了去除所述用户视频中语音的重叠部分，如在录取业务人员与待理赔人员的交流视频中，会有业务人员与待理赔人员的语音重叠部分，因此采用所述分帧加窗操作可去除业务人员的语音，保留待理赔人员的语音。所述分帧加窗操作的采用方法为：

其中，w(n)为所述分帧加窗操作后的用户视频，n为所述波形，L为所述用户视频的帧长。

较佳地，所述基于离散傅里叶变化从所述分帧加窗操作后的用户视频分离出语音数据可采用的计算方法为：

其中，S(n)为所述分离出语音数据，N为所述离散傅里叶变化的变化点数，w(n)是所述分帧加窗操作后的用户视频，j为所述离散傅里叶变化的权值，k为所述波形n的区间划分值。

S2、将所述视频数据输入至预先训练完成的表情识别模型中进行表情识别得到表情识别结果。

优选地，所述表情识别模型的训练过程包括：构建所述表情识别模型，建立人脸表情库和对比表情库，根据所述表情识别模型定位裁剪出所述人脸表情库的人脸区域，得到裁剪人脸表情库，利用所述表情识别模型预测所述裁剪人脸表情库的特征点，判断所述裁剪人脸表情库的特征点与所述对比表情库的误差，若误差大于预设误差，则重新预测所述裁剪人脸表情库的特征点，若误差小于所述预设误差，则退出预测得到所述预先构建的表情识别模型。

本发明较佳实施例通过提取日本ATR建立的表情数据库(JAFFE)中的数据，建立所述对比表情库。所述日本ATR(Advanced Telecommunication Research InstituteInternational)的表情数据库JAFFE是专门用于表情识别研究的数据库，该数据库中包含了213幅(每幅图像的分辨率：256像素×256像素)日本女性的脸相，每幅图像都标记有原始的表情定义。表情库中共有10个人，每个人有7种表情(正常(也称中性脸)、高兴、悲伤、惊奇、愤怒、厌恶、恐惧)。

较佳地，所述人脸表情库可利用爬虫技术爬取人脸表情图，对捕捉的人脸亮度做归一化建立人脸表情库，所述人脸表情库以六种情感作为标签，包括高兴、悲伤、惊奇、愤怒、厌恶、恐惧，每种标签的人脸面部标签不同，如高兴(人脸微笑，嘴巴上扬、眼睛比正常状态小。因为人在高兴时，瞳孔会缩小)、愤怒(主要特征为瞳孔放大，眼睛比正常状态大。因为人在愤怒时，瞳孔会呈现放大状态)。

本发明较佳实施例中，所述表情识别模型采用DCNN(Deep ConvolutionalNetwork Cascade for Facial Point Detection)深度卷积网络模型。

所述定位裁剪是由于人脸表情图包含的范围太大，会影响对人脸表情识别的判断，因此，所述DCNN的第一部分卷积网络模型通过寻找人脸的5个特征点(左右眼睛、鼻子、左右嘴角)，定位出人脸并裁剪出人脸。

具体来说，所述DCNN第一部分的卷积神经网络由三个卷积神经网络组成，这三个卷积神经网络分别命名为：F1(网络的输入为一整张人脸图片)，EN1(输入图片包含了眼睛和鼻子)、NM1(包含了鼻子和嘴巴区域)。对于输入的人脸表情图像，通过F1输出一个10维的特征向量(5个特征点)；根据输出的10维特征向量，EN1用于定位左眼、右眼和鼻子三个特征点；同时根据输出的10维特征向量，NM1定位左嘴角、右嘴角和鼻子三个特征点，并结合EN1定位的鼻子特征点后，裁剪出包含眼睛、鼻子嘴巴的人脸人脸区域图片。

经过上述操作可粗略定位出5个人脸特征点的位置，本发明进一步以这五个预测特征点为中心，利用所述DCNN第二部分的卷积神经网络模型继续做特征定位。第二部分的卷积神经网络模型由10个CNN组成，这10个CNN分别用于预测5个特征点，每个特征点使用两个CNN，然后两个CNN对预测的结果进行平均。

所述DCNN第三部分的神经网络模型在上述两次的特征点预测的位置基础上，重新进行人脸裁剪。所述DCNN第三部分的神经网络模型与第二部分结构相同，也是由10个CNN组成。

进一步的，所述误差的计算方法为

其中l是人脸表情图像的图像宽度；x是人脸表情库图片的5个特征点的向量表示，x’是人脸表情库数据的特征向量，y’是对应的人脸表情库的表情标签。

S3、将所述语音数据输入至预先训练完成的语态识别模型中进行语态识别得到语态识别结果。

优选地，所述语态识别模型采用卷积-循环神经网络为基础，整个语态识别模型的网络结构图如说明书附图4所示。

由说明书附图4所示，所述语态识别模型包括卷积层、池化层、Permute层、LSTM层、全连接层。

较佳地，所述语态识别包括：所述卷积层和所述池化层接收所述语音数据进行卷积处理和池化处理。

所述卷积处理的计算方法为：

其中，表示第m个卷积层第j个特征图的输入，代表卷积核，表示偏置项，*代表卷积操作，M_i表示特征图集合，f代表激活函数。

所述池化处理的计算方法为：

其中，表示第n层的输入特征图，表示第n-1层的输出特征图，和分别表示权重和偏置项，down表示n-1层到n层的降采样函数。

其中，所述Permute层将所述卷积处理和池化处理后的数据进行维度舒展，所述LSTM层和所述全连接层进行计算方法后得到语态识别结果。所述语态结果和S3一样，有高兴、悲伤、惊奇、愤怒、厌恶、恐惧6种状态。

所述LSTM层的计算方法：

i_t＝σ(W_ix_t+W_im_t-1+b_i)

f_t＝σ(W_fx_t+W_fm_t-1+b_f)

o_t＝σ(W_ox_t+W_om_t-1+b_o)

c_new＝h(W_cx_t+W_cm_t-1+b_c

其中，c_new为所述LSTM层的输出值，i_t,f_t,o_t分别表示所述LSTM层的输入门、输出门和遗忘门，t为时间，σ为sigmoid函数，h为tanh函数，W为权重，b为偏置，m_t-1为t-1时刻的隐藏状态。

S4、根据所述语态识别结果与所述表情识别结果构建分类树，及根据所述分类树得到深度浅层心理特征集。

优选地，所述基于所述语态识别结果与所述表情识别结果构建深度浅层心理特征，包括：根据所述所述语态识别结果与所述表情识别结果构建分类特征顺序树，根据所述分类特征顺序树得到所述深度浅层心理特征集。

优选地，所述分类特征顺序树可采用CART树。

进一步地，根据所述分类特征顺序树得到所述深度浅层心理特征集可采用基尼指数法，所述基尼指数法的计算公式为：

其中，A表示所述深度浅层心理特征，D表示所述语态识别结果与所述表情识别结果构成的集合，T_s表示标签分类，包括喜悦、愤怒等，如T₁表示愤怒。进一步地，

其中，K表示所述语态识别结果与所述表情识别结果构成的集合的数据量。

S5、根据所述深度浅层心理特征集构建目标函数，求解目标函数的偏导数得到偏置值。

优选地，所述根据所述深度浅层心理特征集构建目标函数，求解目标函数的偏导数得到偏置值，包括：基于所述深度浅层心理特征集分别构建惩罚项和误差函数，将所述误差函数和所述惩罚项相加得到目标函数，求解所述误差函数的一阶偏导结果和二阶偏导结果，根据所述一阶偏导结果和所述二阶偏导结果，反向推导得到目标函数内的偏置值。

较佳地，所述预先构建的心理分析模型接收所述深度浅层心理特征后，基于所述深度浅层心理特征构建目标函数：

式中，y为所述偏置值，deep_shallow表示所述深度浅层心理特征集，K为所述深度浅层心理特征集的数据量，f_k(x_i)为所述目标函数。

进一步地，所述目标函数为：

式中，l(x_i)为所述深度浅层心理特征的误差函数，Ω(f_i)为惩罚项函数，目的是为了提高本发明评估的准确性优异性，进一步地，惩罚项Ω(f_t)为：

式中M为CART树的叶子结点数，ω_j为CART树叶子结点的权重，进一步地，所述误差函数为。

式中g_i,h_i分别为l(x_i)的一阶偏导和二阶偏导：

结合上式得到最终的目标函数：

其中，G_i,H_i分别为一阶偏导和二阶偏导，T为惩罚项，γ为惩罚项系数，由此计算得到所述偏置值。

S6、判断所述偏置值是否大于预设偏置误差，若所述偏置值大于预设偏置误差，将所述语态识别结果与所述表情识别结果反馈给专业心理分析师进行进一步心理状态分析。

如所述偏置值比所述预设偏置误差大，则表面所述深度浅层心理特征集没有达到预期的心理状态分析结果，如上述得到的表情识别结果和语态识别结果不一致，因此需要进一步地结合专业心理分析师进行分析。

S7、若所述偏置值小于或等于预设偏置误差，则根据所述表情识别结果及语态识别结果生成心理状态分析结果，并输出所述心理状态分析结果。

本发明还提供一种基于视频行为数据的智能分析装置。参照图2所示，为本发明一实施例提供的基于视频行为数据的智能分析装置的内部结构示意图。

在本实施例中，所述基于视频行为数据的智能分析装置1可以是PC(PersonalComputer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该基于视频行为数据的智能分析装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是基于视频行为数据的智能分析装置1的内部存储单元，例如该基于视频行为数据的智能分析装置1的硬盘。存储器11在另一些实施例中也可以是基于视频行为数据的智能分析装置1的外部存储设备，例如基于视频行为数据的智能分析装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括基于视频行为数据的智能分析装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于基于视频行为数据的智能分析装置1的应用软件及各类数据，例如基于视频行为数据的智能分析程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行基于视频行为数据的智能分析程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在基于视频行为数据的智能分析装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及基于视频行为数据的智能分析程序01的基于视频行为数据的智能分析装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对基于视频行为数据的智能分析装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有基于视频行为数据的智能分析程序01；处理器12执行存储器11中存储的基于视频行为数据的智能分析程序01时实现如下步骤：

步骤一、接收预先录制的用户视频，将所述用户视频执行语音提取操作得到语音数据和不包括语音数据的视频数据。

y(n)＝x(n)-μx(n-1)

步骤二、将所述视频数据输入至预先训练完成的表情识别模型中进行表情识别得到表情识别结果。

进一步的，所述误差的计算方法为

步骤三、将所述语音数据输入至预先训练完成的语态识别模型中进行语态识别得到语态识别结果。

所述卷积处理的计算方法为：

所述池化处理的计算方法为：

其中，所述Permute层将所述卷积处理和池化处理后的数据进行维度舒展，所述LSTM层和所述全连接层进行计算方法后得到语态识别结果。所述语态结果和步骤三一样，有高兴、悲伤、惊奇、愤怒、厌恶、恐惧6种状态。

所述LSTM层的计算方法：

i_t＝σ(W_ix_t+W_im_t-1+b_i)

f_t＝σ(W_fx_t+W_fm_t-1+b_f)

o_t＝σ(W_ox_t+W_om_t-1+b_o)

c_new＝h(W_cx_t+W_cm_t-1+b_c

步骤四、根据所述语态识别结果与所述表情识别结果构建分类树，及根据所述分类树得到深度浅层心理特征集。

优选地，所述分类特征顺序树可采用CART树。

步骤五、根据所述深度浅层心理特征集构建目标函数，求解目标函数的偏导数得到偏置值。

进一步地，所述目标函数为：

式中g_i,h_i分别为l(x_i)的一阶偏导和二阶偏导：

结合上式得到最终的目标函数：

步骤六、判断所述偏置值是否大于预设偏置误差，若所述偏置值大于预设偏置误差，将所述语态识别结果与所述表情识别结果反馈给专业心理分析师进行进一步心理状态分析。

步骤七、若所述偏置值小于或等于预设偏置误差，则根据所述表情识别结果及语态识别结果生成心理状态分析结果，并输出所述心理状态分析结果。

如所述偏置值比所述预设偏置误差大，则表面所述深度浅层心理特征集没有达到预期的心理状态分析结果，因此需要进一步地结合专业心理分析师进行分析。

可选地，在其他实施例中，基于视频行为数据的智能分析程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述基于视频行为数据的智能分析程序在基于视频行为数据的智能分析装置中的执行过程。

例如，参照图3所示，为本发明基于视频行为数据的智能分析装置一实施例中的基于视频行为数据的智能分析程序的程序模块示意图，该实施例中，所述基于视频行为数据的智能分析程序可以被分割为数据接收及分离模块10、表情及语态识别模块20、分类数构建模块30、心理状态分析模块40，示例性地：

所述数据接收及分离模块10用于：接收预先录制的用户视频，将所述用户视频执行语音提取操作得到语音数据和不包括语音数据的视频数据。

所述表情及语态识别模块20用于：将所述视频数据输入至预先训练完成的表情识别模型中进行表情识别得到表情识别结果，将所述语音数据输入至预先训练完成的语态识别模型中进行语态识别得到语态识别结果。

所述分类数构建模块30用于：根据所述语态识别结果与所述表情识别结果构建分类树，及根据所述分类树得到深度浅层心理特征集。

所述心理状态分析模块40用于：根据所述深度浅层心理特征集构建目标函数，求解目标函数的偏导数得到偏置值，若所述偏置值大于预设偏置误差，则将所述语态识别结果与所述表情识别结果反馈给预设用户，若所述偏置值小于或等于所述预设偏置误差，则根据所述表情识别结果及语态识别结果生成心理状态分析结果，并输出所述心理状态分析结果。

上述数据接收及分离模块10、表情及语态识别模块20、分类数构建模块30、心理状态分析模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有基于视频行为数据的智能分析程序，所述基于视频行为数据的智能分析程序可被一个或多个处理器执行，以实现如下操作：

接收预先录制的用户视频，将所述用户视频执行语音提取操作得到语音数据和不包括语音数据的视频数据。

将所述视频数据输入至预先训练完成的表情识别模型中进行表情识别得到表情识别结果，将所述语音数据输入至预先训练完成的语态识别模型中进行语态识别得到语态识别结果。

根据所述语态识别结果与所述表情识别结果构建分类树，及根据所述分类树得到深度浅层心理特征集。

根据所述深度浅层心理特征集构建目标函数，求解目标函数的偏导数得到偏置值，若所述偏置值大于预设偏置误差，则将所述语态识别结果与所述表情识别结果反馈给预设用户，若所述偏置值小于或等于所述预设偏置误差，则根据所述表情识别结果及语态识别结果生成心理状态分析结果，并输出所述心理状态分析结果。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于视频行为数据的智能分析方法，其特征在于，所述方法包括：

根据所述语态识别结果与所述表情识别结果构建分类树，及根据所述分类树得到深度浅层心理特征集，根据所述深度浅层心理特征集构建目标函数，求解目标函数的偏导数得到偏置值，若所述偏置值大于预设偏置误差，则将所述语态识别结果与所述表情识别结果反馈给预设用户，若所述偏置值小于或等于所述预设偏置误差，则根据所述表情识别结果及语态识别结果生成心理状态分析结果，并输出所述心理状态分析结果；

所述深度浅层心理特征集是使用基尼指数法计算所述分类树的基尼指数得到；其中，所述基尼指数法为：

，

其中，表示所述深度浅层心理特征集，表示所述语态识别结果与所述表情识别结果构成的集合，表示不同标签分类的数据量，表示愤怒标签的数据量，表示喜悦标签的数据量，表示所述语态识别结果与所述表情识别结果构成的集合的数据量；

所述根据所述深度浅层心理特征集构建目标函数，求解目标函数的偏导数得到偏置值，包括：基于所述深度浅层心理特征集分别构建惩罚项和误差函数；将所述误差函数和所述惩罚项相加得到目标函数；求解所述误差函数的一阶偏导结果和二阶偏导结果；根据所述一阶偏导结果和所述二阶偏导结果，反向推导得到目标函数内的偏置值。

2.如权利要求1所述的基于视频行为数据的智能分析方法，其特征在于，所述将所述用户视频执行语音提取操作得到语音数据和不包括语音数据的视频数据，包括：

将所述用户视频进行预加重操作；

将所述预加重操作后的用户视频进行分帧加窗操作；

3.如权利要求1所述的基于视频行为数据的智能分析方法，其特征在于，该方法还包括训练所述表情识别模型，所述训练包括：

构建所述表情识别模型；

建立人脸表情库和对比表情库；

4.一种基于视频行为数据的智能分析装置，用于实现如权利要求1至3中任一项所述的基于视频行为数据的智能分析方法，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的基于视频行为数据的智能分析程序，所述基于视频行为数据的智能分析程序被所述处理器执行时实现如下步骤：

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于视频行为数据的智能分析程序，所述基于视频行为数据的智能分析程序可被一个或者多个处理器执行，以实现如权利要求1至3中任一项所述的基于视频行为数据的智能分析方法。