[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN115661561A - 一种多模态融合的小样本舞蹈动作识别方法及装置 - Google Patents

一种多模态融合的小样本舞蹈动作识别方法及装置 Download PDF

Info

Publication number
CN115661561A
CN115661561A CN202210767390.XA CN202210767390A CN115661561A CN 115661561 A CN115661561 A CN 115661561A CN 202210767390 A CN202210767390 A CN 202210767390A CN 115661561 A CN115661561 A CN 115661561A
Authority
CN
China
Prior art keywords
mode
video
modal
rgb
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210767390.XA
Other languages
English (en)
Inventor
王勋
郑鹏
董建锋
刘宝龙
郑天一
杨文武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN202210767390.XA priority Critical patent/CN115661561A/zh
Publication of CN115661561A publication Critical patent/CN115661561A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种多模态融合的小样本舞蹈动作识别方法及装置,提出使用基于视频预览指导的多模态数据融合的方法,将多模态数据的特征学习方式应用至小样本舞蹈动作识别任务中,并通过不同模态数据交汇融合的方式,缓解了小样本领域因数据量过少而导致的识别困难问题。相较于传统小样本动作识别方法,本方法利用多模态信息,有效解决了rgb单模态数据在视频动作识别时性能不够鲁棒的问题;此外,使用的视频预览指导多模态数据融合的方法,加强了模型在各模态空间中的语义提取能力。相较于传统小样本动作识别方法,本发明所提出的方法识别性能更强,利用视频信息特征更充分,更适应于小样本舞蹈动作识别任务。

Description

一种多模态融合的小样本舞蹈动作识别方法及装置
技术领域
本发明属于小样本动作识别技术领域,具体涉及一种多模态融合的小样本 舞蹈动作识别方法及装置。
背景技术
小样本动作识别是指通过计算机算法对给定的少量动作视频序列数据进行 分析、识别并判断出给定动作序列数据中包含的动作的类别信息技术,是计算 机视觉领域重要的研究方向之一。小样本动作识别技术同时考虑了小样本学习 和动作识别等技术原理,其目的旨在利用少量样本,学习到能较好识别人体动 作的网络模型。小样本动作识别是一个较为新颖、前沿的研究领域,能有效降 低高质量动作数据搜集的成本,特别在一些较难搜集到庞大数据集的领域,具 有较好的现实应用价值。
小样本舞蹈动作识别是动作识别技术在特定的领域所提出的新任务、新挑 战。相较于传统的小样本动作识别,舞蹈动作识别需要面临诸如舞台环境光照 条件多变,人员动作遮挡频繁等更特殊更具体的困难。这些困难的存在,让舞 蹈动作识别难度更高,其训练的模型鲁棒性更差,尤其是在训练样本较小的条 件下。如何利用小样本技术,快速拟合舞台这一特殊场景下的舞蹈动作,是一 项新颖而具有挑战的任务。
小样本舞蹈动作识别的本质是利用小样本动作识别的技术解决舞台环境下 的舞蹈动作识别问题。现有的小样本动作识别方法大致可以分为基于模型微调 的小样本动作识别方法、基于数据增强的小样本动作识别方法和基于迁移学习 的小样本动作识别方法。基于模型微调的小样本动作识别方案通常在大规模数 据上预训练模型,然后在目标小样本数据集上对模型的顶端几层进行参数微调, 以此得到微调后的适用于目标任务的模型。基于数据增强的小样本动作识别方 案希望在数据量有限的情况下,可以通过数据增强来提高样本多样性,从而提高 模型性能。基于迁移学习的小样本动作识别方法,尝试通过迁移学习的方法, 将相似领域的模型学习到的知识迁移到小样本学习领域中。其中,基于迁移学 习的方案相较于其它的方案限制更少,只需要源领域和目标领域存在一定关联 即可尝试使用。此外,当前各种的研究证明了该方案性能上的优越性,因此该 类方案是目前小样本动作识别领域研究的热点。在的发明中,同样采样了基于 迁移学习的方案作为模型的基本架构。
虽然近年来对小样本动作识别任务的探索和研究已经有了较多的进展,但 整体倾向仍偏向于更小的数据集、更快速的学习等,很少有人关注如何在诸如 舞台这类复杂环境进行特定动作的识别。这使得该类技术的发展更着眼于广泛 化、宏观化,而非专业化、细节化。此外,由于小样本动作识别任务的发展时 间较短,大部份的方法仍然还处于借鉴小样本图片识别方法的阶段。在考虑提 高识别性能时,更多考虑提高普通场景下小样本动作识别的准确率,较少关注 到如何提高现实复杂场景下的小样本动作识别精确度。这些问题都使得现有的 方法,在落地复杂现实环境时往往遇到明显障碍,比如,在遇到面向光照条件 多变,人员动作遮挡的舞台场景时往往无法发挥出良好的性能。因此,如何面 对复杂光照与人员动作遮挡所带来的动作识别困难,如何在特定环境下提高困 难动作的识别性能,就成为了一个兼具现实意义和学术意义的问题。
发明内容
针对上述现有技术的不足,本发明提供一种多模态融合的小样本舞蹈动作 识别方法及装置,该发明通过基于视频预览指导多模态数据融合的方法,让模 型更加专注于视频序列流中对于动作识别有益的信息。
本发明的目的是通过以下技术方案实现的:
根据本说明书的第一方面,提供一种多模态融合的小样本舞蹈动作识别方 法,包括以下步骤:
S1,利用多模态动作识别数据集,预训练不同模态的特征提取器,并使用 不同模态的特征提取器提取对应不同模态的逐帧特征信息;
S2,使用所述步骤S1的不同模态的逐帧特征信息,训练基于视频预览指导 的多模态动作特征融合器;
S3,基于特征提取器和多模态动作特征融合器,构建多模态动作特征提取 器;
S4,利用多模态动作识别数据集,基于多模态动作特征提取器训练小样本 舞蹈动作识别模型;
S5,利用训练好的小样本舞蹈动作识别模型进行小样本舞蹈动作识别。
进一步地,所述步骤S1具体为:
S11,利用多模态动作识别数据集,从不同模态中分别提取预定数量的视频 帧,使用ResNet50网络对视频帧进行特征提取,得到不同模态的逐帧特征信息;
S12,对步骤S11中不同模态的逐帧特征信息分别进行全局特征提取,得到 不同模态的全局编码特征;
S13,利用线性层和Softmax层,对不同模态的全局编码特征进行分类,得 到视频动作预测结果;
S14,使用交叉熵损失函数,计算视频动作预测结果和真实标签的损失,以 训练各模态动作识别模型,并将各模态训练后的动作识别模型固定参数,选择 对应动作识别模型的特征提取模块作为各模态对应的特征提取器;
S15,使用步骤S14中各模态的特征提取器对步骤S11中预定数量的视频帧 进行特征提取,得到不同模态的逐帧特征信息。
进一步地,所述步骤S2具体为:
S21,将视频帧的顺序作为Transformer网络所需的位置编码,使用 Transformer网络从所述步骤S1的不同模态的逐帧特征信息中提取时序特征,得 到不同模态的视频时空语义特征,其中,不同模态包括rgb模态和非rgb模态, 非rgb模态包括骨架热力图模态、深度模态和红外模态;
S22,通过对rgb模态的视频时空语义特征做池化处理,得到rgb模态的单 模态动作特征;
S23,对非rgb模态的视频时空语义特征各自添加模态嵌入和时序嵌入并相 互进行拼接,得到多模态不含rgb时空语义特征;
S24,利用多模态Transformer网络融合多模态不含rgb时空语义特征,得到 初步多模态不含rgb融合时空语义特征;
S25,使用基于视频预览的Transformer网络,对作为指导的rgb模态的视频 时空语义特征和初步多模态不含rgb融合特征进行融合,得到多模态融合时空语 义特征;
S26,将多模态融合时空语义特征进行池化处理,得到多模态动作特征;
S27,利用线性层和Softmax层,对rgb模态的单模态动作特征和多模态动 作特征进行分类,得到视频动作预测结果;
S28,使用交叉熵损失函数,计算视频动作预测结果和真实标签的损失,以 训练多模态动作特征融合器。
进一步地,所述步骤S4具体为:
S41,利用多模态动作特征提取器分别对支持集的不同模态、查询集的不同 模态进行特征提取,得到相对应的支持集和查询集的rgb模态的单模态动作特征 和多模态动作特征,其中,支持集和查询集从多模态动作识别数据集中获取;
S42,将支持集和查询集中各自的rgb模态的单模态动作特征和多模态动作 特征进行拼接,得到相对应的支持集和查询集的多模态动作融合特征;
S43,将步骤S42中的支持集和查询集的多模态动作融合特征通过线性层映 射到较低维的特征空间,得到支持集和查询集的低维多模态动作融合特征;
S44,利用相似度函数对步骤S43中的支持集和查询集的低维多模态动作融 合特征进行相似度计算,得到查询集和支持集中每个视频的相似度分数;
S45,选择查询集和支持集中每个视频的相似度分数作为查询集视频的动作 预测结果;
S46,使用交叉熵损失函数,计算查询集视频的动作预测结果和真实标签的 损失,微调多模态动作特征提取器,构建小样本舞蹈动作识别模型。
根据本说明书的第二方面,提供一种多模态融合的小样本舞蹈动作识别装 置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述 处理器执行所述可执行代码时,用于实现如第一方面所述的多模态融合的小样 本舞蹈动作识别方法。
本发明的有益效果是:本发明使用多模态信息的方法,缓解了小样本领域 因数据量过少而导致的识别困难问题。相较于传统小样本动作识别方法,本方 法利用多模态信息,有效解决了rgb单模态数据在视频动作识别时性能不够鲁棒 的问题;此外,使用的视频预览指导多模态数据融合的方法,加强了模型在各 模态空间中的语义提取能力。相较于传统小样本动作识别方法,本发明所提出 的方法识别性能更强,利用视频信息特征更充分,更适应于小样本舞蹈动作识 别任务,提高了复杂场景下小样本舞蹈动作识别的准确性。另外,本发明针对 多模态融合过程中,不同模态如何互补学习的问题,提出了一种基于视频预览 指导的多模态融合方法,这种方法首先通过预览视频的整体信息,学习视频特 征要点,然后模型通过视频特征要点,判断不同模态的重要性,根据不同模态 的重要性,模型选择性的融入各个模态的补充信息,从而对特征信息进行补充 完善,以此提高性能。这方法可以促进视频的多模态信息进行良好交互,使得 模型更容易提取视频的动作特征,从而促进小样本舞蹈动作识别模型动作识别 的能力。提出使用视频预览指导多模态数据融合,将多模态数据的特征学习方 式应用至小样本舞蹈动作识别任务中,并通过不同模态数据交汇融合的方式, 本发明解决了现有技术视频信息特征利用不充分和复杂场景下舞蹈动作识别性 能不佳的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是 本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性 的前提下,还可以根据这些附图获得其他的附图。
图1为一示例性实施例提供的多模态融合的小样本舞蹈动作识别方法流程 图;
图2为一示例性实施例提供的多模态动作特征提取器的网络结构图;
图3为一示例性实施例提供的小样本舞蹈动作识别模型的网络结构图;
图4为一示例性实施例提供的多模态融合的小样本舞蹈动作识别装置的结 构图。
具体实施方式
为了更好的理解本申请的技术方案,下面结合附图对本申请实施例进行详 细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实 施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前 提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨 在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、 “所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
本发明针对现有技术视频信息特征利用不充分、复杂场景下动作识别性能 不佳的情况,提出了一种基于视频预览指导多模态数据融合的小样本舞蹈动作 识别方法,在一般的单模态片段训练的小样本动作识别的方法上,提出引入多 种模态(深度模态、骨架热力图模块,红外模态)作为rgb补充信息。对于不同 模态之间的信息,需要一种巧妙的融合方法来进行特征汇聚,通过首先预览视 频的整体信息,学习视频特征要点。然后通过视频特征要点,判断不同模态的 重要性,再融入其它模态的补充信息,对特征信息进行补充完善,以此提高性 能。在舞台场景下,rgb模态呈现出识别相对简单的特点,认为这反应出rgb模 态更容易在该场景下提炼出小样本动作识别所需的关键信息,因此使用rgb作为 视频预览的模态。该方法并非认为只有rgb可以作为预览的模态,相反,在一些 光线昏暗的场景,认为使用红外模态作为预览的模态或许性能更佳。
舞台场景、剧场场景,往往因为表演需要,会出现强光照射情况,而更特 殊的,在一些如魔术表演、歌剧单人咏唱的环境,还会存在只利用一道追光追 踪表演者的情况。在这些情况下,单独的rgb模态,会由于光线变化较快,容易 出现场景模糊导致性能不佳的情况。单独使用骨架、光流等模态,则无法适配 一些人体出现少、人体运动不明显的情况。因此,引入了骨架热力图模块来增 加动作识别的鲁棒性。此外,考虑到动作识别的本质仍然是在于关注人的运动, 而在深度图中,人体动作变化会较为显著,容易凸显图像的重点。基于此,引 入深度模态,增强动作识别关键信息的显著性。利用多模态信息进行解决问题 的网络结构,其首要之义是要给出合适的模态融合方法。认为,不同的模态在 不同的情况下,各自有不同的重要程度。基于此,在网络中为各模态添加模态 嵌入,促使模型更多的关注模态差异带来的影响。在舞台环境下,所有的模态 信息中,rgb模态是最容易识别的模态,将其视之为最容易提取出视频重点的 模态。因此,提出一种基于视频预览指导多模态数据融合的方法,该方法是通 过rgb模态提取的特征信息可以指导其它模态信息的融合,并能通过rgb特征信 息的先验知识,让模型更加专注于视频序列流中对于动作识别有益的信息。
如图1所示,在一实施例中,提供了一种多模态融合的小样本舞蹈动作识 别方法,包括以下步骤:
S1,利用多模态动作识别数据集,预训练不同模态的特征提取器,并使用 不同模态的特征提取器提取对应不同模态的逐帧特征信息;
在一实施例中,步骤S1具体为:
S11,利用多模态动作识别数据集,从不同模态中分别提取预定数量的视频 帧,使用ResNet50网络对视频帧进行特征提取,得到不同模态的逐帧特征信息;
在一实施例中,多模态动作识别数据集的构建方法如下:获取含有rgb模态、 红外模态的公开数据集,使用算法生成对应的骨架热力图模态、深度模态,使 用原公开数据集的动作标签作为多模态动作识别的动作标签,从而构建多模态 动作识别数据集。其中,骨架热力图模态的生成方法如下。使用Alphapose网络 提取rgb模态对应的2D人体骨架坐标,通过2D人体骨架坐标和高斯分布约束 生成骨架热力图。骨架热力图生成公式Skij可以表达为:
Skij=exp(-[(i-xk)2+(j-yk)2]/(3*σ2))*pk
Figure BDA0003722686220000081
其中,i、j表示当前计算像素点的x、y轴坐标值,k表示第k个节点,xk、yk分 别表示第k个节点的x、y轴坐标值,pk表示第k个节点的坐标置信度,Skij表示 在第k个节点影响下坐标值为i、j的像素点在高斯分布约束后的热力度数值,Sij表示坐标值为i、j的像素点的最终热力度数值。然后,将根据骨架坐标的现实 意义,对其相近的身体部位骨架节点进行连线,即可得到rgb图片在某一帧时人 体骨架的热力图,按照顺序,依次提取所有帧的骨架热力图,即可得到视频的 骨架热力图模态。提取所有视频的骨架热力图模态,即可得到数据集的骨架热 力图模态。深度模态的生成方法如下。按照顺序,采用Monodepth2网络依次对rgb模态视频的视频帧提取深度图,从而得到视频的深度模态。提取所有视频的 深度模态,即可得到数据集的深度模态。
在一优选实施例中,步骤S11具体为:
对于输入的不同模态的视频,均匀的按照顺序对不同模态的视频提取n个 视频帧,对于视频总帧数少于n个的视频,使用零填充来使得视频长度达到n 帧,然后使用ResNet50网络对不同模态的n个视频帧进行特征提取,得到不同 模态的逐帧特征信息。在模型中,设置n为16。
S12,对步骤S11中不同模态的逐帧特征信息分别进行全局特征提取,得到 不同模态的全局编码特征;
在一实施例中,步骤S12具体为:
对步骤S11中获得的不同模态的视频的逐帧特征信息做均值操作,获得不 同模态的视频的全局编码特征。以rgb模态为例,使用公式表示该步骤:
Figure BDA0003722686220000082
其中,vt rgb表示用S11中ResNet50网络提取的第t帧特征信息,Orgb表示获得 视频的全局编码特征。对于骨架热力图模态、深度模态、红外模态,使用同样 的方式获得视频的全局编码特征。
S13,利用线性层和Softmax层,对不同模态的全局编码特征进行分类,得 到视频动作预测结果;
在一实施例中,步骤S13具体为:
对不同模态的全局编码特征使用线性层改变数据维度,使用Softmax层输出 视频的视频动作预测结果。以rgb模态为例,用公式表达该分类层,即为:
Figure BDA0003722686220000091
其中,f表示线性层,Orgb表示获得视频的全局编码特征,θrgb表示使用线性 层处理rgb模态的参数,
Figure BDA0003722686220000092
表示rgb模态的视频动作预测结果。使用线性层可 以改变输入特征的特征维度,改变后的维度大小往往与数据集的类别数相同, 用于表示不同类别的可能性,通过Softmax函数放大不同类别可能性的差距,将 输出的最大概率作为预测类别。对于骨架热力图模态、深度模态、红外模态, 使用同样的方式进行处理,仅在输入上存在不同。
S14,使用交叉熵损失函数,计算视频动作预测结果和真实标签的损失,以 训练各模态动作识别模型,并将各模态训练后的动作识别模型固定参数,选择 对应动作识别模型的特征提取模块作为各模态对应的特征提取器;
在一实施例中,步骤S14具体为:
使用交叉熵损失函数作为损失函数,计算各模态视频动作预测结果和真实 标签的损失,训练模型对各模态动作识别模型的动作识别能力,以rgb模态为例, 这部分可以用公式表示为:
Figure BDA0003722686220000093
Figure BDA0003722686220000094
其中,y表示视频的真实标签,
Figure BDA0003722686220000095
表示rgb模态的视频动作预测结果,lrgb表 示rgb模态对应的损失,CrossEntropyLoss(.)表示交叉熵损失函数。y(i)表示第 i个分类动作的真实概率(如果动作标签为i,则概率为1,否则为0);
Figure BDA0003722686220000096
表 示rgb模态的第i个分类动作预测概率。对于骨架热力图模态、深度模态、红外 模态,使用同样的方法训练对应动作识别模型。训练完成后,将各模态训练后 的动作识别模型固定参数,选择对应动作识别模型的特征提取模块作为各模态 对应的特征提取器。
S15,使用步骤S14中各模态的特征提取器对步骤S11中预定数量的视频帧 进行特征提取,得到不同模态的逐帧特征信息。
在一实施例中,步骤S15具体为:
使用步骤S14中各模态的特征提取器对步骤S11中预定数量的视频帧进行 特征提取,得到不同模态的逐帧特征信息。以rgb模态为例,用公式表达这一过 程为:
Vrgb=g(Mrgb;prgb)
其中,Mrgb表示rgb模态输入的预定数量的视频帧,g(.)表示rgb模态特征 提取器,ρrgb表示rgb模态特征提取器对应的参数,Vrgb表示rgb模态视频的逐 帧特征信息。对于骨架热力图模态、深度模态、红外模态,使用同样的步骤提 取对应模态的逐帧特征信息,即得到对应的Vdepth、Vskeleton、Vinfrared
S2,使用步骤S1的不同模态的逐帧特征信息,训练基于视频预览指导的多 模态动作特征融合器;
在一实施例中,步骤S2具体为:
S21,将视频帧的顺序作为Transformer网络所需的位置编码,使用 Transformer网络从步骤S1的不同模态的逐帧特征信息中提取时序特征,得到不 同模态的视频时空语义特征,其中,不同模态包括rgb模态和非rgb模态,非rgb 模态包括骨架热力图模态、深度模态和红外模态;
在一实施例中,步骤S21具体为:
从步骤S1的不同模态的逐帧特征信息中提取视频时空语义特征。视频是一 系列图像序列组成的,具有前后顺序。但模型并不能明确的捕捉到这一信息, 因此为模型添加时序编码,以此期望改善模型对动作时序特征的提取能力。以 rgb模态为例,使用视频帧的顺序作为位置编码,令n帧视频的编码分别为0,1...n-1,利用Transformer网络来对步骤S1得到的rgb模态逐帧特征信息提取 rgb模态的视频时空语义特征。Transformer网络的公式表达如下:
Figure BDA0003722686220000111
其中,Vrgb为rgb模态的逐帧特征信息,trgb是对应的时序位置编码,
Figure BDA0003722686220000112
表 示Transformer网络,τrgb为Transformer网络的参数,Hrgb为输出的rgb模态视 频时空语义特征。对于骨架热力图模态、深度模态、红外模态,使用同样的步 骤提取对应模态的视频时空语义特征,即得到对应的视频时空语义特征Hskeleton、 Hdepth、Hinfrared
S22,通过对rgb模态的视频时空语义特征做池化处理,得到rgb模态的单 模态动作特征;
在一实施例中,步骤S22具体为:
对S21得到的rgb模态的视频时空语义特征做均值池化操作,获得rgb模态 的单模态动作特征。使用公式表示即:
Osingle=meanpool(Hrgb)
其中,meanpool表示均值池化操作,进行均值池化的维度是时序维度,Hrgb为 rgb模态的视频时空语义特征,Osingle表示rgb模态的单模态动作特征。
S23,对非rgb模态的视频时空语义特征各自添加模态嵌入和时序嵌入并相 互进行拼接,得到多模态不含rgb时空语义特征;
在一实施例中,步骤S23具体为:
对骨架热力图、深度图、红外图的时空语义信息,为帮助提高多模态融合 的融合性能,对其添加模态编码和时序编码。时序编码即为每帧的位置编码。 模态编码指的是会给不同的模态进行不同的编码,比如设置深度模态的编码为1, 红外模态的编码为2,骨架模态的编码为3。通过线性层学习时序编码和模态编 码对应的时序嵌入和模态嵌入,将其转换成与视频特征相同的维度。然后,将 非rgb模态的视频时空语义特征、模态嵌入、时序嵌入进行拼接。用公式表达即:
Xskeleton=Hskeleton+Mskeleton+Tskeleton
Xdepth=Hdepth+Mdepth+Tdepth
Xinfrared=Hinfrared+Minfrared+Tinfrared
Xtriplet=concatenate(Xskeleton,Xdepth,Xinfrared)
其中,Hskeleton、Hdepth、Hinfrared为skeleton、depth、infrared模态对应 的视频时空语义特征,Mrgb、Mdepth、Minfrared表示添加的对应模态的模态嵌 入,Tskeleton、Tdepth、Tinfrared表示添加的对应模态的时序嵌入,Xskeleton、 Xdepth、Xinfrared表示对应模态拼接模态嵌入和时序嵌入后的是视频时空语义特 征。Xtriplet表示多模态不含rgb时空语义特征。
S24,利用多模态Transformer网络融合多模态不含rgb时空语义特征,得到 初步多模态不含rgb融合时空语义特征;
在一实施例中,步骤S24具体为:
利用多模态Transformer网络融合多模态不含rgb时空语义特征,用公式表 达即:
Figure BDA0003722686220000121
其中,Xtriplet表示多模态不含rgb时空语义特征,τtriplet表示多模态 Transformer网络的参数,Htriplet表示初步多模态不含rgb融合时空语义特征,
Figure BDA0003722686220000122
表示Transformer网络。
S25,使用基于视频预览的Transformer网络,对作为指导的rgb模态的视频 时空语义特征和初步多模态不含rgb融合特征进行融合,得到多模态融合时空语 义特征;
在一实施例中,步骤S25具体为:
对步骤S25得到的多模态融合时空语义特征,利用rgb模态提取的视频时空 语义特征作为视频预览指导,来提取多模态时空语义信息。基于视频预览的 Transformer网络与一般的Transformer网络的区别在于,它将rgb模态提取的时 空语义信息作为自注意力模块的Q,利用三模态时空语义信息作为自注意力模 块的K和V,从而使得网络提取多模态特征时,挖掘rgb模态与其它模态有关 联的地方。用公式表达即:
Figure BDA0003722686220000123
其中,
Figure BDA0003722686220000131
表示基于视频预览的Transformer网络,τmulti表示基于视频预览的Transformer网络的模型参数,Hmulti表示多模态融合时空语义特征。
S26,将多模态融合时空语义特征进行池化处理,得到多模态动作特征;
在一实施例中,步骤S26具体为:
对S25得到的多模态融合时空语义特征做均值池化操作,获得多模态动作 特征。使用公式表示即:
Omulti=meanpool(Hmulti)
其中,meanpool(.)表示均值池化操作,进行均值池化的维度是时序维度,Hmulti表示多模态融合时空语义特征,Omulti表示多模态动作特征。
S27,利用线性层和Softmax层,对rgb模态的单模态动作特征和多模态动 作特征进行分类,得到视频动作预测结果;
在一实施例中,步骤S27具体为:对rgb的单模态动作特征和多模态动作特 征使用线性层改变数据维度,使用Softmax层视频动作预测结果。以rgb模态为 例,用公式表达该分类层,即为:
Figure BDA0003722686220000132
Figure BDA0003722686220000133
其中,f表示线性层,Osingle表示rgb的单模态动作特征和,Omulti表示多模态 动作特征,,θsingle表示使用线性层处理rgb的单模态动作特征的参数,θmulti表 示使用线性层处理多模态动作特征的参数,Softmax表示Softmax层,
Figure BDA0003722686220000134
表示 rgb单模态的视频动作预测结果,
Figure BDA0003722686220000135
表示多模态的视频动作预测结果。
S28,使用交叉熵损失函数,计算视频动作预测结果和真实标签的损失,以 训练多模态动作特征融合器。
在一实施例中,步骤S28具体为:
使用交叉熵损失函数对rgb单模态的视频动作预测结果进行损失计算,训练 多模态动作特征融合器中rgb模态识别动作的能力;使用交叉熵损失函数对多模 态的视频动作预测结果进行损失计算,训练多模态动作特征融合器动作识别的 能力。用公式表达即:
Figure BDA0003722686220000141
Figure BDA0003722686220000142
其中,y表示视频的真实标签,
Figure BDA0003722686220000143
表示rgb单模态的视频动作预测结果,
Figure BDA0003722686220000144
表示多模态的视频动作预测结果,Lrgb表示多模态动作特征融合器中rgb 单模态的损失结果,Lmulti表示多模态动作特征融合器中多模态的损失结果。
如图2所示,S3,对特征提取器和多模态动作特征融合器进行拼接,构建 多模态动作特征提取器;
如图3所示,S4,利用多模态动作识别数据集,基于多模态动作特征提取 器训练小样本舞蹈动作识别模型;
在一实施例中,步骤S4具体为:
S41,利用多模态动作特征提取器分别对支持集的不同模态、查询集的不同 模态进行特征提取,得到相对应的支持集和查询集的rgb模态的单模态动作特征 和多模态动作特征,其中,支持集和查询集从多模态动作识别数据集中获取;
在一实施例中,S41具体为:
对于每次训练,获取支持集和查询集单模态动作特征和多模态动作特征。 小样本任务训练采用的是元训练的方法,与传统的动作识别方法不同,它每次 从数据集中n个类别里分别提取k个视频作为支持集,并从这n个类别随机挑 选一个类别的一个视频作为查询集,然后寻找支持集中与查询集最相似的视频, 并将它的类别作为查询集的预测类别。
S42,将支持集和查询集中各自的rgb模态的单模态动作特征和多模态动作 特征进行拼接,得到相对应的支持集和查询集的多模态动作融合特征;
在一实施例中,步骤S42可以用公式表达为:
Figure BDA0003722686220000145
Figure RE-GDA0003861679430000146
其中,
Figure BDA0003722686220000147
表示支持集中第i个视频的rgb模态的单模态动作特征,
Figure BDA0003722686220000148
表示第i个视频的多模态动作特征,
Figure BDA0003722686220000151
表示查询集的rgb模态的单模态动作特 征,
Figure BDA0003722686220000152
表示查询集的多模态动作特征,concatenate(.)表示拼接操作, support(i)表示支持集中第i个视频的多模态动作融合特征,query表示查询集 的多模态动作融合特征。
S43,将步骤S42中的支持集和查询集的多模态动作融合特征通过线性层映 射到较低维的特征空间,得到支持集和查询集的低维多模态动作融合特征;
在一实施例中,步骤S43可以用公式表达为:
support_low(i)=f(support(i),θlow)
query_low=f(query,θlow)
其中,support(i)表示支持集中第i个视频的多模态动作融合特征,query 表示查询集的多模态动作融合特征,f(.)表示线性层,θlow表示线性层对应的参 数,support_low(i)表示支持集中第i个视频的低维多模态动作融合特征, query_low表示查询集的低维多模态动作融合特征。
S44,利用相似度函数对步骤S43中的支持集和查询集的低维多模态动作融 合特征进行相似度计算,得到查询集和支持集中每个视频的相似度分数;
在一实施例中,S44可以用公式表达为:
Scorei=cos(support(i),query),i∈(1,n*k)
其中,query表示查询集,cos表示cos函数,Scorei表示支持集的第i个视频与query的相似度分数,n*k表示每次从数据集的n个类别里分别提取k个视频所 形成的视频数量总和;
S45,选择查询集和支持集中每个视频的相似度分数作为查询集视频的动作 预测结果;
在一具体实施例中,S45可以用公式表达为:
Figure BDA0003722686220000153
其中,
Figure BDA0003722686220000154
为查询集视频的动作预测结果,{Score0,Score1,...,Scoren*k}表示 查询集和支持集中每个视频的相似度分数。
S46,使用交叉熵损失函数,计算查询集视频的动作预测结果和真实标签的 损失,微调多模态动作特征提取器,构建小样本舞蹈动作识别模型。
在一具体实例中,S46具体为:
对真实标签和查询集视频的动作预测结果使用交叉熵损失函数,过程用公 式表达即:
Figure BDA0003722686220000161
其中,
Figure BDA0003722686220000162
为查询集视频的动作预测结果,Y表示真实标签,该真实标签表示 支持集中与查询集对应的视频,LFew_shot表示真实标签和查询集视频的动作预测 结果之间的损失结果,CrossEntropyLoss(.)表示交叉熵损失函数。整个训练, 由于在之前的多模态特征训练器已经大致的训练过模型的特征提取能力,所以 仅设定了较小的学习率来微调模型;
S5,利用训练好的小样本舞蹈动作识别模型进行小样本舞蹈动作识别。
本实施例中使用多模态信息的方法,缓解了小样本领域因数据量过少而导 致的识别困难问题。相较于传统小样本动作识别方法,本方法利用多模态信息, 有效解决了rgb单模态数据在视频动作识别时性能不够鲁棒的问题;此外,使用 的视频预览指导多模态数据融合的方法,加强了模型在各模态空间中的语义提 取能力。相较于传统小样本动作识别方法,本发明所提出的方法识别性能更强, 利用视频信息特征更充分,更适应于小样本舞蹈动作识别任务,提高了复杂场 景下小样本舞蹈动作识别的准确性。另外,本发明针对多模态融合过程中,不 同模态如何互补学习的问题,提出了一种基于视频预览指导的多模态融合方法, 这种方法首先通过预览视频的整体信息,学习视频特征要点,然后模型通过视频特征要点,判断不同模态的重要性,根据不同模态的重要性,模型选择性的 融入各个模态的补充信息,从而对特征信息进行补充完善,以此提高性能。这 方法可以促进视频的多模态信息进行良好交互,使得模型更容易提取视频的动 作特征,从而促进小样本舞蹈动作识别模型动作识别的能力。提出使用视频预 览指导多模态数据融合,将多模态数据的特征学习方式应用至小样本舞蹈动作 识别任务中,并通过不同模态数据交汇融合的方式,本发明解决了现有技术视 频信息特征利用不充分和复杂场景下舞蹈动作识别性能不佳的问题。
与前述多模态融合的小样本舞蹈动作识别方法的实施例相对应,本发明还 提供了多模态融合的小样本舞蹈动作识别装置的实施例。
参见图4,本发明实施例提供的一种多模态融合的小样本舞蹈动作识别装置, 包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理 器执行所述可执行代码时,用于实现上述实施例中的多模态融合的小样本舞蹈 动作识别方法。
本发明多模态融合的小样本舞蹈动作识别装置的实施例可以应用在任意具 备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机 等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结 合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在 任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序 指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明多模 态融合的小样本舞蹈动作识别装置所在任意具备数据处理能力的设备的一种硬 件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之 外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数 据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步 骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见 方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元 显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可 以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块 来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下, 即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序 被处理器执行时,实现上述实施例中的多模态融合的小样本舞蹈动作识别方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理 能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可 以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插 接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card) 等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力 的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存 储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数 据,还可以用于暂时地存储已经输出或者将要输出的数据。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他 性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那 些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方 法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一 个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中 还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的 范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实 施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过 程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施 方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目 的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例 和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数 形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/ 或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、 第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同 一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的 情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第 一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时” 或“当……时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限 制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则 之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个 实施例保护的范围之内。

Claims (5)

1.一种多模态融合的小样本舞蹈动作识别方法,其特征在于,包括以下步骤:
S1,利用多模态动作识别数据集,预训练不同模态的特征提取器,并使用不同模态的特征提取器提取对应不同模态的逐帧特征信息;
S2,使用所述步骤S1的不同模态的逐帧特征信息,训练基于视频预览指导的多模态动作特征融合器;
S3,基于特征提取器和多模态动作特征融合器,构建多模态动作特征提取器;
S4,利用多模态动作识别数据集,基于多模态动作特征提取器训练小样本舞蹈动作识别模型;
S5,利用训练好的小样本舞蹈动作识别模型进行小样本舞蹈动作识别。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1具体为:
S11,利用多模态动作识别数据集,从不同模态中分别提取预定数量的视频帧,使用ResNet50网络对视频帧进行特征提取,得到不同模态的逐帧特征信息;
S12,对步骤S11中不同模态的逐帧特征信息分别进行全局特征提取,得到不同模态的全局编码特征;
S13,利用线性层和Softmax层,对不同模态的全局编码特征进行分类,得到视频动作预测结果;
S14,使用交叉熵损失函数,计算视频动作预测结果和真实标签的损失,以训练各模态动作识别模型,并将各模态训练后的动作识别模型固定参数,选择对应动作识别模型的特征提取模块作为各模态对应的特征提取器;
S15,使用步骤S14中各模态的特征提取器对步骤S11中预定数量的视频帧进行特征提取,得到不同模态的逐帧特征信息。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2具体为:
S21,将视频帧的顺序作为Transformer网络所需的位置编码,使用Transformer网络从所述步骤S1的不同模态的逐帧特征信息中提取时序特征,得到不同模态的视频时空语义特征,其中,不同模态包括rgb模态和非rgb模态,非rgb模态包括骨架热力图模态、深度模态和红外模态;
S22,通过对rgb模态的视频时空语义特征做池化处理,得到rgb模态的单模态动作特征;
S23,对非rgb模态的视频时空语义特征各自添加模态嵌入和时序嵌入并相互进行拼接,得到多模态不含rgb时空语义特征;
S24,利用多模态Transformer网络融合多模态不含rgb时空语义特征,得到初步多模态不含rgb融合时空语义特征;
S25,使用基于视频预览的Transformer网络,对作为指导的rgb模态的视频时空语义特征和初步多模态不含rgb融合特征进行融合,得到多模态融合时空语义特征;
S26,将多模态融合时空语义特征进行池化处理,得到多模态动作特征;
S27,利用线性层和Softmax层,对rgb模态的单模态动作特征和多模态动作特征进行分类,得到视频动作预测结果;
S28,使用交叉熵损失函数,计算视频动作预测结果和真实标签的损失,以训练多模态动作特征融合器。
4.根据权利要求1所述的方法,其特征在于,所述步骤S4具体为:
S41,利用多模态动作特征提取器分别对支持集的不同模态、查询集的不同模态进行特征提取,得到相对应的支持集和查询集的rgb模态的单模态动作特征和多模态动作特征,其中,支持集和查询集从多模态动作识别数据集中获取;
S42,将支持集和查询集中各自的rgb模态的单模态动作特征和多模态动作特征进行拼接,得到相对应的支持集和查询集的多模态动作融合特征;
S43,将步骤S42中的支持集和查询集的多模态动作融合特征通过线性层映射到较低维的特征空间,得到支持集和查询集的低维多模态动作融合特征;
S44,利用相似度函数对步骤S43中的支持集和查询集的低维多模态动作融合特征进行相似度计算,得到查询集和支持集中每个视频的相似度分数;
S45,选择查询集和支持集中每个视频的相似度分数作为查询集视频的动作预测结果;
S46,使用交叉熵损失函数,计算查询集视频的动作预测结果和真实标签的损失,微调多模态动作特征提取器,构建小样本舞蹈动作识别模型。
5.一种多模态融合的小样本舞蹈动作识别装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,用于实现如权利要求1-4中任一项所述的多模态融合的小样本舞蹈动作识别方法。
CN202210767390.XA 2022-06-30 2022-06-30 一种多模态融合的小样本舞蹈动作识别方法及装置 Pending CN115661561A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210767390.XA CN115661561A (zh) 2022-06-30 2022-06-30 一种多模态融合的小样本舞蹈动作识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210767390.XA CN115661561A (zh) 2022-06-30 2022-06-30 一种多模态融合的小样本舞蹈动作识别方法及装置

Publications (1)

Publication Number Publication Date
CN115661561A true CN115661561A (zh) 2023-01-31

Family

ID=85024054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210767390.XA Pending CN115661561A (zh) 2022-06-30 2022-06-30 一种多模态融合的小样本舞蹈动作识别方法及装置

Country Status (1)

Country Link
CN (1) CN115661561A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118674946A (zh) * 2024-08-23 2024-09-20 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于Transformer的电镜神经元长程追踪方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118674946A (zh) * 2024-08-23 2024-09-20 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于Transformer的电镜神经元长程追踪方法

Similar Documents

Publication Publication Date Title
Ye et al. Deep learning for person re-identification: A survey and outlook
Liu et al. Localization guided learning for pedestrian attribute recognition
Ye et al. PurifyNet: A robust person re-identification model with noisy labels
Wang et al. Video salient object detection via fully convolutional networks
Song et al. Pyramid dilated deeper convlstm for video salient object detection
Zhang et al. Information fusion in visual question answering: A survey
Xu et al. Aligning correlation information for domain adaptation in action recognition
Gu et al. Multiple stream deep learning model for human action recognition
Huang et al. Joint cross-modal and unimodal features for RGB-D salient object detection
Gao et al. Co-saliency detection with co-attention fully convolutional network
Song et al. Context-interactive CNN for person re-identification
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN113221770A (zh) 基于多特征混合学习的跨域行人重识别方法及系统
Xia et al. Pedestrian detection algorithm based on multi-scale feature extraction and attention feature fusion
Zhang et al. Deep RGB-D saliency detection without depth
CN118072252A (zh) 适用于任意多模态数据组合的行人重识别模型训练方法
CN113011320A (zh) 视频处理方法、装置、电子设备及存储介质
Li et al. Seeking a hierarchical prototype for multimodal gesture recognition
Rani et al. PoolNet deep feature based person re-identification
CN115661561A (zh) 一种多模态融合的小样本舞蹈动作识别方法及装置
Tu et al. Clothing-change person re-identification based on fusion of RGB modality and gait features
CN116597267B (zh) 图像识别方法、装置、计算机设备和存储介质
Li et al. Trajectory-pooled spatial-temporal architecture of deep convolutional neural networks for video event detection
Mi et al. Dual-branch network with a subtle motion detector for microaction recognition in videos
Yang et al. Large-scale video-based person re-identification via non-local attention and feature erasing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination