[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111582214B - 基于孪生网络的笼养动物行为分析方法、系统、装置 - Google Patents

基于孪生网络的笼养动物行为分析方法、系统、装置 Download PDF

Info

Publication number
CN111582214B
CN111582214B CN202010414134.3A CN202010414134A CN111582214B CN 111582214 B CN111582214 B CN 111582214B CN 202010414134 A CN202010414134 A CN 202010414134A CN 111582214 B CN111582214 B CN 111582214B
Authority
CN
China
Prior art keywords
area
target
feature
network
analyzed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010414134.3A
Other languages
English (en)
Other versions
CN111582214A (zh
Inventor
陈曦
翟昊
沈丽君
谢启伟
韩华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202010414134.3A priority Critical patent/CN111582214B/zh
Publication of CN111582214A publication Critical patent/CN111582214A/zh
Application granted granted Critical
Publication of CN111582214B publication Critical patent/CN111582214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉、深度学习和生物学、动物行为学领域,具体涉及一种基于孪生网络的笼养动物行为分析方法、系统、装置,旨在解决现有跨物种笼养动物实时行为分析方法需要大量的跨物种标注数据以及检测分析精细度、准确率较低的问题。本系统方法包括:获取待分析目标在第t帧图像中的搜索区域;通过孪生子网络分别提取搜索区域、预设的目标区域、预设的背景区域的特征;基于提取的特征,分别通过区域生成网络、蒙版子网络获取待分析目标的检测区域、mask;迭代获取设定帧数内的检测区域、mask,并通过预设的聚类方法,得到待分析目标在设定帧数内的运动状态。本发明减少了对标注数据的需求,提高了效率以及检测分析的精细度、准确率。

Description

基于孪生网络的笼养动物行为分析方法、系统、装置
技术领域
本发明属于计算机视觉、深度学习和生物学、动物行为学领域,具体涉及一种基于孪生网络的笼养动物行为分析方法、系统、装置。
背景技术
动物行为学作为二十一世纪生命科学的重点分支学科,近年来因由各类技术的进步而蓬勃发展。由于构成动物行为的基本要件囊括了自然选择、个体学习和文化传播,故能和生命科学的其他领域相互渗透,形成许多新的研究热点。笼养动物作为动物行为学最重要的实验方法之一,历来需要研究者处理数十支长达几十小时的视频材料,最多可达百万帧级。
目前基于已有数个基于深度学习的方法应用于笼养动物的自动检测和分析,虽检测效果明显优于传统机器学习算法,但往往均需要大量的人工数据标注工作。基于孪生网络的视频处理方法可仅通过第一帧的特征完成这一过程,此方法可以显著提高处理新物种的工作效率。因此本发明提出了一种基于孪生网络的笼养动物行为分析方法。
发明内容
为了解决现有技术中的上述问题,即为了解决现有的跨物种笼养动物实时行为分析方法需要大量的跨物种标注数据以及检测分析精细度、准确率较低的问题,本发明第一方面,提出了一种基于孪生网络的笼养动物行为分析方法,该方法包括:
步骤S100,基于待分析目标的视频数据,以t-1帧的目标位置的中心点为中点,在第t帧图像中获取N倍于第一尺寸大小的区域,将其作为搜索区域;所述第一尺寸为预设的待分析目标尺寸;
步骤S200,通过孪生子网络分别提取所述搜索区域、第一区域、第二区域的特征,作为第一特征、第二特征、第三特征;所述第一区域为预设的待分析目标的目标区域;所述第二区域为预设的待分析目标的背景区域经过预处理后的区域;
步骤S300,基于所述第一特征、所述第二特征、所述第三特征,分别通过区域生成网络、蒙版子网络获取所述待分析目标对应的检测区域、mask;所述蒙版子网络基于SiamMask网络、语义分割网络构建;
步骤S400,令t=t+1,跳转步骤S100,迭代获取所述待分析目标在设定帧数内的检测区域、mask;基于各帧对应的检测区域、mask,通过预设的聚类方法,得到所述待分析目标在设定帧数内的运动状态。
在一些优选的实施方式中,所述预设的待分析目标的背景区域其预处理方法为;
步骤A100,分别沿视频数据第一帧图像中的目标区域的宽边、高边的中点进行平分;平分后,沿平分后的区域的反平行方向选取与平分区域大小相等、距离为N倍宽或高的区域,并结合平分的区域,构建与目标区域大小相等的四个区域;
步骤A200,将视频数据第一帧图像中的目标区域的中心点分别作为左右方向矩形区域的高的中点、上下方向矩形区域的宽的中点,构建与目标区域大小相等的四个区域;
步骤A300,在视频数据第一帧图像中的目标区域的上下左右四个方位随机构建与目标区域大小相等但不重叠的四个区域;
步骤A400,基于步骤A100-步骤A300选取的区域,分别判断构建的各区域的边界是否大于第一帧图像的边界,若大于则删除,将剩余的区域作为预处理后的背景区域。
在一些优选的实施方式中,步骤S300中“基于所述第一特征、所述第二特征、所述第三特征,通过区域生成网络获取所述待分析目标对应的检测区域”,其方法为:
分别将所述第一特征、所述第二特征、所述第三特征进行卷积,得到第一卷积特征、第二卷积特征、第三卷积特征;
基于所述第一卷积特征、所述第二卷积特征、所述第三卷积特征,分别通过区域生成网络的分类分支、回归分支进行互相关运算,得到待分析目标对应预测的各检测框及其对应的score值;
将score值最大的检测框作为待分析目标在当前帧图像中的检测区域。
在一些优选的实施方式中,步骤S400中“通过蒙版子网络获取所述待分析目标的mask”,其方法为;
分别将所述第一特征、所述第二特征、所述第三特征进行卷积,得到第一卷积特征、第二卷积特征、第三卷积特征;
将所述第一卷积特征与所述第二卷积特征、所述第三卷积特征进行互相关运算,运算完成后再次进行卷积,得到待分析目标的mask;
通过语义分割网络对所述mask进行修正,将修正后的mask作为待分析目标最终获取的mask。
在一些优选的实施方式中,“通过语义分割网络对所述mask进行修正”,其方法为;
maskRefine=Refine(mask,Conv(mask),{φl(x)|l∈L})
Figure BDA0002494323840000031
其中,z表示第一区域,b'表示第二区域,x表示搜索区域,φ(x)、φ(z)、φ(b')分别表示提取的第一特征、第二特征、第三特征,Conv表示卷积运算,Norm表示标准化运算,Refine表示语义分割网络RefineNet,maskRefine表示修正后的mask,l表示卷积的中间层选取的多尺度特征的层数,L表示卷积的中间层选取的多尺度特征的层数集合,*表示互相关运算,d表示特征的深度。
在一些优选的实施方式中,步骤S400中“基于获取的各检测区域、mask,通过预设的聚类方法,得到所述待分析目标在设定帧数内的运动状态”,其方法为:
分别将获取的各检测区域与上一帧的检测区域进行中心点做差,作为第一结果;并将获取的各mask与上一帧获取的mask进行交并比运算,作为第二结果;
基于各第一结果、第二结果,通过K-means聚类得到待分析目标的运送状态;所述运动状态包括移动、头部移动、静止、睡眠。
在一些优选的实施方式中,步骤S300之后步骤S400之前还包括更新步骤:
若t为M的倍数,则基于视频数据第一帧中待分析目标的目标区域、t帧待分析目标的检测区域、t-1帧待分析目标的检测区域,通过预构建的更新网络提取待分析目标的目标区域特征并进行更新;M为正整数;所述更新网络基于浅层的卷积网络构建。
本发明的第二方面,提出了一种基于孪生网络的笼养动物行为分析系统,该系统包括搜索区域获取模块、特征提取模块、检测模块、输出模块;
所述搜索区域获取模块,配置为基于待分析目标的视频数据,以t-1帧的目标位置的中心点为中点,在第t帧图像中获取N倍于第一尺寸大小的区域,将其作为搜索区域;所述第一尺寸为预设的待分析目标尺寸;
所述特征提取模块,配置为通过孪生子网络分别提取所述搜索区域、第一区域、第二区域的特征,作为第一特征、第二特征、第三特征;所述第一区域为预设的待分析目标的目标区域;所述第二区域为预设的待分析目标的背景区域经过预处理后的区域;
所述检测模块,配置为基于所述第一特征、所述第二特征、所述第三特征,分别通过区域生成网络、蒙版子网络获取所述待分析目标对应的检测区域、mask;所述蒙版子网络基于SiamMask网络、语义分割网络构建;
所述输出模块,配置为令t=t+1,跳转搜索区域获取模块,迭代获取所述待分析目标在设定帧数内的检测区域、mask;基于各帧对应的检测区域、mask,通过预设的聚类方法,得到所述待分析目标在设定帧数内的运动状态。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序应用由处理器加载并执行以实现上述的基于孪生网络的笼养动物行为分析方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的基于孪生网络的笼养动物行为分析方法。
本发明的有益效果:
本发明减少了对标注数据的需求,提高了实时视频跟踪和分割效率以及检测分析的精细度、准确率。本发明将孪生网络用于笼养动物的行为分析中,可仅通过第一帧的特征完成标注,减少了重复标注,提高了效率。根据第一帧的标注获取待分析目标的目标区域、背景区域、搜索区域。并通过预设的方法对获取的背景区域进行预处理,选取三种负样本的背景区域,进一步丰富了提取特征。
基于选取的背景区域、目标区域、搜索区域,通过孪生子网络提取特征,并分别通过区域生成网络、蒙版子网络获取待分析目标的检测区域以及mask。通过双网络获取待分析目标的检测区域,提高了目标检测分析的准确率。将设定帧数内的检测区域及mask进行无监督聚类,得到待分析目标在设定时间内的一个运动状态。
另外,为了进一步提升视频跟踪和分割的准确率,本发明加入了UpdateNet(浅层的卷积网络),结合第一帧提取的目标区域,结合当前帧的检测区域以及当前帧上一帧的检测区域,对目标区域的特征进行更新。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1是本发明一种实施例的基于孪生网络的笼养动物行为分析方法的流程示意图;
图2是本发明一种实施例的基于孪生网络的笼养动物行为分析系统的框架示意图;
图3是本发明一种实施例的基于孪生网络的笼养动物行为分析方法的详细流程示意图;
图4是本发明一种实施例的背景区域预处理的流程示意图;
图5是本发明一种实施例的目标区域进行更新的流程示意图;
图6是本发明一种实施例的聚类过程及对应的软件界面的示意图;
图7是适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的基于孪生网络的笼养动物行为分析方法,如图1所示,包括以下步骤:
步骤S100,基于待分析目标的视频数据,以t-1帧的目标位置的中心点为中点,在第t帧图像中获取N倍于第一尺寸大小的区域,将其作为搜索区域;所述第一尺寸为预设的待分析目标尺寸;
步骤S200,通过孪生子网络分别提取所述搜索区域、第一区域、第二区域的特征,作为第一特征、第二特征、第三特征;所述第一区域为预设的待分析目标的目标区域;所述第二区域为预设的待分析目标的背景区域经过预处理后的区域;
步骤S300,基于所述第一特征、所述第二特征、所述第三特征,分别通过区域生成网络、蒙版子网络获取所述待分析目标对应的检测区域、mask;所述蒙版子网络基于SiamMask网络、语义分割网络构建;
步骤S400,令t=t+1,跳转步骤S100,迭代获取所述待分析目标在设定帧数内的检测区域、mask;基于各帧对应的检测区域、mask,通过预设的聚类方法,得到所述待分析目标在设定帧数内的运动状态。
为了更清晰地对本发明基于孪生网络的笼养动物行为分析方法进行说明,下面结合附图对本发明方法一种实施例中各步骤进行展开详述。
下文优选实施例中,先对基于孪生网络的笼养动物行为分析方法对应的网络的训练过程进行详述,再对基于孪生网络的笼养动物行为分析方法获取待分析目标的运动状态进行详述。
1、基于孪生网络的笼养动物行为分析方法对应的网络的训练过程
步骤B100,对视频数据流进行处理
在本发明中,选择Microsoft COCO、GOT-10k或其他动物视频分割数据集,对整体网络进行端到端训练获取视频流,视频流也可以是从网络摄像头、本地视频文件、本地连续图片文件等中获取。
获取视频数据中的第一帧图像,并以b-box的形式对待分析目标进行标定,每个待分析目标包括标注的区域包括z(目标区域)、b(背景区域,即在第一帧图像中除目标区域外的区域)、x(搜索区域,即待分析目标在下一帧可能的运动范围),如图3的最左侧区域。其中,左侧为孪生子网络(Siamese Subnetwork),其中包括模板帧(Template Frame)提取z和b,b经过片区选择(patches selection)过程生成b’;之后将z、b’、x输入由分享权重(shareweights)的卷积神经网络(CNN)组成的backbone(基干)和adjust(调整)层组成的neck(颈部)。网络可有两类head(头部),右上为区域生成子网络(Region Proposal Subnetwork),其中由x的特征处分为分类分支(classification branch)和回归分支(regressionbranch);Conv表示卷积运算、*表示互相关运算。右下为蒙版子网络(Mask Subnetwork),其中类似地利用了相应的特征(corresponding features),并将mask的相关性特征(correlation feature)和多尺度特征(multi-scale feature)输入RefineNet进行处理。最右侧表示行为分析(behavioral analysis)过程和状态转移(state transitions)情况。其余部分在下文中解释。
在本发明中,对背景区域进行处理,选取背景区域中有价值的区域组成预处理的背景区域集合。背景区域集合中的各区域的尺寸和目标区域的尺寸(object size)保持一致,以便于适应后续孪生网络的输入。如图4所示,从目标区域和目标区域的周围选取三种负样本,共P个(预设的参数,可以根据实际需要进行调整),并在之后对选取的区域图像调整至127×127×3×p。具体选取过程如下:
第一种负样本(简称虚拟负样本)的选取方法:虚拟负样本蕴含目标和背景间的遮挡信息,此类负样本由目标的一半和目标一半大小的背景信息组合而成。即分别沿视频数据第一帧图像中的目标区域的宽边、高边的中点进行平分,并沿平分后的区域的反平行方向选取与平分区域大小相等距离为N倍宽或高的区域,将选取后的区域与对应的平分后的区域组合为一个区域。如图4中部的第一幅图像,沿目标区域(目标区域的尺寸为w0×h0)的高进行平分,并沿高的平行反向,基于N倍高的距离,选取与平分区域相等的区域,并与平分的区域组成一个负样本,其中N在本发明中选取为0.75。在本发明中,沿宽高进行平分,会得到pv个平分区域,pv=4即分别得到4个虚拟负样本;
第二种负样本(简称边界负样本)的选取方法为:边界负样本蕴含目标和背景间的区隔信息,能够抑制目标漂移,一般来说,选取一半目标一半背景的边界区域。即将视频数据第一帧图像中的目标区域的中心点分别作为左右方向矩形区域的高的中点、上下方向矩形区域的宽的中点,构建与目标区域大小相等的pb四个区域。如图4中部的第二幅图像。pb=4即得到4个边界负样本。
第三种负样本(简称上下文负样本)的选取方法为:上下文负样本蕴含场景中的背景信息,能够抑制目标丢失,此类负样本需先设定一个固定的目标中心和负样本中心间距,在所有满足此间距要求的背景中随机选择pc个负样本,即在视频数据第一帧图像中的目标区域的上下左右四个方位随机构建与目标区域大小相等但不重叠的四个区域。如图4中部的第三幅图像。
三种负样本选取满足p=pv+pb+pc,根据组成或构建的三种负样本,判断是否超出第一帧图像的边界,若超出(如图4中的randomly部分)则删除,将剩余的作为选取的有价值的背景区域,表示为b’。
B20,基于获取的搜索区域、目标区域、背景区域,对网络进行训练
本发明中的网络包括孪生子网络、区域生成网络、蒙版子网络,综合简称为SiamBOMB网络。
孪生子网络由分享权重的卷积网络(CNN)组成,如图3的左侧部分,在本发明中,经过测试发现,发现AlexNet、MobileNetV2、ResNet-50表现的比较优异,因此在本发明中优选采用这三种网络的任一种构建孪生子网络,对获取的搜索区域、目标区域、选取的背景区域进行特征提取,在其他实施例中可以根据实际情况进行选取。其中,孪生子网络包括backbone(基干)和adjust(调整)模块,backbone为在ImageNet上经过预训练的特征提取层,adjust模块用于调整孪生子网络的参数。
区域生成子网络本发明中优选采用Faster R-CNN构建,如图3的右上方,针对所提取的z、b’、x的特征进行处理,通过卷积运算和逐深度的互相关运算得到相应的各类激活图;其结构从x处特征分为分类分支和回归分支。
其中,分类分支利用b’的特征对互相关激活图的次激活区域进行增强,以克服z与b’的相似区域的误识别,网络中的超参数可由目标与背景元素的相似度决定,如公式(1)所示:
Figure BDA0002494323840000111
其中,score表示各检测框对应的score值,φ(x)、φ(z)、φ(b')分别表示提取的搜索区域、目标区域、预处理的背景区域的特征,输出通道数为2k,Conv表示卷积运算,
Figure BDA0002494323840000114
表示特征提取器,*表示互相关运算,d表示特征的深度。
回归分支利用类似的互相关激活图和score值分布,得到4k个dx、dy、dw、dh值,整理得到b-box值,如公式(2)所示:
Figure BDA0002494323840000112
其中,Norm表示标准化运算。
蒙版子网络基于SiamMask网络、语义分割网络构建,如图3的右下方,与区域生成子网络类似,都利用相应的特征进行了互相关运算,即将所提取的z、b’、x的特征分别进行卷积运算,将卷积后的x特征与z和b’所得结果进行逐深度互相关运算,其输出通道数依mask决定(通常为3969),运算完成后再进行一次卷积运算,得到待分析目标的mask。但本发明中额外增加了RefineNet模块,能够利用孪生子网络中的多尺度信息让mask精细化。RefineNet的运算流程如公式(3)(4)所示:
Figure BDA0002494323840000113
maskRefine=Refine(mask,Conv(mask),{φl(x)|l∈L})  (4)
其中Refine表示RefineNet,l表示卷积的中间层选取的多尺度特征的层数,L表示卷积的中间层选取的多尺度特征的层数集合,maskRefine表示经过RefineNet修正后的mask。
需要进行额外说明的是,蒙版子网络为可选head(头部),若所应用的场景无需精细的分割结果,则可以仅采用区域生成子网络单head结构,可以大幅提升网络运行速率。
基于第一帧的目标区域的中心点,在第二帧图像中选取N倍于目标区域的区域,作为搜索区域。将第一帧中的目标区域作为模板帧,将搜索区域作为检测帧,结合选取的背景区域,迭代获取设定帧内的待分析目标对应检测区域、对应的score以及mask(图像蒙版),在本发明中,优选将每秒所得的score、b-box、mask数据进行参数化整理,得出基本的目标整体运动(Trans)和区域运动(SegMove)情况,保证运动行为的连续性。请参阅图6。
图6上方为软件界面(Interface),一个反馈循环首先读取当前帧率(FPS);之后再根据每秒的score、b-box、mask值得出目标中心移动距离(Trans)和分割区域变化率(SegMove),其中SegMove是由交并比(IoU)进行计算的;最后根据这两个值得出当前运动状态(State),周而复始。
利用无监督学习方法,将不同运动情况聚类至3~5种;针对本实施方式中的小鼠运动状态,最终利用K-means算法聚类为4类区域,分别将其人工对应为移动(LocoMotion,LM)、头部移动(Non-locomotor Movement,MV)、静止(Quiet Wakefulness,QW)、睡眠(Sleep,SL)四种状态模型。
一段实验周期后,统计上述聚类情况进行行为学分析,刻画运动状态转移关系图。
本发明针对背景抖动严重、背景光线变化剧烈、目标形态多变的情况,提出了对目标区域以及背景区域进行定时更新,以便于提高模型的适应性。请参阅图5,此图中将图3中的b和b′等一系列背景信息提取过程省略,同样使用分享权重(share weights)的卷积神经网络(CNN)作为backbone(基干)、adjust(调整)层作为neck(颈部),只关注孪生子网络中的不同时刻的z和x。设当前帧的搜索图像为xt、模板图像为z~t,这里的“~”代表此模板图像是由t-1帧的特征所预测出来的跟踪结果(即区域生成网络获取待分析目标在t帧中最终的检测区域),故z~t为使用z~t-1的特征所预测(predict)的模板(example)区域。UpdateNet(更新网络)的内部基本结构为浅层的卷积网络,因为其仅用于三元特征的融合。
此网络的输入为初始时刻标定的真值(视频数据的第一帧的目标区域)z0、上一时刻的跟踪结果(t-1帧待分析目标的检测区域)
Figure BDA0002494323840000132
Figure BDA0002494323840000131
(t帧待分析目标的检测区域)三者;输出需级联(cascade)上初始所保留(remain)的特征,并进行上采样以将网络输出和初始特征合并,并更新待分析目标的目标区域特征,即更新孪生子网络模板帧的数据。此步骤的目的是为了防止由于将错误目标特征加入更新而可能导致的特征偏移,使得这一过程更具有稳定性。
此网络在训练的时候并不是和孪生子网络一起训练的,而是将三元组中的后两元也变换为真值,从而对网络进行单独训练的(separate training)。训练好后,以外挂网络的形式按上述过程对孪生子网络中的z和b’所得特征进行更新。此类方法相对于更新整个SiamBOMB网络,所需的额外训练资源大幅降低,且便于收敛。
另外,基于训练好的SiamBOMB网络,本发明中将其软件化,其界面如图6所示,其上方三个操作按钮表示数据流(Stream)的导入(Loading)和暂停(Suspending),包括针对图片文件夹(Location)流、视频文件(Video)流和监控摄像头(Camera)流的操作;中间两个操作按钮表示第一帧的b-box设定(Setting)和算法处理(Algorithm Processing)的启动;下方勾选框用于选择是否储存各类数据(Data Saving),数字拨码用于选择当前所分析结果的目标(Analysis Object Selecting)。另外在软件部分,实时生成软件运行日志,便于记录监测小鼠的各项参数,而且每生成256MB(或30min)的视频跟踪和分割数据,就进行一次对score、b-box、mask的压缩,以保证输出结果不占用过多的储存空间,所有需要保存的内容都是可选的,这样可以在软件层面降低数据储存对软件运行速率造成的影响。也针对多目标的储存策略进行了优化,可以选择性的储存运动的目标,长期保持静止的目标的数据将会被压缩。软件还提供了预览模式,即不储存任何信息,可讲软件的运行速率最大化,适合于实验的测试阶段或软件的调试阶段。
2、基于孪生网络的笼养动物行为分析方法
步骤S100,基于待分析目标的视频数据,以t-1帧的目标位置的中心点为中点,在第t帧图像中获取N倍于第一尺寸大小的区域,将其作为搜索区域;所述第一尺寸为预设的待分析目标尺寸。
在本实施例中,在第t帧图像中基于t-1帧的目标位置的中心点,获取对应的搜索区域。
步骤S200,通过孪生子网络分别提取所述搜索区域、第一区域、第二区域的特征,作为第一特征、第二特征、第三特征;所述第一区域为预设的待分析目标的目标区域;所述第二区域为预设的待分析目标的背景区域经过预处理后的区域。
在本实施例中,基于获取的搜索区域,结合预处理(选取的背景区域)、预设的目标区域,分别通过孪生子网络提取特征。
步骤S300,基于所述第一特征、所述第二特征、所述第三特征,分别通过区域生成网络、蒙版子网络获取所述待分析目标对应的检测区域、mask;所述蒙版子网络基于SiamMask网络、语义分割网络构建。
在本实施例中,基于提取的特征,分别通过区域生成网络获取待分析目标所有的检测框及对应的score,将score最大的检测框作为待分析目标第t帧对应的检测区域。并基于提取的特征通过蒙版子网络的到待分析目标的mask。
步骤S400,令t=t+1,跳转步骤S100,迭代获取所述待分析目标在设定帧数内的检测区域、mask;基于各帧对应的检测区域、mask,通过预设的聚类方法,得到所述待分析目标在设定帧数内的运动状态。
在本实施例中,迭代获取设定时间内(设定帧数)的检测区域以及mask,通过K-means算法,得到对应的分类结果,即运动状态。
本发明第二实施例的一种基于孪生网络的笼养动物行为分析系统,如图2所示,包括:搜索区域获取模块100、特征提取模块200、检测模块300、输出模块400;
所述搜索区域获取模块100,配置为基于待分析目标的视频数据,以t-1帧的目标位置的中心点为中点,在第t帧图像中获取N倍于第一尺寸大小的区域,将其作为搜索区域;所述第一尺寸为预设的待分析目标尺寸;
所述特征提取模块200,配置为通过孪生子网络分别提取所述搜索区域、第一区域、第二区域的特征,作为第一特征、第二特征、第三特征;所述第一区域为预设的待分析目标的目标区域;所述第二区域为预设的待分析目标的背景区域经过预处理后的区域;
所述检测模块300,配置为基于所述第一特征、所述第二特征、所述第三特征,分别通过区域生成网络、蒙版子网络获取所述待分析目标对应的检测区域、mask;所述蒙版子网络基于SiamMask网络、语义分割网络构建;
所述输出模块400,配置为令t=t+1,跳转搜索区域获取模块100,迭代获取所述待分析目标在设定帧数内的检测区域、mask;基于各帧对应的检测区域、mask,通过预设的聚类方法,得到所述待分析目标在设定帧数内的运动状态。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于孪生网络的笼养动物行为分析系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的基于孪生网络的笼养动物行为分析方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于孪生网络的笼养动物行为分析方法。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。
下面参考图7其示出了适于用来实现本申请方法、系统、装置实施例的服务器的计算机系统的结构示意图。图7出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7示,计算机系统包括中央处理单元(CPU,Central Processing Unit)701,其可以根据存储在只读存储器(ROM,Read Only Memory)702中的程序或者从存储部分708加载到随机访问存储器(RAM,Random Access Memory)703中的程序而执行各种适当的动作和处理。在RAM703中,还存储有系统操作所需的各种程序和数据。CPU 701、ROM 702以及RAM703通过总线704彼此相连。输入/输出(I/O,Input/Output)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT,Cathode Ray Tube)、液晶显示器(LCD,Liquid Crystal Display)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN(局域网,Local AreaNetwork)卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口605。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (9)

1.一种基于孪生网络的笼养动物行为分析方法,其特征在于,该方法包括:
步骤S100,基于待分析目标的视频数据,以t-1帧的目标位置的中心点为中点,在第t帧图像中获取N倍于第一尺寸大小的区域,将其作为搜索区域;所述第一尺寸为预设的待分析目标尺寸;
步骤S200,通过孪生子网络分别提取所述搜索区域、第一区域、第二区域的特征,作为第一特征、第二特征、第三特征;所述第一区域为预设的待分析目标的目标区域;所述第二区域为预设的待分析目标的背景区域经过预处理后的区域;
步骤S300,基于所述第一特征、所述第二特征、所述第三特征,分别通过区域生成网络、蒙版子网络获取所述待分析目标对应的检测区域、mask;所述蒙版子网络基于SiamMask网络、语义分割网络构建;
基于所述第一特征、所述第二特征、所述第三特征,通过区域生成网络获取所述待分析目标对应的检测区域,其方法为:
分别将所述第一特征、所述第二特征、所述第三特征进行卷积,得到第一卷积特征、第二卷积特征、第三卷积特征;
基于所述第一卷积特征、所述第二卷积特征、所述第三卷积特征,分别通过区域生成网络的分类分支、回归分支进行互相关运算,得到待分析目标对应预测的各检测框及其对应的score值;
将score值最大的检测框作为待分析目标在当前帧图像中的检测区域;
步骤S400,令t=t+1,跳转步骤S100,迭代获取所述待分析目标在设定帧数内的检测区域、mask;基于获取的各检测区域、mask,通过预设的聚类方法,得到所述待分析目标在设定帧数内的运动状态。
2.根据权利要求1所述的基于孪生网络的笼养动物行为分析方法,其特征在于,所述预设的待分析目标的背景区域其预处理方法为:
步骤A100,分别沿视频数据第一帧图像中的目标区域的宽边、高边的中点进行平分;平分后,沿平分后的区域的反平行方向选取与平分区域大小相等、距离为N倍宽或高的区域,并结合平分的区域,构建与目标区域大小相等的四个区域;
步骤A200,将视频数据第一帧图像中的目标区域的中心点分别作为左右方向矩形区域的高的中点、上下方向矩形区域的宽的中点,构建与目标区域大小相等的四个区域;
步骤A300,在视频数据第一帧图像中的目标区域的上下左右四个方位随机构建与目标区域大小相等但不重叠的四个区域;
步骤A400,基于步骤A100-步骤A300选取的区域,分别判断构建的各区域的边界是否大于第一帧图像的边界,若大于则删除,将剩余的区域作为预处理后的背景区域。
3.根据权利要求1所述的基于孪生网络的笼养动物行为分析方法,其特征在于,步骤S400中“通过蒙版子网络获取所述待分析目标的mask”,其方法为:
分别将所述第一特征、所述第二特征、所述第三特征进行卷积,得到第一卷积特征、第二卷积特征、第三卷积特征;
将所述第一卷积特征与所述第二卷积特征、所述第三卷积特征进行互相关运算,运算完成后再次进行卷积,得到待分析目标的mask;
通过语义分割网络对所述mask进行修正,将修正后的mask作为待分析目标最终获取的mask。
4.根据权利要求3所述的基于孪生网络的笼养动物行为分析方法,其特征在于,“通过语义分割网络对所述mask进行修正”,其方法为:
maskRefine=Refine(mask,Conv(mask),{φl(x)|l∈L})
Figure FDA0004156991770000031
其中,z表示第一区域,b'表示第二区域,x表示搜索区域,φ(x)、φ(z)、φ(b')分别表示提取的第一特征、第二特征、第三特征,Conv表示卷积运算,Norm表示标准化运算,Refine表示语义分割网络RefineNet,maskRefine表示修正后的Mask,l表示卷积的中间层选取的多尺度特征的层数,L表示卷积的中间层选取的多尺度特征的层数集合,*表示互相关运算,d表示特征的深度。
5.根据权利要求1所述的基于孪生网络的笼养动物行为分析方法,其特征在于,步骤S400中“基于获取的各检测区域、mask,通过预设的聚类方法,得到所述待分析目标在设定帧数内的运动状态”,其方法为:
分别将获取的各检测区域与上一帧的检测区域进行中心点做差,作为第一结果;并将获取的各mask与上一帧获取的mask进行交并比运算,作为第二结果;
基于各第一结果、第二结果,通过K-means聚类得到待分析目标的运动状态;所述运动状态包括移动、头部移动、静止、睡眠。
6.根据权利要求1-2任一项所述的基于孪生网络的笼养动物行为分析方法,其特征在于,步骤S300之后步骤S400之前还包括更新步骤:
若t为M的倍数,则基于视频数据第一帧中待分析目标的目标区域、t帧待分析目标的检测区域、t-1帧待分析目标的检测区域,通过预构建的更新网络提取待分析目标的目标区域特征并进行更新;M为正整数;所述更新网络基于浅层的卷积网络构建。
7.一种基于孪生网络的笼养动物行为分析系统,其特征在于,该系统包括:搜索区域获取模块、特征提取模块、检测模块、输出模块;
所述搜索区域获取模块,配置为基于待分析目标的视频数据,以t-1帧的目标位置的中心点为中点,在第t帧图像中获取N倍于第一尺寸大小的区域,将其作为搜索区域;所述第一尺寸为预设的待分析目标尺寸;
所述特征提取模块,配置为通过孪生子网络分别提取所述搜索区域、第一区域、第二区域的特征,作为第一特征、第二特征、第三特征;所述第一区域为预设的待分析目标的目标区域;所述第二区域为预设的待分析目标的背景区域经过预处理后的区域;
所述检测模块,配置为基于所述第一特征、所述第二特征、所述第三特征,分别通过区域生成网络、蒙版子网络获取所述待分析目标对应的检测区域、mask;所述蒙版子网络基于SiamMask网络、语义分割网络构建;
基于所述第一特征、所述第二特征、所述第三特征,通过区域生成网络获取所述待分析目标对应的检测区域,其方法为:
分别将所述第一特征、所述第二特征、所述第三特征进行卷积,得到第一卷积特征、第二卷积特征、第三卷积特征;
基于所述第一卷积特征、所述第二卷积特征、所述第三卷积特征,分别通过区域生成网络的分类分支、回归分支进行互相关运算,得到待分析目标对应预测的各检测框及其对应的score值;
将score值最大的检测框作为待分析目标在当前帧图像中的检测区域;
所述输出模块,配置为令t=t+1,跳转搜索区域获取模块,迭代获取所述待分析目标在设定帧数内的检测区域、mask;基于各帧对应的检测区域、mask,通过预设的聚类方法,得到所述待分析目标在设定帧数内的运动状态。
8.一种存储装置,其中存储有多条程序,其特征在于,所述程序应用由处理器加载并执行以实现权利要求1-6任一项所述的基于孪生网络的笼养动物行为分析方法。
9.一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-6任一项所述的基于孪生网络的笼养动物行为分析方法。
CN202010414134.3A 2020-05-15 2020-05-15 基于孪生网络的笼养动物行为分析方法、系统、装置 Active CN111582214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010414134.3A CN111582214B (zh) 2020-05-15 2020-05-15 基于孪生网络的笼养动物行为分析方法、系统、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010414134.3A CN111582214B (zh) 2020-05-15 2020-05-15 基于孪生网络的笼养动物行为分析方法、系统、装置

Publications (2)

Publication Number Publication Date
CN111582214A CN111582214A (zh) 2020-08-25
CN111582214B true CN111582214B (zh) 2023-05-12

Family

ID=72113788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010414134.3A Active CN111582214B (zh) 2020-05-15 2020-05-15 基于孪生网络的笼养动物行为分析方法、系统、装置

Country Status (1)

Country Link
CN (1) CN111582214B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112215154B (zh) * 2020-10-13 2021-05-25 北京中电兴发科技有限公司 一种应用于人脸检测系统的基于蒙版的模型评估方法
CN112016527B (zh) * 2020-10-19 2022-02-01 成都大熊猫繁育研究基地 基于深度学习的大熊猫行为识别方法、系统、终端及介质
CN112949400B (zh) * 2021-01-26 2022-07-08 四川大学 一种基于深度学习的动物智能实验系统与方法
CN113808166B (zh) * 2021-09-15 2023-04-18 西安电子科技大学 基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090918A (zh) * 2018-02-12 2018-05-29 天津天地伟业信息系统集成有限公司 一种基于深度全卷积孪生网络的实时人脸跟踪方法
CN109191491A (zh) * 2018-08-03 2019-01-11 华中科技大学 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统
WO2019104767A1 (zh) * 2017-11-28 2019-06-06 河海大学常州校区 基于深度卷积神经网络与视觉显著性的织物缺陷检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019104767A1 (zh) * 2017-11-28 2019-06-06 河海大学常州校区 基于深度卷积神经网络与视觉显著性的织物缺陷检测方法
CN108090918A (zh) * 2018-02-12 2018-05-29 天津天地伟业信息系统集成有限公司 一种基于深度全卷积孪生网络的实时人脸跟踪方法
CN109191491A (zh) * 2018-08-03 2019-01-11 华中科技大学 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈志旺 ; 张忠新 ; 宋娟 ; 罗红福 ; 彭勇 ; .基于目标感知特征筛选的孪生网络跟踪算法.光学学报.2020,(第09期),全文. *

Also Published As

Publication number Publication date
CN111582214A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111582214B (zh) 基于孪生网络的笼养动物行为分析方法、系统、装置
US10621755B1 (en) Image file compression using dummy data for non-salient portions of images
CN108399380A (zh) 一种基于三维卷积和Faster RCNN的视频动作检测方法
CN113628244B (zh) 基于无标注视频训练的目标跟踪方法、系统、终端及介质
Li et al. Transformer helps identify kiwifruit diseases in complex natural environments
CN112257801B (zh) 图像的增量聚类方法、装置、电子设备及存储介质
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN109525892A (zh) 视频关键场景提取方法及装置
Behera et al. Superpixel-based multiscale CNN approach toward multiclass object segmentation from UAV-captured aerial images
Li et al. Learning hierarchical video representation for action recognition
CN115115856A (zh) 图像编码器的训练方法、装置、设备及介质
CN115115855A (zh) 图像编码器的训练方法、装置、设备及介质
de Melo Lima et al. A lightweight and enhanced model for detecting the Neotropical brown stink bug, Euschistus heros (Hemiptera: Pentatomidae) based on YOLOv8 for soybean fields
Yuan et al. Lightweight object detection model with data augmentation for tiny pest detection
Chen et al. Deep convolutional network for citrus leaf diseases recognition
US11989943B2 (en) Image frame extraction apparatus and image frame extraction method
CN111898418A (zh) 一种基于t-tiny-yolo网络的人体异常行为检测方法
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity
Zhao et al. YOLOv8s-CFB: a lightweight method for real-time detection of apple fruits in complex environments
Park et al. A review and comparison of convolution neural network models under a unified framework
CN112132253B (zh) 3d动作识别方法、装置、计算机可读存储介质及设备
Dinca et al. Halyomorpha halys detection in orchard from UAV images using convolutional neural networks
CN115082840B (zh) 基于数据组合和通道相关性的动作视频分类方法和装置
CN117315752A (zh) 人脸情绪识别网络模型的训练方法、装置、设备和介质
Patil et al. Video content classification using deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant