CN111275743B

CN111275743B - 目标追踪方法、装置、计算机可读存储介质和计算机设备

Info

Publication number: CN111275743B
Application number: CN202010063564.5A
Authority: CN
Inventors: 岑俊毅; 李立赛; 傅东生
Original assignee: Shenzhen Miracle Intelligent Network Co Ltd
Current assignee: Shenzhen Miracle Intelligent Network Co Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2024-03-12
Anticipated expiration: 2040-01-20
Also published as: CN111275743A

Abstract

本申请涉及一种目标追踪方法、装置、计算机可读存储介质和计算机设备，所述方法包括：获取至少两帧高分辨率的视频帧图像；在所述视频帧图像中，确定包含运动对象的目标图像块；将所述目标图像块输入机器学习模型进行检测，得到所述运动对象的类型和在所述目标图像块中的第一位置坐标；将所述第一坐标位置转换为所述运动对象在视频帧图像中的第二位置坐标；在所述视频帧图像上标注所述运动对象的类型和所述第二位置坐标；对标注了所述运动对象的类型和所述第二位置坐标的视频图像进行显示。本申请提供的方案可以提高了目标追踪的准确性。

Description

目标追踪方法、装置、计算机可读存储介质和计算机设备

技术领域

本申请涉及目标追踪技术领域，特别是涉及一种目标追踪方法、装置、计算机可读存储介质和计算机设备。

背景技术

目标追踪是计算机视觉领域中一个基础性的研究课题，其在人脸识别、安全监控以及动态追踪等很多方面都有广泛的应用前景。在目标追踪中，通常会采用神经网络模型来进行目标检测以得到目标对象，其中，神经网络模型是一种大规模、多参数优化的工具，能够学习出数据中难以总结的隐藏特征，从而目标检测的任务。

传统方案中，在进行目标追踪的过程中，当利用神经网络进行目标检测时，首先会将原图像压缩成神经网络模型能接受的规格，通常是几倍的压缩，这样造成很多关键信息的丢失，导致目标检测不准确，从而影响目标追踪的准确率。

发明内容

基于此，有必要针对因压缩原图像丢失关键信息而影响目标追踪的准确性的技术问题，提供一种目标追踪方法、装置、计算机可读存储介质和计算机设备。

一种目标追踪方法，包括：

获取至少两帧高分辨率的视频帧图像；

在所述视频帧图像中，确定包含运动对象的目标图像块；

将所述目标图像块输入机器学习模型进行检测，得到所述运动对象的类型和在所述目标图像块中的第一位置坐标；

将所述第一坐标位置转换为所述运动对象在视频帧图像中的第二位置坐标；

在所述视频帧图像上标注所述运动对象的类型和所述第二位置坐标；

对标注了所述运动对象的类型和所述第二位置坐标的视频图像进行显示。

在一个实施例中，所述在所述视频帧图像中，确定包含运动对象的目标图像块包括：

获取相邻两帧的所述视频帧图像的特征点坐标；

对所获取的特征点坐标进行光流计算，得到多个运动特征点；

对所述多个运动特征点进行聚类；

在所述视频帧图像中，依据聚类的结果确定包含运动对象的目标图像块。

在一个实施例中，所述方法还包括：

将孤立的特征点在所述多个运动特征点中筛选出去，得到筛选后的目标运动特征点；

所述对所述多个运动特征点进行聚类包括：

在筛选后的所述目标运动特征点中，将距离预设数量像素单位的运动特征点划分到对应的运动对象区域；

所述在所述视频帧图像中，依据聚类的结果确定包含运动对象的目标图像块包括：

在所述视频帧图像中，依据所述运动对象区域确定包含运动对象的目标图像块。

对相邻两帧的所述视频帧图像进行差分，得到差分图像；

在所述差分图像中，将像素值达到预设阈值的像素块确定为运动对象；

在所述视频帧图像中，根据所述运动对象的位置确定目标图像块。

在一个实施例中，所述方法还包括：

对所述差分图像进行二值化处理，得到二值化图像；

对所述二值化图像依次进行膨胀和腐蚀处理；

在处理后的二值化图像中绘制运动对象轮廓；

计算所述运动对象轮廓的外接矩形，从而得到运动对象区域；

所述在所述视频帧图像中，根据所述运动对象的位置确定目标图像块包括：

在所述视频帧图像中，依据所述运动对象区域的位置确定目标图像块。

在一个实施例中，所述将所述目标图像块输入机器学习模型进行检测之前，所述方法还包括：

当所述目标图像块的宽高比值不满足预设比值时，在所述视频帧图像中以所述目标图像块为基准点向周围进行扩充，得到新的目标图像块。

在一个实施例中，所述将所述第一坐标位置转换为所述运动对象在视频帧图像中的第二位置坐标包括：

确定所述目标图像块在所述视频帧图像中的第三位置坐标；

根据所述第三位置坐标，将所述第一坐标位置转换为所述运动对象在视频帧图像中的第二位置坐标。

一种目标追踪装置，所述装置包括：

获取模块，用于获取至少两帧高分辨率的视频帧图像；

确定模块，用于在所述视频帧图像中，确定包含运动对象的目标图像块；

检测模块，用于将所述目标图像块输入机器学习模型进行检测，得到所述运动对象的类型和在所述目标图像块中的第一位置坐标；

转换模块，用于将所述第一坐标位置转换为所述运动对象在视频帧图像中的第二位置坐标；

标注模块，用于在所述视频帧图像上标注所述运动对象的类型和所述第二位置坐标；

显示模块，用于对标注了所述运动对象的类型和所述第二位置坐标的视频图像进行显示。

在一个实施例中，确定模块，还用于：

获取相邻两帧的所述视频帧图像的特征点坐标；

对所述多个运动特征点进行聚类；

在一个实施例中，所述装置还包括：筛选模块；其中：

所述筛选模块，用于将孤立的特征点在所述多个运动特征点中筛选出去，得到筛选后的目标运动特征点；

确定模块，还用于：在筛选后的所述目标运动特征点中，将距离预设数量像素单位的运动特征点划分到对应的运动对象区域；

在一个实施例中，确定模块，还用于：

对相邻两帧的所述视频帧图像进行差分，得到差分图像；

在一个实施例中，该装置还包括：图像处理模块；其中：

所述图像处理模块，用于对所述差分图像进行二值化处理，得到二值化图像；对所述二值化图像依次进行膨胀和腐蚀处理；在处理后的二值化图像中绘制运动对象轮廓；计算所述运动对象轮廓的外接矩形，从而得到运动对象区域；

所述确定模块，还用于在所述视频帧图像中，依据所述运动对象区域的位置确定目标图像块。

在一个实施例中，图像处理模块，还用于当所述目标图像块的宽高比值不满足预设比值时，在所述视频帧图像中以所述目标图像块为基准点向周围进行扩充，得到新的目标图像块。

在一个实施例中，所述转换模块，还用于：

确定所述目标图像块在所述视频帧图像中的第三位置坐标；

上述目标追踪方法、装置、计算机可读存储介质和计算机设备，获取至少两帧高分辨率的视频帧图像，在视频帧图像中确定包含运动对象的目标图像块；将目标图像块输入机器学习模型进行检测，得到运动对象的类型和在目标图像块中的第一位置坐标；将第一坐标位置转换为运动对象在视频帧图像中的第二位置坐标；在视频帧图像上标注运动对象的类型和第二位置坐标；对标注了运动对象的类型和第二位置坐标的视频图像进行显示，由于无需直接对所获取的视频帧图像进行压缩，不会丢失关键信息，因此提高了目标检测的准确率，进而提高了目标追踪的准确性。

附图说明

图1为一个实施例中目标追踪方法的应用环境图；

图2为一个实施例中目标追踪方法的流程示意图；

图3为另一个实施例中目标追踪方法的流程示意图；

图4为一个实施例中目标追踪装置的结构框图；

图5为另一个实施例中目标追踪装置的结构框图；

图6为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中目标追踪方法的应用环境图。参照图1，该目标追踪方法应用于目标追踪系统。该目标追踪系统包括终端110和服务器120。目标追踪方法可以应用于终端110，也可以应用于服务器120。当应用于服务器120时，服务器120获取由监控器130采集的至少两帧高分辨率的视频帧图像，在视频帧图像中确定包含运动对象的目标图像块；将目标图像块输入机器学习模型进行检测，得到运动对象的类型和在目标图像块中的第一位置坐标；将第一坐标位置转换为运动对象在视频帧图像中的第二位置坐标；在视频帧图像上标注运动对象的类型和第二位置坐标；对标注了运动对象的类型和第二位置坐标的视频图像，并通过终端110进行显示。

当应用于终端110时，终端110获取由监控器130采集的至少两帧高分辨率的视频帧图像，在视频帧图像中确定包含运动对象的目标图像块；将目标图像块输入机器学习模型进行检测，得到运动对象的类型和在目标图像块中的第一位置坐标；将第一坐标位置转换为运动对象在视频帧图像中的第二位置坐标；在视频帧图像上标注运动对象的类型和第二位置坐标；对标注了运动对象的类型和第二位置坐标的视频图像并进行显示。

其中，终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。监控器130可以是摄像头或由摄像头组成的设备。

如图2所示，在一个实施例中，提供了一种目标追踪方法。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图2，该目标追踪方法具体包括如下步骤：

S202，获取至少两帧高分辨率的视频帧图像。

其中，高分辨率可以指不低于预设分辨阈值的画面分辨率，如不低于1920×1080的画面分辨率。视频帧图像是指解析视频所得的帧图像。

在一个实施例中，监控器拍摄有目标对象环境得到视频，然后将所拍摄的视频通过网络或数据线发送至终端，终端在接收到视频后，对所接收的视频进行解码得到至少两个高分辨率的视频帧图像。

在一个实施例中，当获得视频帧图像时，终端从解码所得的视频帧图像中选取当前需要检测的图像作为目标视频帧图像，并且获取视频帧图像对应的上一帧帧图像，将该上一帧图像作为指定图像，以便进行光流计算或差分。

例如，若终端首次进行目标检测，则从解码所得的至少两个视频帧图像中选取第二帧图像作为目标视频帧图像，将第一帧图像作为该目标视频帧图像的上一帧图像(即第一帧图像为指定帧图像)，然后进行后续的目标检测；当对第二帧图像进行目标检测完成之后，将第三帧图像作为目标视频帧图像，将第二帧图像作为该目标视频帧图像的上一帧图像(即第二帧图像为指定帧图像)，然后进行后续的目标检测，直至将所解码的所有图像完成目标检测为止。

又例如，若终端为非首次进行目标检测，则从解码视频(如视频A)所得的一系列视频帧图像中选取第一帧图像作为目标视频帧图像，获取上一段视频(如视频B)解码所得的最后一帧图像，并将该最后一帧图像作为该目标视频帧图像的上一帧图像(即该最后一帧图像为指定帧图像)，然后进行后续的目标检测；当对第该第一帧图像进行目标检测完成之后，将第二帧图像作为目标视频帧图像，将该第一帧图像作为该目标视频帧图像的上一帧图像(即该第一帧图像为指定帧图像)，然后进行后续的目标检测，直至将视频(如视频A)解码所得的每个图像均完成目标检测为止。

在另一个实施例中，终端还可以将监控器拍摄无目标对象的环境所得的图像，作为指定图像。

S204，在视频帧图像中，确定包含运动对象的目标图像块。

其中，运动对象可以指运动中的目标对象，如处于相对运动中的人、车和动物等等。

对于S204，可以采用以下两种方式来确定运动对象的目标图像块：

方式1，光流法方式：

在一个实施例中，S204具体可以包括：终端获取相邻两帧的视频帧图像的特征点坐标；对所获取的特征点坐标进行光流计算，得到多个运动特征点；对多个运动特征点进行聚类；在视频帧图像中，依据聚类的结果确定包含运动对象的目标图像块。

在一个实施例中，终端将孤立的特征点在多个运动特征点中筛选出去，得到筛选后的目标运动特征点；对多个运动特征点进行聚类的步骤，具体可以包括：终端在筛选后的目标运动特征点中，将距离预设数量像素单位的运动特征点划分到对应的运动对象区域；在视频帧图像中，依据聚类的结果确定包含运动对象的目标图像块包括：在视频帧图像中，依据运动对象区域确定包含运动对象的目标图像块。

在一个实施例中，终端获取目标视频帧图像的特征点坐标，以及获取指定帧图像的特征点坐标；对目标视频帧图像的特征点坐标和指定帧图像的特征点坐标进行光流计算，即特征点匹配和特征点运动向量计算，得到多个运动特征点。终端对多个运动特征点进行聚类，如最小距离为s_min＝5(单位为像素)，即若两个特征点之间相差s_min个像素，则该两个特征点被划分到一个运动对象区域。

运动特征点的具体计算过程如下所示：

假设指定帧图像的时间为t，目标视频帧图像的时间为t+δ_t，则指定帧图像的像素点I(x,y,z,t)在目标视频帧图像中的位置为I(x+δ_x,y+δ_y,z+δ_z,t+δ_t)。

(1)根据亮度恒定假设：

I(x,y,z,t)＝I(x+δ_x,y+δ_y,z+δ_z,t+δ_t)

(2)根据小运动假设，将上式右侧用泰勒级数展开：

其中，H.O.T是泰勒级数展开式的高阶项，小运动情况下可以忽略。

(3)根据上面两个公式可以得到：

或者下面的公式：

而对于二维图像而言，只需要考虑x、y和t即可，其中I_x、I_y和I_t分别为图像在(x,y,t)方向的差分，写为如下形式：

I_xV_x+I_yV_y＝-I_t

(4)利用空间一致性假设，LK算法是利用3×3窗口内的9个像素点建立9个方程。简写为下面的形式：

写成矩阵形式：

采用最小二乘法解决：

写成如下形式：

根据上式通过累加邻域像素点在三个维度的偏导数并做矩阵运算，即可算出该点的光流(V_x,V_y)，根据光流可确定运动特征点。

方式2，帧差法方式：

在一个实施例中，S204具体可以包括：终端对相邻两帧的视频帧图像进行差分，得到差分图像；在差分图像中，将像素值达到预设阈值的像素块确定为运动对象；在视频帧图像中，根据运动对象的位置确定目标图像块。

其中，相邻两帧的视频帧图像是指时间上连续的两帧视频帧图像，通过对时间上连续的两帧视频帧图像进行差分运算，不同帧对应的像素点相减，判断灰度差的绝对值，当绝对值超过一定阈值时，即可判断为运动对象，从而实现目标的检测功能。

在一个实施例中，终端对差分图像进行二值化处理，得到二值化图像；对二值化图像依次进行膨胀和腐蚀处理；在处理后的二值化图像中绘制运动对象轮廓；计算运动对象轮廓的外接矩形，从而得到运动对象区域；在视频帧图像中，根据运动对象的位置确定目标图像块包括：在视频帧图像中，依据运动对象区域的位置确定目标图像块。

在一个实施例中，终端将目标视频帧图像和对应的指定帧图像分别转换为灰度图像，然后将两个灰度图像做差分运算，得到差分图像，即目标视频帧图像和对应的指定帧图像中对应的像素点相减，判断灰度差的绝对值，当绝对值超过一定阈值时，即可判断为运动对象。

例如，记视频序列中第n帧和第n-1帧的视频帧图像分别为f_n和f_n-1，两帧视频帧图像对应像素点的像素值记为f_n(x,y)和f_n-1(x,y)，按照如下计算式将两帧视频帧图像对应像素点的像素值进行相减，并取其绝对值，得到差分图像D_n：

D_n(x,y)＝|f_n(x,y)-f_n-1(x,y)| (1)

设定阈值T，按照公式(2)逐个对像素点进行二值化处理，得到二值化图像R_n’。其中，像素值为255的点即为运动对象点，像素值为0的点即为背景点。

对图像R_n’进行像素点膨胀和腐蚀处理，然后进行连通性分析，对处理后的图像绘制轮廓，对得到的轮廓找出其正外接矩形，最终可得到含有完整运动对象的图像R_n。

S206，将目标图像块输入机器学习模型进行检测，得到运动对象的类型和在目标图像块中的第一位置坐标。

其中，机器学习模型可以是目标分类引擎，如采用低分辨率模式的目标分类引擎。通过机器学习模型进行检测，除了可以得到运动对象的类型和在目标图像块中的第一位置坐标，还可以得到运动对象的类型的可信度。

在一个实施例中，S206之前，当所述目标图像块的宽高比值不满足预设比值时，终端在所述视频帧图像中以所述目标图像块为基准点向周围进行扩充，得到新的目标图像块。

例如，终端获取视频帧图像中所有运动对象的运动对象区域，将获取的运动对象区域按照宽高比1:1进行扩充，即当运动对象区域宽高比不满足1:1时，保持运动对象区域中心点不变，向左右(当高>宽)或向上下(当高<宽)扩充。其中，保证图像宽高1:1可以确保图像中物体不产生形变，提高物体检测识别的准确率。

对扩充后的运动对象区域进行融合处理，即对扩充后的运动对象区域进行检查，若存在两个运动对象区域重叠面积大于60％，则将这两个运动对象区域合并为一个新的1:1的运动对象区域。

将经过上述处理后所得的所有运动对象区域从原始的视频帧图像中裁剪下来，然后可以进行缩放，得到所需要的目标图像块。如将裁剪下的目标图像块缩放到720×720，最终缩放后的目标图像块将作为机器学习模型的输入。

S208，将第一坐标位置转换为运动对象在视频帧图像中的第二位置坐标。

在一个实施例中，终端确定目标图像块在视频帧图像中的第三位置坐标；根据第三位置坐标，将第一坐标位置转换为运动对象在视频帧图像中的第二位置坐标。

其中，S206中输入的目标图像块为从原始的视频帧图像中提取的某一块区域，其识别结果是相对这一小块区域的，需将检测所得的第一位置坐标映射到原始的视频帧图像中并进行标记，当播放各视频帧图像时，可以得到运动对象的运动轨迹。

S210，在视频帧图像上标注运动对象的类型和第二位置坐标。

在一个实施例中，终端在得到运动对象在视频真图像的第二位置坐标后，在视频帧图像上标注运动对象的类型和第二位置坐标，此外，还可以标记运动对象的类型的可信度(如可信度为90％)。

在一个实施例中，终端将运动对象的类型标注和第二位置坐标到原始的视频帧图像上，提供直观的识别结果输出。

S212，对标注了运动对象的类型和第二位置坐标的视频图像进行显示。

在一个实施例中，终端还提供边框坐标、目标路径和光流分布等源数据输出。

在一个实施例中，终端还会将运动对象的类型加入跟踪目标库，以便在后续视频帧图像中不需要再进行目标检测的过程，直接进行目标追踪，即计算运动对象在后续视频帧图像中的位置，并进行标记显示，直到需要追踪的运动对象离开追踪范围，此时跟踪目标库的相关数据从内存清除。

上述实施例中，获取至少两帧高分辨率的视频帧图像，在视频帧图像中确定包含运动对象的目标图像块；将目标图像块输入机器学习模型进行检测，得到运动对象的类型和在目标图像块中的第一位置坐标；将第一坐标位置转换为运动对象在视频帧图像中的第二位置坐标；在视频帧图像上标注运动对象的类型和第二位置坐标；对标注了运动对象的类型和第二位置坐标的视频图像进行显示，由于无需直接对所获取的视频帧图像进行压缩，不会丢失关键信息，因此提高了目标检测的准确率，进而提高了目标追踪的准确性。

作为一个示例，根据场景确定使用光流法或者帧间差分法，以光流法为例，如图3所示，终端实时获取视频帧图像，采用光流分析法进行光流计算，从而提取到运动对象的目标图像块并进行裁剪和缩放，得到满足神经网络的所需要的像素和比例。然后，终端采用神经网络进行检测，可以对目标进行2次检测，如果平均准确率>90％，则返回检测结果；

若平均准确率<90％，则再次进行6次检测；若六次检测的平均准确率>＝70％，则返回检测结果；若六次检测的平均准确率<70％，则返回无法识别目标。

生成快照信息(包括目标帧图像叠加路径可视化，识别分类可视化，可信度可视化)，加入目标库。

继续追踪，得到持续的路径，直到目标离开追踪范围，则目标库的相关数据从内存清除并且持久化保存。

终端将运动对象的类型标注和位置坐标到原始的视频帧图像上，提供直观的识别结果输出。此外，终端还提供边框坐标、目标路径和光流分布等源数据输出。

采用本申请实施例的方案，还可以实现在超高分辨率下对目标的追踪，识别的能力，弥补了单一技术下无法实现的效果。相比传统的目标识别，本实施例的目标检测准确率要高，同时大幅减小所需要的计算能力。对于传统方案而言，分辨率为3840×2160的图像，神经网络无法直接处理的，同样需要缩放，比如缩放到1280×720，缩小(丢失)了正好9倍的像素数据，神经网络才能勉强进行检测，而本申请实施例只需要320×320就可以实现在4k下的检测，神经网络的模型规模是前者的1/9。同时，具有更高的精度，因为小模型可以进行多次重复的识别，准确度比单次大幅提升。

图2、3为一个实施例中目标追踪方法的流程示意图。应该理解的是，虽然图2、3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图4所示，在一个实施例中，提供了一种目标追踪装置，该装置包括：获取模块402、确定模块404、检测模块406、转换模块408、标注模块410和显示模块412；其中：

获取模块402，用于获取至少两帧高分辨率的视频帧图像；

确定模块404，用于在视频帧图像中，确定包含运动对象的目标图像块；

检测模块406，用于将目标图像块输入机器学习模型进行检测，得到运动对象的类型和在目标图像块中的第一位置坐标；

转换模块408，用于将第一坐标位置转换为运动对象在视频帧图像中的第二位置坐标；

标注模块410，用于在视频帧图像上标注运动对象的类型和第二位置坐标；

显示模块412，用于对标注了运动对象的类型和第二位置坐标的视频图像进行显示。

在一个实施例中，确定模块404，还用于：

获取相邻两帧的视频帧图像的特征点坐标；

对多个运动特征点进行聚类；

在视频帧图像中，依据聚类的结果确定包含运动对象的目标图像块。

在一个实施例中，如图5所示，装置还包括：筛选模块414；其中：

筛选模块414，用于将孤立的特征点在多个运动特征点中筛选出去，得到筛选后的目标运动特征点；

确定模块404，还用于：在筛选后的目标运动特征点中，将距离预设数量像素单位的运动特征点划分到对应的运动对象区域；

在视频帧图像中，依据运动对象区域确定包含运动对象的目标图像块。

在一个实施例中，确定模块404，还用于：

对相邻两帧的视频帧图像进行差分，得到差分图像；

在差分图像中，将像素值达到预设阈值的像素块确定为运动对象；

在视频帧图像中，根据运动对象的位置确定目标图像块。

在一个实施例中，如图5所示，该装置还包括：图像处理模块416；其中：

图像处理模块416，用于对差分图像进行二值化处理，得到二值化图像；对二值化图像依次进行膨胀和腐蚀处理；在处理后的二值化图像中绘制运动对象轮廓；计算运动对象轮廓的外接矩形，从而得到运动对象区域；

确定模块404，还用于在视频帧图像中，依据运动对象区域的位置确定目标图像块。

在一个实施例中，图像处理模块416，还用于当目标图像块的宽高比值不满足预设比值时，在视频帧图像中以目标图像块为基准点向周围进行扩充，得到新的目标图像块。

在一个实施例中，转换模块408，还用于：

确定目标图像块在视频帧图像中的第三位置坐标；

根据第三位置坐标，将第一坐标位置转换为运动对象在视频帧图像中的第二位置坐标。

图6示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110。如图6所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现目标追踪方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行目标追踪方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的目标追踪装置可以实现为一种计算机程序的形式，计算机程序可在如图6所示的计算机设备上运行。计算机设备的存储器中可存储组成该目标追踪装置的各个程序模块，比如，图4所示的获取模块402、确定模块404、检测模块406、转换模块408、标注模块410和显示模块412。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的目标追踪方法中的步骤。

例如，图6所示的计算机设备可以通过如图4所示的目标追踪装置中的获取模块402执行S202。计算机设备可通过确定模块404执行S204。计算机设备可通过检测模块406执行S206。计算机设备可通转换模块408执行S208。计算机设备可通过标注模块410执行S210。计算机设备可通过显示模块412执行S212。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述目标追踪方法的步骤。此处目标追踪方法的步骤可以是上述各个实施例的目标追踪方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述目标追踪方法的步骤。此处目标追踪方法的步骤可以是上述各个实施例的目标追踪方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种目标追踪方法，应用于终端，包括：

获取至少两帧高分辨率的视频帧图像；

在所述视频帧图像中，提取出包含完整运动对象的目标图像块；所述在所述视频帧图像中，提取出包含完整运动对象的目标图像块包括：获取相邻两帧的所述视频帧图像的特征点坐标；对所获取的特征点坐标进行光流计算，得到多个运动特征点；对所述多个运动特征点进行聚类；在所述视频帧图像中，依据聚类的结果确定包含运动对象的目标图像块；

通过机器学习模型对所述目标图像块进行两次目标检测，得到两个检测结果；每个所述检测结果包括所述运动对象的类型、在所述目标图像块中的第一位置坐标和所述类型的可信度；所述机器学习模型包括低分辨率模式的目标分类引擎；

当所述两个检测结果的平均准确率大于预设准确率时，将所述第一位置坐标转换为所述运动对象在视频帧图像中的第二位置坐标；所述预设准确率为90％；

在所述视频帧图像上标注所述运动对象的类型、所述第二位置坐标和所述可信度；

对标注了所述运动对象的类型、所述第二位置坐标和所述可信度的视频图像进行显示；

将所述运动对象的类型加入至跟踪目标库，以便不再对后续视频帧图像进行目标检测的过程，直接进行目标追踪；所述目标追踪包括：计算所述运动对象在后续视频帧图像中的位置，并进行标记显示，直到需要所述运动对象离开追踪范围。

2.根据权利要求1所述的方法，其特征在于，所述通过机器学习模型对所述目标图像块进行两次目标检测之前，所述方法还包括：

对所述目标图像块进行裁剪和缩放，得到满足所述机器学习模型所需要的像素和比例。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述对所述多个运动特征点进行聚类包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述将所述目标图像块输入机器学习模型进行检测之前，所述方法还包括：

5.根据权利要求1至3任一项所述的方法，其特征在于，所述将所述第一位置坐标转换为所述运动对象在视频帧图像中的第二位置坐标包括：

确定所述目标图像块在所述视频帧图像中的第三位置坐标；

根据所述第三位置坐标，将所述第一位置坐标转换为所述运动对象在视频帧图像中的第二位置坐标。

6.一种目标追踪装置，其特征在于，所述装置包括：

获取模块，用于获取至少两帧高分辨率的视频帧图像；

确定模块，用于在所述视频帧图像中，提取出包含完整运动对象的目标图像块；所述在所述视频帧图像中，提取出包含完整运动对象的目标图像块包括：获取相邻两帧的所述视频帧图像的特征点坐标；对所获取的特征点坐标进行光流计算，得到多个运动特征点；对所述多个运动特征点进行聚类；在所述视频帧图像中，依据聚类的结果确定包含运动对象的目标图像块；

检测模块，用于通过机器学习模型对所述目标图像块进行两次目标检测，得到两个检测结果；每个所述检测结果包括所述运动对象的类型、在所述目标图像块中的第一位置坐标和所述类型的可信度；所述机器学习模型包括低分辨率模式的目标分类引擎；

转换模块，用于当所述两个检测结果的平均准确率大于预设准确率时，将所述第一位置坐标转换为所述运动对象在视频帧图像中的第二位置坐标；所述预设准确率为90％；

标注模块，用于在所述视频帧图像上标注所述运动对象的类型、所述第二位置坐标和所述可信度；

显示模块，用于对标注了所述运动对象的类型、所述第二位置坐标和所述可信度的视频图像进行显示；

追踪模块，用于将所述运动对象的类型加入至跟踪目标库，以便不再对后续视频帧图像进行目标检测的过程，直接进行目标追踪；所述目标追踪包括：计算所述运动对象在后续视频帧图像中的位置，并进行标记显示，直到需要所述运动对象离开追踪范围。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

筛选模块，用于将孤立的特征点在所述多个运动特征点中筛选出去，得到筛选后的目标运动特征点；

所述确定模块，还用于在筛选后的所述目标运动特征点中，将距离预设数量像素单位的运动特征点划分到对应的运动对象区域；在所述视频帧图像中，依据所述运动对象区域确定包含运动对象的目标图像块。

8.根据权利要求6或7所述的装置，其特征在于，所述装置还包括：

图像处理模块，用于当所述目标图像块的宽高比值不满足预设比值时，在所述视频帧图像中以所述目标图像块为基准点向周围进行扩充，得到新的目标图像块。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至5中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至5中任一项所述方法的步骤。