CN112183493A - 目标跟踪的方法、装置以及计算机可读存储介质 - Google Patents
目标跟踪的方法、装置以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112183493A CN112183493A CN202011222774.0A CN202011222774A CN112183493A CN 112183493 A CN112183493 A CN 112183493A CN 202011222774 A CN202011222774 A CN 202011222774A CN 112183493 A CN112183493 A CN 112183493A
- Authority
- CN
- China
- Prior art keywords
- region
- frequency domain
- target
- result
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000011159 matrix material Substances 0.000 claims abstract description 41
- 238000004590 computer program Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 9
- 238000013135 deep learning Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 abstract description 19
- 238000010586 diagram Methods 0.000 description 11
- 230000000875 corresponding effect Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种目标跟踪的方法、装置以及计算机可读存储介质,该方法包括:确定参考帧中目标所在的第一区域;根据第一区域在参考帧中的位置确定搜索帧中的第二区域,第二区域与第一区域大小相同,第二区域相对于搜索帧的位置与第一区域相对于参考帧的位置相同;对第一区域执行二维傅里叶变换得到第一频域结果,对第二区域执行二维傅里叶变换得到第二频域结果,第一频域结果和第二频域结果中的元素数量小于第一区域和第二区域中的像素点数量;对第一频域结果和第二频域结果执行运算得到频域运算结果;对频域运算结果进行二维傅里叶逆变换得到相关性矩阵;根据相关性矩阵确定所述目标在第二区域中的目标位置。能够提高计算效率。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种目标跟踪的方法、装置以及计算机可读存储介质。
背景技术
在对图像中的目标进行跟踪时,一般是采用基于支持向量机(SVM)的跟踪器对图像中的目标进行跟踪,或者采用基于相关性的跟踪器对图像中的目标进行跟踪。
在采用上述方法进行目标跟踪时,一般需要将图像中的全部像素点作为输入数据,计算准确度比较高,但是,计算过程中,输入跟踪器的数据量比较大,计算速度比较慢。
发明内容
有鉴于此,本申请实施例的目的在于提供了一种目标跟踪的方法、装置以及计算机可读存储介质,在不降低跟踪结果准确度的前提下,提高了输出跟踪结果的计算效率。
第一方面,本申请实施例提供了一种目标跟踪的方法,该方法包括:
确定参考帧中目标所在的第一区域;
根据所述第一区域在所述参考帧中的位置,确定搜索帧中的第二区域,其中所述第二区域与所述第一区域具有相同的大小,且所述第二区域相对于所述搜索帧的位置与所述第一区域相对于所述参考帧的位置相同;
对所述第一区域执行二维傅里叶变换得到第一频域结果,对所述第二区域执行二维傅里叶变换得到第二频域结果,其中所述第一频域结果和所述第二频域结果中的元素数量小于所述第一区域和所述第二区域中的像素点数量;
对所述第一频域结果和第二频域结果执行运算,得到频域运算结果;
对所述频域运算结果进行二维傅里叶逆变换,得到相关性矩阵;
根据所述相关性矩阵,确定所述目标在所述第二区域中的目标位置。
在一种实施方式中,确定参考帧中目标所在的第一区域,包括:
使用基于深度学习的目标检测方法,确定所述目标在所述参考帧中的边界框;
将所述边界框作为所述第一区域,或者,将包围所述边界框的具有特定大小的区域作为所述第一区域。
在一种实施方式中,所述第一区域和所述第二区域为相同大小的方形,且每条边的像素数等于2的幂次。
在一种实施方式中,所述第一频域结果中的元素数量以及各个元素的位置是根据二维傅里叶变换的结果的共轭对称性所确定的。
在一种实施方式中,所述元素数量大体上为所述像素点数量的一半。
在一种实施方式中,二维傅里叶变换的输入分别为所述第一区域中各个像素点的像素值、所述第二区域中各个像素点的像素值。
在一种实施方式中,根据所述相关性矩阵,确定所述第二区域中的目标位置,包括:
根据所述相关性矩阵中数值最大的元素所在的位置,来确定所述目标位置。
在一种实施方式中,所述搜索帧与所述参考帧位于同一视频序列中,且所述搜索帧位于所述参考帧之后,两者的帧间距等于或大于1帧。
第二方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序被处理器或计算机运行时执行上述目标跟踪的方法的步骤。
第三方面,本申请实施例提供了一种目标跟踪的装置,包括:处理器和如上所述的计算机可读存储介质,当所述处理器运行所述计算机可读存储介质上所存储的计算机程序时,执行上述目标跟踪的方法的步骤。
本申请实施例提供的目标跟踪的方法,在计算目标位置时,对目标所在参考帧以及搜索帧中的区域分别执行二维傅里叶变换得到频域结果,频域结果中的元素数量小于区域中的像素点数量,并基于频域结果计算目标的位置,相比使用图像帧中全部的像素点计算目标的位置,在不降低得到位置准确度的前提下,减少了计算量,提高了计算速度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种目标跟踪的方法的流程示意图;
图2示出了本申请实施例所提供的一种从图像帧中切割出的包括目标的图像区域的示意图;
图3A示出了本申请实施例所提供的当N=8时,频域矩阵中存在中心共轭对称的区域的示意图;
图3B示出了本申请实施例所提供的当N=32时,频域矩阵中存在中心共轭对称的区域的示意图;
图3C示出了本申请实施例所提供的当N=64时,频域矩阵中存在中心共轭对称的区域的示意图;
图3D示出了本申请实施例所提供的当N=8时,频域矩阵中所存储的元素的示意图;
图4示出了本申请实施例所提供的一种目标跟踪的装置的结构示意图;
图5示出了本申请实施例所提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
在采用基于相关性的跟踪器对图像中的目标进行跟踪时,在获取视频片段后,对视频片段中的上一个视频帧和当前视频帧分别进行傅立叶变换,得到的频域结果中的元素数量等于视频帧中的像素点数量,这样,用于确定目标在当前视频帧中的目标位置的数据量比较大,从而导致计算量比较大,计算速率比较低,那么实现目标跟踪的效率也会比较低。
在应用场景包括人体跟踪、车辆跟踪、非机动车跟踪时,通用目标跟踪在抓拍机算法中很重要,在相机端进行不同目标的跟踪(例如人脸、人体、车辆等),构造目标序列,从序列当中选取质量最好的人脸图、人体图、车辆图等,并且输出最优图。
由于相机端计算量有限,更耗时的计算步骤在计算资源丰富的服务器端进行,例如人脸识别、人体属性、车辆品牌分类等,相机端计算资源受到严格的限制,在抓拍过程离不开快速的跟踪算法。
本申请实施例提供了一种目标跟踪的方法,在计算目标位置时,通过确定目标在参考帧中的第一区域以及在搜索帧中的第二区域,对第一区域和第二区域分别执行二维傅里叶变换,得到第一频域结果和第二频域结果,第一频域结果和第二频域结果中的元素数量小于第一区域和第二区域中的像素点数量,相比使用图像帧中全部的像素点计算目标的位置,在不降低得到位置准确度的前提下,减少了计算量,提高了计算速度。本申请实施例将基于该思想进行详细描述。
针对上述情况,本申请实施例提供了一种目标跟踪的方法,如图1所示,该方法包括以下步骤:
S101,确定参考帧中目标所在的第一区域。
目标可以为人脸、物体、人体等,其中,物体可以为机动车、非机动车等;参考帧可以为基于针对被监控区域进行拍摄得到的视频序列确定的,例如,从对视频序列进行采样得到的多个图像帧中选取一图像帧为参考帧,采样频率可以根据实际情况确定,多个图像帧可以为时间连续的图像帧(按照时间由远及近的顺序排序后的序列)。
这里,确定参考帧中目标所在的第一区域,包括:
使用基于深度学习的目标检测方法,确定所述目标在所述参考帧中的边界框;
将所述边界框作为所述第一区域,或者,将包围所述边界框的具有特定大小的区域作为所述第一区域。
这里,基于深度学习的目标检测方法可以是CNN模型、RNN模型、人脸检测模型等。
在一个实施例中,本实施例中可以通过目标检测(如人脸检测)的方法确定目标(如人脸)在参考帧中的位置,表示为边界框(boundingbox),如w×h的大小。进一步地,可以确定第一区域,其中该第一区域包含该boundingbox。本申请中,第一区域可以为正方形形状,且每边的像素数为2的幂次,如32×32等。
S102,根据所述第一区域在所述参考帧中的位置,确定搜索帧中的第二区域,其中所述第二区域与所述第一区域具有相同的大小,且所述第二区域相对于所述搜索帧的位置与所述第一区域相对于所述参考帧的位置相同。
这里,搜索帧与参考帧位于同一视频序列中,且搜索帧位于参考帧之后,两者的帧间距等于或大于1帧。依据参考帧中第一区域的位置,在搜索帧中,找到与第一区域相对于参考帧的位置相同的位置,选取与第一区域相同大小的第二区域。这里,作为一可选实施例,第一区域和第二区域为相同大小的方形,且每条边的像素数等于2的幂次。例如,参考帧以及搜索帧大小均为1024x1024,第一区域大小为256x256,第一区域位于参考帧的中心,则确定的搜索帧中的第二区域大小为256x256,第二区域位于搜索帧的中心。第一区域和第二区域也可以为相同大小的其他形状,例如,第一区域大小为256x512,第一区域位于参考帧的左下角,边缘分别与参考帧左下角的边缘重合,则确定的搜索帧中的第二区域大小为256x512,第二区域也位于搜索帧的左下角,边缘分别与搜索帧左下角的边缘重合。
在一个实施例中,搜索帧可以是参考帧的下一帧。例如,可以将视频序列的第0帧作为参考帧,将第1帧作为搜索帧。在另一个实施例中,搜索帧可以位于参考帧之后的第p帧,例如p=5,可以根据场景需求来进行设定。考虑到目标的移动速度有限,因此可以只限于第一区域和与之相同位置的第二区域进行搜索,这样能够避免针对整个图像进行搜索,减小了计算量。
S103,对所述第一区域执行二维傅里叶变换得到第一频域结果,对所述第二区域执行二维傅里叶变换得到第二频域结果,其中所述第一频域结果和所述第二频域结果中的元素数量小于所述第一区域和所述第二区域中的像素点数量。
这里,对区域中的各像素点对应的像素值进行二维傅里叶变换,像素值可以包括灰度值、红色通道值、蓝色通道值和绿色通道值中的至少一个,例如,在图像帧为灰度图像时,那么,此处涉及的像素值为像素点的灰度值,在图像帧为彩色图像时,那么,此处涉及的像素值为像素点的RGB值,也就是,像素点分别在红绿蓝三个颜色通道的值,可以根据实际情况确定,在图像帧为彩色图像时,需要针对每个颜色通道执行本申请的方法。
可见,本申请中二维傅里叶变换可以指二维快速傅里叶变换(FFT),且二维FFT的输入是图像中各像素的像素值,无需对图像先进行特征提取过程,从而能够极大地提升处理效率,降低对处理器的要求,能够应用于诸如相机、手机等移动终端。
本申请实施例中,考虑本申请进行傅立叶变换的图像帧为2的幂,选择二维傅立叶变换算法,对于第一区域和第二区域,二维傅里叶变换的输入分别为第一区域中各个像素点的像素值、第二区域中各个像素点的像素值。
二维傅立叶变换可以将一个满足一定条件的二维信号表示为无数个二维正交基的线性组合,该变换不需要空间域原图具有对称性,具有中心共轭对称特性,在进行变换时,可以先对各列进行傅立叶变换之后,对各行进行傅立叶变换,即依次对二维数据中的各列都进行一次一维傅立叶变换,从而得到一维傅里叶系数矩阵,接着,依次对各行的傅里叶系数再进行一次一维傅立叶变换。这里,在列处理过程中,输入是实数,而输出是共轭对称复数。基于二维傅里叶变换的中心共轭对称特性,可以将原始输入向量的傅立叶变换结果与复共轭输入向量的傅立叶变换结果相关联。
这里,第一频域结果中的元素数量以及各个元素的位置是根据二维傅里叶变换的结果的共轭对称性所确定的。
这里,考虑到图像采集设备(如摄像头)采集到的图像帧的尺寸可能比较大,较大的图像帧中包括的像素点比较多,用于进行后续计算导致数据量比较大,或者从网络获取的包括目标的图像帧的尺寸可能比较小,较小的图像帧包括的像素点较少,用于后续计算的执行效果会比较差,因此,为了提高后续步骤的执行效率或执行效果,对图像帧进行缩放处理,使得各图像帧中包含目标的区域均相同,相对于该图像帧的位置也都相同。
针对每个图像帧,从该图像帧中确定包括目标的图像区域,并确定图像缩放比例;按照所述图像缩放比例对该图像区域进行等比例缩放处理,并对缩放处理后的图像区域进行傅立叶变换,以得到该图像帧中像素点的频域值。
考虑小尺寸的跟踪区域,可以提高跟踪器的速度,但性能可能会受影响,而本申请大量使用傅立叶变换,以2的幂执行效果最佳,因此,本申请仅考虑大小为2的幂的正方形图像区域,即,图像区域的尺寸为32x32像素、64x64像素和128x128像素为较佳。
在具体实施过程中,在获取多个图像帧后,针对每个图像帧,可以从该图像帧中切割出包括目标的图像区域,图像区域的示意图可以参考图2。其中,从图像帧中切割出包括目标的图像区域的过程不进行详细介绍。
在确定图像缩放比例时,可以根据图像采集设备的处理性能来选择图像缩放比例,例如,图像采集设备为相机,相机的CPU处理能力较差,可以选择缩放后图像区域的尺寸为32x32像素对应的缩放比例,若图像采集设备为PC设备,PC设备的CPU处理性能较强,可以选择缩放后图像区域的尺寸为64x64像素或者128x128像素对应的缩放比例。
在对图像区域进行缩小处理时,可以删除图像区域中的部分像素点,在对图像区域进行放大处理时,可以在图像区域中增加像素点,在增加像素点或删除像素点时,以不影响目标中包含的信息为前提,通过插值方式插入或删除像素点。
等比例缩放处理后的图像区域一般包括N*N个的像素点的像素值,那么,对缩放处理后的图像区域进行傅立叶变换后得到的N*N个频域值。
本申请实施例中,基于二维傅立叶变换具有中心共轭对称的特性,对图像区域进行傅立叶变换后得到的频域值,依据中心共轭对称特性,选取对称的频域值,得到该图像区域进行傅立叶变换后的频域结果。
在执行S103时,为了便于后续计算,可以根据图像区域(第一区域、第二区域)中像素点的频域值,生成该图像区域对应的频域矩阵。
这里,图像区域一般为N*N的像素矩阵,将像素矩阵中的每个像素值转换到频域。
例如,参考图3A,当N为8时,行0和行4中的第2、3、4列频域值与第6、7、8列的频域值关于列5共轭对称,以行0为例,行0中C1*、C2*、C3*为重复频域值,去除位于该行尾部的C1*、C2*、C3*,将频域值R0、C1、C2、C3、R4作为行0进行傅立叶变换后的频域结果,行4中确定频域结果的情况与行0相同。对于行1和行7、行2和行6、行3和行5,位于两行中一行首位的频域值与位于另一行首位的频域值相同,位于两行中一行首位之后的各个频域值和另一行首位之后的各个频域值关于中心位置(行4、列4)中心对称。
又如,参考图3B,当N=32时,行0和行16中的列2-列15列频域值与列17-列31的频域值关于列16(第17列)共轭对称。对于行1和行31、行2和行30、行3和行29……行15和行17,位于两行中一行首位的频域值与位于另一行首位的频域值相同,位于两行中一行首位之后的各个频域值和另一行首位之后的各个频域值关于中心位置(行16、列16)中心对称。
再如,当N=20时,行0中的列2-列9的频域值与列11-列19的频域值关于列10(第11列)对称。对于行1和行19、行2和行18、行3和行17……行9和行11,位于两行中一行首位的频域值与位于另一行首位的频域值相同,位于两行中一行首位之后的各个频域值和另一行首位之后的各个频域值关于中心位置(行10、列10)中心对称。
此处需要说明,当N为偶数,如,10、64、128时,中心共轭对称的情况与上述示例情况相同,考虑到当N越大时,频域矩阵中展示的频域值越密集,频域值显示时会不清楚,因此不对其它N的频域矩阵进行示意,当N=64时,频域矩阵中存在中心共轭对称的区域可以参考图3C。
通过上述方式,频域结果中的元素数量小于全部像素点数量,元素数量大体上为所述像素点数量的一半,这样,可以保证在确定的位置准确度不降低的情况下,大大减少计算量,由于计算量大大减少,有效降低了所需的计算资源,因而,本申请实施例提供的目标跟踪的方法可以应用于计算资源有限的相机端,从而在相机端实现人脸识别、人体属性、车辆品牌分类等。
对8×8的实数输入进行二维FFT之后的结果的共轭对称性可以如图3A所示,其中*表示共轭。例如,C3*表示C3的共轭……。因此,没有必要计算得到二维FFT之后的8×8大小矩阵中的每个位置的元素。参照图3A,由于共轭对称性,只需要其中第一行的R0,C1,C2,C3,R4;第二行;第三行;第四行;以及第五行的R32,C33,C34,C35,R36就足够了。
以第一区域是8×8为例,第一频域结果无需是8×8的,而可以认为只是8×8矩阵的一个裁剪矩阵。并且,由于第二区域与第一区域具有相同大小,因此第二频域结果与第一频域结果中的元素位置是一一对应的。
具体地,假设第一区域是N×N的,那么第一频域结果中所包含的元素的对应位置包括:第1行的前N/2+1个元素,第2行至第N/2行,以及第N/2+1行的前N/2+1个元素。其中,N为2的幂次。
具体地,所得到的第一频域结果以及第二频域结果中只需得到其中N/2+2位置的元素即可。并且由于这些元素中至少有4个为实数,其他为复数,因此在实际对第一频域结果以及第二频域结果进行存储时,只需占用一半的存储空间即可,如图3D所示为N=8所示的一例。
这里,频域矩阵中存在中心共轭对称的频域值满足以下公式:
F[i][j]=F[(N-i)%N][(N-j)%N]*,i,j=0,…,N-1
其中,F[i][j]为频域矩阵中第i行第j列的频域值,N为频域矩阵的总行数或总列数,%为余数运算符。
S104,对所述第一频域结果和第二频域结果执行运算,得到频域运算结果。
这里,对第一频域结果中的元素和第二频域结果的元素执行逐元素(element-wise)的点乘运算。
这样,由于逐元素点乘运算的执行速度很快,从而使得本申请中的基于相关性的跟踪器的执行效率很高。
S105,对所述频域运算结果进行二维傅里叶逆变换,得到相关性矩阵。
这里,相关性矩阵的维度等于第一区域的像素值矩阵的维度,元素数量等于第一区域的像素点数量。利用二维逆傅立叶变换,对频域运算结果进行变换,也就是,将频域值转换到空间域,逆傅立叶变换后的结果为第一区域与第二区域对应的像素点的相关性值。
示例性地,相关性矩阵中的N×N个元素中,每个都是0至1之间的值。
S106,根据所述相关性矩阵,确定所述目标在所述第二区域中的目标位置。
这里,根据所述相关性矩阵,确定所述第二区域中的目标位置,包括:
根据所述相关性矩阵中数值最大的元素所在的位置,来确定所述目标位置。
这里,从对频域运算结果进行二维傅里叶逆变换得到的相关性矩阵中,查找并得到最大元素值,依据该最大元素值对应的元素在第二区域中的位置来确定目标位置。例如,可以通过轮询的方式找到最大元素值。
这里,在确定目标在所述第二区域中的目标位置后,可以将第二区域对应的搜索帧作为参考帧,执行本申请实施例提供的目标跟踪的方法的步骤,可以实现对目标的实时跟踪。
由此可见,本申请中在二维FFT之前无需进行特征提取这样的预处理,能够加快处理速度,提升效率。并且本申请中二维FFT无需得到结果中的每个元素,能够进一步地提升处理速度。这样的跟踪方式算法简单,能够在诸如相机、手机等移动终端上执行,与此同时还能够保证跟踪精度,使性能满足实际需要,因此具有很高的性价比。
参照图4所示,为本申请实施例提供的一种目标跟踪的装置的示意图,该装置包括:
第一区域获取模块41,用于确定参考帧中目标所在的第一区域;
第二区域获取模块42,用于根据所述第一区域在所述参考帧中的位置,确定搜索帧中的第二区域,其中所述第二区域与所述第一区域具有相同的大小,且所述第二区域相对于所述搜索帧的位置与所述第一区域相对于所述参考帧的位置相同;
变换模块43,用于对所述第一区域执行二维傅里叶变换得到第一频域结果,对所述第二区域执行二维傅里叶变换得到第二频域结果,其中所述第一频域结果和所述第二频域结果中的元素数量小于所述第一区域和所述第二区域中的像素点数量;
计算模块44,用于对所述第一频域结果和第二频域结果执行运算,得到频域运算结果;
逆变换模块45,用于对所述频域运算结果进行二维傅里叶逆变换,得到相关性矩阵;
位置确定模块46,用于根据所述相关性矩阵,确定所述目标在所述第二区域中的目标位置。
在一种实施方式中,第一区域获取模块41用于根据以下步骤确定参考帧中目标所在的第一区域:
使用基于深度学习的目标检测方法,确定所述目标在所述参考帧中的边界框;
将所述边界框作为所述第一区域,或者,将包围所述边界框的具有特定大小的区域作为所述第一区域。
在一种实施方式中,所述第一区域和所述第二区域为相同大小的方形,且每条边的像素数等于2的幂次。
在一种实施方式中,所述第一频域结果中的元素数量以及各个元素的位置是根据二维傅里叶变换的结果的共轭对称性所确定的。
在一种实施方式中,所述元素数量大体上为所述像素点数量的一半。
在一种实施方式中,二维傅里叶变换的输入分别为所述第一区域中各个像素点的像素值、所述第二区域中各个像素点的像素值。
在一种实施方式中,位置确定模块46用于根据以下步骤确定所述第二区域中的目标位置:根据所述相关性矩阵中数值最大的元素所在的位置,来确定所述目标位置。
在一种实施方式中,所述搜索帧与所述参考帧位于同一视频序列中,且所述搜索帧位于所述参考帧之后,两者的帧间距等于或大于1帧。
在一种实施方式中,所述第一区域获取模块41用于根据以下步骤对图像帧进行缩放处理,使得各图像帧中包含目标的区域均相同,相对于该图像帧的位置也都相同:
针对每个图像帧,从该图像帧中确定包括目标的图像区域,并确定图像缩放比例;
按照所述图像缩放比例对该图像区域进行等比例缩放处理。
在一种实施方式中,基于二维傅立叶变换具有中心共轭对称的特性,对图像区域进行傅立叶变换后得到的频域值,依据中心共轭对称特性,选取对称的频域值,得到该图像区域进行傅立叶变换后的频域结果。其中,依据中心共轭对称特性,选取对称的频域值,可以是根据该图像区域中像素点的频域值重复情况进行选取。
这里,频域值重复情况可以包括行内的频域值重复、或列内的频域值重复、或两行包括的频域值重复、或者两列包括的频域值重复。
在一种实施方式中,所述像素值包括灰度值、红色通道值、蓝色通道值和绿色通道值中的至少一个。
本申请实施例还提供了一种计算机设备50,如图5所示,为本申请实施例提供的计算机设备50结构示意图,包括:处理器51、存储器52、和总线53。所述存储器52存储有所述处理器51可执行的机器可读指令(比如,图4中的装置中第一区域获取模块41、第二区域获取模块42、变换模块43、计算模块44、逆变换模块45和位置确定模块46对应的执行指令等),当计算机设备50运行时,所述处理器51与所述存储器52之间通过总线53通信,所述机器可读指令被所述处理器51执行时执行如下处理:
确定参考帧中目标所在的第一区域;
根据所述第一区域在所述参考帧中的位置,确定搜索帧中的第二区域,其中所述第二区域与所述第一区域具有相同的大小,且所述第二区域相对于所述搜索帧的位置与所述第一区域相对于所述参考帧的位置相同;
对所述第一区域执行二维傅里叶变换得到第一频域结果,对所述第二区域执行二维傅里叶变换得到第二频域结果,其中所述第一频域结果和所述第二频域结果中的元素数量小于所述第一区域和所述第二区域中的像素点数量;
对所述第一频域结果和第二频域结果执行运算,得到频域运算结果;
对所述频域运算结果进行二维傅里叶逆变换,得到相关性矩阵;
根据所述相关性矩阵,确定所述目标在所述第二区域中的目标位置。
一种可能的实施方式中,处理器51执行的指令中,确定参考帧中目标所在的第一区域,包括:使用基于深度学习的目标检测方法,确定所述目标在所述参考帧中的边界框;将所述边界框作为所述第一区域,或者,将包围所述边界框的具有特定大小的区域作为所述第一区域。
一种可能的实施方式中,处理器51执行的指令中,所述第一区域和所述第二区域为相同大小的方形,且每条边的像素数等于2的幂次。
一种可能的实施方式中,处理器51执行的指令中,所述第一频域结果中的元素数量以及各个元素的位置是根据二维傅里叶变换的结果的共轭对称性所确定的。
一种可能的实施方式中,处理器51执行的指令中,所述元素数量大体上为所述像素点数量的一半。
一种可能的实施方式中,处理器51执行的指令中,二维傅里叶变换的输入分别为所述第一区域中各个像素点的像素值、所述第二区域中各个像素点的像素值。
一种可能的实施方式中,处理器51执行的指令中,根据所述相关性矩阵,确定所述第二区域中的目标位置,包括:根据所述相关性矩阵中数值最大的元素所在的位置,来确定所述目标位置。
一种可能的实施方式中,处理器51执行的指令中,所述搜索帧与所述参考帧位于同一视频序列中,且所述搜索帧位于所述参考帧之后,两者的帧间距等于或大于1帧。
如本领域技术人员所知,随着计算机硬件的发展,总线的具体实现方式以及名称可能发生各种改变,此处所称的总线概念上涵盖任何能够为计算机设备内各部件提供服务的信息传送线路,包括但不限于FSB、HT、QPI、Infinity Fabric等。
在本申请实施例中,处理器可以是通用处理器,包括中央处理器(CPU),还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、神经网络处理器(NPU)、张量处理器(TPU)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述目标跟踪的方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述目标跟踪的方法,从而解决现有技术中在不降低跟踪结果准确度的前提下,提高了输出跟踪结果的计算效率的问题,本申请在计算目标位置时,通过确定目标在参考帧中的第一区域以及在搜索帧中的第二区域,对第一区域和第二区域分别执行二维傅里叶变换,得到第一频域结果和第二频域结果,第一频域结果和第二频域结果中的元素数量小于第一区域和第二区域中的像素点数量,相比使用图像帧中全部的像素点计算目标的位置,在不降低得到位置准确度的前提下,减少了计算量,提高了计算速度。本申请实施例将基于该思想进行详细描述。
本申请实施例还提供了一种电子设备,包括如图5所示的计算机设备和成像元件,所述成像元件与所述处理器耦接;所述成像元件配置成获取针对目标拍摄得到的多个图像帧;所述处理器配置成执行所述机器可读指令,以执行时执行如上述目标跟踪的方法的步骤。
在一种实施方式中,还包括通讯器件,与目标设备耦接;所述通讯器件配置成在出现目标在各个图像帧中的位置时向目标设备发送所述目标在各个图像帧中的位置。
可选地,本申请涉及的电子设备可以是在商场、教室、交通道路等环境中使用的摄像设备(如摄像头、摄像机、边缘计算盒等);目标设备可以是关联绑定的手机、平板等设备;通讯器件可以是基于蓝牙技术、第四代移动通信技术(4th generation mobile networks,4G)、第五代移动通信技术(5th generation mobile networks,5G)、无线局域网技术(Wi-Fi Alliance,Wi-Fi)等技术的器件,通讯器件通过路由器向目标设备发送针对目标所处状态的警报信息或者通过无线广域网(Wireless Wide Area Network,WWAN)直接向目标设备发送针对目标在各个图像帧中的位置的警报信息。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种目标跟踪的方法,其特征在于,该方法包括:
确定参考帧中目标所在的第一区域;
根据所述第一区域在所述参考帧中的位置,确定搜索帧中的第二区域,其中所述第二区域与所述第一区域具有相同的大小,且所述第二区域相对于所述搜索帧的位置与所述第一区域相对于所述参考帧的位置相同;
对所述第一区域执行二维傅里叶变换得到第一频域结果,对所述第二区域执行二维傅里叶变换得到第二频域结果,其中所述第一频域结果和所述第二频域结果中的元素数量小于所述第一区域和所述第二区域中的像素点数量;
对所述第一频域结果和第二频域结果执行运算,得到频域运算结果;
对所述频域运算结果进行二维傅里叶逆变换,得到相关性矩阵;
根据所述相关性矩阵,确定所述目标在所述第二区域中的目标位置。
2.根据权利要求1所述的方法,其特征在于,确定参考帧中目标所在的第一区域,包括:
使用基于深度学习的目标检测方法,确定所述目标在所述参考帧中的边界框;
将所述边界框作为所述第一区域,或者,将包围所述边界框的具有特定大小的区域作为所述第一区域。
3.根据权利要求1所述的方法,其特征在于,所述第一区域和所述第二区域为相同大小的方形,且每条边的像素数等于2的幂次。
4.根据权利要求1所述的方法,其特征在于,所述第一频域结果中的元素数量以及各个元素的位置是根据二维傅里叶变换的结果的共轭对称性所确定的。
5.根据权利要求1所述的方法,其特征在于,所述元素数量大体上为所述像素点数量的一半。
6.根据权利要求1所述的方法,其特征在于,二维傅里叶变换的输入分别为所述第一区域中各个像素点的像素值、所述第二区域中各个像素点的像素值。
7.根据权利要求1所述的方法,其特征在于,根据所述相关性矩阵,确定所述第二区域中的目标位置,包括:
根据所述相关性矩阵中数值最大的元素所在的位置,来确定所述目标位置。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述搜索帧与所述参考帧位于同一视频序列中,且所述搜索帧位于所述参考帧之后,两者的帧间距等于或大于1帧。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序被处理器或计算机运行时实现如权利要求1至8任一所述方法的步骤。
10.一种目标跟踪的装置,其特征在于,包括:处理器和如权利要求9所述的计算机可读存储介质,当所述处理器运行所述计算机可读存储介质上所存储的计算机程序时,实现如权利要求1至8任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011222774.0A CN112183493A (zh) | 2020-11-05 | 2020-11-05 | 目标跟踪的方法、装置以及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011222774.0A CN112183493A (zh) | 2020-11-05 | 2020-11-05 | 目标跟踪的方法、装置以及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112183493A true CN112183493A (zh) | 2021-01-05 |
Family
ID=73917111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011222774.0A Pending CN112183493A (zh) | 2020-11-05 | 2020-11-05 | 目标跟踪的方法、装置以及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183493A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140029952A1 (en) * | 2011-03-15 | 2014-01-30 | Huawei Technologies Co., Ltd. | Data transmission method and related device and system |
CN106570486A (zh) * | 2016-11-09 | 2017-04-19 | 华南理工大学 | 基于特征融合和贝叶斯分类的核相关滤波目标跟踪方法 |
CN108154522A (zh) * | 2016-12-05 | 2018-06-12 | 北京深鉴科技有限公司 | 目标追踪系统 |
CN108648213A (zh) * | 2018-03-16 | 2018-10-12 | 西安电子科技大学 | 一种kcf跟踪算法在tms320c6657上的实现方法 |
CN109978922A (zh) * | 2019-04-03 | 2019-07-05 | 北京环境特性研究所 | 一种基于梯度信息的目标实时跟踪方法及装置 |
CN110276784A (zh) * | 2019-06-03 | 2019-09-24 | 北京理工大学 | 基于记忆机制与卷积特征的相关滤波运动目标跟踪方法 |
CN111008991A (zh) * | 2019-11-26 | 2020-04-14 | 华南理工大学 | 一种背景感知的相关滤波目标跟踪方法 |
CN111260691A (zh) * | 2020-01-18 | 2020-06-09 | 温州大学 | 一种基于上下文感知回归时空正则相关滤波跟踪方法 |
-
2020
- 2020-11-05 CN CN202011222774.0A patent/CN112183493A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140029952A1 (en) * | 2011-03-15 | 2014-01-30 | Huawei Technologies Co., Ltd. | Data transmission method and related device and system |
CN106570486A (zh) * | 2016-11-09 | 2017-04-19 | 华南理工大学 | 基于特征融合和贝叶斯分类的核相关滤波目标跟踪方法 |
CN108154522A (zh) * | 2016-12-05 | 2018-06-12 | 北京深鉴科技有限公司 | 目标追踪系统 |
CN108648213A (zh) * | 2018-03-16 | 2018-10-12 | 西安电子科技大学 | 一种kcf跟踪算法在tms320c6657上的实现方法 |
CN109978922A (zh) * | 2019-04-03 | 2019-07-05 | 北京环境特性研究所 | 一种基于梯度信息的目标实时跟踪方法及装置 |
CN110276784A (zh) * | 2019-06-03 | 2019-09-24 | 北京理工大学 | 基于记忆机制与卷积特征的相关滤波运动目标跟踪方法 |
CN111008991A (zh) * | 2019-11-26 | 2020-04-14 | 华南理工大学 | 一种背景感知的相关滤波目标跟踪方法 |
CN111260691A (zh) * | 2020-01-18 | 2020-06-09 | 温州大学 | 一种基于上下文感知回归时空正则相关滤波跟踪方法 |
Non-Patent Citations (3)
Title |
---|
SUSHIL PRATAP BHARATI等: "Fast and robust object tracking with adaptive detection", 《2016 IEEE 28TH INTERNATIONAL CONFERENCE ON TOOLS WITH ARTIFICIAL INTELLIGENCE (ICTAI)》, 16 January 2017 (2017-01-16) * |
ZHANGPING HE等: "Fast fourier transform networks for object tracking based on correlation filter", 《IEEE ACCESS》, vol. 6, 8 January 2018 (2018-01-08), pages 2 * |
孟森等: "基于移动窗口Fourier变换的高分辨率遥感影像森林分类研究", 《浙江林业科技》, vol. 38, no. 05, 15 September 2018 (2018-09-15), pages 1 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230081645A1 (en) | Detecting forged facial images using frequency domain information and local correlation | |
CN108121931B (zh) | 二维码数据处理方法、装置及移动终端 | |
CN105989367A (zh) | 目标获取方法及设备 | |
CN113192646B (zh) | 目标检测模型构建方法及不同目标间距离监控方法、装置 | |
CN110942071A (zh) | 一种基于车牌分类和lstm的车牌识别方法 | |
CN105913453A (zh) | 一种目标跟踪方法和装置 | |
CN110399826B (zh) | 一种端到端人脸检测和识别方法 | |
CN111667504A (zh) | 一种人脸追踪方法、装置及设备 | |
CN114330565A (zh) | 一种人脸识别方法及装置 | |
CN111753766B (zh) | 一种图像处理方法、装置、设备及介质 | |
US9392146B2 (en) | Apparatus and method for extracting object | |
CN115690488A (zh) | 基于卷积神经网络模型的图像识别方法、装置及终端设备 | |
CN115578590A (zh) | 基于卷积神经网络模型的图像识别方法、装置及终端设备 | |
CN111222446B (zh) | 人脸识别方法、人脸识别装置及移动终端 | |
CN114140429A (zh) | 一种车端实时停车位检测方法和装置 | |
CN111476065A (zh) | 目标跟踪方法、装置、计算机设备及存储介质 | |
CN112183493A (zh) | 目标跟踪的方法、装置以及计算机可读存储介质 | |
CN112507906A (zh) | 目标跟踪的方法、装置以及计算机可读存储介质 | |
CN115587943B (zh) | 点云数据的去噪方法、装置、电子设备及存储介质 | |
CN114418064B (zh) | 一种目标检测方法、终端设备及存储介质 | |
CN112669346B (zh) | 一种路面突发状况确定方法及装置 | |
CN116309729A (zh) | 目标追踪方法、装置、终端、系统及可读存储介质 | |
CN110796684B (zh) | 目标跟踪方法以及相关装置 | |
CN112669351A (zh) | 一种快速移动检测方法及装置 | |
CN110443244B (zh) | 一种图形处理的方法以及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |