CN111047625B - 一种菜品视频样本半自动标记的方法 - Google Patents
一种菜品视频样本半自动标记的方法 Download PDFInfo
- Publication number
- CN111047625B CN111047625B CN201911406896.2A CN201911406896A CN111047625B CN 111047625 B CN111047625 B CN 111047625B CN 201911406896 A CN201911406896 A CN 201911406896A CN 111047625 B CN111047625 B CN 111047625B
- Authority
- CN
- China
- Prior art keywords
- video
- frame
- background
- positioning
- marking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/254—Analysis of motion involving subtraction of images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/223—Analysis of motion using block-matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种菜品视频样本半自动标记的方法,包括以下步骤:S01)、打开原始视频;S02)、获得当前帧图像;S03)、人工标记,建立背景模型;S04)、根据视频特点设定阈值,大于阈值的,认为是同一区域,将背景建模算法下的标签信息传递给定位网络定位的区域,以定位网络的定位区域为基准,更新背景模型,小于阈值的,则放弃更新,保留原有背景模型;同时更新视频显示画面;S05)、获取当前标记的区域坐标以及标签等标记数据;S06)、保存。本发明的有益效果:结合定位网络以及背景建模算法,能有效的提升样本标记的速度,大幅减少人力成本,为以后深度学习的过程中,提供了坚实的保障。
Description
技术领域
本发明涉及一种菜品视频样本半自动标记的方法,采用背景建模算法结合定位网络完成对视频目标的跟踪,进而获取到标记样本。
背景技术
菜品识别是基于菜品的表面的特征信息进行标名识别的一种物品识别技术,在菜品结算的环节中能有效减少人力成本,在后续的营养分析中也能发挥其重要作用。但在良好的效果背后,是需要菜品样本的大量提供来保证学习的准确度,样本的优劣直接决定了学习后的网络能否有更好的识别率。菜品视频样本的采集,属于图像跟踪的一种,这问题一直都是计算机视觉领域的难题,事先知道第一帧中的目标位置,然后需要在后续帧中找到目标。 跟踪过程中的光照变化、目标尺度变化、目标被遮挡、目标的形变、运动模糊、目标的快速运动、目标的旋转、目标逃离视差、背景杂波、低分辨率等现象,都是目标跟踪问题的挑战。
在专利“视频图像中烟雾检测方法”(申请号201610004646.6,公开号CN105654494 A)中,提到一种基于颜色特征来追踪视频中烟雾的办法,能有效减少干扰和噪声的影响。但在菜品视频中,其跟踪样本复杂,菜品之间颜色特征并不明显,方法并不适用;
在专利“基于霍夫森林的视频目标跟踪方法”(申请号201210253267.2,公开号CN102831618 A)中提出一种基于霍夫森林的视频目标跟踪方法, 以提高目标跟踪对目标遮挡、非刚性变化的鲁棒性和目标跟踪的实时性。将霍夫变换与随机森林分类器相结合作为检测器对目 标进行检测,同时由 Lucas-Kanade 跟踪器对目标进行跟踪,将霍夫变换与随机森林分类器 结合,提高随机森林分类器的性能,使其对目标遮挡和目标非刚性变化的跟踪更加鲁棒,同 时通过引入的 Lucas-Kanade 方法调整目标区域的尺度,进一步确定目标的位置,使跟踪很 好的适应目标的尺度变化。由于使用了Lucas- Kanade追踪器,此技术在使用过程中需要三大假设成立,就是亮度恒定,小运动,空间一致,而在菜品视频样本中,为了保证训练不受其姿态阴影的限制,其光照角度都可能随时间变化而变化,故此方法也不适用。
发明内容
本发明要解决的技术问题是解决菜品视频样本标记过程中,对多目标追踪不准确的问题,进而提供一种菜品视频样本的半自动标记办法,在较少的人为干预下,较快的对样本完成标记,有效的提升样本标记的速度。
为了解决所述技术问题,本发明采用的技术思路是:将视频划分为帧图像,提交到定位网络完成视频帧图像中菜品区域定位,辅以背景建模算法追踪到的菜品区域,两者相结合的完成视频中多目标的追踪。由于菜品是需要容器盛放的,所以定位网络只需要训练出区分菜品区域的网络即可,相对于识别,该网络训练快,样本需要少,且对于后续识别过程中也是不可缺少的一步。
本发明公开了一种菜品视频样本半自动标记的方法,其特征在于包括以下步骤:
S01)、打开原始视频;
S02)、获得当前帧图像;
S03)、若是第一帧,则需要人工标记出菜品所在的初始位置并输入对应的标签信息,然后建立背景模型;
S04)、若不是第一帧则人工判断是否需要暂停自动标记,重新人工标记,若需要则重复S03步骤,若不需要则分别计算背景建模算法下的目标区域(下称背景区域)和定位网络下的目标区域(下称定位区域),计算背景区域与定位区域的面积的并集和交集,然后计算交集所占并集的比例,根据视频特点设定阈值,大于阈值的,认为是同一区域,将背景建模算法下的标签信息传递给定位网络定位的区域,以定位网络的定位区域为基准,更新背景模型,小于阈值的,则放弃更新,保留原有背景模型;同时更新视频显示画面;
S05)、获取当前标记的区域坐标以及标签等标记数据;
S06)、将视频按帧保存到磁盘中,将标记数据保存为xml文件,标记工作结束。
进一步的,步骤S01的具体步骤为:S11)、打开视频,如果视频是高清视频,计算背景数据量偏大,对视频处理,把分辨率改小,使用线性邻插值将一帧图像改为适中分辨率大小的图像。
进一步的,S31)、判定是否第一帧,若是第一帧则执行以下步骤:
S32)、手动标出感兴趣的区域,并对标记区域命名,完成一次标记;
S33)、提取标记区域,转换为HSV色彩空间,计算该标记区域的色彩直方图,并归一化到0-255的取值范围内,建立起背景模型;。
进一步的,所述步骤S04的算法采用IOU算法;所述的阈值为0.8。
本发明的有益效果:本发明根据样本视频的特点,结合定位网络以及背景建模算法,能有效的提升样本标记的速度,大幅减少人力成本,为以后深度学习的过程中,提供了坚实的保障。
附图说明
图1为半自动标记的流程图;
图2为手动标记流程图
图3为自动标记流程图。
具体实施方式:
下面结合附图1-3和具体实施例对本发明作进一步的说明。
本实施例公开一种基于视频的样本半自动标记方法,主要包括人为标记感兴趣的区域,接下来使用背景建模算法和定位网络相融合的对标记区域进行自动更新,进而完成整个视频样本的标记工作。
如图1所示,具体流程为:
S1)、打开视频样本;
S2) 、获取当前帧图像;
S31)、判定是否第一帧,若是第一帧则执行以下步骤:(图2)
S32)、手动标出感兴趣的区域,并对标记区域命名,完成一次标记;
S33)、然后提取ROI区域(感兴趣区域,也就是标记的区域),转换为HSV色彩空间,计算该ROI区域的色彩直方图,并归一化到0-255的取值范围内,建立起背景模型;
S41)、若不是第一帧则人工判断是否需要暂停自动标记,重新人工标记,若需要,则重复S3步骤,若不需要则进行以下步骤:(图3)
S42)根据其上一帧背景模型z中的位置和大小和颜色直方图作为初始值,计算直方图反向投影得到的颜色概率分布图,在概率分布图上计算窗口内质心,将搜索窗的中心移至质心,经过几次迭代运算,当中心点与质心点小于收敛条件时即表示匹配到了目标,然后集中化收敛的区域并进行标记,这样就得出了背景建模算法下的菜品区域(下称背景区域);每帧的搜索中心点是上一帧的目标的质心点,由于相邻帧之间时间间隔小,目标变化较小,所以目标部分包含在搜索窗内,计算的迭代次数很少,实时性很高;
S43)、将当前图像提交给已经训练好的定位网络,定位网络根据上传的图像,定位出当前图像中菜品的具体位置,这样就获取了定位网络下的菜品区域。(下称定位区域)
S44)、首先计算背景区域和定位区域的并集和交集;
S45)、然后计算交集所占并集的比例,大于阈值的认为匹配成功,对于匹配成功的区域,则将背景区域的信息传递给定位区域;小于阈值的认为匹配失败;这就是IOU算法的具体步骤,IOU算法是计算区域占比,时间复杂度为O(1),所以IOU匹配两个区域的实时性也能得到保证;
S46)、循环计算所有背景区域找到对应的定位区域,若所有的定位区域和此背景区域都不符合条件,则放弃此背景更新,保留原有信息;同时更新视频显示画面;
S51)、获取上述步骤标记的区域坐标以及标签信息,得到标记数据;并持续进行下一帧,直到视频完毕;
S61)、将视频帧图像保存为jpg文件,将标记数据保存为xml文件。
以上所揭露仅为本发明的一个典型的具体实施案例,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所做的等同变化仍视为本发明所涵盖的范围。
Claims (3)
1.一种菜品视频样本半自动标记的方法,其特征在于包括以下步骤:
S01)、打开原始视频;
S02)、获得当前帧图像;
S03)、若是第一帧,则需要人工标记出菜品所在的初始位置并输入对应的标签信息,然后建立背景模型;
按S31)、S32)、S33)的步骤建立背景模型:
S31)、判定是否第一帧,若是第一帧则执行以下步骤:
S32)、手动标出感兴趣的区域,并对标记区域命名,完成一次标记;
S33)、提取标记区域,转换为HSV色彩空间,计算该标记区域的色彩直方图,并归一化到0-255的取值范围内,建立起背景模型;
S04)若不是第一帧则进行以下步骤:
S41)、若不是第一帧则人工判断是否需要暂停自动标记,重新人工标记,若需要,则重复S03步骤,若不需要,则进行以下S42)、S43)、S44)、S45)、S46)步骤;
S42)根据其上一帧背景模型z中的位置和大小和颜色直方图作为初始值,计算直方图反向投影得到的颜色概率分布图,在概率分布图上计算窗口内质心,将搜索窗的中心移至质心,经过几次迭代运算,当中心点与质心点小于收敛条件时即表示匹配到了目标,然后集中化收敛的区域并进行标记,这样就得出了背景建模算法下的菜品区域即背景区域;
S43)、将当前图像提交给已经训练好的定位网络,定位网络根据上传的图像,定位出当前图像中菜品的具体位置,这样就获取了定位网络下的菜品区域即定位区域;
S44)、首先计算背景区域和定位区域的并集和交集;
S45)、然后计算交集所占并集的比例,大于阈值的认为匹配成功,对于匹配成功的区域,则将背景区域的信息传递给定位区域;小于阈值的认为匹配失败;
S46)、循环计算所有背景区域找到对应的定位区域,若所有的定位区域和此背景区域都不符合条件,则放弃此背景更新,保留原有信息;同时更新视频显示画面;
S05)、获取上述步骤标记的区域坐标以及标签信息,得到标记数据;并持续进行下一帧,直到视频完毕;
S06)、将视频按帧保存到磁盘中,将标记数据保存为xml文件,标记工作结束。
2.根据权利要求1所述的菜品视频样本半自动标记的方法,其特征在于:步骤S01的具体步骤为:S11)、打开视频,如果视频是高清视频,计算背景数据量偏大,对视频处理,把分辨率改小,使用线性邻插值将一帧图像改为适中分辨率大小的图像。
3.根据权利要求1所述的菜品视频样本半自动标记的方法,其特征在于:所述步骤S04的算法采用IOU算法;所述的阈值为0.8。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911406896.2A CN111047625B (zh) | 2020-02-18 | 2020-02-18 | 一种菜品视频样本半自动标记的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911406896.2A CN111047625B (zh) | 2020-02-18 | 2020-02-18 | 一种菜品视频样本半自动标记的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111047625A CN111047625A (zh) | 2020-04-21 |
CN111047625B true CN111047625B (zh) | 2023-04-07 |
Family
ID=70242872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911406896.2A Active CN111047625B (zh) | 2020-02-18 | 2020-02-18 | 一种菜品视频样本半自动标记的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111047625B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381114A (zh) * | 2020-10-20 | 2021-02-19 | 广东电网有限责任公司中山供电局 | 一种深度学习图像标注系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426937A (zh) * | 2015-11-06 | 2016-03-23 | 北京格分维科技有限公司 | 一种用于智能盘子的菜品自动识别和播报的系统及方法 |
WO2018095082A1 (zh) * | 2016-11-28 | 2018-05-31 | 江苏东大金智信息系统有限公司 | 一种视频监测中运动目标的快速检测方法 |
CN108986162A (zh) * | 2018-06-28 | 2018-12-11 | 四川斐讯信息技术有限公司 | 基于惯性测量单元和视觉信息的菜品和背景分割方法 |
CN109508664A (zh) * | 2018-10-26 | 2019-03-22 | 浙江师范大学 | 一种基于深度学习的菜品识别计价方法 |
CN109684946A (zh) * | 2018-12-10 | 2019-04-26 | 成都睿码科技有限责任公司 | 一种基于单高斯背景建模的厨房老鼠检测方法 |
CN110059654A (zh) * | 2019-04-25 | 2019-07-26 | 台州智必安科技有限责任公司 | 一种基于细粒度识别的菜品自动结算及饮食健康管理方法 |
-
2020
- 2020-02-18 CN CN201911406896.2A patent/CN111047625B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426937A (zh) * | 2015-11-06 | 2016-03-23 | 北京格分维科技有限公司 | 一种用于智能盘子的菜品自动识别和播报的系统及方法 |
WO2018095082A1 (zh) * | 2016-11-28 | 2018-05-31 | 江苏东大金智信息系统有限公司 | 一种视频监测中运动目标的快速检测方法 |
CN108986162A (zh) * | 2018-06-28 | 2018-12-11 | 四川斐讯信息技术有限公司 | 基于惯性测量单元和视觉信息的菜品和背景分割方法 |
CN109508664A (zh) * | 2018-10-26 | 2019-03-22 | 浙江师范大学 | 一种基于深度学习的菜品识别计价方法 |
CN109684946A (zh) * | 2018-12-10 | 2019-04-26 | 成都睿码科技有限责任公司 | 一种基于单高斯背景建模的厨房老鼠检测方法 |
CN110059654A (zh) * | 2019-04-25 | 2019-07-26 | 台州智必安科技有限责任公司 | 一种基于细粒度识别的菜品自动结算及饮食健康管理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111047625A (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109360226B (zh) | 一种基于时间序列多特征融合的多目标跟踪方法 | |
CN113160192B (zh) | 复杂背景下基于视觉的压雪车外观缺陷检测方法及装置 | |
CN107292252B (zh) | 一种自主学习的身份识别方法 | |
Yang et al. | Robust superpixel tracking | |
CN107424171B (zh) | 一种基于分块的抗遮挡目标跟踪方法 | |
Buehler et al. | Upper body detection and tracking in extended signing sequences | |
CN112257676A (zh) | 一种指针式仪表读数方法、系统以及巡检机器人 | |
CN112669349A (zh) | 一种客流统计方法、电子设备及存储介质 | |
CN109708658B (zh) | 一种基于卷积神经网络的视觉里程计方法 | |
Naufal et al. | Preprocessed mask RCNN for parking space detection in smart parking systems | |
CN108038515A (zh) | 无监督多目标检测跟踪方法及其存储装置与摄像装置 | |
CN112132103A (zh) | 一种视频人脸检测识别方法和系统 | |
CN111553915A (zh) | 物品识别检测方法、装置、设备和可读存储介质 | |
CN117557859A (zh) | 基于目标追踪的超声影像目标多角度融合分析系统及方法 | |
CN117593650B (zh) | 基于4d毫米波雷达与sam图像分割的动点滤除视觉slam方法 | |
Rapuru et al. | Correlation-based tracker-level fusion for robust visual tracking | |
CN105590327A (zh) | 运动估计方法及装置 | |
CN111047625B (zh) | 一种菜品视频样本半自动标记的方法 | |
CN114998815B (zh) | 一种基于视频分析的交通车辆识别追踪方法及系统 | |
CN110458019B (zh) | 稀缺认知样本条件下的排除倒影干扰的水面目标检测方法 | |
CN113689365B (zh) | 一种基于Azure Kinect的目标跟踪定位方法 | |
CN111415370A (zh) | 一种基于嵌入式的红外复杂场景目标实时跟踪方法及系统 | |
CN109064497B (zh) | 一种基于颜色聚类补充学习的视频跟踪方法 | |
CN113240638A (zh) | 基于深度学习的目标检测方法、设备及介质 | |
CN114373144B (zh) | 一种用于高速视频中圆形标识点的自动识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |