[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN105303195B - 一种词袋图像分类方法 - Google Patents

一种词袋图像分类方法 Download PDF

Info

Publication number
CN105303195B
CN105303195B CN201510683226.0A CN201510683226A CN105303195B CN 105303195 B CN105303195 B CN 105303195B CN 201510683226 A CN201510683226 A CN 201510683226A CN 105303195 B CN105303195 B CN 105303195B
Authority
CN
China
Prior art keywords
image
histogram
vision word
block
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510683226.0A
Other languages
English (en)
Other versions
CN105303195A (zh
Inventor
阎刚
于洋
郭迎春
刘依
师硕
张亚娟
杨悦强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Technology
Original Assignee
Hebei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Technology filed Critical Hebei University of Technology
Priority to CN201510683226.0A priority Critical patent/CN105303195B/zh
Publication of CN105303195A publication Critical patent/CN105303195A/zh
Application granted granted Critical
Publication of CN105303195B publication Critical patent/CN105303195B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明一种词袋图像分类方法,涉及应用电子设备进行识别图形的方法,是一种基于距离次序的视觉单词权重分配的词袋图像分类方法,步骤是:对图像进行分块并提取特征;对获得的特征进行聚类生成“视觉单词词汇表”;计算待分配“视觉单词”的权重;结合空间金字塔理论获得每幅图像的最终直方图表示;利用支持向量机对待测图像进行分类,最后输出图像类别。本发明方法克服了现有图像分类技术存在单一的特征不能完全代表图像的信息和图像分类存在准确率不高的缺陷。

Description

一种词袋图像分类方法
技术领域
本发明的技术方案涉及应用电子设备进行识别图形的方法,具体地说是一种词袋图像分类方法。
背景技术
随着人类进入信息化社会,国际互联网的快速发展使得信息量以指数化的速度增长,互联网上大量未被分类的数字图像作为一个巨大的挑战摆在了人们面前,传统的人工手动标注和分类不仅在时间上而且在效率上都不再能够适应要求,这就需要自动的图像类别标注和分类方法来应对这一挑战。
近年来,词袋算法在图像分类领域取得了巨大的成就,现有的词袋算法首先对图像中的局部兴趣点(特征点)进行提取SIFT特征,根据聚类映射到“视觉单词词汇表”的某一个“视觉单词”中,统计“视觉单词”个数作为图像的统计直方图,经过训练学习,用分类器完成图像的分类。
现有方法中,提取SIFT特征需要构建尺度空间,运算耗时并且得到的兴趣点数目有限,研究人员在传统的词袋算法上进行了改进。2004年美国卡内基美隆大学的Ke针对SIFT维数较高的问题,利用主成分分析方法(PCA)和SIFT相结合提出基于PCA-SIFT 方法的词袋算法,将局部兴趣点的特征维数从128维降低到36维,降低了时间复杂度,但是维数降低使得所用的训练图像需要具有较强的代表性才会得到较好的效果,且时间复杂度仍然较高。2008年Bay等人提出了SURF特征描述子,词袋算法利用SURF提取特征,大大的降低了时间复杂度,但是该描述子在图像尺度和旋转变化时表现不如SIFT描述子。法国里昂中央理工大学的Zhu等人在2011年提取图像特征时采用一种新的快速局部描述子DAISY,建模中仍然使用词袋算法,对于同样的识别率,DAISY的时间上要比 SIFT快12倍,但是DAISY描述子的特征维数仍然很高,缺乏更紧凑和多信息的特征表示。
在获取图像的特征后需要把获得到的众多局部特征点分配到“视觉单词词汇表”中的某一个“视觉单词”,现有的主流方法是在特征空间中计算待分配的局部特征点即“视觉单词”与“视觉词汇表”中每个“视觉单词”间的欧几里得距离,计算“视觉单词”的出现频次。该词频-逆文档频率TF-IDF算法用来评估一个字词的重要程度,有较高的召回率,但是没有考虑特征项在类间、类内和不完全分类的分布信息这些情况,使得在权重分配阶段得到的直方图信息有一定局限性。
CN201210043064.0公开了一种基于多特征融合的遥感图像分类方法,应用遥感图像的SIFT特征、颜色直方图特征和纹理特征作为词袋模型的局部特征,得到三个分类器并对待测图像进行分类预测,将预测结果加权得到最终结果,该方法在待分配“视觉单词”的权值分配阶段采用TF-IDF方法,得到的图像直方图具有局限性,在表示信息时致使分类结果产生较大误差。
目前图像分类在特征提取上仍然存在单一的特征不能完全代表图像的信息的问题,在“视觉单词”的权值分配中硬分配的思想忽略了待分配“视觉单词”对其他词汇的贡献,加上词袋算法中图像直方图区分效果不佳,导致图像分类存在准确率不高的缺陷。
发明内容
本发明所要解决的技术问题是:提供一种词袋图像分类方法,是一种基于距离次序的视觉单词权重分配的词袋图像分类方法,克服了现有图像分类技术存在单一的特征不能完全代表图像的信息和图像分类存在准确率不高的缺陷。
本发明解决该技术问题所采用的技术方案是:一种词袋图像分类方法,是一种基于距离次序的视觉单词权重分配的词袋图像分类方法,步骤如下:
第一步,对图像进行分块并提取特征:
(1)图像采集与预处理:
用图像采集设备采集彩色图像,将其输入到计算机中,对获得的彩色图像从RGB空间转换到灰度空间,采用以下公式:
I=0.299R+0.587G+0.114B (1),
其中,R、G、B分别代表RGB彩色图像在R、G、B三个通道中的值,I代表灰度图像,由此完成图像采集与预处理;
(2)图像分块:
设上述第一步中步骤(1)中得到的图像的宽为W像素,高为V像素,对图像进行部分重叠分块,块大小为p×p像素,由于图像的尺寸各异,会存在图像块的边缘得不到p×p 块的可能,故分别按照公式(2)和公式(3)计算图像块在图像的水平和垂直方向上的第一块图像的起始坐标w1和v1,
其中,mod代表取余运算,floor为向上取整运算,s为移动步长像素,根据获得的起始坐标按照先自上到下之后从左向右的顺序根据块的大小p×p像素和移动步长s像素对整幅灰度图像进行部分重叠分块,即:在位置为上下关系的图像块中,上图像块的下半部分和下图像块中的上半部分重叠,在位置为左右关系的图像块中,左图像块的右半部分和右图像块中的左半部分重叠,得到的每一幅具体图像的块数记作Q,由此完成图像分块;
(3)提取特征并融合特征:
分别提取从上述第一步中步骤(2)中得到的每一个图像块的单尺度SIFT特征和方向梯度直方图特征,并对两种特征进行串联,其中SIFT特征维数为128维,方向梯度直方图特征设置为8方向,这样串联后的每一个图像块的最终特征向量维数为128+8=136维;
第二步,对获得的特征进行聚类生成“视觉单词词汇表”:
把第一步获得的特征视为“视觉单词”,采用K-means均值聚类算法对其进行聚类,从而获得“视觉单词”数量为M的“视觉单词词汇表”,在聚类算法中迭代收敛的阈值设置为0.0093;
第三步,计算待分配“视觉单词”的权重:
计算上述第二步得到的“视觉单词词汇表”中的“视觉单词”和待分配的“视觉单词”之间的欧氏距离,取距离最近的前N个“视觉单词词汇表”中的“视觉单词”,N≤M,按照公式(4)计算这N个“视觉单词”中每个单词所占的权重,
其中δi=1/2i,其中i=1,2,...,N,代表序数为i的“视觉单词”在N个待分配的“视觉单词”中分配到的归一化的权重;
第四步,结合空间金字塔理论获得每幅图像的最终直方图表示:
利用空间金字塔模型对上述第一步图像采集到的一幅整幅灰度图像进行不同层次的分层处理,统计每层中图像直方图表示信息,然后针对不同层的直方图表示信息分配不同的权值得到该层的最终直方图表示,最后把不同层的直方图表示按照层数顺序连接成该幅图像最终的表示信息,将其作为该幅图像的直方图表示,其具体的步骤如下:
(1)对第一步中得到的灰度图像进行分层处理:
确定第一步中一幅整幅灰度图像在灰度空间金字塔中的层次数目为L,并将该幅灰度图像进行分层处理,用l代表图像在空间金字塔中的具体层次,l=0,1,…,L-1,其中l=0表示原图像,在l层把该幅灰度图像均匀分为不重叠的2l×2l块子图像;
(2)统计不同层次图像中不同子块的图像直方图表示:
对第l=0层图像即原图像,统计由第三步的方法获得的所在块图像的待分配“视觉单词”分配到“视觉单词词汇表”的权重,进而获得上述第四步中步骤(1)中所述的整幅灰度图像的直方图表示,其中直方图的横坐标为M个视觉单词字典的序数,纵坐标为在所在图像中对应“视觉单词词汇表”中相应“视觉单词”出现的频次,最终得到一个1×M的向量来表征该幅图像的第0层特征,将其记作H0
对于上述第四步中步骤(1)中在l层把该幅灰度图像均匀分为不重叠的2l×2l块子的图像,从左上角的第一个小块图像开始,自上而下而后自左向右分别记作第k块, k=1,...,2l×2l,逐块统计由第三步获得的所在块图像中待分配的“视觉单词”分配到“视觉单词词汇表”的权重,进而获得该层图像的直方图表示,其中直方图的横坐标为M 个视觉单词字典的序数,纵坐标为在所在图像块中对应“视觉单词词汇表”中相应“视觉单词”出现的频次,利用得到的2l×2l个1×M的向量来表征该幅图像的第l层特征,将2l×2l个向量按照顺序连接记作Hl,由此完成统计不同层次图像中不同子块的图像直方图表示;
(3)计算图像的直方图表示:
对不同层次的金字塔图像表示分配不同的权重,并且将不同层次的图像表征特征串联成一个直方图表示,对于不同层次的金字塔图像表示按照公式(5)分配权重:
式中ωl代表第l层金字塔图像中直方图表示获得的未归一化权重,对所得权重按照公式 (6)进行归一化处理:
分别将不同层金字塔图像获得的权重归一化和对应层获得的图像直方图表征向量 Hl相乘,得到每一层金字塔图像的最终直方图表示H′l,并将不同层的H′l连接成这幅图像在不同层金字塔最终的表示H,H的计算方法按照公式(7)和公式(8)计算:
H=[H′0 H′1 … H′l] (7),
由此完成结合空间金字塔理论获得每幅图像的最终直方图表示;
第五步,利用支持向量机对待测图像进行分类,最后输出图像类别:
使用支持向量机SVM对训练图像进行学习,采用直方图相交核函数HistogramIntersection Kernel,训练集和测试集均为随机选取,对于其他待分类图像同样进行前四个步骤的处理,获得待分类图像的直方图表示,在分类器学习完毕后对待分类图像进行分类处理,最后输出图像类别。
上述一种词袋图像分类方法,所述块大小为p×p像素中p=16,移动步长s像素中s=8。
上述一种词袋图像分类方法,所述取距离最近的前N个属于“视觉单词词汇表”中的“视觉单词”,其中N=3。
上述一种词袋图像分类方法,所述确定第一步中一幅整幅灰度图像在灰度空间金字塔中的层次数目为L=3。
上述一种词袋图像分类方法,所述采用直方图相交核函数HistogramIntersection Kernel,其中参数c的值设置为200,参数g的值设置为8。
本发明的有益效果是:与现有技术相比,本发明的突出的实质性特点和显著性如下:
(1)本发明方法是在提取图像的分块融合特征后,对其聚类形成“视觉单词词汇表”,在待分配的“视觉单词”的分配权重阶段采用一种与距离次序有关的权重分配方法并结合空间金字塔模型完成对图像的表示,将得到的图像表示数据输入到SVM训练分类器中完成对待测图像的分类,该方法由于采用了分块融合特征和新的权值分配技术,大大提升了图像分类的准确率。
(2)本发明方法提取单尺度特征,并将方向梯度直方图特征和SIFT特征融合在一起,更好地表征了图像信息;这就在特征提取上克服了现有技术的提取尺度不变特征需要构建尺度空间,浪费时间的缺陷。
(3)本发明方法在“视觉单词”分配权重阶段,不再单纯的把“视觉单词”全部的权重分配给“视觉单词词汇表”中的某一个“视觉单词”,而是根据距离的次序信息把一个“视觉单词”按照不同的权重分配到“视觉单词词汇表”中的N个单词中,从而避免了现有技术中采用近似同类的词汇被硬性分配到“视觉单词词汇表”中不同的“视觉单词”的方法所造成的缺陷。
(4)本发明方法在生成图像的表示阶段,采用基于距离次序的权重分配方法和空间金字塔模型相结合,并以直方图相交核函数的支持向量机对训练图像进行学习,提高了图像分类的效果。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明一种词袋图像分类方法的流程示意框图。
图2(a)为现有词袋图像分类方法在“视觉单词”分配权重阶段的示意图。
图2(b)为本发明一种词袋图像分类方法在“视觉单词”分配权重阶段的示意图。
具体实施方式
图1所示实施例表明,本发明一种词袋图像分类方法的流程是:对图像进行分块并提取特征→对获得的特征进行聚类生成“视觉单词词汇表”→计算待分配“视觉单词”的权重→结合空间金字塔理论获得每幅图像的最终直方图表示→利用支持向量机对待测图像进行分类,最后输出图像类别。
图2(a)和图2(b)图中:A、B、C为“视觉单词词汇表”中的“视觉单词”,a、 b、c、d为待分配到“视觉单词词汇表”中的“视觉单词”,m、n、l代表在特征空间中 AB、AC、BC的中垂线。
图2(a)显示现有词袋图像分类方法在“视觉单词”分配权重阶段的情况。根据a、b、c、d距离A、B、C的欧几里得距离的远近,将a、b、c、d分别完全分配到其中的某一个单词中,即a分配给A,b和c分配给B,d分给配C,由此在图像的直方图表示中, A、B、C的出现频次分别增加1、2、1次,但是从图中可以看出在特征空间完全按照以上方法分配是不合理的,a距离A实际上只比距离B近一点,却被分配到了A中,忽略了a 和B的相似性,这一过程忽视了a对B的贡献,同理b、c被分给了B,忽视了其和其他“视觉单词”的相似性,d被分到了C,也完全忽视了其和其他“视觉单词”的相似性。
图2(b)显示本发明一种词袋图像分类方法在“视觉单词”分配权重阶段的情况。图中的a、b、c、d不再单纯的只分配到A、B、C中的某一个,而是将其中每一个“视觉单词词汇表”中的“视觉单词”都按照不同的权重分到A、B、C中,用实线箭头和不同的虚线箭头表示分配到不同“视觉词汇”的过程,实线表示距离最近的“视觉词汇”,虚线表示次最近距离的“视觉词汇”,也就是说每个待分配的“视觉单词词汇表”中的“视觉单词”对于相似的“视觉单词”都是有贡献的。本发明一种词袋图像分类方法根据待分配的“视觉单词”和“视觉单词词汇表”中的“视觉单词”距离的远近把每个待分配的“视觉单词”分配给距离最近的前N个“视觉单词”,这样就克服了现有方法存在的缺陷。实施例
本实施例的一种词袋图像分类方法,是一种基于距离次序的视觉单词权重分配的词袋图像分类方法,步骤如下:
第一步,对图像进行分块并提取特征:
(1)图像采集与预处理:
用图像采集设备采集彩色图像,将其输入到计算机中,对获得的彩色图像由RGB空间转换到灰度空间,采用以下公式:
I=0.299R+0.587G+0.114B (1),
其中,R、G、B分别代表RGB彩色图像在R、G、B三个通道中的值,I代表灰度图像,由此完成图像采集与预处理;
(2)图像分块:
设上述第一步中步骤(1)中得到的图像的宽为W像素,高为V像素,对图像进行部分重叠分块,块大小为p×p像素,其中p=16,由于图像的尺寸各异,会存在图像块的边缘得不到p×p块的可能,故分别按照公式(2)和公式(3)计算图像块在图像的水平和垂直方向上的第一块图像的起始坐标w1和v1,
其中,mod代表取余运算,floor为向上取整运算,s为移动步长像素,s=8,根据获得的起始坐标按照先自上到下之后从左向右的顺序根据块的大小p×p像素和移动步长s像素对整幅灰度图像进行部分重叠分块,即:在位置为上下关系的图像块中,上图像块的下半部分和下图像块中的上半部分重叠,在位置为左右关系的图像块中,左图像块的右半部分和右图像块中的左半部分重叠,得到的每一幅具体图像的块数记作Q,由此完成图像分块;
(3)提取特征并融合特征:
分别提取从上述第一步中步骤(2)中得到的每一个图像块的单尺度SIFT特征和方向梯度直方图特征,并对两种特征进行串联,其中SIFT特征维数为128维,方向梯度直方图特征设置为8方向,这样串联后的每一个图像块的最终特征向量维数为128+8=136维;
第二步,对获得的特征进行聚类生成“视觉单词词汇表”:
把第一步获得的特征视为“视觉单词”,采用K-means均值聚类算法对其进行聚类,从而获得“视觉单词”数量为M的“视觉单词词汇表”,在聚类算法中迭代收敛的阈值设置为0.0093;
第三步,计算待分配“视觉单词”的权重:
计算上述第二步得到的“视觉单词词汇表”中的“视觉单词”和待分配的“视觉单词”之间的欧氏距离,取距离最近的前N个“视觉单词词汇表”中的“视觉单词”,N=3,按照公式(4)计算这N个待分配的“视觉单词”中的权重,
其中δi=1/2i,其中i=1,2,3,代表序数为i的“视觉单词”在3个待分配的“视觉单词”中分配到的归一化的权重;
第四步,结合空间金字塔理论获得每幅图像的最终直方图表示:
利用空间金字塔模型对上述第一步图像采集到的一幅整幅灰度图像进行不同层次的分层处理,统计每层中图像直方图表示信息,然后针对不同层的直方图表示信息分配不同的权值得到该层的最终直方图表示,最后把不同层的直方图表示按照层数顺序连接成该幅图像最终的表示信息,将其作为该幅图像的直方图表示,其具体的步骤如下:
(1)对第一步中得到的灰度图像进行分层处理:
确定第一步中一幅整幅灰度图像在灰度空间金字塔中的层次数目为L=3,并将该幅灰度图像进行分层处理,用l代表图像在空间金字塔中的具体层次,l=0,1,…,L-1,其中l=表示原图像,在l层把该幅灰度图像均匀分为不重叠的2l×2l块子图像;
(2)统计不同层次图像中不同子块的图像直方图表示:
对第l=0层图像即原图像,统计由第三步的方法获得的所在块图像的待分配“视觉单词”分配到“视觉单词词汇表”的权重,进而获得上述第四步中步骤(1)中所述的整幅灰度图像的直方图表示,其中直方图的横坐标为M个视觉单词字典的序数,纵坐标为在所在图像中对应“视觉单词词汇表”中相应“视觉单词”出现的频次,最终得到一个1×M的向量来表征该幅图像的第0层特征,将其记作H0
对于上述第四步中步骤(1)中在l层把该幅灰度图像均匀分为不重叠的2l×2l块子的图像,从左上角的第一个小块图像开始,自上而下而后自左向右分别记作第k块, k=1,...,2l×2l,逐块统计由第三步获得的所在块图像中待分配的“视觉单词”分配到“视觉单词词汇表”的权重,进而获得该层图像的直方图表示,其中直方图的横坐标为M 个视觉单词字典的序数,纵坐标为在所在图像块中对应“视觉单词词汇表”中相应“视觉单词”出现的频次,利用得到的2l×2l个1×M的向量来表征该幅图像的第l层特征,将2l×2l个向量按照顺序连接记作Hl,由此完成统计不同层次图像中不同子块的图像直方图表示;
(3)计算图像的直方图表示:
对不同层次的金字塔图像表示分配不同的权重,并且将不同层次的图像表征特征串联成一个直方图表示,对于不同层次的金字塔图像表示按照公式(5)分配权重:
式中ωl代表第l层金字塔图像中直方图表示获得的未归一化权重,对所得权重按照公式 (6)进行归一化处理:
分别将不同层金字塔图像获得的权重归一化和对应层获得的图像直方图表征向量 Hl相乘,得到每一层金字塔图像的最终直方图表示H′l,并将不同层的H′l连接成这幅图像在不同层金字塔最终的表示H,H的计算方法按照公式(7)和公式(8)计算:
H=[H′0 H′1 … H′l] (7),
由此完成结合空间金字塔理论获得每幅图像的最终直方图表示;
第五步,利用支持向量机对待测图像进行分类,最后输出图像类别:
使用支持向量机SVM对训练图像进行学习,采用直方图相交核函数HistogramIntersection Kernel,其中参数c的值设置为200,参数g的值设置为8,训练集和测试集均为随机选取,对于其他待分类图像同样进行前四个步骤的处理,获得待分类图像的直方图表示,在分类器学习完毕后对待分类图像进行分类处理,最后输出图像类别。

Claims (5)

1.一种词袋图像分类方法,其特征在于:是一种基于距离次序的视觉单词权重分配的词袋图像分类方法,步骤如下:
第一步,对图像进行分块并提取特征:
(1)图像采集与预处理:
用图像采集设备采集彩色图像,将其输入到计算机中,对获得的彩色图像从RGB空间转换到灰度空间,采用以下公式:
I=0.299R+0.587G+0.114B (1),
其中,R、G、B分别代表RGB彩色图像在R、G、B三个通道中的值,I代表灰度图像,由此完成图像采集与预处理;
(2)图像分块:
设上述第一步中步骤(1)中得到的图像的宽为W像素,高为V像素,对图像进行部分重叠分块,块大小为p×p像素,由于图像的尺寸各异,会存在图像块的边缘得不到p×p块的可能,故分别按照公式(2)和公式(3)计算图像块在图像的水平和垂直方向上的第一块图像的起始坐标w1和v1,
其中,mod代表取余运算,floor为向上取整运算,s为移动步长像素,根据获得的起始坐标按照先自上到下之后从左向右的顺序根据块的大小p×p像素和移动步长s像素对整幅灰度图像进行部分重叠分块,即:在位置为上下关系的图像块中,上图像块的下半部分和下图像块中的上半部分重叠,在位置为左右关系的图像块中,左图像块的右半部分和右图像块中的左半部分重叠,得到的每一幅具体图像的块数记作Q,由此完成图像分块;
(3)提取特征并融合特征:
分别提取从上述第一步中步骤(2)中得到的每一个图像块的单尺度SIFT特征和方向梯度直方图特征,并对两种特征进行串联,其中SIFT特征维数为128维,方向梯度直方图特征设置为8方向,这样串联后的每一个图像块的最终特征向量维数为128+8=136维;
第二步,对获得的特征进行聚类生成“视觉单词词汇表”:
把第一步获得的特征视为“视觉单词”,采用K-means均值聚类算法对其进行聚类,从而获得“视觉单词”数量为M的“视觉单词词汇表”,在聚类算法中迭代收敛的阈值设置为0.0093;
第三步,计算待分配“视觉单词”的权重:
计算上述第二步得到的“视觉单词词汇表”中的“视觉单词”和待分配的“视觉单词”之间的欧氏距离,取距离最近的前N个“视觉单词词汇表”中的“视觉单词”,N≤M,按照公式(4)计算这N个“视觉单词”中每个单词所占的权重,
其中δi=1/2i,其中i=1,2,...,N,代表序数为i的“视觉单词”在N个待分配的“视觉单词”中分配到的归一化的权重;
第四步,结合空间金字塔理论获得每幅图像的最终直方图表示:
利用空间金字塔模型对上述第一步图像采集到的一幅整幅灰度图像进行不同层次的分层处理,统计每层中图像直方图表示信息,然后针对不同层的直方图表示信息分配不同的权值得到该层的最终直方图表示,最后把不同层的直方图表示按照层数顺序连接成该幅图像最终的表示信息,将其作为该幅图像的直方图表示,其具体的步骤如下:
(1)对第一步中得到的灰度图像进行分层处理:
确定第一步中一幅整幅灰度图像在灰度空间金字塔中的层次数目为L,并将该幅灰度图像进行分层处理,用l代表图像在空间金字塔中的具体层次,l=0,1,…,L-1,其中l=0表示原图像,在l层把该幅灰度图像均匀分为不重叠的2l×2l块子图像;
(2)统计不同层次图像中不同子块的图像直方图表示:
对第l=0层图像即原图像,统计由第三步的方法获得的所在块图像的待分配“视觉单词”分配到“视觉单词词汇表”的权重,进而获得上述(1)中所述的整幅灰度图像的直方图表示,其中直方图的横坐标为M个视觉单词字典的序数,纵坐标为在所在图像中对应“视觉单词词汇表”中相应“视觉单词”出现的频次,最终得到一个1×M的向量来表征该幅图像的第0层特征,将其记作H0
对于上述第四步中步骤(1)中在l层把该幅灰度图像均匀分为不重叠的2l×2l块子的图像,从左上角的第一个小块图像开始,自上而下而后自左向右分别记作第k块,k=1,...,2l×2l,逐块统计由第三步获得的所在块图像中待分配的“视觉单词”分配到“视觉单词词汇表”的权重,进而获得该层图像的直方图表示,其中直方图的横坐标为M个视觉单词字典的序数,纵坐标为在所在图像块中对应“视觉单词词汇表”中相应“视觉单词”出现的频次,利用得到的2l×2l个1×M的向量来表征该幅图像的第l层特征,将2l×2l个向量按照顺序连接记作Hl,由此完成统计不同层次图像中不同子块的图像直方图表示;
(3)计算图像的直方图表示:
对不同层次的金字塔图像表示分配不同的权重,并且将不同层次的图像表征特征串联成一个直方图表示,对于不同层次的金字塔图像表示按照公式(5)分配权重:
式中ωl代表第l层金字塔图像中直方图表示获得的未归一化权重,对所得权重按照公式(6)进行归一化处理:
分别将不同层金字塔图像获得的权重归一化和对应层获得的图像直方图表征向量Hl相乘,得到每一层金字塔图像的最终直方图表示H′l,并将不同层的H′l连接成这幅图像在不同层金字塔最终的表示H,H的计算方法按照公式(7)和公式(8)计算:
H=[H′0 H′1 … H′l] (7),
由此完成结合空间金字塔理论获得每幅图像的最终直方图表示;
第五步,利用支持向量机对待测图像进行分类,最后输出图像类别:
使用支持向量机SVM对训练图像进行学习,采用直方图相交核函数HistogramIntersection Kernel,训练集和测试集均为随机选取,对于其他待分类图像同样进行前四个步骤的处理,获得待分类图像的直方图表示,在分类器学习完毕后对待分类图像进行分类处理,最后输出图像类别。
2.根据权利要求1所述一种词袋图像分类方法,其特征在于:所述块大小为p×p像素中p=16,移动步长s像素中s=8。
3.根据权利要求1所述一种词袋图像分类方法,其特征在于:所述取距离最近的前N个属于“视觉单词词汇表”中的“视觉单词”,其中N=3。
4.根据权利要求1所述一种词袋图像分类方法,其特征在于:所述确定第一步中一幅整幅灰度图像在灰度空间金字塔中的层次数目为L=3。
5.根据权利要求1所述一种词袋图像分类方法,其特征在于:所述采用直方图相交核函数Histogram Intersection Kernel,其中参数c的值设置为200,参数g的值设置为8。
CN201510683226.0A 2015-10-20 2015-10-20 一种词袋图像分类方法 Expired - Fee Related CN105303195B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510683226.0A CN105303195B (zh) 2015-10-20 2015-10-20 一种词袋图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510683226.0A CN105303195B (zh) 2015-10-20 2015-10-20 一种词袋图像分类方法

Publications (2)

Publication Number Publication Date
CN105303195A CN105303195A (zh) 2016-02-03
CN105303195B true CN105303195B (zh) 2018-09-28

Family

ID=55200437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510683226.0A Expired - Fee Related CN105303195B (zh) 2015-10-20 2015-10-20 一种词袋图像分类方法

Country Status (1)

Country Link
CN (1) CN105303195B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250909A (zh) * 2016-07-11 2016-12-21 南京邮电大学 一种基于改进视觉词袋模型的图像分类方法
CN106491322A (zh) * 2016-12-14 2017-03-15 西安邮电大学 基于OpenCV图像识别的盲人拐杖控制系统及方法
CN106919920B (zh) * 2017-03-06 2020-09-22 重庆邮电大学 基于卷积特征和空间视觉词袋模型的场景识别方法
CN106934401B (zh) * 2017-03-07 2020-02-21 上海师范大学 一种基于改进词袋模型的图像分类方法
CN108764275B (zh) * 2018-04-10 2020-08-04 甘肃农业大学 叶片病害的识别方法和系统
CN108647307A (zh) * 2018-05-09 2018-10-12 京东方科技集团股份有限公司 图像处理方法、装置、电子设备及存储介质
CN108960260B (zh) * 2018-07-12 2020-12-29 东软集团股份有限公司 一种分类模型生成方法、医学影像图像分类方法及装置
CN109815835A (zh) * 2018-12-29 2019-05-28 联动优势科技有限公司 一种交互式活体检测方法
CN111310712B (zh) * 2020-03-04 2024-02-13 杭州晟元数据安全技术股份有限公司 一种基于指纹词袋特征的快速搜索方法
CN111414958B (zh) * 2020-03-18 2022-02-08 燕山大学 一种视觉词袋金字塔的多特征图像分类方法及系统
CN113627455A (zh) * 2020-05-09 2021-11-09 阿里巴巴集团控股有限公司 图像类别确定方法及装置
CN111652309A (zh) * 2020-05-29 2020-09-11 刘秀萍 视觉单词和短语共驱动的词袋模型图片分类方法
CN111950597B (zh) * 2020-07-15 2022-10-18 重庆邮电大学 机器人基于原图光照不变图词袋模型改进的闭环检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778475A (zh) * 2015-03-30 2015-07-15 南京邮电大学 一种基于环形区域最大频繁视觉单词的图像分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8705866B2 (en) * 2010-12-07 2014-04-22 Sony Corporation Region description and modeling for image subscene recognition

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778475A (zh) * 2015-03-30 2015-07-15 南京邮电大学 一种基于环形区域最大频繁视觉单词的图像分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于词袋模型的图像优化分类方法;赵春晖 等;《电子与信息学报》;20120915;第34卷(第9期);第2064-2070页 *

Also Published As

Publication number Publication date
CN105303195A (zh) 2016-02-03

Similar Documents

Publication Publication Date Title
CN105303195B (zh) 一种词袋图像分类方法
Song et al. Region-based quality estimation network for large-scale person re-identification
Yang et al. Real-time face detection based on YOLO
CN109670528B (zh) 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法
CN105512624B (zh) 一种人脸图像的笑脸识别方法及其装置
CN104134234B (zh) 一种全自动的基于单幅图像的三维场景构建方法
CN110674741B (zh) 一种基于双通道特征融合的机器视觉中手势识别方法
CN109344821A (zh) 基于特征融合和深度学习的小目标检测方法
CN107341517A (zh) 一种基于深度学习层级间特征融合的多尺度小物体检测方法
CN109800817B (zh) 基于融合语义神经网络的图像分类方法
CN115661943B (zh) 一种基于轻量级姿态评估网络的跌倒检测方法
CN110110578B (zh) 一种室内场景语义标注方法
CN109583481B (zh) 一种基于卷积神经网络的细粒度服装的属性识别方法
CN110633708A (zh) 一种基于全局模型和局部优化的深度网络显著性检测方法
CN111738344A (zh) 一种基于多尺度融合的快速目标检测方法
CN106778852A (zh) 一种修正误判的图像内容识别方法
CN107341440A (zh) 基于多任务度量多核学习的室内rgb‑d场景图像识别方法
CN107944459A (zh) 一种rgb‑d物体识别方法
Yang et al. Multi-scale bidirectional fcn for object skeleton extraction
CN108564111A (zh) 一种基于邻域粗糙集特征选择的图像分类方法
Zhang et al. Deep salient object detection by integrating multi-level cues
CN108959379A (zh) 一种基于视觉显著区域和手绘草图的服装图像检索方法
CN106874913A (zh) 一种菜品检测方法
CN109215131A (zh) 虚拟人脸的驱动方法及装置
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Yan Gang

Inventor after: Yu Yang

Inventor after: Guo Yingchun

Inventor after: Kang Junguang

Inventor after: Liu Yi

Inventor after: Shi Shuo

Inventor after: Zhang Yajuan

Inventor after: Yang Yueqiang

Inventor before: Yan Gang

Inventor before: Yu Yang

Inventor before: Guo Yingchun

Inventor before: Liu Yi

Inventor before: Shi Shuo

Inventor before: Zhang Yajuan

Inventor before: Yang Yueqiang

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180928