CN106934383B - 文件中图片标注信息识别方法、装置及服务器 - Google Patents
文件中图片标注信息识别方法、装置及服务器 Download PDFInfo
- Publication number
- CN106934383B CN106934383B CN201710178013.1A CN201710178013A CN106934383B CN 106934383 B CN106934383 B CN 106934383B CN 201710178013 A CN201710178013 A CN 201710178013A CN 106934383 B CN106934383 B CN 106934383B
- Authority
- CN
- China
- Prior art keywords
- text
- text object
- picture
- object set
- style
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012216 screening Methods 0.000 claims abstract description 45
- 238000010200 validation analysis Methods 0.000 claims abstract description 35
- 238000012795 verification Methods 0.000 claims abstract description 35
- 238000001914 filtration Methods 0.000 claims description 21
- 238000004891 communication Methods 0.000 claims description 16
- 238000007621 cluster analysis Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 241000406668 Loxodonta cyclotis Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种文件中图片标注信息识别方法、装置、服务器及计算机存储介质。本发明先对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合,从多个第一文本对象集合中过滤掉正文文本对象集合,针对每个图片页面,筛选得到至少一个第二文本对象集合,不仅可以节省验证资源,而且还提升了文件中图片标注信息的识别速率,针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,可以进一步提升图片与图片标注信息关联的准确性。利用本发明提供的技术方案,能够准确地将图片标注信息与图片关联在一起,保证关联后的文本对象能够正确地对图片进行解释和说明。
Description
技术领域
本发明涉及信息处理技术领域,具体涉及一种文件中图片标注信息识别 方法、装置、服务器及计算机存储介质。
背景技术
随着网络技术的发展,人们可以通过不同的设备、不同的途径获得各种 各样的电子文件,这些电子文件极大地丰富了人们的工作和生活内容。
很多时候,需要对电子文件进行重新排版,对于包含图片的文件,文件 中一般还会包含图片的标注信息。然而,在现有技术的排版过程中,图片的 标注信息的识别准确率较低,而且很容易将图片标注信息与图片错误地关联 在一起,或者将文件中非图片标注信息与图片错误地关联在一起,导致关联 后的文本并不能正确地对图片进行解释和说明,从而影响用户的阅读,进而 影响文件的浏览量。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分 地解决上述问题的文件中图片标注信息识别方法、文件中图片标注信息识别 装置、服务器和计算机存储介质。
根据本发明的一个方面,提供了一种文件中图片标注信息识别方法,包 括:
对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的 多个第一文本对象集合;
从多个第一文本对象集合中过滤掉正文文本对象集合;
遍历文件的所有页面,查询到所有页面中包含图片的图片页面;
针对每个图片页面,筛选得到至少一个第二文本对象集合;
针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效 性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性 验证,则将属于该文字样式的第二文本对象集合过滤掉;
从未被过滤掉的第二文本对象集合中提取出文本对象,根据文本对象与 图片的相对位置关系确定文本对象与图片的关联关系。
根据本发明的另一方面,提供了一种文件中图片标注信息识别装置,包 括:
聚类分析模块,适于对文件中的文本对象进行文字样式聚类分析,得到 具有不同文字样式的多个第一文本对象集合;
过滤模块,适于从多个第一文本对象集合中过滤掉正文文本对象集合;
查询模块,适于遍历文件的所有页面,查询到所有页面中包含图片的图 片页面;
筛选模块,适于针对每个图片页面,筛选得到至少一个第二文本对象集 合;
验证模块,适于针对每一个第二文本对象集合,对属于该文字样式的文 本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式, 若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉;
关联模块,适于从未被过滤掉的第二文本对象集合中提取出文本对象, 根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系。
根据本发明的又一方面,提供了一种服务器,包括:处理器、存储器、 通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通 信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器 执行上述文件中图片标注信息识别方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,所述存储介质中 存储有至少一可执行指令,所述可执行指令使所述处理器执行如上述文件中 图片标注信息识别方法对应的操作。
根据本发明提供的方案,先对文件中的文本对象进行文字样式聚类分析, 得到具有不同文字样式的多个第一文本对象集合,从多个第一文本对象集合 中过滤掉正文文本对象集合,针对每个图片页面,筛选得到至少一个第二文 本对象集合,不仅可以节省验证资源,而且还提升了文件中图片标注信息的 识别速率,针对每一个第二文本对象集合,对属于该文字样式的文本对象进 行有效性验证,判断该文字样式是否是图片标注信息的文字样式,可以进一 步提升图片与图片标注信息关联的准确性。利用本发明提供的技术方案,能 够准确地将图片标注信息与图片关联在一起,保证关联后的文本对象能够正 确地对图片进行解释和说明。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技 术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它 目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本 领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的, 而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示 相同的部件。在附图中:
图1示出了根据本发明一个实施例的文件中图片标注信息识别方法的流 程示意图;
图2示出了根据本发明另一个实施例的文件中图片标注信息识别方法的 流程示意图;
图3示出了根据本发明另一个实施例的文件中图片标注信息识别方法的 流程示意图;
图4是最小矩形区域的示意图;
图5示出了页面包含的图片和图片标注信息的示意图;
图6示出了根据本发明一个实施例的文件中图片标注信息识别装置的结 构示意图;
图7示出了根据本发明另一个实施例的文件中图片标注信息识别装置的 结构示意图;
图8示出了根据本发明另一个实施例的文件中图片标注信息识别装置的 结构示意图;
图9示出了根据本发明一个实施例的服务器的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示 了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不 应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地 理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的文件中图片标注信息识别方法的流 程示意图。其中,图片标注信息包括:图题和/或图注,文本对象设置在图片 上方称为图题,文本对象设置在图片下方称为图注。如图1所示,该方法包 括以下步骤:
步骤S100,对文件中的文本对象进行文字样式聚类分析,得到具有不同 文字样式的多个第一文本对象集合。
在对文件中的文本对象进行文字样式聚类分析之前,需要对文件进行初 步识别,得到文件包含的文本对象,然后对文件中的文本对象进行解析得到 文本对象的文字样式,在得到文字样式之后,对文本对象进行文字样式聚类 分析,将具有相同文字样式的文本对象聚类在一起,得到具有不同文字样式 的多个第一文本对象集合,其中,每个第一文本对象集合包含同一种文字样 式的文本对象。
步骤S101,从多个第一文本对象集合中过滤掉正文文本对象集合。
步骤S100是对整个文件中的文本对象进行的文字样式聚类分析,所得到 的多个第一文本对象集合中包含了正文文本对象集合,一般情况下,正文的 文本对象的项数较多,为了能够提升图片标注信息识别速率,节省验证资源, 可以首先从多个第一文本对象集合中过滤掉正文文本对象集合,其中,正文 文本对象集合为非图片标注信息的文本对象集合。
步骤S102,遍历文件的所有页面,查询到所有页面中包含图片的图片页 面。
对于任一文件,可能存在部分页面不包含图片的情况,因此,需要遍历 文件的所有页面,从文件的所有页面中查找出包含图片的图片页面,具体地, 可以根据图片属性信息查询到所有页面中包含图片的图片页面。
步骤S103,针对每个图片页面,筛选得到至少一个第二文本对象集合。
在查询到所有页面中包含图片的图片页面之后,针对每个图片页面,还 需要筛选得到文本对象集合可能是图片标注信息的文本对象集合,即,至少 一个第二文本对象集合。
步骤S104,针对每一个第二文本对象集合,对属于该文字样式的文本对 象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没 通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉。
步骤S103仅是粗略的筛选,筛选得到的第二文本对象集合中可能还包含 非图片标注信息的文本对象集合,因此,在得到至少一个第二文本对象集合 后,针对每一个第二文本对象集合,还需要对整个文件中属于该文字样式的 文本对象进行有效性验证,验证该文字样式是否是图片标注信息的文字样式。
具体地,针对每一个第二文本对象集合,对属于该文字样式的文本对象 进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通 过有效性验证,则说明该文本对象不是图片标注信息,这样可以确定与该文 本对象具有相同文字样式的文本对象都不是图片标注信息,则可以将属于该 文字样式的第二文本对象集合过滤掉,从而进一步提升了图片与图片标注信 息关联的准确性。
步骤S105,从未被过滤掉的第二文本对象集合中提取出文本对象,根据 文本对象与图片的相对位置关系确定文本对象与图片的关联关系。
未被过滤掉的第二文本对象集合中的文本对象可以认定为是图片标注信 息,因此,在确定了图片标注信息后,可以从未被过滤掉的第二文本对象集 合中提取出文本对象,然后根据文本对象与图片的相对位置关系确定文本对 象与图片的关联关系,从而准确地将图片标注信息与图片关联在一起。
根据本发明上述实施例提供的方法,先对文件中的文本对象进行文字样 式聚类分析,得到具有不同文字样式的多个第一文本对象集合,从多个第一 文本对象集合中过滤掉正文文本对象集合,针对每个图片页面,筛选得到至 少一个第二文本对象集合,不仅可以节省验证资源,而且还提升了文件中图 片标注信息的识别速率,针对每一个第二文本对象集合,对属于该文字样式 的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样 式,可以进一步提升图片与图片标注信息关联的准确性。利用本发明提供的技术方案,不仅能够准确地将图片标注信息与图片关联在一起,保证关联后 的文本对象能够正确地对图片进行解释和说明,而且还使得用户可以顺利的 阅读文件,提升文件的浏览量。
图2示出了根据本发明另一个实施例的文件中图片标注信息识别方法的 流程示意图。如图2所示,该方法包括以下步骤:
步骤S200,对文件中的文本对象进行文字样式聚类分析,得到具有不同 文字样式的多个第一文本对象集合。
在对文件中的文本对象进行文字样式聚类分析之前,首先,需要对文件 进行初步识别,得到文件包含的文本对象,然后,对文件中的文本对象进行 解析得到文本对象的文字样式,其中,文字样式包括:文字字号和文字字体, 在得到文字样式之后,对文本对象进行文字样式聚类分析,将具有相同文字 样式的文本对象聚类在一起,举例说明,对于文本对象1,根据文本对象1 的文字样式创建文字样式1的文本对象集合,并将文本对象1划分到文字样 式1的文本对象集合中,然后将文本对象2的文字样式与文本对象1的文字 样式进行比较,确定文本对象2的文字样式不同于文字对象1的文字样式, 则根据文本对象2的文字样式创建文字样式2的文本对象集合,并将文本对 象2划分到文字样式2的文本对象集合中,对于其他的文本对象类似,这里 不再赘述,最后得到具有不同文字样式的多个第一文本对象集合,其中,每 个第一文本对象集合包含同一种文字样式的文本对象。
步骤S201,对于每个第一文本对象集合,将文本对象的总项数与预设项 数阈值进行比较,将文本对象的总项数大于预设项数阈值的第一文本对象集 合过滤掉。
步骤S200是对整个文件中的文本对象进行的文字样式聚类分析,所得到 的多个第一文本对象集合中包含了正文文本对象集合,一般情况下,正文的 文本对象的项数较多,为了能够提升图片标注信息识别速率,节省验证资源, 对于每个第一文本对象集合,将文本对象的总项数与预设项数阈值进行比较, 文本对象的总项数大于预设项数阈值表明该文本对象集合不可能是图片标注 信息的文本对象集合,然后,将文本对象的总项数大于预设项数阈值的第一 文本对象集合过滤掉,这样可以从多个第一文本对象集合中过滤掉正文文本 对象集合,其中,正文文本对象集合为非图片标注信息的文本对象集合,预 设项数阈值可以根据实际经验进行设定。
步骤S202,遍历文件的所有页面,查询到所有页面中包含图片的图片页 面。
对于任一文件,可能存在部分页面不包含图片的情况,因此,需要遍历 文件的所有页面,从文件的所有页面中查找出包含图片的图片页面,在遍历 文件的所有页面之前,需要对文件进行初步识别,主要是为了得到文件包含 的文字和图片,然后,根据图片属性信息查询到所有页面中包含图片的图片 页面。
一般情况下,图片标注信息的文字字号小于正文文本对象的文字字号, 也就是说,图片页面中可能包含非图片标注信息的文本对象,为了能够节省 验证资源,并且提升文件中图片标注信息的识别速率,需要先对图片页面中 的文本对象进行初步筛选,可以采用如下方法:
针对每个图片页面,根据图片页面中所有文本对象的文字字号和最小矩 形覆盖原则对所有文本对象进行筛选,筛选得到至少一个第二文本对象集合, 具体地,可以通过步骤S203-步骤S206实现:
步骤S203,针对每个图片页面,将图片页面中所有文本对象的文字字号 与预设字号阈值进行比较,得到文字字号小于或等于预设字号阈值的文本对 象以及文字字号大于预设字号阈值的文本对象,并将文字字号大于预设字号 阈值的文本对象所属的文本对象集合确定为非图片标注信息的文本对象集 合。
文字字号限定了文本对象的字体大小,因此,文字字号是区分文本对象 具体内容的一个重要属性,文件中可能会使用多种文字字号来限定不同文本 对象的字体大小。一般情况下,图片标注信息的文字字号往往偏小。因此, 在查询到所有页面中包含图片的图片页面之后,针对每个图片页面,根据图 片页面中文本对象的文字字号进行初步筛选,筛选出图片页面中哪些文本对 象可能是图片标注信息。
举例说明,文件中除了正文以外,还可能包含标题、图片标注信息、注 释、页码等文字,一般在进行排版时会分别为上述文字设置不同的文字字号, 例如,设定标题、图片标注信息、注释、页码的文字字号分别为:18、12、 10、8,因此,根据文字字号可以将文字对象的属性区分开,但由于预先并不 了解各属性文字对象的实际字号,因此无法直接根据字号来识别出文字对象 的具体属性。
在查询到所有页面中包含图片的图片页面之后,可以将图片页面中所有 文本对象的文字字号与预设字号阈值进行比较,其中,预设字号阈值可以是 本领域技术人员根据经验设定的,例如,可以设定预设字号阈值为12,若文 本对象的文字字号小于或等于12,表明该文本对象可能是图片标注信息;若 文本对象的文字字号大于12,表明该文本对象不可能是图片标注信息,那么 该文本对象所属的文本对象集合不可能是图片标注信息的文本对象集合,因 此,可以将该文本对象所属的文本对象集合确定为非图片标注信息的文本对象集合。当然这里的文字字号、预设字号阈值仅仅是举例说明,不具有任何 限定作用。
当然,本发明还可以仅根据文本对象的文字字号筛选得到至少一个第二 文本对象集合,具体地,将图片页面中文本对象的文字字号与预设字号阈值 进行比较,将文字字号小于或等于预设字号阈值的文本对象所属的文本对象 集合确定为第二文本对象集合。但是为了进一步提升准确性,在根据文字字 号来进行筛选后,再利用最小矩形覆盖原则对文字字号小于或等于预设字号 阈值的文本对象进行验证。
根据文本对象的文字字号进行筛选,仅是初步地筛选,文件中图片标注 信息、注释、页码对应的文本对象的文字字号一般都小于或等于预设字号阈 值,因此在得到文字字号小于或等于预设字号阈值的文本对象之后,针对每 个图片页面,还要对图片页面中文字字号小于或等于预设字号阈值的文本对 象进行验证,具体采用如下方法:
步骤S204,针对每个文字字号小于或等于预设字号阈值的文本对象,判 断包含图片与文本对象的最小矩形区域中是否覆盖了其他文本对象,若包含 图片与文本对象的最小矩形区域中覆盖了其他文本对象,表明该文本对象不 可能是图片标注信息,则执行步骤S205;若包含图片与文本对象的最小矩形 区域中未覆盖其他文本对象,表明该文本对象可能是图片标注信息,则执行 步骤S206。
一般情况下,页面中图片与图片标注信息位置是相邻的,例如,图片标 注信息在图片的上方或下方,或者图片标注信息在图片的右侧,而且在排版 时,包含图片与图片标注信息的最小矩形区域内不会存在其他文本对象,因 此,可以通过判断包含图片与文本对象的最小矩形区域中是否覆盖了其他文 本对象,来确定该文本对象能否作为图片标注信息,进而确定该文本对象所 属的文本对象集合能否作为待确认的图片标注信息的文本对象集合,其中, 最小矩形区域指包含图片与文本对象的最小矩形,图4对最小矩形区域进行了示意性说明。
本实施例中,利用最小矩形区域覆盖原则对文字字号小于或等于预设字 号阈值的文本对象进行验证,可以进一步筛选出文字字号小于或等于预设字 号阈值的文本对象中不能作为图片标注信息的文本对象,进而筛选出不能作 为图片标注信息的文本对象集合,不仅能够节省后续的验证资源,而且还进 一步提升了图片与图片标注信息关联的准确性。
当然,本发明还可以仅利用最小矩形覆盖原则筛选得到至少一个第二文 本对象集合,即本实施例中步骤S203为可选步骤。如不包含步骤S203,则 在步骤S204中,针对每个图片页面的每个文本对象,判断包含图片与该文 本对象的最小矩形区域中是否覆盖了其他文本对象,若是,则将该文本对象 所属的文本对象集合确定为非图片标注信息的文本对象集合,并将第一文本 对象集合中除非图片标注信息的文本对象集合之外的文本对象集合确定为第 二文本对象集合,这里不做具体说明。
步骤S205,将该文本对象所属的文本对象集合确定为非图片标注信息的 文本对象集合。
在判断出包含图片与文本对象的最小矩形区域中覆盖了其他文本对象的 情况下,说明该文本对象不可能是图片标注信息,那么该文本对象所属的文 本对象集合中的其他文本对象也不可能是图片标注信息,因此,可以将该文 本对象所属的文本对象集合确定为非图片标注信息的文本对象集合,而第一 文本对象集合中,除非图片标注信息的文本对象集合之外的文本对象集合则 被确定为第二文本对象集合。
步骤S206,将第一文本对象集合中除非图片标注信息的文本对象集合之 外的文本对象集合确定为第二文本对象集合。
在判断出包含图片与文本对象的最小矩形区域中未覆盖其他文本对象的 情况下,说明该文本对象可能是图片标注信息,那么该文本对象所属的文本 对象集合中的其他文本对象也可能是图片标注信息,将第一文本对象集合中, 除非图片标注信息的文本对象集合之外的文本对象集合则被确定为第二文本 对象集合。
在执行步骤S203-步骤S206之后,部分第二文本对象集合还可能是非图 片标注信息的文本对象集合,因此,还需要针对第二文本对象集合中的文本 对象进行整个文件的验证,具体地,可以采用如下方法:
步骤S207,针对每一个第二文本对象集合,判断包含属于该文字样式的 文本对象的页面是否都包含图片,若包含属于该文字样式的文本对象的页面 未都包含图片,表明属于该文字样式的文本对象不可能是图片标注信息,则 执行步骤S208;若包含属于该文字样式的文本对象的页面都包含图片,表明 属于该文字样式的文本对象可能是图片标注信息,则执行步骤S209。
一般情况下,图片标注信息是与图片同时出现的,也就是说,若某页面 中存在图片,那么该页面中还会存在该图片的图片标注信息,因此,可以通 过判断包含属于该文字样式的文本对象的页面是否都包含图片来确定属于该 文字样式的文本对象是否为图片标注信息。本方法对文本对象的筛选较为严 格,从而提升了第二文本对象集合中文本对象是真正意义的图片标注信息的 概率。
步骤S208,将属于该文字样式的第二文本对象集合过滤掉,并将该第二 文本对象集合确定为非图片标注信息的文本对象集合。
若包含属于该文字样式的文本对象的页面未都包含图片,那么可以认定 属于该文字样式的第二文本对象集合不是图片标注信息的文本对象集合,则 可以将属于该文字样式的第二文本对象集合过滤掉,将该第二文本对象集合 确定为非图片标注信息的文本对象集合,也就是说,进一步确定了非图片标 注信息的文本对象集合,从而能够提升根据最小矩形覆盖原则对第二文本对 象集合进行验证的准确性。
当然,本发明还可以仅判断包含属于该文字样式的文本对象的页面是否 都包含图片来确定属于该文字样式的文本对象是否可能是图片标注信息,但 是为了进一步提升准确性,再利用最小矩形覆盖原则对第二文本对象集合进 行进一步地验证。
步骤S209,针对每一个第二文本对象集合,在包含图片和属于该文字样 式的文本对象的每一页中,判断包含图片与属于该文字样式的文本对象的最 小矩形区域中是否覆盖了其他文本对象,若包含图片与属于该文字样式的文 本对象的最小矩形区域中覆盖了其他文本对象,表明属于该文字样式的文本 对象不可能是图片标注信息,则步骤S210;若包含图片与属于该文字样式的 文本对象的最小矩形区域中未覆盖其他文本对象,表明属于该文字样式的文 本对象可能是图片标注信息,则执行步骤S211。
为了保证第二文本对象集合中的文本对象是真正意义上的图片标注信 息,在利用步骤S207对第二文本对象集合中的文本对象进行处理之后,还 需要对未被过滤掉的第二文本对象集合中的文本对象再次进行验证,此时, 第二文本对象集合中,文本对象所在页面中均包含图片,在包含图片和属于 该文字样式的文本对象的每一页中,可以判断包含图片与属于该文字样式的 文本对象的最小矩形区域中是否覆盖了其他文本对象来确定该第二文本对象 集合是否为图片标注信息的文本对象集合。
本实施例中,利用最小矩形区域覆盖原则对未被过滤掉的第二文本对象 集合进行验证,可以进一步筛选出不能作为图片标注信息的文本对象集合的 第二文本对象集合,从而提升了未被过滤掉的第二文本对象集合中的文本对 象是真正意义的图片标注信息的概率。
上述步骤S207和步骤S209择一为本实施例的可选步骤。即,有效性验 证可以仅包含步骤S207,或仅包含步骤S209,或包含步骤S207和步骤S209。
步骤S210,将属于该文字样式的第二文本对象集合过滤掉,并将该第二 文本对象集合确定为非图片标注信息的文本对象集合。
在判断出包含图片与属于该文字样式的文本对象的最小矩形区域中覆盖 了其他文本对象的情况下,需要将属于该文字样式的第二文本对象集合过滤 掉,将该第二文本对象集合确定为非图片标注信息的文本对象集合,也就是 说,进一步确定了非图片标注信息的文本对象集合,从而能够提升根据最小 矩形覆盖原则对第二文本对象集合进行验证的准确性。
其中,未被过滤掉的第二文本对象集合中的文本对象即为图片标注信息, 在确定了作为图片标注信息的文本对象之后,还需要将文本对象与图片关联 起来,具体地,可以通过以下方法实现,此外,以下方法适用于一个图片存 在一个图片标注信息的情况:
步骤S211,针对未被过滤掉的第二文本对象集合中的文本对象,计算各 个文本对象所在页面中各个文本对象和此页面中所有图片之间的距离,并记 录文本对象、图片和距离的对应关系。
图5示出了页面包含的图片和图片标注信息的示意图,这里将结合图5 详细介绍如何将图片和图片标注信息准确地关联,图5中示出了两个文本对 象和两个图片,例如,文本对象1和文本对象2,图片1和图片2,这里需要 分别计算文本对象1与图片1、图片2之间的距离,文本对象2与图片1、图 片2之间的距离,举例说明,文本对象1与图片1、图片2之间的距离分别 为0.5cm、8cm,文本对象2与图片1、图片2之间的距离分别为9cm、0.5cm, 并记录文本对象、图片和距离的对应关系。当然,这里仅仅是举例说明,不 具有任何限定作用。
步骤S212,根据计算的距离,选择距离最小的文本对象和图片,将文本 对象与图片相关联。
根据所计算得到的距离,可以确定文本对象1与图片1之间的距离最小, 文本对象2与图片2之间的距离最小,因此,将文本对象1与图片1,文本 对象2与图片2相关联。
在本发明实施例中,利用步骤S211和步骤S212来确定文本对象与图片 的关联关系,当然还可以通过以下方法实现:
(1)将各个文本对象所在页面中所有文本对象和所有图片划分为多个文 本对象与图片的两两组合,并记录组合中文本对象和图片的对应关系;
(2)针对每个组合,计算存在对应关系的文本对象和图片之间的距离, 并计算组合的距离和;
(3)依据组合的距离和最小的组合中文本对象和图片的对应关系确定文 本对象与图片的关联关系。
根据本发明上述实施例提供的方法,首先通过文字字号和最小矩形原则 对第一文本对象集合进行筛选,得到至少一个第二文本对象集合,然后对筛 选得到的文本对象集合中的文本对象进行整个文件的有效性验证,通过多次 验证可以准确地得到图片标注信息,从而提升图片与图片标注信息关联的准 确性。利用本发明提供的技术方案,能够准确地将图片标注信息与图片关联 在一起,保证关联后的文本对象能够正确地对图片进行解释和说明,而且还 使得用户可以顺利的阅读文件,提升文件的浏览量。
图3示出了根据本发明另一个实施例的文件中图片标注信息识别方法的 流程示意图。如图3所示,该方法包括以下步骤:
步骤S300,对文件中的文本对象进行文字样式聚类分析,得到具有不同 文字样式的多个第一文本对象集合。
步骤S301,对于每个第一文本对象集合,将文本对象的总项数与预设项 数阈值进行比较,将文本对象的总项数大于预设项数阈值的第一文本对象集 合过滤掉。
步骤S302,遍历文件的所有页面,查询到所有页面中包含图片的图片页 面。
一般情况下,图片标注信息的文字字号往往偏小,也就是说,图片页面 中可能包含非图片标注信息的文本对象,为了能够节省验证资源,并且提升 文件中图片标注信息的识别速率,需要先对图片页面中的文本对象进行初步 筛选,可以采用如下方法:
针对每个图片页面,根据图片页面中所有文本对象的文字字号和最小矩 形覆盖原则对所有文本对象进行筛选,筛选得到至少一个第二文本对象集合, 具体地,可以通过步骤S303-步骤S306实现:
步骤S303,针对每个图片页面,将图片页面中所有文本对象的文字字号 与预设字号阈值进行比较,得到文字字号小于或等于预设字号阈值的文本对 象以及文字字号大于预设字号阈值的文本对象,并将文字字号大于预设字号 阈值的文本对象所属的文本对象集合确定为非图片标注信息的文本对象集 合。
当然,本发明还可以仅根据文本对象的文字字号从所有文本对象中筛选 出可能的图片标注信息的文本对象集合,但是为了进一步提升准确性,在根 据文字字号来进行初筛后,再利用最小矩形覆盖原则对文字字号小于或等于 预设字号阈值的文本对象进行验证。
步骤S304,针对每个文字字号小于或等于预设字号阈值的文本对象,判 断包含图片与文本对象的最小矩形区域中是否覆盖了其他文本对象,若包含 图片与文本对象的最小矩形区域中覆盖了其他文本对象,表明该文本对象不 可能是图片标注信息,则执行步骤S305;若包含图片与文本对象的最小矩形 区域中未覆盖其他文本对象,表明该文本对象可能是图片标注信息,则执行 步骤S306。
步骤S305,将该文本对象所属的文本对象集合确定为非图片标注信息的 文本对象集合。
步骤S306,将第一文本对象集合中除非图片标注信息的文本对象集合之 外的文本对象集合确定为第二文本对象集合。
图3所示实施例中的步骤S300-步骤S306与图2所示实施例中步骤S200- 步骤S206类似,这里不再赘述。
步骤S307,针对每一个第二文本对象集合,判断包含属于该文字样式的 文本对象但未包含图片的页面占包含属于该文字样式的文本对象的所有页面 的页面比率是否小于或等于预设阈值,若包含属于该文字样式的文本对象但 未包含图片的页面占包含属于该文字样式的文本对象的所有页面的页面比率 大于预设阈值,表明属于该文字样式的文本对象不可能是图片标注信息,则 执行步骤S308;若包含属于该文字样式的文本对象但未包含图片的页面占包 含属于该文字样式的文本对象的所有页面的页面比率小于或等于预设阈值, 表明属于该文字样式的文本对象可能是图片标注信息,则执行步骤S309。
步骤S303-步骤S306是对单个页面中的文本对象进行有效性验证,仅是 考虑在单个页面中,文本对象集合是否可能是图片标注信息的文本对象集合, 由于整个文件中,其他页面中还可能存在相同文字样式的文本对象,因此, 还需要从整个文件的角度判断文本对象集合是否可能是图片标注信息的文本 对象集合。
举例说明,在某个图片页面中,将属于页码对应的文字样式的文本对象 集合确定为第二文本对象集合,但是整个文件中,包含该文字样式的文本对 象的页面大部分未包含图片,因此,可以通过判断包含属于该文字样式的文 本对象但未包含图片的页面占包含属于该文字样式的文本对象的所有页面的 页面比率是否小于或等于预设阈值,其中,预设阈值可以根据实际需要进行 设定,例如,预设阈值可以设为5%,包含属于该文字样式的文本对象但未 包含图片的页面占包含属于该文字样式的文本对象的所有页面的页面比率大于5%,则说明包含属于该文字样式的文本对象的所有页面中有5%以上未包 含图片,则该文本样式的文本对象集合不可能是图片标注信息的文本对象集 合;包含属于该文字样式的文本对象但未包含图片的页面占包含属于该文字 样式的文本对象的所有页面的页面比率小于或等于5%,则说明包含属于该 文字样式的文本对象的所有页面中未包含图片的页面不足5%,则该文本样 式的文本对象集合可能是图片标注信息的文本对象集合,这里预设阈值仅是 举例说明,不具有任何限定作用。
步骤S308,将属于该文字样式的第二文本对象集合过滤掉,并将该第二 文本对象集合确定为非图片标注信息的文本对象集合。
当然,本发明还可以仅判断包含属于该文字样式的文本对象但未包含图 片的页面占包含属于该文字样式的文本对象的所有页面的页面比率是否小于 或等于预设阈值来确定属于该文字样式的文本对象集合是否可能是图片标注 信息的文本对象集合,但是为了进一步提升准确性,再利用最小矩形覆盖原 则对第二文本对象集合进行进一步地验证。
步骤S309,针对每一个第二文本对象集合,在包含图片和属于该文字样 式的文本对象的每一页中,判断包含图片与属于该文字样式的文本对象的最 小矩形区域中是否覆盖了其他文本对象,若包含图片与属于该文字样式的文 本对象的最小矩形区域中覆盖了其他文本对象,表明属于该文字样式的文本 对象不可能是图片标注信息,则步骤S310;若包含图片与属于该文字样式的 文本对象的最小矩形区域中未覆盖其他文本对象,表明属于该文字样式的文 本对象可能是图片标注信息,则执行步骤S311。
步骤S310,将属于该文字样式的第二文本对象集合过滤掉,并将该第二 文本对象集合确定为非图片标注信息的文本对象集合。
图3所示实施例中的步骤S309-步骤S310与图2所示实施例中步骤S209- 步骤S210类似,这里不再赘述。
步骤S311,将各个文本对象所在页面中所有文本对象和所有图片划分为 多个文本对象与图片的两两组合,并记录组合中文本对象和图片的对应关系。
图5示出了页面包含的图片和图片标注信息的示意图,这里将结合图5 详细介绍如何将图片和图片标注信息准确地关联,图5中示出了两个文本对 象和两个图片,例如,文本对象1和文本对象2,图片1和图片2,将各个文 本对象所在页面中所有文本对象和所有图片划分为多个文本对象与图片的两 两组合,分别为:
组合1:图片1和文本对象1,图片2和文本对象2;
组合2:图片1和文本对象2,图片2和文本对象1;并记录组合中文本 对象和图片的对应关系。
步骤S312,针对每个组合,计算存在对应关系的文本对象和图片之间的 距离,并计算组合的距离和。
针对组合1,计算图片1和文本对象1之间的距离为0.5cm,图片2和文 本对象2之间的距离为0.5cm,计算组合的距离和为1cm;
针对组合2:图片1和文本对象2之间的距离为9cm,图片2和文本对 象1之间的距离为8cm,计算组合的距离和为17cm。当然,这里仅仅是举例 说明,不具有任何限定作用。
步骤S313,依据组合的距离和最小的组合中文本对象和图片的对应关系 确定文本对象与图片的关联关系。
在计算组合的距离和之后,选择组合的距离和最小的组合,这里是组合 1,依据组合的距离和最小的组合中文本对象和图片的对应关系确定文本对象 与图片的关联关系。
在本发明实施例中,利用步骤S311-步骤S313来确定文本对象与图片的 关联关系,当然还可以通过以下方法实现:
针对未被过滤掉的第二文本对象集合中的文本对象,计算各个文本对象 所在页面中各个文本对象和此页面中所有图片之间的距离,并记录文本对象、 图片和距离的对应关系;
根据计算的距离,选择距离最小的文本对象和图片,将文本对象与图片 相关联。
本实施例中,步骤S303为可选步骤。步骤S307和步骤S309择一为本 实施例的可选步骤。
根据本发明上述实施例提供的方法,首先通过文字字号和最小矩形原则 对第一文本对象集合进行筛选,得到至少一个第二文本对象集合,然后对筛 选得到的文本对象集合中的文本对象进行整个文件的有效性验证,通过多次 验证可以准确地得到图片标注信息,从而提升图片与图片标注信息关联的准 确性。利用本发明提供的技术方案,能够准确地将图片标注信息与图片关联 在一起,保证关联后的文本对象能够正确地对图片进行解释和说明,而且还 使得用户可以顺利的阅读文件,提升文件的浏览量。
图6示出了根据本发明一个实施例的文件中图片标注信息识别装置的结 构示意图。如图6所示,该装置包括:聚类分析模块600、过滤模块610、查 询模块620、筛选模块630、验证模块640和关联模块650。
聚类分析模块600,适于对文件中的文本对象进行文字样式聚类分析, 得到具有不同文字样式的多个第一文本对象集合。
过滤模块610,适于从多个第一文本对象集合中过滤掉正文文本对象集 合。
查询模块620,适于遍历文件的所有页面,查询到所有页面中包含图片 的图片页面。
筛选模块630,适于针对每个图片页面,筛选得到至少一个第二文本对 象集合。
验证模块640,适于针对每一个第二文本对象集合,对属于该文字样式 的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样 式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉。
关联模块650,适于从未被过滤掉的第二文本对象集合中提取出文本对 象,根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系。
根据本发明上述实施例提供的装置,先对文件中的文本对象进行文字样 式聚类分析,得到具有不同文字样式的多个第一文本对象集合,从多个第一 文本对象集合中过滤掉正文文本对象集合,针对每个图片页面,筛选得到至 少一个第二文本对象集合,不仅可以节省验证资源,而且还提升了文件中图 片标注信息的识别速率,针对每一个第二文本对象集合,对属于该文字样式 的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样 式,可以进一步提升图片与图片标注信息关联的准确性。利用本发明提供的技术方案,能够准确地将图片标注信息与图片关联在一起,保证关联后的文 本对象能够正确地对图片进行解释和说明,而且还使得用户可以顺利的阅读 文件,提升文件的浏览量。
图7示出了根据本发明另一个实施例的文件中图片标注信息识别装置的 结构示意图。如图7所示,该装置包括:聚类分析模块700、过滤模块710、 查询模块720、筛选模块730、验证模块740和关联模块750。
聚类分析模块700,适于对文件中的文本对象进行文字样式聚类分析, 得到具有不同文字样式的多个第一文本对象集合。
过滤模块710,适于对于每个第一文本对象集合,将文本对象的总项数 与预设项数阈值进行比较,将文本对象的总项数大于预设项数阈值的第一文 本对象集合过滤掉。
查询模块720,适于遍历文件的所有页面,查询到所有页面中包含图片 的图片页面。
筛选模块730,适于针对每个图片页面,将图片页面中所有文本对象的 文字字号与预设字号阈值进行比较,得到文字字号小于或等于预设字号阈值 的文本对象以及文字字号大于预设字号阈值的文本对象,并将文字字号大于 预设字号阈值的文本对象所属的文本对象集合确定为非图片标注信息的文本 对象集合;
当然,本发明还可以仅根据文本对象的文字字号筛选得到至少一个第二 文本对象集合,具体地,筛选模块,适于将图片页面中文本对象的文字字号 与预设字号阈值进行比较,将文字字号小于或等于预设字号阈值的文本对象 所属的文本对象集合确定为第二文本对象集合。但是为了进一步提升准确性, 在根据文字字号来进行筛选后,再利用最小矩形覆盖原则对文字字号小于或 等于预设字号阈值的文本对象进行验证。
筛选模块730进一步适于:针对每个文字字号小于或等于预设字号阈值 的文本对象,判断包含图片与文本对象的最小矩形区域中是否覆盖了其他文 本对象,若是,则将该文本对象所属的文本对象集合确定为非图片标注信息 的文本对象集合,并将第一文本对象集合中除非图片标注信息的文本对象集 合之外的文本对象集合确定为第二文本对象集合。
当然,本发明还可以仅利用最小矩形覆盖原则筛选得到至少一个第二文 本对象集合,具体地,筛选模块,适于针对每个图片页面,判断包含图片与 所述文本对象的最小矩形区域中是否覆盖了其他文本对象,若是,则将该文 本对象所属的文本对象集合确定为非图片标注信息的文本对象集合,并将第 一文本对象集合中除非图片标注信息的文本对象集合之外的文本对象集合确 定为第二文本对象集合。
验证模块740,适于针对每一个第二文本对象集合,判断包含属于该文 字样式的文本对象的页面是否都包含图片;若否,则将属于该文字样式的第 二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的 文本对象集合。
当然,本发明还可以仅判断包含属于该文字样式的文本对象的页面是否 都包含图片来确定属于该文字样式的文本对象是否可能是图片标注信息,但 是为了进一步提升准确性,再利用最小矩形覆盖原则对第二文本对象集合进 行进一步地验证。
验证模块740进一步适于:针对每一个第二文本对象集合,在包含图片 和属于该文字样式的文本对象的每一页中,判断包含图片与属于该文字样式 的文本对象的最小矩形区域中是否覆盖了其他文本对象;若是,则将属于该 文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图 片标注信息的文本对象集合。
关联模块750进一步包括:计算单元751,适于针对未被过滤掉的第二 文本对象集合中的文本对象,计算各个文本对象所在页面中各个文本对象和 此页面中所有图片之间的距离,并记录文本对象、图片和距离的对应关系;
关联单元752,适于根据计算的距离,选择距离最小的文本对象和图片, 将文本对象与图片相关联。
根据本发明上述实施例提供的装置,首先通过文字字号和最小矩形原则 对第一文本对象集合进行筛选,得到至少一个第二文本对象集合,然后对筛 选得到的文本对象集合中的文本对象进行整个文件的有效性验证,通过多次 验证可以准确地得到图片标注信息,从而提升图片与图片标注信息关联的准 确性。利用本发明提供的技术方案,能够准确地将图片标注信息与图片关联 在一起,保证关联后的文本对象能够正确地对图片进行解释和说明,而且还 使得用户可以顺利的阅读文件,提升文件的浏览量。
图8示出了根据本发明另一个实施例的文件中图片标注信息识别装置的 结构示意图。如图8所示,该装置包括:聚类分析模块800、过滤模块810、 查询模块820、筛选模块830、验证模块840和关联模块850。
聚类分析模块800,适于对文件中的文本对象进行文字样式聚类分析, 得到具有不同文字样式的多个第一文本对象集合。
过滤模块810,适于对于每个第一文本对象集合,将文本对象的总项数 与预设项数阈值进行比较,将文本对象的总项数大于预设项数阈值的第一文 本对象集合过滤掉。
查询模块820,适于遍历文件的所有页面,查询到所有页面中包含图片 的图片页面。
筛选模块830,适于针对每个图片页面,将图片页面中所有文本对象的 文字字号与预设字号阈值进行比较,得到文字字号小于或等于预设字号阈值 的文本对象以及文字字号大于预设字号阈值的文本对象,并将文字字号大于 预设字号阈值的文本对象所属的文本对象集合确定为非图片标注信息的文本 对象集合;
当然,本发明还可以仅根据文本对象的文字字号筛选得到至少一个第二 文本对象集合,具体地,筛选模块,适于将图片页面中文本对象的文字字号 与预设字号阈值进行比较,将文字字号小于或等于预设字号阈值的文本对象 所属的文本对象集合确定为第二文本对象集合。但是为了进一步提升准确性, 在根据文字字号来进行筛选后,再利用最小矩形覆盖原则对文字字号小于或 等于预设字号阈值的文本对象进行验证。
筛选模块830进一步适于:针对每个文字字号小于或等于预设字号阈值 的文本对象,判断包含图片与文本对象的最小矩形区域中是否覆盖了其他文 本对象,若是,则将该文本对象所属的文本对象集合确定为非图片标注信息 的文本对象集合,并将第一文本对象集合中除非图片标注信息的文本对象集 合之外的文本对象集合确定为第二文本对象集合。
当然,本发明还可以仅利用最小矩形覆盖原则筛选得到至少一个第二文 本对象集合,具体地,筛选模块,适于针对每个图片页面,判断包含图片与 所述文本对象的最小矩形区域中是否覆盖了其他文本对象,若是,则将该文 本对象所属的文本对象集合确定为非图片标注信息的文本对象集合,并将第 一文本对象集合中除非图片标注信息的文本对象集合之外的文本对象集合确 定为第二文本对象集合。
验证模块840,适于针对每一个第二文本对象集合,判断包含属于该文 字样式的文本对象但未包含图片的页面占包含属于该文字样式的文本对象的 所有页面的页面比率是否小于或等于预设阈值;若否,则将属于该文字样式 的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信 息的文本对象集合。
当然,本发明还可以仅判断包含属于该文字样式的文本对象但未包含图 片的页面占包含属于该文字样式的文本对象的所有页面的页面比率是否小于 或等于预设阈值来确定属于该文字样式的文本对象集合是否可能是图片标注 信息的文本对象集合,但是为了进一步提升准确性,再利用最小矩形覆盖原 则对第二文本对象集合进行进一步地验证。
验证模块840进一步适于:针对每一个第二文本对象集合,在包含图片 和属于该文字样式的文本对象的每一页中,判断包含图片与属于该文字样式 的文本对象的最小矩形区域中是否覆盖了其他文本对象;若是,则将属于该 文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图 片标注信息的文本对象集合。
关联模块850进一步包括:组合划分单元851,适于将各个文本对象所 在页面中所有文本对象和所有图片划分为多个文本对象与图片的两两组合, 并记录组合中文本对象和图片的对应关系;
计算单元852,适于针对每个组合,计算存在对应关系的文本对象和图 片之间的距离,并计算组合的距离和;
关联单元853,适于依据组合的距离和最小的组合中文本对象和图片的 对应关系确定文本对象与图片的关联关系。
根据本发明上述实施例提供的装置,首先通过文字字号和最小矩形原则 对第一文本对象集合进行筛选,得到至少一个第二文本对象集合,然后对筛 选得到的文本对象集合中的文本对象进行整个文件的有效性验证,通过多次 验证可以准确地得到图片标注信息,从而提升图片与图片标注信息关联的准 确性。利用本发明提供的技术方案,能够准确地将图片标注信息与图片关联 在一起,保证关联后的文本对象能够正确地对图片进行解释和说明,而且还 使得用户可以顺利的阅读文件,提升文件的浏览量。
本申请实施例提供了一种非易失性计算机存储介质,计算机存储介质存 储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中 的文件中图片标注信息识别方法。
图9示出了根据本发明实施例六的一种服务器的结构示意图,本发明具 体实施例并不对服务器的具体实现做限定。
如图9所示,该服务器可以包括:处理器(processor)902、通信接口(Communications Interface)904、存储器(memory)906、以及通信总线908。
其中:
处理器902、通信接口904、以及存储器906通过通信总线908完成相互 间的通信。
通信接口904,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器902,用于执行程序910,具体可以执行上述文件中图片标注信息 识别方法实施例中的相关步骤。
具体地,程序910可以包括程序代码,该程序代码包括计算机操作指令。
处理器902可能是中央处理器CPU,或者是特定集成电路ASIC (ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例 的一个或多个集成电路。服务器包括的一个或多个处理器,可以是同一类型 的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个 CPU以及一个或多个ASIC。
存储器906,用于存放第一数据集合、第二数据集合以及程序910。存储 器906可能包含高速RAM存储器,也可能还包括非易失性存储器 (non-volatile memory),例如至少一个磁盘存储器。
程序910具体可以用于使得处理器902执行以下操作:对文件中的文本 对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集 合;从多个第一文本对象集合中过滤掉正文文本对象集合;遍历文件的所有 页面,查询到所有页面中包含图片的图片页面;针对每个图片页面,筛选得 到至少一个第二文本对象集合;针对每一个第二文本对象集合,对属于该文 字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的 文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉;从未被过滤掉的第二文本对象集合中提取出文本对象,根据文本对 象与图片的相对位置关系确定文本对象与图片的关联关系。
在一种可选的实施方式中,程序910还用于使得处理器902在针对每个 图片页面,筛选得到至少一个第二文本对象集合时:针对每个图片页面,将 图片页面中文本对象的文字字号与预设字号阈值进行比较,将文字字号小于 或等于预设字号阈值的文本对象所属的文本对象集合确定为第二文本对象集 合。
在一种可选的实施方式中,程序910还用于使得处理器902在针对每个 图片页面,筛选得到至少一个第二文本对象集合时:针对每个图片页面,判 断包含图片与文本对象的最小矩形区域中是否覆盖了其他文本对象,若是, 则将该文本对象所属的文本对象集合确定为非图片标注信息的文本对象集 合,并将第一文本对象集合中除非图片标注信息的文本对象集合之外的文本 对象集合确定为第二文本对象集合。
在一种可选的实施方式中,程序910还用于使得处理器902在针对每一 个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断 该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属 于该文字样式的第二文本对象集合过滤掉时:针对每一个第二文本对象集合, 判断包含属于该文字样式的文本对象的页面是否都包含图片;若否,则将属 于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为 非图片标注信息的文本对象集合。
在一种可选的实施方式中,程序910还用于使得处理器902在针对每一 个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断 该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属 于该文字样式的第二文本对象集合过滤掉时:针对每一个第二文本对象集合, 判断包含属于该文字样式的文本对象但未包含图片的页面占包含属于该文字 样式的文本对象的所有页面的页面比率是否小于或等于预设阈值;若否,则 将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确 定为非图片标注信息的文本对象集合。
在一种可选的实施方式中,程序910还用于使得处理器902在针对每一 个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断 该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属 于该文字样式的第二文本对象集合过滤掉时:针对每一个第二文本对象集合, 在包含图片和属于该文字样式的文本对象的每一页中,判断包含图片与属于 该文字样式的文本对象的最小矩形区域中是否覆盖了其他文本对象;若是, 则将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合 确定为非图片标注信息的文本对象集合。
在一种可选的实施方式中,程序910还用于使得处理器902在从未被过 滤掉的第二文本对象集合中提取出文本对象,根据文本对象与图片的相对位 置关系确定文本对象与图片的关联关系时:针对未被过滤掉的第二文本对象 集合中的文本对象,计算各个文本对象所在页面中各个文本对象和此页面中 所有图片之间的距离,并记录文本对象、图片和距离的对应关系;根据计算 的距离,选择距离最小的文本对象和图片,将文本对象与图片相关联。
在一种可选的实施方式中,程序910还用于使得处理器902在从未被过 滤掉的第二文本对象集合中提取出文本对象,根据文本对象与图片的相对位 置关系确定文本对象与图片的关联关系时:将各个文本对象所在页面中所有 文本对象和所有图片划分为多个文本对象与图片的两两组合,并记录组合中 文本对象和图片的对应关系;针对每个组合,计算存在对应关系的文本对象 和图片之间的距离,并计算组合的距离和;依据组合的距离和最小的组合中 文本对象和图片的对应关系确定文本对象与图片的关联关系。
在一种可选的实施方式中,程序910还用于使得处理器902在从多个第 一文本对象集合中过滤掉正文文本对象集合时:对于每个第一文本对象集合, 将文本对象的总项数与预设项数阈值进行比较,将文本对象的总项数大于预 设项数阈值的第一文本对象集合过滤掉。
在一种可选的实施方式中,图片标注信息包括:图题和/或图注。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固 有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描 述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何 特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的 内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本 发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未 详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个 或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时 被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开 的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求 中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映 的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循 具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自 适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以 把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可 以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者 单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴 随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或 者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴 随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相 似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其 它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组 合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权 利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使 用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制, 并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实 施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要 求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于 元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以 借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在 列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。 可将这些单词解释为名称。
Claims (20)
1.一种文件中图片标注信息识别方法,包括:
对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合;
从多个第一文本对象集合中过滤掉正文文本对象集合;
遍历文件的所有页面,查询到所有页面中包含图片的图片页面;
针对每个图片页面,筛选得到至少一个第二文本对象集合;
针对每一个第二文本对象集合,对属于该第二文本对象集合对应的文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉;
从未被过滤掉的第二文本对象集合中提取出文本对象,根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系;
其中,所述针对每个图片页面,筛选得到至少一个第二文本对象集合进一步包括:
针对每个图片页面,判断包含图片与过滤掉正文文本对象集合后的文本对象的最小矩形区域中是否覆盖了其他文本对象,若是,则将该文本对象所属的文本对象集合确定为非图片标注信息的文本对象集合,并将第一文本对象集合中除非图片标注信息的文本对象集合之外的文本对象集合确定为第二文本对象集合。
2.根据权利要求1所述的方法,其中,所述针对每个图片页面,筛选得到至少一个第二文本对象集合进一步包括:
针对每个图片页面,将图片页面中文本对象的文字字号与预设字号阈值进行比较,将文字字号小于或等于预设字号阈值的文本对象所属的文本对象集合确定为第二文本对象集合。
3.根据权利要求1或2所述的方法,其中,针对每一个第二文本对象集合,对属于该第二文本对象集合对应的文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉进一步包括:
针对每一个第二文本对象集合,判断包含属于该第二文本对象集合对应的文字样式的文本对象的页面是否都包含图片;
若否,则将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。
4.根据权利要求1或2所述的方法,其中,针对每一个第二文本对象集合,对属于该第二文本对象集合对应的文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉进一步包括:
针对每一个第二文本对象集合,判断包含属于该第二文本对象集合对应的文字样式的文本对象但未包含图片的页面占包含属于该文字样式的文本对象的所有页面的页面比率是否小于或等于预设阈值;
若否,则将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。
5.根据权利要求1或2所述的方法,其中,针对每一个第二文本对象集合,对属于该第二文本对象集合对应的文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉进一步包括:
针对每一个第二文本对象集合,在包含图片和属于该第二文本对象集合对应的文字样式的文本对象的每一页中,判断包含图片与属于该文字样式的文本对象的最小矩形区域中是否覆盖了其他文本对象;
若是,则将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。
6.根据权利要求1或2所述的方法,其中,所述从未被过滤掉的第二文本对象集合中提取出文本对象,根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系进一步包括:
针对未被过滤掉的第二文本对象集合中的文本对象,计算各个文本对象所在页面中各个文本对象和此页面中所有图片之间的距离,并记录文本对象、图片和距离的对应关系;
根据计算的距离,选择距离最小的文本对象和图片,将文本对象与图片相关联。
7.根据权利要求1或2所述的方法,其中,所述从未被过滤掉的第二文本对象集合中提取出文本对象,根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系进一步包括:
将各个文本对象所在页面中所有文本对象和所有图片划分为多个文本对象与图片的两两组合,并记录组合中文本对象和图片的对应关系;
针对每个组合,计算存在对应关系的文本对象和图片之间的距离,并计算组合的距离和;
依据组合的距离和最小的组合中文本对象和图片的对应关系确定文本对象与图片的关联关系。
8.根据权利要求1或2所述的方法,其中,所述从多个第一文本对象集合中过滤掉正文文本对象集合进一步包括:
对于每个第一文本对象集合,将文本对象的总项数与预设项数阈值进行比较,将文本对象的总项数大于预设项数阈值的第一文本对象集合过滤掉。
9.根据权利要求1或2所述的方法,其中,所述图片标注信息包括:图题和/或图注。
10.一种文件中图片标注信息识别装置,包括:
聚类分析模块,适于对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合;
过滤模块,适于从多个第一文本对象集合中过滤掉正文文本对象集合;
查询模块,适于遍历文件的所有页面,查询到所有页面中包含图片的图片页面;
筛选模块,适于针对每个图片页面,筛选得到至少一个第二文本对象集合;
验证模块,适于针对每一个第二文本对象集合,对属于该第二文本对象集合对应的文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉;
关联模块,适于从未被过滤掉的第二文本对象集合中提取出文本对象,根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系;
其中,所述筛选模块进一步适于:针对每个图片页面,判断包含图片与过滤掉正文文本对象集合后的文本对象的最小矩形区域中是否覆盖了其他文本对象,若是,则将该文本对象所属的文本对象集合确定为非图片标注信息的文本对象集合,并将第一文本对象集合中除非图片标注信息的文本对象集合之外的文本对象集合确定为第二文本对象集合。
11.根据权利要求10所述的装置,其中,所述筛选模块进一步适于:针对每个图片页面,将图片页面中文本对象的文字字号与预设字号阈值进行比较,将文字字号小于或等于预设字号阈值的文本对象所属的文本对象集合确定为第二文本对象集合。
12.根据权利要求10或11所述的装置,其中,所述验证模块进一步适于:针对每一个第二文本对象集合,判断包含属于该第二文本对象集合对应的文字样式的文本对象的页面是否都包含图片;
若否,则将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。
13.根据权利要求10或11所述的装置,其中,所述验证模块进一步适于:针对每一个第二文本对象集合,判断包含属于该第二文本对象集合对应的文字样式的文本对象但未包含图片的页面占包含属于该文字样式的文本对象的所有页面的页面比率是否小于或等于预设阈值;
若否,则将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。
14.根据权利要求10或11所述的装置,其中,所述验证模块进一步适于:针对每一个第二文本对象集合,在包含图片和属于该第二文本对象集合对应的文字样式的文本对象的每一页中,判断包含图片与属于该文字样式的文本对象的最小矩形区域中是否覆盖了其他文本对象;
若是,则将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。
15.根据权利要求10或11所述的装置,其中,所述关联模块进一步包括:
计算单元,适于针对未被过滤掉的第二文本对象集合中的文本对象,计算各个文本对象所在页面中各个文本对象和此页面中所有图片之间的距离,并记录文本对象、图片和距离的对应关系;
关联单元,适于根据计算的距离,选择距离最小的文本对象和图片,将文本对象与图片相关联。
16.根据权利要求10或11所述的装置,其中,所述关联模块进一步包括:
组合划分单元,适于将各个文本对象所在页面中所有文本对象和所有图片划分为多个文本对象与图片的两两组合,并记录组合中文本对象和图片的对应关系;
计算单元,适于针对每个组合,计算存在对应关系的文本对象和图片之间的距离,并计算组合的距离和;
关联单元,适于依据组合的距离和最小的组合中文本对象和图片的对应关系确定文本对象与图片的关联关系。
17.根据权利要求10或11所述的装置,其中,所述过滤模块进一步适于:对于每个第一文本对象集合,将文本对象的总项数与预设项数阈值进行比较,将文本对象的总项数大于预设项数阈值的第一文本对象集合过滤掉。
18.根据权利要求10或11所述的装置,其中,所述图片标注信息包括:图题和/或图注。
19.一种服务器,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-9中任一项所述的文件中图片标注信息识别方法对应的操作。
20.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-9中任一项所述的文件中图片标注信息识别方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710178013.1A CN106934383B (zh) | 2017-03-23 | 2017-03-23 | 文件中图片标注信息识别方法、装置及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710178013.1A CN106934383B (zh) | 2017-03-23 | 2017-03-23 | 文件中图片标注信息识别方法、装置及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106934383A CN106934383A (zh) | 2017-07-07 |
CN106934383B true CN106934383B (zh) | 2018-11-30 |
Family
ID=59425098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710178013.1A Active CN106934383B (zh) | 2017-03-23 | 2017-03-23 | 文件中图片标注信息识别方法、装置及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106934383B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990551B (zh) * | 2019-12-17 | 2023-05-26 | 北大方正集团有限公司 | 文本内容的处理方法、装置、设备以及存储介质 |
CN111126334B (zh) * | 2019-12-31 | 2020-10-16 | 南京酷朗电子有限公司 | 技术资料的快速阅读和处理方法 |
CN112307867B (zh) * | 2020-03-03 | 2024-07-19 | 北京字节跳动网络技术有限公司 | 用于输出信息的方法和装置 |
CN113343709B (zh) * | 2021-06-22 | 2022-08-16 | 北京三快在线科技有限公司 | 意图识别模型的训练方法、意图识别方法、装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090112020A (ko) * | 2008-04-23 | 2009-10-28 | 엔에이치엔(주) | 문서의 텍스트 정보 및 구조적 정보를 이용한 캡션 후보추출 시스템 및 방법, 그리고 이미지 캡션 추출 시스템 및방법 |
CN102262618A (zh) * | 2010-05-28 | 2011-11-30 | 北京大学 | 一种版面信息识别的方法及装置 |
CN104142961A (zh) * | 2013-05-10 | 2014-11-12 | 北大方正集团有限公司 | 版式文档中复合图的逻辑处理装置和逻辑处理方法 |
CN104156345A (zh) * | 2014-08-04 | 2014-11-19 | 中南出版传媒集团股份有限公司 | 识别便携文件格式文件中图注的方法和装置 |
CN104239282A (zh) * | 2014-09-09 | 2014-12-24 | 百度在线网络技术(北京)有限公司 | 电子书的处理方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4349183B2 (ja) * | 2004-04-01 | 2009-10-21 | 富士ゼロックス株式会社 | 画像処理装置および画像処理方法 |
JP5743443B2 (ja) * | 2010-07-08 | 2015-07-01 | キヤノン株式会社 | 画像処理装置、画像処理方法、コンピュータプログラム |
CN106170799B (zh) * | 2014-01-27 | 2021-01-22 | 皇家飞利浦有限公司 | 从图像提取信息以及将信息包括在临床报告中 |
-
2017
- 2017-03-23 CN CN201710178013.1A patent/CN106934383B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090112020A (ko) * | 2008-04-23 | 2009-10-28 | 엔에이치엔(주) | 문서의 텍스트 정보 및 구조적 정보를 이용한 캡션 후보추출 시스템 및 방법, 그리고 이미지 캡션 추출 시스템 및방법 |
CN102262618A (zh) * | 2010-05-28 | 2011-11-30 | 北京大学 | 一种版面信息识别的方法及装置 |
CN104142961A (zh) * | 2013-05-10 | 2014-11-12 | 北大方正集团有限公司 | 版式文档中复合图的逻辑处理装置和逻辑处理方法 |
CN104156345A (zh) * | 2014-08-04 | 2014-11-19 | 中南出版传媒集团股份有限公司 | 识别便携文件格式文件中图注的方法和装置 |
CN104239282A (zh) * | 2014-09-09 | 2014-12-24 | 百度在线网络技术(北京)有限公司 | 电子书的处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106934383A (zh) | 2017-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106934383B (zh) | 文件中图片标注信息识别方法、装置及服务器 | |
US9373030B2 (en) | Automated document recognition, identification, and data extraction | |
US11182544B2 (en) | User interface for contextual document recognition | |
CN107256394A (zh) | 驾驶员信息与车辆信息核验方法、装置以及系统 | |
CN110634223A (zh) | 票据校验方法及装置 | |
CN106503703A (zh) | 使用终端设备来识别信用卡号码和到期日期的系统和方法 | |
KR20150041050A (ko) | 문서 참조 템플릿들의 생성 및 관리를 위한 소프트웨어 툴 | |
CN104217203A (zh) | 复杂背景卡面信息识别方法及系统 | |
CN110348511A (zh) | 一种图片翻拍检测方法、系统及电子设备 | |
CN107622489A (zh) | 一种图像篡改检测方法及装置 | |
CN111695453B (zh) | 绘本识别方法、装置及机器人 | |
CN111241389A (zh) | 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质 | |
CN111932363A (zh) | 授权书的识别审核方法、装置、设备及系统 | |
CN105303442A (zh) | 网上银行开户账号检测方法和装置 | |
CN106055419A (zh) | 一种车载嵌入式系统的异常处理装置及方法 | |
CN110427375A (zh) | 字段类别的识别方法及装置 | |
CN106778277A (zh) | 恶意程序检测方法及装置 | |
CN112199569A (zh) | 一种违禁网址识别方法、系统、计算机设备及存储介质 | |
CN106250755A (zh) | 用于生成验证码的方法及装置 | |
CN114511866A (zh) | 数据稽核方法、装置、系统、处理器及机器可读存储介质 | |
CN109145117A (zh) | 传销项目的奖金制度识别方法、装置及电子设备 | |
CN113343109A (zh) | 榜单推荐方法、计算设备及计算机存储介质 | |
CN109426759A (zh) | 物品的可视化文件归档的方法、装置和电子设备 | |
CN111460198B (zh) | 一种图片时间戳的审核方法及装置 | |
CN111428497A (zh) | 一种自动抽取出资信息的方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20170707 Assignee: Shaanxi Digital Information Technology Co.,Ltd. Assignor: ZHANGYUE TECHNOLOGY Co.,Ltd. Contract record no.: X2023990000904 Denomination of invention: Method, device, and server for identifying image annotation information in files Granted publication date: 20181130 License type: Common License Record date: 20231107 |