CN110348294B

CN110348294B - Pdf文档中图表的定位方法、装置及计算机设备

Info

Publication number: CN110348294B
Application number: CN201910462305.7A
Authority: CN
Inventors: 刘克亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2024-04-16
Anticipated expiration: 2039-05-30
Also published as: WO2020238054A1; CN110348294A

Abstract

本申请实施例提供了一种PDF文档中图表的定位方法、装置、计算机设备及计算机可读存储介质。本申请实施例属于图像处理技术领域，实现PDF文档中图表的定位时，获取PDF文档，通过预设方式将PDF文档中的每页文档按照每页文档在PDF文档中的位置转换为携带有预设位置标识的每张图片，通过预设的目标检测模型识别出所有图片中包含图表的图片作为目标图片，通过目标检测模型提取每张目标图片中的图表以识别图表在对应每张目标图片中的位置，以每张目标图片在PDF文档中的位置及图表在对应每张目标图片中的位置按照预设顺序组合以生成图表在PDF文档中的位置，通过对PDF中的图表进行准确定位，可提高PDF文档的使用效率。

Description

PDF文档中图表的定位方法、装置及计算机设备

技术领域

本申请涉及数据处理技术领域，尤其涉及一种PDF文档中图表的定位方法、装置、计算机设备及计算机可读存储介质。

背景技术

现有的各类针对PDF文档的解析方式只能单独的提取PDF文档中的图片或内容，不能确切的知道PDF文档中哪块位置是表格，哪块位置是图形，由于无法准确确定PDF文档中的图表位置，降低了PDF文档的使用效率。

发明内容

本申请实施例提供了一种PDF文档中图表的定位方法、装置、计算机设备及计算机可读存储介质，能够解决传统技术中由于无法准确定位PDF文档中图表的位置导致PDF文档的使用效率低的问题。

第一方面，本申请实施例提供了一种PDF文档中图表的定位方法，所述方法包括：获取PDF文档，通过预设方式将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设位置标识的每张图片；通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片，所述图表包括图形和表格；通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置；以每张所述目标图片在所述PDF文档中的位置及所述图表在对应每张所述目标图片中的位置按照预设顺序组合以生成所述图表在所述PDF文档中的位置。

第二方面，本申请实施例还提供了一种PDF文档中图表的定位装置，包括：转换单元，用于获取PDF文档，通过预设方式将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设位置标识的每张图片；识别单元，用于通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片，所述图表包括图形和表格；提取单元，用于通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置；定位单元，用于以每张所述目标图片在所述PDF文档中的位置及所述图表在对应每张所述目标图片中的位置按照预设顺序组合以生成所述图表在所述PDF文档中的位置。

第三方面，本申请实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现所述PDF文档中图表的定位方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行所述PDF文档中图表的定位方法。

本申请实施例提供了一种PDF文档中图表的定位方法、装置、计算机设备及计算机可读存储介质。本申请实施例实现PDF文档中图表的定位时，通过获取PDF文件，通过预设方式将所述PDF文件转换为一张一张的独立图片，通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片，通过所述目标检测模型提取每张所述目标图片中所述图表的位置，根据每张目标图片在PDF文档中的位置和图表在对应每张目标图片中的位置定位图表在PDF文档中的位置，能够实现自动识别PDF文档中哪块区域是图形或者表格，当需要使用PDF文件当中的图表时，比如，将PDF文档转换为WORD格式时，由于对PDF文件中的图表进行了准确的识别和定位，可以提高PDF文件的使用效率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的PDF文档中图表的定位方法的流程示意图；

图2为本申请实施例提供的PDF文档中图表的定位方法中一个图表位置区域划分示意图；

图3为本申请实施例提供的PDF文档中图表的定位装置的示意性框图；以及

图4为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请实施例提供的PDF文档中图表的定位方法可应用于终端或者服务器等计算机设备中，通过安装于终端或者服务器上的软件来实现所述PDF文档中图表的定位方法的步骤，其中所述终端可以为手机、笔记本电脑、平板电脑或者台式电脑等电子设备，所述服务器可以为云服务器或者服务器集群等。以终端为例，本申请实施例提供的PDF文档中图表的定位方法的具体实现过程如下：终端获取PDF文档，通过预设方式将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设位置标识的每张图片；通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片，所述图表包括图形和表格；通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置；以每张所述目标图片在所述PDF文档中的位置及所述图表在对应每张所述目标图片中的位置按照预设顺序组合以生成所述图表在所述PDF文档中的位置。

需要说明的是，在实际操作过程中，上述PDF文档中图表的定位方法的应用场景仅仅用于说明本申请技术方案，并不用于限定本申请技术方案。

图1为本申请实施例提供的PDF文档中图表的定位方法的示意性流程图。该PDF文档中图表的定位方法应用于终端或者服务器中，以完成PDF文档中图表的定位方法的全部或者部分功能。请参阅图1，如图1所示，该方法包括以下步骤S101-S104：

S101、获取PDF文档，通过预设方式将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设位置标识的每张图片。

其中，预设位置标识指每页PDF文档在整个PDF文档中的位置描述，可以为每页PDF文档在PDF文档中页码编码，比如，文档页码用数字“1、2、3…”等描述，预设位置标识可以为PDF的第1页、第2页、第3页…。进一步地，所述预设位置标识还可以添加上该PDF文档的文档名称或者文档编号，比如，文档名称为A文档，A文档的第3页可描述为A3，通过文档名称与文档页码的结合，可以提高对PDF文件的辨识效率。

预设方式包括不同编程语言中对应的将PDF文档转换为图片的方法，比如，JAVA中实现PD F文档转换为图片可以通过第三方提供的架包，比如下载Icepdf的架包，或者Jpedal的架包等。

具体地，获取PDF文档，通过预设方式将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设位置标识的每张图片。获取PDF文件后，可以通过预设方式将所述PDF文档每一页转换为一张图片，PDF文档包含多页就对应转换成多张图片，可以转换为JPG格式或者JPEG格式，JAVA中实现将PDF文档转图片可以通过第三方提供的架包，比如下载Icepdf的架包，并导入项目中，通过Icepdf控件将所述PDF文档转换为若干图片。或者下载Pdfbox的架包，并导入项目，还可以采用下载Jpedal的架包，并导入项目中，均可以将所述PDF文档转换为图片格式，比如，通过Icepdf控件将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设位置标识的JPG格式或者JPEG格式的每张图片。

S102、通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片，所述图表包括图形和表格。

其中，图表是指图形和表格。

目标检测，也叫目标提取，是一种基于目标几何和统计特征的图像分割，它将目标的分割和识别合二为一。目标检测对于人类来说并不困难，通过对图片中不同颜色模块的感知很容易定位并分类出其中目标物体，但对于计算机来说，面对的是RGB像素矩阵，很难从图像中直接得到抽象概念对应的目标并定位其位置，再加上有时候多个物体和杂乱的背景混杂在一起，目标检测更加困难。“目标检测”主要解决两个问题：图像上多个目标物在哪里，也就是目标位置，目标是什么，也就是目标的类别。

具体地，使用训练好的预设的目标检测模型识别每张所述图片以判断每张所述图片中是否包含图表，所述图表包括图形和表格，若所述图片中包含图形和/或表格，以所有所述图片中包含图形和/或表格的图片作为目标图片，进一步通过所述目标检测模型提取每张所述目标图片中的图形和/或表格，若所述图片中不包含图表，对所述图片不处理，丢弃掉该图片，也可以称为过滤掉该图片，也就是对该图片不用处理。

进一步地，目标检测模型是基于目标检测算法进行目标检测的，目标检测算法主要是基于深度学习模型，本申请实施例实现基于深度学习的PDF文档中图表的定位，深度学习模型可以分成两大类：(1)Two-stage检测算法，其将检测问题划分为两个阶段，首先产生候选区域，英文为Regionproposals，然后对候选区域分类，一般还需要对位置进行精修，这类算法的典型代表是基于Region proposal的R-CNN系算法，如R-CNN，Fast R-CNN，FasterR-CNN等；(2)One-stage检测算法，其不需要Regionproposal阶段，直接产生物体的类别概率和位置坐标值，比较典型的算法如YOLO和SSD。

通过目标检测模型可以识别一张目标图片中的多个物体，并可以定位出不同物体，主要是给出物体的边界框。在使用目标检测模型识别所述图片中是否包含图表之前，先进行目标检测模型的训练。

在一个实施例中，所述通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片的步骤之前，还包括：

训练所述目标检测模型；

所述训练所述目标检测模型的步骤包括：

将图形和表格分别输入目标检测模型以使所述目标检测模型识别所述图形和所述表格；

将携带有图形和/或表格的图片输入至所述目标检测模型以使所述目标检测模型识别出所述图形和/或所述表格，并对应提取所述图形的位置和/或所述表格的位置；

训练所述目标检测模型直至所述目标检测模型对所述图形和/或所述表格的识别准确率满足预设条件。

具体地，目标检测模型的训练过程如下：

(1)先建立目标检测模型。

其中，目标检测，英文为Object Detection，是指找出图像中的目的或者目标，目标又可以称为物体，确定它们的位置和大小，是机器视觉范畴的中心问题之一。计算机视觉中关于图像识别有四大类任务：

1)目标分类，英文为Classification。

处置“是什么？”的问题，即给定一张图片或一段视频判别里面包含什么类别的目的。

2)目标定位，英文为Location。

处置“在哪里？”的问题，即定位出这个目的的位置。

3)目标检测，英文为Detection。

处置“是什么？在哪里？”的问题，即定位出这个目的的位置并且知道目的物是什么。

4)目标分割-Segmentation。

分为实例的分割(英文为Instance-level)和场景分割(英文为Scene-level)。处置“每一个像素属于哪个目的物或场景”的问题。

其中，基于候选区域的目标检测器，包括基于候选区域的，如R-CNN，SPP-net，FastR-CNN，Faster R-CNN及R-FCN等模型，基于端到端(End-to-End)的目标检测方法，这些方法无需区域提名，包括YOLO和SSD，由于在本申请实施例中采取现有模型进行训练，在本申请实施例中，采取基于Faster R-CNN的目标检测模型为例来说明本申请技术方案。

(2)训练目标检测模型。

建立完目标检测模型后，训练目标检测模型。训练所述目标检测模型的步骤包括：

1)将图形和表格分别输入目标检测模型以使所述目标检测模型识别所述图形和所述表格。

具体地，将图形和表格分别输入目标检测模型，使所述目标检测模型根据输入的图形和表格认识什么是图形及什么是表格，从而使所述目标检测模型能够识别出所述图形和所述表格。其中，训练目标检测模型的图表有以下两种：

1)将图形和表格分别输入目标检测模型，并告诉目标检测模型哪些是图形和哪些是表格，然后输入其他的图形和表格训练所述目标检测模型，直到目标检测模型对图形和表格的识别准确率达到需求，比如目标检测模型对图表的识别准确率在百分之九十之上。

2)输入从PDF中提取的图片，检测所述图片中是否有图形或者表格，假如图片中有图形或者表格，告诉目标检测模型哪些是图形和哪些是表格以让目标检测模型能够识别出图形和表格。

需要说明的是，这里只是教会目标检测模型识别出来什么是图形和什么是表格，重要的是模型能识别出来什么样的是图形和什么样的是表格，训练模型时重要的是能够识别出来图形和表格，而不在于图形或者表格的载体是什么，也就是不一定非要是图片上的图形或者表格，就像进行人脸识别一样，可以采用活体的人脸识别人的五官，也可以通过照片识别人的五官，只要能识别出来人的五官就可以，五官的载体是次要的。当然，若能使用将PDF转换的图片来训练目标检测模型，效果会更准确。

2)将携带有图形和/或表格的图片输入至所述目标检测模型以使所述目标检测模型识别出所述图形和/或所述表格，并对应提取所述图形的位置和/或所述表格的位置。

具体地，由于目标检测模型本身能够进行目标定位，目标检测模型能够识别出图形和表格后，目标检测模型可以对输入的图片进行图形和表格的识别并对识别出的图形和表格进行对应的定位，提取图形和表格各自的位置，从而完成对输入图片中图形和表格的识别及定位。

3)训练所述目标检测模型直至所述目标检测模型对所述图形和/或所述表格的识别准确率满足预设条件。

具体地，目标检测模型能够对输入图片进行图形和表格各自的识别及定位后，通过大量样本的输入训练目标检测模型，提高目标检测模型对图形和表格识别的准确度，训练所述目标检测模型直至所述目标检测模型对所述图形和/或所述表格的识别准确率满足预设条件，所述预设条件是指目标检测模型对图形的识别准确率及目标检测模型对表格的识别准确率，比如，目标检测模型对图形的识别准确率达到90％以上，及目标检测模型对表格的识别准确率95％以上等。

训练完成的目标检测模型可以用来识别PDF转换成的图片中是否包含图形和/或表格。具体地，首先将PDF每一页转换为一张一张的图片，然后通过训练好的目标检测模型对转换后的图片进行检测，比如训练完成的FASTER-RCNN目标检测模型对图片进行检测，若目标检测模型检测到图片中包含图形和/或表格，若图片中包含多个图形和/或多个表格时，对检测到的图形和/或表格进行分类，并且逐一进行定位以确定图片中哪个位置是图形，哪个位置是表格，从而顺序识别出所述图片中的所有图表，避免对图片中的图表产生遗漏，提高对文档中图表的定位效率。

S103、通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置。

具体地，若所述图片中包含有图形和/或表格，将该图片作为目标图片，通过目标检测模型对目标图片中包含的图形和/或表格进行分类，并定位目标图片中哪个位置是图形，哪个位置是表格，并可以提取所述图形和/或表格在目标图片中的位置，所述图形或者表格在目标图片中的位置可以通过图形或者表格的四个顶点在所述目标图片中的坐标来表示。若所述图片中未包含有图片或者表格，则丢弃该张图片。

进一步地，基于候选区域的目标检测模型(又称为目标检测器)进行目标检测时，目标检测的第一步是要做区域提名(英文为RegionProposal)，也就是找出可能的感兴趣区域(英文为Region OfInterest,ROI)。区域提名方法包括以下几种：

1)、滑动窗口。滑动窗口本质上就是穷举法，利用不同的尺度和长宽比把所有可能的大大小小的块都穷举出来，然后送去识别，识别出来概率大的就留下来。但是，这样的方法复杂度太高，产生了很多的冗余候选区域，在现实当中不可行。

2)、规则块。在穷举法的基础上进行了一些剪枝，只选用固定的大小和长宽比。这在一些特定的应用场景是很有效的，比如拍照搜题APP中的汉字检测，因为汉字方方正正，长宽比大多比较一致，因此用规则块做区域提名是一种比较合适的选择。但是对于普通的目标检测来说，规则块依然需要访问很多的位置，复杂度高。

3)、选择性搜索。从机器学习的角度来说，前面的方法召回是不错了，但是精度差强人意，所以问题的核心在于如何有效地去除冗余候选区域。其实冗余候选区域大多是发生了重叠，选择性搜索利用这一点，自底向上合并相邻的重叠区域，从而减少冗余。以R-CNN为例，R-CNN是Region-based Convolutional Neural Networks的缩写，中文翻译是基于区域的卷积神经网络，是一种结合区域提名(英文为RegionProposal)和卷积神经网络(英文为ConvolutionalNeural Networks，简写为CNN)的目标检测方法，R-CNN的主要步骤包括：

(1)、区域提名，通过Selective Search从原始图片提取2000个左右区域候选框；

(2)区域大小归一化，把所有侯选框缩放成固定大小，比如，采用227×227)；

(3)特征提取，通过CNN网络，提取特征；

(4)分类与回归，在特征层的基础上添加两个全连接层，再用SVM分类来做识别，用线性回归来微调边框位置与大小，其中每个类别单独训练一个边框回归器。

进一步地，Fast R-CNN的主要步骤如下：

(1)特征提取，以整张图片为输入利用CNN得到图片的特征层；

(2)区域提名，通过Selective Search等方法从原始图片提取区域候选框，并把这些候选框一一投影到最后的特征层；

(3)区域归一化，针对特征层上的每个区域候选框进行RoI Pooling操作，得到固定大小的特征表示；

(4)分类与回归，然后再通过两个全连接层，分别用softmax多分类做目标识别，用回归模型进行边框位置与大小微调。

更进一步地，FasterR-CNN的主要步骤如下：

(1)特征提取，同Fast R-CNN，以整张图片为输入，利用CNN得到图片的特征层；

(2)区域提名，在最终的卷积特征层上利用k个不同的矩形框(AnchorBox)进行提名，k一般取9；

(3)分类与回归，对每个AnchorBox对应的区域进行object/non-object二分类，并用k个回归模型(各自对应不同的AnchorBox)微调候选框位置与大小，最后进行目标分类。

总之，Faster R-CNN抛弃了Selective Search，引入了RPN网络，使得区域提名、分类、回归一起共用卷积特征，从而得到了进一步的加速。但是，Faster R-CNN需要对两万个AnchorBox先判断是否是目标(目标判定)，然后再进行目标识别，分成了两步。

S104、以每张所述目标图片在所述PDF文档中的位置及所述图表在对应每张所述目标图片中的位置按照预设顺序组合以生成所述图表在所述PDF文档中的位置。

其中，预设顺序包括每张所述目标图片在所述PDF文档中的位置在前、所述图表在对应每张所述目标图片中的位置在后的顺序，或者每张所述目标图片在所述PDF文档中的位置在后、所述图表在对应每张所述目标图片中的位置在前的顺序。

具体地，根据每张所述目标图片在所述PDF文档中的位置和所述图表在对应每张所述目标图片中的位置定位所述图表在所述PDF文档中的位置，即确定所述图表在对应每张目标图片中的位置后，再根据每张所述目标图片在所述PDF文档中的位置，最后定位所述图表在所述PDF文档中的位置。比如，若有一图表L在PDF文档A的第3页的坐标为(x1，y1)，图表L在PDF文档的位置可以描述为A3(x1，y1)，或者图表L在PDF文档的位置可以描述为(x1，y1)A3。

本申请实施例实现PDF文档中图表的定位时，通过获取PDF文件，通过预设方式将所述PDF文件转换为一张一张的独立图片，通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片，通过所述目标检测模型提取每张所述目标图片中所述图表的位置，根据每张目标图片在PDF文档中的位置和图表在对应每张目标图片中的位置定位图表在PDF文档中的位置，能够实现自动识别PDF文档中哪块区域是图形或者表格，当需要使用PDF文件当中的图表时，比如，将PDF文档转换为WORD格式时，由于对PDF文件中的图表进行了准确的识别和定位，可以提高PDF文件的使用效率。

在一个实施例中，所述以每张所述目标图片在所述PDF文档中的位置及所述图表在对应每张所述目标图片中的位置按照预设顺序组合以生成所述图表在所述PDF文档中的位置的步骤之后，还包括：

按照每张所述目标图片在所述PDF文档中的顺序以列表形式按照预设编号顺序显示所有所述目标图片的信息，所述信息包括：图表的类型、图表在每张所述目标图片的位置、每张所述目标图片在所述PDF文档中的位置、所述图表在所述PDF文档中的位置。

具体地，按照每张所述目标图片在所述PDF文档中的顺序以列表形式按照预设编号顺序显示所有所述目标图片的信息，所述信息包括：图表的类型、图表在每张所述目标图片的位置、每张所述目标图片在所述PDF文档中的位置、所述图表在所述PDF文档中的位置。比如，请参阅表1，表1为一PDF文档中包含图表的每张所述目标图片的信息示例，如表1所示，其中图形和表格用统一的编号1、2、3描述，PDF文档A包含的图表包括表格1、图形2及表格3，在表1中用一个顶点的坐标来示例描述图表的一个顶点在每张所述目标图片中的位置，在PDF文档A中的第3页的坐标(x1，y1)位置有表格1的一个顶点，在PDF文档A中的第7页的坐标(x2，y2)位置有图形2的一个顶点，在PDF文档A中的第9页的坐标(x3，y3)位置有表格3的一个顶点，表格一般用表格的四个顶点的坐标就可以确定表格在每张所述目标图片中的位置，图形可以用图形的n个顶点的坐标确定图形在每张所述目标图片中的位置，n≥3，n为整数，比如，三角形图形可以用三角形的三个顶点的坐标来描述三角形在每张所述目标图片中的位置，四边形可以用四边形的四个顶点的坐标来描述表格在每张所述目标图片的位置，五角形图形以五角形的五个顶点的坐标来描述图形在每张所述目标图片中的位置等。

进一步地，其中图形和表格也可以分别用各自的预设编号1、2、3顺序描述，也就是表格用表格的预设编号1、2、3顺序描述，图形用图形的预设编号1、2、3顺序描述，表格可以描述为表格1、表格2及表格3等，图形描述为图形1、图形2及图形3等。

以列表形式按照预设编号顺序显示所有的包含图表的每张所述目标图片的信息，可以利用JS在页面中新建一个Excel表格来实现。JS即JavaScript，JavaScript是Web的编程语言，使用HTML结合CSS结构样式代码，比如使用CSS中的Table样式来实现以表格形式显示包含图表的每张所述目标图片的信息，其中，CSS，英文为Cascading Style Sheets，指层叠样式表。

表1

在一个实施例中，所述通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置的步骤包括：

通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的预设区域位置，所述预设区域包括m个区域，m≥2，m为整数。

具体地，在目标检测模型中，其中目标定位是不仅仅要识别出来是什么物体，即分类，而且还要预测物体的位置，位置一般用边框(Bounding box)标记，而目标检测实质是多目标的定位，即要在目标图片中定位多个目标物体，包括分类和定位，因此，在目标检测模型训练的过程中，包括对目标的定位，就是目标在图像中的位置。可以将PDF中的每页文档转换为每张目标图片后将目标图片划分为m个预设区域，m≥2，m为整数，以预设区域来描述图表在每张所述目标图片中的位置。比如，以将每张所述目标图片划分为四个区域为例，请参阅图2，图2为本申请实施例提供的PDF文档中图表的定位方法中一个图表位置区域划分示意图，如图2所示，图2中的所述预设区域包括第一区域、第二区域、第三区域及第四区域，通过判断图表在第一区域、第二区域、第三区域或者第四区域中的哪个区域来描述图表在每张所述目标图片中的位置。其中，m越大，每页文档的区域划分越精细，对图表的位置描述越准确，可以根据实际需要确定m的值，也就是将每张所述目标图片划分为多少个预设区域。

通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表的n个顶点分别在对应每张所述目标图片中的坐标，其中，n≥3，n为整数。

具体地，除了可以将PDF中每张所述目标图片用区域划分来描述图表在每张所述目标图片中的位置外，还可以以每张所述目标图片中的坐标来描述图表在每张所述目标图片中的位置，通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表的n个顶点分别在对应每张所述目标图片中的坐标，其中，n≥3，n为整数。比如，三角形图形可以用三角形的三个顶点的坐标来描述三角形在每张所述目标图片中的位置，表格以表格的四个顶点的坐标来描述表格在每张所述目标图片的位置，四边形可以用四边形的四个顶点的坐标来描述表格在每张所述目标图片的位置，五角形图形以五角形的五个顶点的坐标来描述图形在每张所述目标图片中的位置等，以实现对图表位置更精确的描述。请继续参阅表1，如表格1所示，其中图形和表格用统一的编号1、2、3描述，PDF文档A包含的图表包括表格1、图形2及表格3，在表1中用一个顶点的坐标来示例描述图表的一个顶点在每张所述目标图片中的位置，在PDF文档A中的第3页的坐标(x1，y1)位置有表格1的一个顶点，在PDF文档A中的第7页的坐标(x2，y2)位置有图形2的一个顶点，在PDF文档A中的第9页的坐标(x3，y3)位置有表格3的一个顶点。

由于在目标检测模型中，其中目标定位是不仅仅要识别出来是什么物体，即分类，而且还要预测物体的位置，位置一般用边框(Boundingbox)标记，而目标检测实质是多目标的定位，即要在图片中定位多个目标物体，包括分类和定位，因此，在目标检测模型训练的过程中，包括对目标的定位，就是目标在图像中的位置。

另外，在使用深度学习模型进行文本识别中的表格识别时，首先进行表格的提取，可以使用OpenCV函数对图片灰度处理即二值化处理，腐蚀和膨胀后得到表格线，由获得的表格线得到单元格交点坐标，根据每个单元格交点坐标中横坐标和竖坐标的大小以判断出表格的顶点坐标。请继续参阅图2，若图2中所示的图为一个坐标系的四个象限，根据坐标系中四个象限的坐标特点可知，B1、B2、B3及B4中各个坐标满足表2所示的属性。根据表2中所示的属性可知：

1)在B1所在的象限中，X1最小且Y1最大的坐标为表格的顶点坐标；

2)在B2所在的象限中，X2最打且Y2最大的坐标为表格的顶点坐标；

3)在B3所在的象限中，X3最大且Y3最小的坐标为表格的顶点坐标；

4)在B4所在的象限中，X4最小且Y4最小的坐标为表格的顶点坐标。

根据以上各个坐标的属性，获得表格中的单元格交点坐标以后，通过比较各个单元格交点坐标中的横坐标和纵坐标的大小，即可获得表格的四个顶点的坐标。

表2

点所属象限	坐标属性
		B1	X1＜0；Y1＞0
B2	X2＞0；Y2＞0
		B3	X3＞0；Y3＜0
B4	X4＜0；Y4＜0

需要说明的是，上述各个实施例所述的PDF文档中图表的定位方法，可以根据需要将不同实施例中包含的技术特征重新进行组合，以获取组合后的实施方案，但都在本申请要求的保护范围之内。

请参阅图3，图3为本申请实施例提供的PDF文档中图表的定位装置的示意性框图。对应于上述PDF文档中图表的定位方法，本申请实施例还提供一种PDF文档中图表的定位装置。如图3所示，该PDF文档中图表的定位装置包括用于执行上述PDF文档中图表的定位方法的单元，该装置可以被配置于终端或者服务器等计算机设备中。具体地，请参阅图3，该PDF文档中图表的定位装置300包括转换单元301、识别单元302、提取单元303及定位单元304。

其中，转换单元301，用于获取PDF文档，通过预设方式将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设位置标识的每张图片；

识别单元302，用于通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片，所述图表包括图形和表格；

提取单元303，用于通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置；

定位单元304，用于以每张所述目标图片在所述PDF文档中的位置及所述图表在对应每张所述目标图片中的位置按照预设顺序组合以生成所述图表在所述PDF文档中的位置。

在一个实施例中，所述PDF文档中图表的定位装置300还包括：

显示单元，用于按照每张所述目标图片在所述PDF文档中的顺序以列表形式按照预设编号顺序显示所有所述目标图片的信息，所述信息包括：图表的类型、图表在每张所述目标图片的位置、每张所述目标图片在所述PDF文档中的位置、所述图表在所述PDF文档中的位置。

在一个实施例中，所述提取单元303，用于通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的预设区域位置，所述预设区域包括m个区域，m≥2，m为整数。

在一个实施例中，所述提取单元303，用于通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表的n个顶点分别在对应每张所述目标图片中的坐标，其中，n≥3，n为整数。

在一个实施例中，所述PDF文档中图表的定位装置300还包括：

训练单元，用于训练所述目标检测模型。

在一个实施例中，所述目标检测模型为深度学习模型。

在一个实施例中，所述深度学习模型为Faster R-CNN模型。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述PDF文档中图表的定位装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

同时，上述PDF文档中图表的定位装置中各个单元的划分和连接方式仅用于举例说明，在其他实施例中，可将PDF文档中图表的定位装置按照需要划分为不同的单元，也可将PDF文档中图表的定位装置中各单元采取不同的连接顺序和方式，以完成上述PDF文档中图表的定位装置的全部或部分功能。

上述PDF文档中图表的定位装置可以实现为一种计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备400可以是台式机电脑或者服务器等计算机设备，也可以是其他设备中的组件或者部件。

参阅图4，该计算机设备400包括通过系统总线401连接的处理器402、存储器和网络接口405，其中，存储器可以包括非易失性存储介质403和内存储器404。

该非易失性存储介质403可存储操作系统4031和计算机程序4032。该计算机程序4032被执行时，可使得处理器402执行一种上述PDF文档中图表的定位方法。

该处理器402用于提供计算和控制能力，以支撑整个计算机设备400的运行。

该内存储器404为非易失性存储介质403中的计算机程序4032的运行提供环境，该计算机程序4032被处理器402执行时，可使得处理器402执行一种上述PDF文档中图表的定位方法。

该网络接口405用于与其它设备进行网络通信。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备400的限定，具体的计算机设备400可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图4所示实施例一致，在此不再赘述。

其中，所述处理器402用于运行存储在存储器中的计算机程序4032，以实现如下步骤：获取PDF文档，通过预设方式将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设位置标识的每张图片；通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片，所述图表包括图形和表格；通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置；以每张所述目标图片在所述PDF文档中的位置及所述图表在对应每张所述目标图片中的位置按照预设顺序组合以生成所述图表在所述PDF文档中的位置。

在一实施例中，所述处理器402在实现所述以每张所述目标图片在所述PDF文档中的位置及所述图表在对应每张所述目标图片中的位置按照预设顺序组合以生成所述图表在所述PDF文档中的位置的步骤之后，还实现以下步骤：

在一实施例中，所述处理器402在实现所述通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置的步骤时，具体实现以下步骤：

在一实施例中，所述处理器402在实现所述通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片的步骤之前，还实现以下步骤：

训练所述目标检测模型。

在一实施例中，所述处理器402在实现所述训练所述目标检测模型的步骤时，所述目标检测模型为深度学习模型。

在一实施例中，所述处理器402在实现所述训练所述深度学习模型的步骤时，所述深度学习模型为FasterR-CNN模型。

应当理解，在本申请实施例中，处理器402可以是中央处理单元(CentralProcessingUnit，CPU)，该处理器402还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来完成，该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本申请还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时使处理器执行如下步骤：

一种计算机程序产品，当其在计算机上运行时，使得计算机执行以上各实施例中所描述的PDF文档中图表的定位方法的步骤。

所述计算机可读存储介质可以是前述设备的内部存储单元，例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述计算机可读存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，终端，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上所述，仅为本申请的具体实施方式，但本申请明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种PDF文档中图表的定位方法，其特征在于，所述方法包括：

获取PDF文档，通过预设方式将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设位置标识的每张图片；

通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片，所述图表包括图形和表格；

通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置；

以每张所述目标图片在所述PDF文档中的位置及所述图表在对应每张所述目标图片中的位置按照预设顺序组合以生成所述图表在所述PDF文档中的位置；

其中，所述预设顺序包括每张所述目标图片在所述PDF文档中的位置在前、所述图表在对应每张所述目标图片中的位置在后的顺序，或者每张所述目标图片在所述PDF文档中的位置在后、所述图表在对应每张所述目标图片中的位置在前的顺序；

所述以每张所述目标图片在所述PDF文档中的位置及所述图表在对应每张所述目标图片中的位置按照预设顺序组合以生成所述图表在所述PDF文档中的位置的步骤之后，还包括：

按照每张所述目标图片在所述PDF文档中的顺序以列表形式按照预设编号顺序显示所有所述目标图片的信息，所述信息包括：图表的类型、图表在每张所述目标图片的位置、每张所述目标图片在所述PDF文档中的位置、所述图表在所述PDF文档中的位置；

其中，所述预设位置标识指每页PDF文档在整个PDF文档中的位置描述。

2.根据权利要求1所述PDF文档中图表的定位方法，其特征在于，所述通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置的步骤包括：

3.根据权利要求1所述PDF文档中图表的定位方法，其特征在于，所述通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置的步骤包括：

4.根据权利要求1所述PDF文档中图表的定位方法，其特征在于，所述通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片的步骤之前，还包括：

训练所述目标检测模型；

所述训练所述目标检测模型的步骤包括：

5.根据权利要求4所述PDF文档中图表的定位方法，其特征在于，所述目标检测模型为Faster R-CNN模型。

6.根据权利要求1所述PDF文档中图表的定位方法，其特征在于，所述通过预设方式将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设位置标识的每张图片的步骤包括：

通过Icepdf控件将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设位置标识的JPG格式或者JPEG格式的每张图片。

7.一种PDF文档中图表的定位装置，其特征在于，包括：

转换单元，用于获取PDF文档，通过预设方式将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设位置标识的每张图片；

识别单元，用于通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片，所述图表包括图形和表格；

提取单元，用于通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置；

定位单元，用于以每张所述目标图片在所述PDF文档中的位置及所述图表在对应每张所述目标图片中的位置按照预设顺序组合以生成所述图表在所述PDF文档中的位置；

所述定位单元之后，还包括：

8.一种计算机设备，其特征在于，所述计算机设备包括存储器以及与所述存储器相连的处理器；所述存储器用于存储计算机程序；所述处理器用于运行所述存储器中存储的计算机程序，以执行如权利要求1-6任一项所述PDF文档中图表的定位方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行如权利要求1-6中任一项所述PDF文档中图表的定位方法的步骤。