CN113722278B

CN113722278B - 一种基于pdf文件的知识元抽取方法、设备及介质

Info

Publication number: CN113722278B
Application number: CN202110852236.8A
Authority: CN
Inventors: 邱瀚; 董志勇; 于文才; 杜志诚; 张亚宁; 郭苏鸣
Original assignee: Shandong Banner Information Co ltd
Current assignee: Shandong Banner Information Co ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2024-05-31
Anticipated expiration: 2041-07-27
Also published as: CN113722278A

Abstract

本申请公开了一种基于PDF文件的知识元抽取方法，方法包括：确认PDF解析器，使用PDF解析器解析待抽取文件，得到待抽取文件的解析数据；根据解析数据，得到待抽取文件的知识结构化信息；获取待抽取文件中各个元素的排列顺序，根据排列顺序对所述知识结构化信息进行排列存储。通过将PDF文件中的非结构化信息转化为知识结构化信息，使得工作人员能够高效地存储、查询、分析、挖掘和利用这些非结构化信息。

Description

一种基于PDF文件的知识元抽取方法、设备及介质

技术领域

本申请涉及信息抽取领域，具体涉及一种基于PDF文件的知识元抽取方法、设备及介质。

背景技术

随着计算机、互联网和数字媒体等的进一步普及，以文本、图形、图像、音频、视频等非结构化数据为主的信息急剧增加，面对如此巨大的信息海洋，特别是非结构化数据信息，如何存储、查询、分析、挖掘和利用这些海量信息资源就显得尤为关键。传统关系数据库主要面向事务处理和数据分析应用领域，擅长解决结构化数据管理问题，在管理非结构化数据方面存在某些先天不足之处，尤其在处理海量非结构化信息时更是面临巨大挑战。由于办公以及组建数据库的需要，经常需要从PDF文件中抽取相关的知识元进行存储。因此亟需一种基于PDF非结构化文件的知识元抽取方法，高效率地对非结构化数据进行管理。

发明内容

为了解决上述问题，本申请提出了一种基于PDF文件的知识元抽取方法、设备及介质，方法包括：

确认PDF解析器，使用所述PDF解析器解析待抽取文件，得到所述待抽取文件的解析数据；根据所述解析数据，得到所述待抽取文件的知识结构化信息；获取所述待抽取文件中各个元素的排列顺序，根据所述排列顺序对所述知识结构化信息进行排列存储。

在一个示例中，确认PDF解析器之前，所述方法还包括：

确认多个PDF文件的知识抽取范围；按照所述知识抽取范围将所述多个PDF文件进行拆分、降噪，得到所述待抽取文件；所述解析数据包括基础信息、抽取信息；所述基础信息包括所述待抽取文件的文件名称、路径、创建时间、修改时间；抽取信息，包括所述待抽取文件中每页的元素；所述元素包括文本数据、图片数据、图表数据、实体及实体关系。

在一个示例中，根据所述解析数据，得到所述待抽取文件的知识结构化信息，具体包括：对所述待抽取文件每页中不同类型的所述元素进行分类；确定所述元素为文本数据，将所述文本数据提取并保存；确定所述元素为图片数据，提取并保存所述图片数据，对所述图片进行文字识别，提取并保存所述图片包含的文本数据；确定所述元素为图表数据，解析所述图表数据包含的不同子元素：若所述子元素为文本数据，将所述文本数据提取并保存；若所述子元素为图片数据，提取并保存所述图片数据，对所述图片进行文字识别，提取并保存所述图片包含的文本数据。

在一个示例中，得到所述待抽取文件的知识结构化信息之后，所述方法还包括：整合所述待抽取文件内的所述文本数据，得到所述待抽取文件对应的文本库；根据所述文本数据在多个所述PDF文件中的位置对所述文本库内的文本数据进行记录。

在一个示例中，所述方法还包括：对所述文本库内的所述文本数据进行实体识别，确认所述文本数据的预设实体关系类型；根据所述预设实体关系类型对所述文本数据进行分类；若所述图片数据中提取到的文本数据的数量低于预设阈值，则将所述图片标记，以方便对所述图片进行人工分类。

在一个示例中，所述方法还包括：对所述文本库内的所述文本数据提取关键字，作为所述PDF文件的关键字；确认输入的检索词，获取所述检索词的文本内容；确定所述多个PDF文件的所述关键字与所述检索词的相关等级，并按照所述相关等级对所述PDF文件进行排序。

在一个示例中，得到所述待抽取文件的知识结构化信息之后，所述方法还包括：确认所述知识结构化信息存在重复文本数据，对所述重复文本数据进行标记。

在一个示例中，确认所述知识结构化信息存在重复文本数据，具体包括：

确定所述知识结构化信息内各文本数据的字段值的相同个数大于预设个数，将所述文本数据记录作为重复文本数据记录输出。

本申请还提供了一种基于PDF文件的知识元抽取设备，包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行：确认PDF解析器，使用所述PDF解析器解析待抽取文件，得到所述待抽取文件的解析数据；根据所述解析数据，得到所述待抽取文件的知识结构化信息；获取所述待抽取文件中各个元素的排列顺序，根据所述排列顺序对所述知识结构化信息进行排列存储。

本申请还提供了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

本申请提出的方法通过抽取范围确定待抽取文件，缩小了抽取文件的范围。通过解析器对待抽取文件进行解析，得到待抽取文件的解析数据，再根据解析数据的不同类型，使用不同的方法抽取知识结构化去信息，能够使得工作人员能够高效的存储、查询、分析、挖掘和利用在PDF文件中的非结构化信息。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中一种基于PDF文件的知识元抽取方法示意图；

图2为本申请实施例中一种基于PDF文件的知识元抽取设备示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

如图1所示，本申请实施例提供一种方法，包括：

S101：确认PDF解析器，使用所述PDF解析器解析待抽取文件，得到所述待抽取文件的解析数据。

通过预设的PDF解析器，对待抽取文件进行解析，得到待抽取文件的解析数据，这里的解析数据指的是非结构化文件的各类数据。

S102：根据所述解析数据，得到所述待抽取文件的知识结构化信息。

得到解析数据后，通过解析数据，得到待抽取文件的知识结构化信息。结构化信息是指数据结构规则、完整，有预定义的数据模型，方便用数据库二维逻辑表来表现的数据信息，比如文本数据就是一种结构化信息。

S103：获取所述待抽取文件中各个元素的排列顺序，根据所述排列顺序对所述知识结构化信息进行排列存储。

得到待抽取文件的知识结构化信息后，获取待抽取文件各个元素的排列顺序，要注意的是，这里的元素指的是文件的内容，待抽取文件的知识结构化信息也是由待抽取文件内的元素通过解析得到的。再根据元素的排列顺序对知识结构化信息进行排列，并将排列后的知识结构化信息存储至信息库中。

在一个实施例中，由于企业的数据库中包含大量非结构化数据，且这些数据每年都在迅速增长。为了提高对非结构化文件的知识元抽取的速度，将多个非结构化文件一起进行知识抽取。在某些工作中，可能只需要对每个非结构化文件其中的一部分文件进行抽取。基于此，可以首先确定多个非结构化文件的知识抽取范围，确保知识抽取只在划分的范围内进行，以减少知识抽取的工作量。在划分知识抽取范围后，需要将多个非结构化文件进行拆分、降噪，并将知识抽取范围内的部分的文件作为待抽取文件，以进行知识元的抽取，由于PDF文件内的数据大部分是图片形式，拆分方式可以是按照PDF文件的页数将PDF文件拆分为一页一页的，并将知识抽取范围内的页数提取出来，按照原有的顺序组合成新的文件，也就是待抽取文件，使用待抽取文件而不是原非结构化文件进行知识抽取，保证了知识抽取的范围。

这里的解析数据包括：基础信息以及抽取信息。其中，基础信息包括文件名称、路径、创建时间、修改时间；抽取信息包括待抽取文件中每页的元素；元素包括文本数据、图片数据、图表数据、实体及实体关系。实体关系是按照不同领域知识内容的需要进行预定义的，比如在颁布/修订各类法规时，颁布/修订就是实体之间的关系。

在一个实施例中，由于PDF文件中会包含大量的文字、图片、图表等形式的数据，为了将这些难以直接用数据库二维逻辑表来表现的数据信息转化为易于表现的数据信息，可以将文字、图片、图表中的文本数据提取出来，作为待抽取文件的结构化信息。基于此，首先需要确定待抽取文件中每页包含的各类元素的类型。如果元素是文本数据，就将文本数据直接提取并保存。如果元素是图片数据，将图片数据提取保存后，再使用文字识别工具，比如OCR文字识别，提取并保存图片包含的文本数据。如果元素是图表，还要进一步明确图表内包含的子元素类型，处理方式与上述类似，如果是文本数据直接提取并保存，如果是图片数据，先提取保存图片数据，再识别并提取、保存图片内的文本数据。以使非结构化的数据都转化为结构化的文本数据。

在一个实施例中，为了能够在使用结构化信息时追溯到信息来源，可以将非结构化文件内各页元素转化为知识结构化信息后，将提取出来的文本数据整合，得到待抽取文件对应的文本库。并根据提取出来的文本数据在原来的多个非结构化文件中的位置，对文本库内的文本数据进行记录，记录内容可以是此段信息来源于待抽取文件的第几页、原PDF文件的第几页、第几段。方便工作人员在使用、检索信息时，能够快速找到信息出处。

在一个实施例中，由于PDF文件中包含的元素内容过多，如果对内容不进行分类，会导致数据冗余混乱，进而导致知识结构化信息中包含大量无用、混杂的数据。基于此，可以对抽取出来的文本数据进行实体识别，并确认文本数据的实体关系类型，如果图片、图表数据中提取到的文本数据较少的话，将图片、图表人工分类处理。将各类文本、图片、图表划分到相应的领域中，能够使得在使用、浏览、检索各类数据时更加方便迅速。

在一个实施例中，当PDF文件过多时，想要找到自己感兴趣的知识信息就需要关键字、关键词的帮助。基于此，可以通过TextRank算法以及去除停用词算法来提取待抽取文件的关键字。进一步地，当进行多个PDF文件的检索时，先确认输入的检索词，获取检索词的文本内容，再根据多个PDF文件各自的关键字与检索词的相关等级，对PDF文件进行排序，使得相关等级高的PDF文件排在前列，方便工作人员能够更加迅速的找到自己想要找的内容。

在一个实施例中，由于在进行知识抽取时，会将图片中的文本信息、图表中的文本信息全都抽取出来，可能会导致文本内容的大量重复，如果不进行处理，会导致最后得到的知识结构化信息中包含大量的重复内容，从而导致数据冗余混乱。基于此，可以在抽取结构化信息之后，对知识结构化信息存在的重复文本数据进行筛查并标记，以使工作人员能够酌情判断文本重复内容是名词的重复还是语句的重复，从而做出相应的处理，也可以通过解析器对文本的重复内容自行处理。

进一步地，当PDF解析器对文本重复内容自行处理时，可以通过确定知识结构化信息内各个段落中，文本数据重复的字数，如果重复字的个数超过预设个数，就将文本数据作为重复文本数据，再对重复文本数据进行删除处理。

如图2所示，本申请实施例还提供了一种基于PDF文件的知识元抽取设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

确认PDF解析器，使用所述PDF解析器解析待抽取文件，得到所述待抽取文件的解析数据；

根据所述解析数据，得到所述待抽取文件的知识结构化信息；

获取所述待抽取文件中各个元素的排列顺序，根据所述排列顺序对所述知识结构化信息进行排列存储。

本申请实施例还提供了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备和介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的设备和介质与方法是一一对应的，因此，设备和介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述设备和介质的有益技术效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于PDF文件的知识元抽取方法，其特征在于，所述方法包括：

获取所述待抽取文件中各个元素的排列顺序，根据所述排列顺序对所述知识结构化信息进行排列存储；

所述解析数据包括基础信息、抽取信息；

所述基础信息包括所述待抽取文件的文件名称、路径、创建时间、修改时间；抽取信息，包括所述待抽取文件中每页的元素；

所述元素包括文本数据、图片数据、图表数据、实体及实体关系；

根据所述解析数据，得到所述待抽取文件的知识结构化信息，具体包括：

对所述待抽取文件每页中不同类型的所述元素进行分类；

确定所述元素为文本数据，将所述文本数据提取并保存；

确定所述元素为图片数据，提取并保存所述图片数据，对所述图片进行文字识别，提取并保存所述图片包含的文本数据；

确定所述元素为图表数据，解析所述图表数据包含的不同子元素：

若所述子元素为文本数据，将所述文本数据提取并保存；

若所述子元素为图片数据，提取并保存所述图片数据，对所述图片进行文字识别，提取并保存所述图片包含的文本数据；

得到所述待抽取文件的知识结构化信息之后，所述方法还包括：

整合所述待抽取文件内的所述文本数据，得到所述待抽取文件对应的文本库；

根据所述文本数据在多个所述PDF文件中的位置对所述文本库内的文本数据进行记录；

对所述文本库内的所述文本数据进行实体识别，确认所述文本数据的预设实体关系类型；

根据所述预设实体关系类型对所述文本数据进行分类；

若所述图片数据中提取到的文本数据的数量低于预设阈值，则将所述图片标记，以方便对所述图片进行人工分类。

2.根据权利要求1所述的方法，其特征在于，确认PDF解析器之前，所述方法还包括：

确认多个PDF文件的知识抽取范围；

按照所述知识抽取范围将所述多个PDF文件进行拆分、降噪，得到所述待抽取文件。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述文本库内的所述文本数据提取关键字，作为所述PDF文件的关键字；

确认输入的检索词，获取所述检索词的文本内容；

确定所述多个PDF文件的所述关键字与所述检索词的相关等级，并按照所述相关等级对所述PDF文件进行排序。

4.根据权利要求1所述的方法，其特征在于，得到所述待抽取文件的知识结构化信息之后，所述方法还包括：

确认所述知识结构化信息存在重复文本数据，对所述重复文本数据进行标记。

5.根据权利要求4所述的方法，其特征在于，确认所述知识结构化信息存在重复文本数据，具体包括：

6.一种基于PDF文件的知识元抽取设备，其特征在于，包括：

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行：

所述解析数据包括基础信息、抽取信息；

对所述待抽取文件每页中不同类型的所述元素进行分类；

确定所述元素为文本数据，将所述文本数据提取并保存；

若所述子元素为文本数据，将所述文本数据提取并保存；

得到所述待抽取文件的知识结构化信息之后，整合所述待抽取文件内的所述文本数据，得到所述待抽取文件对应的文本库；

根据所述预设实体关系类型对所述文本数据进行分类；

7.一种非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为：

所述解析数据包括基础信息、抽取信息；

对所述待抽取文件每页中不同类型的所述元素进行分类；

确定所述元素为文本数据，将所述文本数据提取并保存；

若所述子元素为文本数据，将所述文本数据提取并保存；

根据所述预设实体关系类型对所述文本数据进行分类；