CN113901214B

CN113901214B - 表格信息的提取方法、装置、电子设备及存储介质

Info

Publication number: CN113901214B
Application number: CN202111173960.4A
Authority: CN
Inventors: 章玥; 方舟; 史亚冰; 蒋烨; 柴春光
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2023-11-17
Anticipated expiration: 2041-10-08
Also published as: US20230038091A1; EP4137966A1; US12038982B2; CN113901214A

Abstract

本公开提供了一种表格信息的提取方法、装置、电子设备及存储介质，涉及人工智能和大数据领域，尤其涉及机器学习、知识图谱、智能搜索和智能推荐领域，可以用于智能提取表格中的信息等场景。具体实现方案为：基于表格中多行单元格和/或多列单元格的特征进行聚类，以确定表格中的候选表头单元格；以及基于候选表头单元格，对表格进行信息提取，以提取表格中的属性与属性值对。

Description

表格信息的提取方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能和大数据领域，尤其涉及机器学习、知识图谱、智能搜索和智能推荐领域，可以用于智能提取表格中的信息等场景。

背景技术

对人类而言，表格是一种直观、高效的数据表现形式，在各类文档中均有广泛应用。表格中蕴藏了大量的信息，十分值得深入挖掘。此外，不同于自由文本，表格中的数据是以半结构化的形式组织的，因此相比较于从自由文本中抽取信息，从表格中抽取到的信息可靠度更高，数据质量也更好。

发明内容

本公开提供了一种表格信息的提取方法、装置、设备、存储介质以及计算机程序产品。

根据本公开的一方面，提供了一种表格信息的提取方法，包括：基于表格中多行单元格和/或多列单元格的特征进行聚类，以确定所述表格中的候选表头单元格；以及基于所述候选表头单元格，对所述表格进行信息提取，以提取所述表格中的属性与属性值对。

根据本公开的另一方面，提供了一种表格信息的提取装置，包括：聚类模块，用于基于表格中多行单元格和/或多列单元格的特征进行聚类，以确定所述表格中的候选表头单元格；以及信息提取模块，用于基于所述候选表头单元格，对所述表格进行信息提取，以提取所述表格中的属性与属性值对。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开实施例所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据本公开实施例所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开实施例所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示例性示出了适于本公开实施例的系统架构；

图2示例性示出了根据本公开实施例的表格信息的提取方法的流程图；

图3示例性示出了根据本公开另一实施例的表格信息的提取方法的流程图；

图4示例性示出了根据本公开实施例的确定表格中表头的原理图；

图5示例性示出了根据本公开实施例的表格信息的提取装置的框图；以及

图6示例性示出了用来实现本公开实施例的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

应该理解，可以通过以下方式提取表格中的信息。

(1)通过人工标注或配置规则抽取，即通过人工直接标注或通过观察数据的普遍特征而人工配置模板进行抽取。

(2)通过外部数据源匹配抽取，即通过与外部数据源如预定知识库比对进行抽取。

(3)针对特定格式的表格抽取，即要求表头在表格中的特定位置。

(4)通过有监督的机器学习方法抽取，即通过标注数据训练模型进行抽取。

其中，以上表格信息提取方式存在如下缺陷。

方式(1)的主要缺点在于，一是人工标注成本较高，二是通过配置模板进行抽取，泛化能力较差，能够处理的场景非常有限，且表格数据间不具备可迁移性。

方式(2)的主要缺点在于，对外部数据源的要求较高，需要外部数据源的覆盖度较高，因此仅适用于通用知识图谱等通用场景，不适用于行业知识图谱等非通用场景，且无法适应于表头丰富多样或表头中包含短句的应用场景。

方式(3)的主要缺点在于，只能处理具有特定格式的表格，泛化性和表格数据间的可迁移性较差。

方式(4)的主要缺点在于，需要耗费大量的人力成本来标注数据。

因此，本公开提供了一种无监督机器学习的基于聚类的表格信息提取方法，可以自适应表格本身的结构特征来提取表格信息，不需要依赖标注数据和外部数据源，也不需要表格具有特定格式，更不需要人工标注或配置模板，因而可以克服上述缺陷，同时泛化能力和可迁移能力均得以提高，可适应的场景更加广泛，人力成本得以降低。

以下将结合附图和具体实施例详细阐述本公开。

适于本公开实施例的表格信息的提取方法和装置的系统架构介绍如下。

图1示例性示出了适于本公开实施例的系统架构。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他环境或场景。

如图1所示，本公开实施例中系统架构100可以包括：终端设备101、数据库102和数据库103。其中，终端设备101可以包括客户端或服务端(如云服务端)，用于执行本公开实施例提供的表格信息的提取方法，以及用于部署本公开实施例提供的表格信息的提取装置。此外，在本公开实施例中，表格信息的提取装置可以用于实现对应的表格信息的提取方法。此外，数据库102可以用于存储待处理的表格。数据库103可以用于存储提取的表格信息，如属性、属性值以及属性与对应属性值之间的映射关系。并且，数据库102和数据库103可以是不同的数据库或者是同一的数据库。

应该理解，图1中的数据库和终端设备的数目仅仅是示意性的。根据实现需要，可以具有任意数目的数据库和终端设备。

适于本公开实施例的表格信息的提取方法和装置的应用场景介绍如下。

应该理解，本公开实施例提供的表格信息的提取方法和装置可以用于表格信息的智能化提取场景。

示例性的，可以在不依赖外部数据源和标注数据的情况下，从半结构化的表格数据中抽取出属性和对应的属性值，即可以提取属性-属性值对。如表1所示，可以抽取出：在属性“全年应纳税所得额(第纳尔)”对应的属性值为“0-120000”时，属性“税率”对应的属性值“0％”；在属性“全年应纳税所得额(第纳尔)”对应的属性值为“120001-360000”时，属性“税率”对应的属性值“20％”等信息。

表1

全年应纳税所得额(第纳尔)	税率
		0-120000	0％
120001-360000	20％
		360001-1440000	30％
1440000以上	35％

进一步，本公开实施例提供的表格信息的抽取方法能够有效帮助下游节点构建各类知识图谱(如包括通用知识图谱和行业知识图谱)，进而能够有效帮助更下游的节点基于知识图谱完成对应的下游任务，如信息的智能检索、智能推荐和智能问答等，具有广泛的应用与落地前景。

根据本公开的实施例，本公开提供了一种表格信息的提取方法。

图2示例性示出了根据本公开实施例的表格信息的提取方法的流程图。

如图2所示，表格信息的提取方法200可以包括：操作S210～S230。

操作S210，基于表格中多行单元格和/或多列单元格的特征进行聚类，以确定表格中的候选表头单元格。

操作S220，基于候选表头单元格，对表格进行信息提取，以提取表格中的属性与属性值对。

操作S210中，可以基于表格中多行单元格的行特征进行聚类，以确定表格中的候选列表头单元格。或者，操作S210中，可以基于表格中多列单元格的列特征进行聚类，以确定表格中的候选行表头单元格。或者，操作S210中，可以基于表格中多行单元格的行特征和多列单元格的列特征分别进行聚类，以确定表格中的候选表头单元格。此种情况下，确定的候选表头单元格可能仅包含候选列表头单元格，或者可能仅包含候选行表头单元格，或者可能同时包含候选列表头单元格和候选行表头单元格。

操作S220中，可以基于通过操作S210确定的候选表头单元格，对待处理的表格进行信息提取，从而提取表格中的属性与属性值对。

通过本公开实施例，可以自适应表格的结构特征，并通过无监督的聚类算法，针对不同类型的表格进行信息提取，从而不需要标注数据或外部数据源，因而方法泛化能力、数据迁移性等得以提高，适应场景也变得更广泛，人力成本降低。

作为一种可选的实施例，基于表格中多行单元格和/或多列单元格的特征进行聚类，以确定表格中的候选表头单元格，包括：针对表格的M行单元格中的每行单元格，基于行内各单元格的行特征进行聚类，以确定对应的候选列表头单元格；针对表格的N列单元格中的每列单元格，基于列内各单元格的列特征进行聚类，以确定对应的候选行表头单元格。

此外，作为一种可选的实施例，基于候选表头单元格，对表格进行信息提取，包括：在基于候选列表头单元格和候选行表头单元格确定表格为行表头表格的情况下，执行第一操作，其中，第一操作包括：遍历表格中的非表头区域内的各单元格，并基于由候选行表头单元格确定的行表头对应的各属性，以提取表格中对应的属性与属性值对。

图3示例性示出了根据本公开另一实施例的表格信息的提取方法的流程图。

如图3所示，表格信息的提取方法300可以包括：操作S310～S330。

操作S310，针对表格的M行单元格中的每行单元格，基于行内各单元格内容的行特征进行聚类，以确定对应的候选列表头单元格。

操作S320，针对表格的N列单元格中的每列单元格，基于列内各单元格内容的列特征进行聚类，以确定对应的候选行表头单元格。

操作S330，在基于候选列表头单元格和候选行表头单元格确定表格为行表头表格的情况下，执行第一操作，其中，第一操作包括：遍历表格的非表头区域内的各单元格，并基于由候选行表头单元格确定的行表头对应的各属性，以提取表格中对应的属性与属性值对。

作为一种可选的实施例，操作S310中所针对的表格为以二维矩阵形式组织的表格。在二维矩阵形式组织的表格中，不包含合并的单元格，只包含基础单元格，且每个单元格的位置可以用一个二维数组表示。如表2所示，该表格即为二维矩阵形式组织的表格。该表格还可以表达为HTML格式或其他特殊的结构体。

表2

项目名称	建设费
		信息行政管理系统	1000

示例性的，表2可以表达为：

<table>

<tr><td>信息行政管理系统</td><td>1000</td></tr>

</table>

示例性的，表2还可以表达为：

[(0，0，‘项目名称’)，(0，1，‘建设费’)，(1，0，‘信息行政管理系统’)，(1，1，1000)]

需要说明的是，在本公开实施例中，如果待处理的表格是以二维矩阵形式组织的表格，则可以直接执行上述的操作以提取表格中的属性-属性值对；如果待处理的表格不是以二维矩阵形式组织的表格，比如待处理的表格是如表3所示的表格，则可以先对待处理的表格进行预处理操作，之后再对处理后的表格执行上述的操作以提取表格中的属性-属性值对。其中，在预处理阶段，可以将待处理的表格处理成以二维矩阵形式组织的表格。具体地，如果待处理的表格中包含合并的单元格，则需要将合并的单元格拆分开，即拆成一个个基础单元格，并在每个基础单元格中填入相同的内容。另外，空白的行或列将被清除。

示例性的，如表3所示的表格在预处理阶段可以被处理成如表4所示的表格。其中，预处理阶段，表中的“项目名称”单元格被拆为了两个有相同内容的基础单元格，而“建设费”单元格则被拆为了五个有相同内容的基础单元格。另外，表3中的空白的行在表4中已被清除。

表3

表4

其中，表4所示的表格可以表达为：

[‘项目名称’，‘建设费’，‘建设费’，‘建设费’，‘建设费’，‘建设费’]

[‘项目名称’，‘开发费’，‘实施费’，‘集成费’，‘测试费’，‘技术咨询费’]

[‘营销运维支持专业应用V1.0建设’，‘12342’，‘2314’，‘2143’，‘2334’，‘0’]

[‘信息化行政管理系统’，‘888’，‘12333’，‘9876’，‘11132’，‘0’]

[‘合计’，‘123’，‘342’，‘2341’，‘432’，‘0’]。

示例性的，假设待处理的表格为具有M行N列单元格的目标表格，那么可以通过对该目标表格执行操作S310来确定该目标表格是否包含候选列表头单元格，以及在确定表格中包含候选列表头单元格的情况下，可以进一步确定表格中包含的候选列表头单元格有哪些。

类似地，可以通过对该目标表格执行操作S320来确定该目标表格是否包含候选行表头单元格，以及在确定表格中包含候选行表头单元格的情况下，可以进一步确定表格中包含的候选行表头单元格有哪些。

其中，如果操作S310中得到的候选列表头单元格集合为空集，操作S320中得到的候选行表头单元格集合为非空集，则表示该目标表格中仅包含行表头单元格，不包含列表头单元格。此种情况下，可以执行操作S330中的第一操作，即遍历表格的非表头区域内的各单元格，并基于由候选行表头单元格确定的行表头对应的各属性，以提取表格中对应的属性与属性值对。

进一步，在本公开实施例中，对于候选行表头单元格，在当且仅当一行中的单元格命中候选行表头单元格的比例大于阈值时，可以认为该行为行表头单元格。比如，对于上述的表4，当第0行中的单元格命中候选行表头单元格的比例大于60％时，可以认为该行为行表头单元格。

此外，在本公开实施例中，在第一操作中，可以遍历表格中的非表头区域内的所有单元格，对于被遍历的每个单元格而言，可以沿着单元格所在的列向行号减小的方向搜索对应的表头单元格，组成属性-属性值对，其中对于多级表头的情况，属性可以为一个包含多个值的列表。如表4所示，对于第2行第1列的单元格“12342”而言，沿着其所在的列向上搜索对应的表头可以得到：[建设费，开发费]：12342。

进一步，对于多级表头的情况，在提取到属性-属性值对后，还可以对同一行内的属性-属性值对进行属性融合。对于行与行间的属性-属性值对，如果每行融合后的属性一致，那么可以直接进行组合；如果每行融合后的属性不一致，那么可以进一步进行属性融合。

示例性的，如表4所示，对于属性-属性值对“[建设费，开发费]：12342”和“[建设费，实施费]：2314”，进行属性融合可以得到“[建设费]：[[开发费]：12342，[实施费]：2314]”。其中，通过直接组合，可以将多个结果直接组合为一个列表。

示例性的，对于如表1所示的表格，通过执行上述的操作，可以输出如下所示的属性-属性值对(即属性与对应属性值的映射)：

{‘全年应纳税所得额(第纳尔)’：‘0-120000’，‘税率’：‘0％’}

{‘全年应纳税所得额(第纳尔)’：‘120001-360000’，‘税率’：‘20％’}

{‘全年应纳税所得额(第纳尔)’：‘360001-1440000’，‘税率’：‘30％’}

{‘全年应纳税所得额(第纳尔)’：‘1440000以上’，‘税率’：‘35％’}

通过本公开实施例，基于聚类方法，可以自适应表格本身的结构特性来提取表格信息，不需要标注数据或外部数据源、因而方法泛化能力、数据迁移性等得以提高，适应场景也变得更广泛，人力成本降低。

作为一种可选的实施例，基于候选表头单元格，对表格进行信息提取，包括在基于候选列表头单元格和候选行表头单元格确定表格为列表头表格的情况下，执行第二操作，其中，第二操作包括：遍历表格中的非表头区域内的各单元格，并基于由候选列表头单元格确定的列表头对应的各属性，以提取表格中对应的属性与属性值对。

或者，作为另一种可选的实施例，基于候选表头单元格，对表格进行信息提取，包括在基于候选列表头单元格和候选行表头单元格确定表格同时包括行表头和列表头的情况下，执行以下操作中的至少之一。

响应于确定表格中各列的内容相似，执行第一操作。

响应于确定表格中各行的内容相似，执行第二操作。

响应于确定表格中各列的内容的相似度与各列的内容的相似度一致，不对表格进行信息提取。

在本公开的一个实施例中，如果计算得到的候选行表头单元格集合为空集，且计算得到的候选列表头单元格集合为非空集，则表示该目标表格中仅包含列表头单元格，不包含行表头单元格。此种情况下，可以执行上述的第二操作，即遍历表格的非表头区域内的各单元格，并基于由候选列表头单元格确定的列表头对应的各属性，以提取表格中对应的属性与属性值对。

在本公开实施例中，对于候选列表头单元格，在当且仅当一列中的单元格命中候选列表头单元格的比例大于阈值时，可以认为该列为列表头单元格。

此外，在本公开实施例中，在第二操作中，可以遍历表格中的非表头区域内的所有单元格，对于被遍历的每个单元格而言，可以沿着单元格所在的行向列号减小的方向搜索对应的表头单元格，组成属性-属性值对，其中对于多级表头的情况，属性可以为一个包含多个值的列表。

进一步，对于多级表头的情况，在提取到属性-属性值对后，还可以对同一列内的属性-属性值对进行属性融合。对于列与列间的属性-属性值对，如果每列融合后的属性一致，那么可以直接进行组合；如果每列融合后的属性不一致，那么可以进一步进行属性融合。

在本公开的另一个实施例中，如果计算得到的候选行表头单元格集合为非空集，且计算得到的候选列表头单元格集合也为非空集，则表示该目标表格中同时包含行表头单元格和列表头单元格。此种情况下，可以先判断表格中的内容在列上更相似还是在行上更相似，然后根据判断结果选择执行上述的第一操作或第二操作。

应该理解，如果表格中的内容在列上更相似，则可以认为该表格应该是行表头表格。类似地，如果表格中的内容在行上更相似，则可以认为该表格应该是列表头表格。

此外，如果经判断发现表格中的内容在列上的相似度与其在行上的相似度一致，则可以确定，按照本公开实施例提供的方法无法准确地选择表头，因而不对这样的表格进行信息提取。

通过本公开实施例，针对不同表头类型的表格，可以执行不同的操作以便灵活、准确地定位表头所在的位置，进而可以准确地、有区分地对表头单元格和非表头单元格进行表格信息的提取。

进一步，作为一种可选的实施例，可以通过以下操作确定表格中各行的内容的相似度与各列的内容的相似度。

确定表格的行内平均距离。

确定表格的列内平均距离。

比较行内平均距离和列内平均距离，以确定表格中各行的内容的相似度与各列的内容的相似度。

在本公开实施例中，对于同时存在行表头和列表头的表格，可以计算表格的行内平均距离和列内平均距离，并比较行内平均距离和列内平均距离的大小，以辅助确定表格中的内容在列上更相似还是在行上更相似。

示例性的，可以按照以下操作确定表格的行内平均距离和列内平均距离：

在行方向上，可以获取表中每个单元格的行特征，然后对于每行单元格，可以基于行内各单元格的行特征，对每行数据进行k-means聚类，其中如果设定聚类数量为2，则可以取聚类得到的2个簇中簇内元素到聚类中心的平均距离较小的一个簇的簇内距离作为该行的行内距离。重复上述操作可以得到整个表格中每行单元格对应的行内距离向量为

类似地，在列方向上，可以获取表中每个单元格的列特征，然后对于每列单元格，可以基于列内各单元格的列特征，对每列数据进行k-means聚类，其中如果设定聚类数量为2，则可以取聚类得到的2个簇中簇内元素到聚类中心的平均距离较小的一个簇的簇内距离作为该列的列内距离。重复上述操作可以得到整个表格中每列单元格对应的列内距离向量为

进一步，可以在去掉表格的行内距离向量中的行内距离最大值和行内距离最小值后求取剩余行内距离的平均值，并将该平均值作为表格的行内平均距离，记作同理，可以计算得到表格的列内平均距离/>

其中，如果则可以认为表格内容在行上更相似，表格应当具有列表头。如果/>则可以认为表格内容在列上更相似，表格应当具有行表头。如果/>则认为表格内容在行上的相似度与其在列上的相似度一致，那么此种情况下，利用本公开实施例提供的方法，无法正确地选择表头，因而此种情况下不对表格进行信息提取。

通过本公开实施例，可以精准地判断表格中的内容在列上更相似还是在行上更相似。

此外，作为一种可选的实施例，基于行内各单元格的行特征进行聚类，以确定对应的候选列表头单元格，可以包括：针对每行单元格，执行以下操作。

基于行内各单元格的行特征进行聚类，得到两个簇。

将两个簇中元素数量较少的一个簇对应的至少一个单元格作为本行的候选列表头单元格。

或者，作为一种可选的实施例，基于行内各单元格的行特征进行聚类，以确定对应的候选列表头单元格，包括：针对每行单元格，执行以下操作。

基于行内各单元格内容的行特征进行聚类，得到两个簇。

将两个簇中元素没有命中黑名单且元素数量较少的一个簇对应的单元格作为本行的候选列表头单元格，其中，黑名单中记录有特定单元格特征。如对于表1而言，可以将“数字+文字”特征记录在黑名单中，以排除“1440000以上”单元格被识别为表头单元格的可能。

应该理解，列表头呈列形式，一个列表头对应的属性下的属性值将呈行形式。同理，行表头呈行形式，一个行表头对应的属性下的属性值将呈列形式。

示例性的，可以通过以下操作计算得到列表头。

(1-1)计算表格每行中每个单元格的行特征，得到表格各行对应的特征向量

(1-2)对(1-1)中的各行对应的特征向量中的每个元素进行k-means聚类，如果设定聚类数量2，则可以将没有命中配置黑名单(即例外，如表1中的“1440000以上”，其同时含有数字和非数字)且包含的元素数量较少的一个簇所对应的单元格记作候选列表头单元格；

(1-3)重复上述两步，即重复上述的(1-1)和(1-2)，直到计算完表中所有行中可能的候选列表头单元格；

(1-4)在所有候选列表头单元格中，当且仅当一列中的单元格命中候选列表头单元格的比例大于阈值时，可以认为该列为列表头。

类似的，可以通过以下操作计算得到行表头。

(2-1)计算表格每列中每个单元格的列特征，得到表格各列对应的特征向量

(2-2)对(2-1)中的各列对应的特征向量中的每个元素进行k-means聚类，如果设定聚类数量2，则可以将没有命中配置黑名单且包含的元素数量较少的一个簇所对应的单元格记作候选行表头单元格；

(2-3)重复上述两步，即重复上述的(2-1)和(2-2)，直到计算完表中所有列中可能的候选行表头单元格；

(2-4)在所有候选行表头单元格中，当且仅当一行中的单元格命中候选行表头单元格的比例大于阈值时，可以认为该行为行表头。

通过本公开实施例，可以简单、精准地确定表格中的行表头和/或列表头。

其中，可以基于图4所示的基本原理来确定待处理的表格中的表头。即，先进行特征计算，再进行特征聚类，然后根据元素较少的一个簇计算候选表头单元格。如由图中表格中的左边一列确定的候选表头单元格为“全年应纳税所得额(第纳尔)”对应的单元格，即第0行、第0列对应的单元格，如由图中表格中的右边一列确定的候选表头单元格为“税率”对应的单元格，即第0行、第1列对应的单元格。进一步，由此可以确定图中所示表格的表头在第0行。

作为一种可选的实施例，行特征可以包括：数据特征和/或统计特征。进一步，作为一种可选的实施例，统计特征包括以下至少之一：分词统计特征、词性统计特征、字符统计特征、词频统计特征。

此外，作为一种可选的实施例，该方法还可以包括：在在基于表格中多行单元格和/或多列单元格的特征进行聚类之前，针对多行单元格和/或多列单元格，先将各单元格中的数字替换为统一的数字，再提取各单元格中的内容的行特征。

需要说明的是，本公开实施例中所使用的特征可以由数据特征和统计特征两类特征组合而成。由于本公开实施例中使用的是聚类方法，没有训练过程，因此能够很方便地对使用的特征进行增加和删除。

进一步，在本公开实施例中，数据特征指的是一个数据自身所具有的特征，如数据长度等。统计特征指的是一个数据在一组数据中所呈现的特征，如数据出现的频次等。

此外，可以为每个特征设置对应的权重，以方便针对不同任务进行微调。此外，在提取特征时，对于单元格内容包含数字的，无论数字大小和数字长度，可以先将单元格中包含的数字替换为统一的数字，如统一替换为1。这是因为，可以认为数字是彼此相似的，为了便于计算，因而可以将所有单元格中的数字统一替换为1。

示例性的，数字特征可以包括但不限于：是否有数字，是否纯数字，是否有中文，是否纯中文，是否有英文，是否纯英文，数据长度，数据所在行，数据所在列等。其中“是的”可以表示为1，“否的”可以表示为0。

示例性的，统计特征可以包括但不限于：分词统计特征，词性统计特征，字符统计特征，出现频次特征等。其中分词、词性、字符统计特征都是在一组数据中统计得到的多热编码Multi-hot。Multi-hot的特征在于允许编码中同时有多个比特为1。

示例性的，以上述的表1为例，假设所有特征权重为1，计算第0行第1列的“税率”单元格的列特征包括如下步骤。计算其数据特征得到：[0(表示没有数字)，0(表示不是纯数字)，1(表示有中文)，1(表示纯中文)，0(表示没有英文)，0(表示不是纯英文)，2(表示数据长度为2)，0(表示在第0行)，1(表示在第1列)]。计算其统计特征得到：[1，0，0(前三位表示分词统计特征)，1，0，0(这三位表示词性统计特征)，1，1，0，0(这四位表示字符统计特征)，1(表示出现的频率)]。对上述的统计特征解释如下：第1列所对应的所有元素中，将数字替换为1并分词后将得到[税率，1，％]，“税率”单元格仅命中第一个词，因此分词特征是[1，0，0]；第1列所对应的所有元素中，分词后的词对应的词性共有[名词，数字，符号]，“税率”单元格仅命中名词，因此词性统计特征是[1，0，0]；第1列所对应的所有元素中，包含字符[税，率，1，％]，因此字符统计特征为[1，1，0，0]。最后，组合上述的数据特征和统计特征可以得到“税率”单元格最后的列特征为：[0，0，1，1，0，0，2，0，1，1，0，0，1，0，0，1，1，0，0，1]。

应该理解，得益于人工智能技术的发展，自然语言处理相关技术近些年得到了巨大的发展。基于传统机器学习的方法通过人工提取的特征学习数据的隐藏统计特征，适用于数据量特别小、数据特征明显的应用场景，相比于近年来流行的深度学习算法，它的训练和处理效率更高，对于硬件的要求也更低，十分适合应用在没有标注数据、具有强结构特征、数据语义特征分布离散程度高(即每个表格中数据内容表达方式比较灵活多样，如“税率”也可以表达为“......的税率”等)的表格信息抽取任务中。而本公开实施例中，采用的聚类方法就是传统的机器学习方法。

此外，本公开实施例描述的表格信息抽取技术，其目标在于从半结构化的表格数据中抽取出属性和对应的属性值信息。本公开实现的方法，是一种基于聚类的无监督表格信息抽取方法，能够在没有人工标注数据和不依赖任何外部数据源的情况下，利用表格自身的结构特性，无需训练，实现多种格式的表格信息抽取。本公开所提出的方法适用场景丰富，可迁移性强，人工成本低。

此外，使用本公开实施例提供的方法，对于新的文档、新的属性、新的表达方式，无需人工过多干预，也无需针对数据制定新的抽取规则。本公开实施例提供的算法利用的是表格本身的结构特性，无需人工标注样本，冷启动成本低。此外，本公开实施例提供的算法不依赖外部数据源，降低了算法的使用门槛，同时能够处理丰富的表头场景，既适用于通用知识图谱构建，也适用于行业知识图谱构建。此外，本公开实施例提供的算法可处理的表格类型丰富，灵活多变，对表格的格式依赖低，能够处理多级表头的情况。此外，本公开实施例提供的算法，处理效率高，没有训练过程，对硬件要求低。

根据本公开的实施例，本公开还提供了一种表格信息的提取装置。

图5示例性示出了根据本公开实施例的表格信息的提取装置的框图。

如图5所示，表格信息的提取装置500可以包括：聚类模块510和信息提取模块520。

聚类模块510，用于基于表格中多行单元格和/或多列单元格的特征进行聚类，以确定所述表格中的候选表头单元格。

信息提取模块520，用于基于所述候选表头单元格，对所述表格进行信息提取，以提取所述表格中的属性与属性值对。

作为一种可选的实施例，所述聚类模块包括：第一聚类单元，用于针对表格的M行单元格中的每行单元格，基于行内各单元格的行特征进行聚类，以确定对应的候选列表头单元格；第二聚类单元，用于针对所述表格的N列单元格中的每列单元格，基于列内各单元格的列特征进行聚类，以确定对应的候选行表头单元格。

作为一种可选的实施例，所述信息提取模块还用于：在基于所述候选列表头单元格和所述候选行表头单元格确定所述表格为行表头表格的情况下，执行第一操作，其中，所述第一操作包括：遍历所述表格中的非表头区域内的各单元格，并基于由所述候选行表头单元格确定的行表头对应的各属性，以提取所述表格中对应的属性与属性值对。

作为一种可选的实施例，所述信息提取模块还用于：在基于所述候选列表头单元格和所述候选行表头单元格确定所述表格为列表头表格的情况下，执行第二操作，其中，所述第二操作包括：遍历所述表格中的非表头区域内的各单元格，并基于由所述候选列表头单元格确定的列表头对应的各属性，以提取所述表格中对应的属性与属性值对。

作为一种可选的实施例，其中，所述信息提取模块还用于在基于所述候选列表头单元格和所述候选行表头单元格确定所述表格同时包括行表头和列表头的情况下，执行以下操作中的至少之一：响应于确定所述表格中各列的内容相似，执行所述第一操作；响应于确定所述表格中各行的内容相似，执行所述第二操作；响应于确定所述表格中各行的内容的相似度与各列的内容的相似度一致，不对所述表格进行信息提取。

作为一种可选的实施例，通过以下操作确定表格中各行的内容的相似度与各列的内容的相似度：确定所述表格的行内平均距离；确定所述表格的列内平均距离；以及比较所述行内平均距离和所述列内平均距离，以确定表格中各行的内容的相似度与各列的内容的相似度。

作为一种可选的实施例，所述第一聚类单元包括：第一聚类子单元，用于针对所述每行单元格，基于所述行内各单元格的行特征进行聚类，得到两个簇；以及第一确定子单元，用于将所述两个簇中元素数量较少的一个簇对应的至少一个单元格作为本行的候选列表头单元格。

作为一种可选的实施例，所述第一聚类单元包括：第二聚类子单元，用于针对所述每行单元格，基于所述行内各单元格的行特征进行聚类，得到两个簇；以及第二确定子单元，用于将所述两个簇中元素没有命中黑名单且元素数量较少的一个簇对应的单元格作为本行的候选列表头单元格，其中，所述黑名单中记录有特定单元格特征。

作为一种可选的实施例，所述特征包括：数据特征和/或统计特征。

作为一种可选的实施例，所述统计特征包括以下至少之一：分词统计特征、词性统计特征、字符统计特征、词频统计特征。

作为一种可选的实施例，所述表格为以二维矩阵形式组织的表格。

作为一种可选的实施例，装置还包括：特征提取模块，用于在基于表格中多行单元格和/或多列单元格的特征进行聚类之前，针对所述多行单元格和/或所述多列单元格，先将各单元格中的数字替换为统一的数字，再提取所述各单元格的行特征。

应该理解，本公开装置部分的实施例与本公开方法部分的实施例对应相同或类似，所解决的技术问题和所达到的技术效果也对应相同或类似，本公开在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，电子设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如表格信息的提取方法。例如，在一些实施例中，表格信息的提取方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的表格信息的提取方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行表格信息的提取方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

本公开的技术方案中，所涉及的表格数据的记录，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种表格信息的提取方法，包括：

基于表格中多行单元格和/或多列单元格的特征进行聚类，以确定所述表格中的候选表头单元格；以及

基于所述候选表头单元格，对所述表格进行信息提取，以提取所述表格中的属性与属性值对；

所述基于表格中多行单元格和/或多列单元格的特征进行聚类，以确定所述表格中的候选表头单元格包括：

针对每行单元格，基于所述行内各单元格的行特征进行聚类，得到两个簇；并将所述两个簇中元素数量较少的一个簇对应的至少一个单元格作为本行的候选列表头单元格；

根据与每行对应的至少一个候选列表头单元格，确定候选列表头单元格集合；

所述方法还包括：在候选列表头单元格集合中，响应于一列中的单元格命中候选列表头单元格的比例大于阈值，确定该列为列表头；

所述基于所述候选表头单元格，对所述表格进行信息提取，以提取所述表格中的属性与属性值对包括：根据确定的列表头，对所述表格进行信息提取，以提取所述表格中的属性与属性值对。

2.根据权利要求1所述的方法，其中：

所述基于表格中多行单元格和/或多列单元格的特征进行聚类，以确定所述表格中的候选表头单元格，包括：针对表格的M行单元格中的每行单元格，基于行内各单元格的行特征进行聚类，以确定对应的候选列表头单元格；

针对所述表格的N列单元格中的每列单元格，基于列内各单元格的列特征进行聚类，以确定对应的候选行表头单元格。

3.根据权利要求2所述的方法，其中，所述基于所述候选表头单元格，对所述表格进行信息提取，包括：

在基于所述候选列表头单元格和所述候选行表头单元格确定所述表格为行表头表格的情况下，执行第一操作，

其中，所述第一操作包括：遍历所述表格中的非表头区域内的各单元格，并基于由所述候选行表头单元格确定的行表头对应的各属性，以提取所述表格中对应的属性与属性值对。

4.根据权利要求2或3所述的方法，所述基于所述候选表头单元格，对所述表格进行信息提取，包括：

在基于所述候选列表头单元格和所述候选行表头单元格确定所述表格为列表头表格的情况下，执行第二操作，

其中，所述第二操作包括：遍历所述表格中的非表头区域内的各单元格，并基于由所述候选列表头单元格确定的列表头对应的各属性，以提取所述表格中对应的属性与属性值对。

5.根据权利要求2所述的方法，还包括，在基于所述候选列表头单元格和所述候选行表头单元格确定所述表格同时包括行表头和列表头的情况下，执行以下操作中的至少之一：

响应于确定所述表格中的各列的内容相似，执行第一操作；

响应于确定所述表格中的各行的内容相似，执行第二操作；

响应于确定所述表格中各行的内容的相似度与各列的内容的相似度一致，不对所述表格进行信息提取。

6.根据权利要求5所述的方法，其中，通过以下操作确定表格中各行的内容的相似度与各列的内容的相似度：

确定所述表格的行内平均距离；

确定所述表格的列内平均距离；以及

比较所述行内平均距离和所述列内平均距离，以确定所述表格中各行内容的相似度和各列内容的相似度。

7. 根据权利要求2所述的方法，其中，所述基于行内各单元格的行特征进行聚类，以确定对应的候选列表头单元格，包括：针对所述每行单元格，

基于所述行内各单元格的行特征进行聚类，得到两个簇；以及

将所述两个簇中元素没有命中黑名单且元素数量较少的一个簇对应的单元格作为本行的候选列表头单元格，其中，所述黑名单中记录有特定单元格特征。

8.根据权利要求1所述的方法，其中，所述特征包括：数据特征和/或统计特征。

9.根据权利要求8所述的方法，其中，所述统计特征包括以下至少之一：分词统计特征、词性统计特征、字符统计特征、词频统计特征。

10.根据权利要求1所述的方法，其中，所述表格为以二维矩阵形式组织的表格。

11.根据权利要求1所述的方法，还包括：在基于表格中多行单元格和/或多列单元格的特征进行聚类之前，针对所述多行单元格和/或所述多列单元格，

先将各单元格中的数字替换为统一的数字，再提取所述各单元格的行特征。

12. 一种表格信息的提取装置，包括：

聚类模块，用于基于表格中多行单元格和/或多列单元格的特征进行聚类，以确定所述表格中的候选表头单元格；以及

信息提取模块，用于基于所述候选表头单元格，对所述表格进行信息提取，以提取所述表格中的属性与属性值对；

其中，所述聚类模块，还用于针对每行单元格，基于所述行内各单元格的行特征进行聚类，得到两个簇；并将所述两个簇中元素数量较少的一个簇对应的至少一个单元格作为本行的候选列表头单元格；根据与每行对应的至少一个候选列表头单元格，确定候选列表头单元格集合；

所述装置还包括：列表头确定模块，用于在候选列表头单元格集合中，响应于一列中的单元格命中候选列表头单元格的比例大于阈值，确定该列为列表头；

所述信息提取模块，用于根据所述列表头确定模块确定的列表头，对所述表格进行信息提取，以提取所述表格中的属性与属性值对。

13.根据权利要求12所述的装置，其中，所述聚类模块包括：

第一聚类单元，用于针对表格的M行单元格中的每行单元格，基于行内各单元格的行特征进行聚类，以确定对应的候选列表头单元格；

第二聚类单元，用于针对所述表格的N列单元格中的每列单元格，基于列内各单元格的列特征进行聚类，以确定对应的候选行表头单元格。

14.根据权利要求13所述的装置，其中，所述信息提取模块还用于：

15.根据权利要求13或14所述的装置，其中，所述信息提取模块还用于：

16.根据权利要求13所述的装置，其中，信息提取模块还用于在基于所述候选列表头单元格和所述候选行表头单元格确定所述表格同时包括行表头和列表头的情况下，执行以下操作中的至少之一：

响应于确定所述表格中各列的内容相似，执行第一操作；

响应于确定所述表格中的各行的内容相似，执行第二操作；

17.根据权利要求16所述的装置，其中，通过以下操作确定所述表格中各行内容的相似度和各列内容的相似度：

确定所述表格的行内平均距离；

确定所述表格的列内平均距离；以及

18. 根据权利要求13所述的装置，其中，所述第一聚类单元包括：

第二聚类子单元，用于针对所述每行单元格，基于所述行内各单元格的行特征进行聚类，得到两个簇；以及

第二确定子单元，用于将所述两个簇中元素没有命中黑名单且元素数量较少的一个簇对应的单元格作为本行的候选列表头单元格，其中，所述黑名单中记录有特定单元格特征。

19.根据权利要求12所述的装置，其中，所述特征包括：数据特征和/或统计特征。

20.根据权利要求19所述的装置，其中，所述统计特征包括以下至少之一：分词统计特征、词性统计特征、字符统计特征、词频统计特征。

21.根据权利要求12所述的装置，其中，所述表格为以二维矩阵形式组织的表格。

22.根据权利要求12所述的装置，还包括：特征提取模块，用于在基于表格中多行单元格和/或多列单元格的特征进行聚类之前，针对所述多行单元格和/或所述多列单元格，

23. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-11中任一项所述的方法。