CN110909535B

CN110909535B - 命名实体校对方法、装置、可读存储介质及电子设备

Info

Publication number: CN110909535B
Application number: CN201911244893.3A
Authority: CN
Inventors: 苏海波; 苏萌; 刘译璟; 姚震; 檀玉飞; 左云鹏
Original assignee: Beijing Percent Technology Group Co ltd
Current assignee: Beijing Percent Technology Group Co ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2023-04-07
Anticipated expiration: 2039-12-06
Also published as: CN110909535A

Abstract

本公开涉及一种命名实体校对方法、装置、可读存储介质及电子设备。方法包括：基于中文分词结果，从待识别文本中提取第一命名实体，所述第一命名实体包括第一人名和/或第一职务；基于预设的数据库，从所述待识别文本中提取第二命名实体，所述第二命名实体包括第二人名和/或第二职务，所述预设的数据库中包括预设的人名和/或职务；根据所述第二命名实体，对所述第一命名实体进行纠错处理。由于是基于预设的数据库提取的第二命名实体，所以，所提取的第二命名实体较为准确，进而基于该较为准确的第二命名实体辅助对第一命名识别进行纠错处理，可以提高对待识别文本中的第一命名实体校对的准确度。

Description

命名实体校对方法、装置、可读存储介质及电子设备

技术领域

本公开涉及文本识别技术领域，具体地，涉及一种命名实体校对方法、装置、可读存储介质及电子设备。

背景技术

随着社会的飞速发展，现代信息技术全面渗入各个行业领域，出版行业因此获得了全新的发展机遇，编辑工作步入现代化，校对工作的模式与功能因此发生了巨大的改变。在现代编辑工作中，校对工作仍然是一个至关重要的环节。然而现有的校对工作大部分还是有人工来完成，编辑校对人员的工作中每天要处理大量的文字，长时间人工处理文字难免会出现细漏，一些不应该有的问题可能残留在了文本文字中。例如对人名的校对以及职务的校对，人工校对常常会导致错误不能完全发现或纠正，然而上述错误有时会产生较大的不利影响。

发明内容

本公开的目的是提供一种命名实体校对方法、装置、可读存储介质及电子设备，以解决现有技术中存在的问题。

为了实现上述目的，本公开第一方面提供一种命名实体校对方法，包括：

基于中文分词结果，从待识别文本中提取第一命名实体，所述第一命名实体包括第一人名和/或第一职务；

基于预设的数据库，从所述待识别文本中提取第二命名实体，所述第二命名实体包括第二人名和/或第二职务，所述预设的数据库中包括预设的人名和/或职务；

根据所述第二命名实体，对所述第一命名实体进行纠错处理。

可选地，所述根据所述第二命名实体，对所述第一命名实体进行纠错处理，包括：

根据所述第二命名实体、所述第一命名实体的上下文信息，确定所述第一命名实体是否属于所述预设的数据库内；

若确定所述第一命名实体属于所述预设的数据库内，则基于所述预设的数据库对所述第一命名实体进行纠错处理。

可选地，所述若确定所述命名实体属于所述预设的数据库内，则基于所述预设的数据库对所述第一命名实体进行纠错处理，包括：

从所述第一命名实体中获取待纠错命名实体；

基于预设的错误容忍度，在所述待纠错命名实体中确定目标纠错命名实体；

基于所述预设的数据库对所述目标纠错命名实体进行纠错处理。

可选地，所述若确定所述第一命名实体属于在所述预设的数据库内，则基于所述预设的数据库对所述第一命名实体进行纠错处理，包括：

根据所述预设的数据库，对所述第一命名实体进行错别字纠正；

根据所述预设的数据库，对所述第一命名实体进行漏字和/或多字纠正；以及

在提取的所述第一命名实体与所述预设的数据库中的命名实体一致时，根据所述预设的数据库，对所述第一命名实体进行排序纠正。

确定待识别文本中的第一命名实体之间的语义关系类型；

根据所述语义关系类型对所述第一命名实体进行分组，以使同一类型语义关系的第一人名位于同一组内，和/或，同一类型语义关系的所述第一职务位于同一组内；

针对每一组，按照预设的排序规则对该组内的第一命名实体进行排序纠错。

可选地，所述针对每一组，按照预设的排序规则对该组内的第一命名实体进行排序纠错，包括：

若所述第一命名实体的顺序随场景的变化而变化，则根据所述待识别文本，确定所述待识别文本对应的目标场景；

按照与所述目标场景对应的排序规则，对该组内的所述第一命名实体进行排序纠正。

可选地，在所述第一命名实体包括第一人名和第一职务时，所述根据所述第二命名实体，对所述第一命名实体进行纠错处理之后，所述方法还包括：

对纠错处理后的所述第一人名和所述第一职务进行搭配分组；

针对每一组中的所述第一人名和所述第一职务，确定所述第一人名和所述第一职务的搭配是否准确；

若所述第一人名和所述第一职务的搭配错误，则根据所述预设的数据库，输出所述第一人名对应的职务。

可选地，所述基于中文分词结果，从待识别文本中提取第一命名实体，包括：

基于中文分词结果，确定第一命名实体区域；

按照预设的字数阈值，对所述第一命名实体区域中的文字进行划分，以得到所述第一命名实体。

可选地，所述基于中文分词结果，从待识别文本中提取第一命名实体之后，所述方法还包括：

基于模糊匹配技术，从所述待识别文本中识别出第一命名实体，以识别出遗漏的第一命名实体。

本公开第二方面还提供一种命名实体校对装置，包括：

第一提取模块，用于基于中文分词结果，从待识别文本中提取第一命名实体，所述第一命名实体包括第一人名和/或第一职务；

第二提取模块，用于基于预设的数据库，从所述待识别文本中提取第二命名实体，所述第二命名实体包括第二人名和/或第二职务，所述预设的数据库中包括预设的人名和/或职务；

纠错模块，用于根据所述第二命名实体，对所述第一命名实体进行纠错处理。

可选地，所述纠错模块包括：

第一确定子模块，用于根据所述第二命名实体、所述第一命名实体的上下文信息，确定所述第一命名实体是否属于所述预设的数据库内；

第一纠错子模块，用于若确定所述第一命名实体属于所述预设的数据库内，则基于所述预设的数据库对所述第一命名实体进行纠错处理。

可选地，所述第一纠错子模块，还用于从所述第一命名实体中获取待纠错命名实体；基于预设的错误容忍度，在所述待纠错命名实体中确定目标纠错命名实体；基于所述预设的数据库对所述目标纠错命名实体进行纠错处理。

可选地，所述第一纠错子模块，还用于根据所述预设的数据库，对所述第一命名实体进行错别字纠正；根据所述预设的数据库，对所述第一命名实体进行漏字和/或多字纠正；以及在提取的所述第一命名实体与所述预设的数据库中的命名实体一致时，根据所述预设的数据库，对所述第一命名实体进行排序纠正。

可选地，所述纠错模块包括：

第二确定子模块，用于确定待识别文本中的第一命名实体之间的语义关系类型；

分组子模块，用于根据所述语义关系类型对所述第一命名实体进行分组，以使同一类型语义关系的第一人名位于同一组内，和/或，同一类型语义关系的所述第一职务位于同一组内；

第二纠错子模块，用于针对每一组，按照预设的排序规则对该组内的第一命名实体进行排序纠错。

可选地，所述第二纠错子模块，还用于若所述第一命名实体的顺序随场景的变化而变化，则根据所述待识别文本，确定所述待识别文本对应的目标场景；按照与所述目标场景对应的排序规则，对该组内的所述第一命名实体进行排序纠正。

可选地，在所述第一命名实体包括第一人名和第一职务时，所述装置还包括：

分组模块，用于对纠错处理后的所述第一人名和所述第一职务进行搭配分组；

确定模块，用于针对每一组中的所述第一人名和所述第一职务，确定所述第一人名和所述第一职务的搭配是否准确；

输出模块，用于若所述第一人名和所述第一职务的搭配错误，则根据所述预设的数据库，输出所述第一人名对应的职务。

可选地，所述第一提取模块包括：

第三确定子模块，用于基于中文分词结果，确定第一命名实体区域；

划分子模块，用于按照预设的字数阈值，对所述第一命名实体区域中的文字进行划分，以得到所述第一命名实体。

可选地，所述装置还包括：

识别模块，用于基于模糊匹配技术，从所述待识别文本中识别出第一命名实体，以识别出遗漏的第一命名实体。

本公开第三方面还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一方面所提供的所述方法的步骤。

本公开第四方面还提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一方面所提供的所述方法的步骤。

通过上述技术方案，基于中文分词结果，从待识别文本中提取第一命名实体，以及，基于预设的数据库，从待识别文本中提取第二命名实体，该预设的数据库中包括预设的人名和/或职务，最后根据该第二命名实体对第一命名实体进行纠错处理。由于是基于预设的数据库提取的第二命名实体，所以，所提取的第二命名实体较为准确，进而利用该较为准确的第二命名实体辅助对第一命名识别进行纠错处理，可以提高对待识别文本中的第一命名实体校对的准确度。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种命名实体校对方法的流程图。

图2是根据另一示例性实施例示出的一种命名实体校对方法的流程图。

图3是根据另一示例性实施例示出的一种命名实体校对方法的流程图。

图4是根据另一示例性实施例示出的一种命名实体校对方法的流程图。

图5是根据一示例性实施例示出的一种命名实体校对装置的框图。

图6是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

相关技术中，多是采用模糊匹配或基于错误假设的冗余步长截取或者依赖于命名实体识别中的一种对文本中的命名实体进行识别，存在一定的误报或漏报现象，进而影响命名实体校对的准确度。

为了解决上述技术问题，本公开提供一种命名实体校对方法、装置、可读存储介质及电子设备。图1是根据一示例性实施例示出的一种命名实体校对方法的流程图。如图1所示，该方法可以包括以下步骤：

在步骤11中，基于中文分词结果，从待识别文本中提取第一命名实体。

本公开主要是对文本中的人名和/或职务进行识别并校对，因此，该第一命名实体可以包括第一人名和/或第一职务。示例地，该职务可以是高校内教师的各种职务，例如，校长、正高级教师、高级教师、一级教师、二级教师、三级教师，等等。该职务也可以是医院内医生的职务，例如，住院医师、主治医师、副主任医师、主任医师，等等。

在步骤12中，基于预设的数据库，从待识别文本中提取第二命名实体。其中，该第二命名实体包括第二人名和/或第二职务，预设的数据库中包括预设的人名和/或职务。

需要说明的是，该预设的数据库是与待识别文本对应的，在用户确定出待识别文本之后，即可以根据该待识别文本确定出与该文本对应的数据库，即，该数据库即为预设的数据库。需要说明的是，该预设的数据库中存储有正确的人名和/或职务。示例地，该待识别文本中的内容属于高校内或者教育界的内容时，该预设的数据库即为存储有高校教师人名和/或职务的数据库。

另外，在一种实施例中，可以首先基于该预设的数据库构建字典树，接着，利用字典树搜索技术从待识别文本中识别出第二命名实体。由于该第二命名实体是利用包含有准确的人名和/或职务的数据库进行提取的，所以，所提取得到的第二命名实体与该数据库中的人名和/或职务一致。

示例地，待识别文本为“XX大学在2019年11月6日举行了研讨会议，其中，正高级教师张某某、二级教师王某、三级教师周某参加了该会议”。假设预设的数据库中包括的正高级教师张某、二级教师王某和三级教师周某。如此，基于预设的数据库，从待识别文本中提取第二命名实体可以是“正高级教师、二级教师王某、三级教师周某”。

在步骤13中，根据第二命名实体，对第一命名实体进行纠错处理。

由于所识别出的第二命名实体为准确的人名和/或职务，则可以基于该准确的第二命名实体，对第一命名实体进行纠错处理。示例地，在第二命名实体为高校内教师的人名和/或职务时，可认为该第一命名实体也为高校内教师的人名和/或职务，即，可以利用该第二命名实体辅助对第一命名实体进行纠错处理，以提高对待识别文本中的第一命名实体校对的准确度。

采用上述技术方案，基于中文分词结果，从待识别文本中提取第一命名实体，以及，基于预设的数据库，从待识别文本中提取第二命名实体，该预设的数据库中包括预设的人名和/或职务，最后根据该第二命名实体对第一命名实体进行纠错处理。由于是基于预设的数据库提取的第二命名实体，所以，所提取的第二命名实体较为准确，进而利用该较为准确的第二命名实体辅助对第一命名识别进行纠错处理，可以提高对待识别文本中的第一命名实体校对的准确度。

为了便于本领域技术人员更好的理解本公开所提供的命名实体校对方法，下面以一个完整的实施例对该方法进行说明。

图2是根据另一示例性实施例示出的一种命名实体校对方法的流程图。如图2所述，图1中的步骤11可以包括步骤111和112。

在步骤111中，基于中文分词结果，确定第一命名实体区域。

在一种实施例中，待识别文本中包括人名不包括职务，第一命名实体包括第一人名。此时，可根据中文分词结果和命名实体识别技术(例如，命名实体识别中的CRF+BiLSTM模型)，确定出第一人名所在区域。示例地，待识别文本为“XX大学在2019年11月6日举行了研讨会议，其中，张某某某、王某、周某参加了该会议”，则基于中文分词结果和命名实体识别技术可以确定出第一人名区域。

在另一种实施例中，待识别文本中包括人名和职务，第一命名实体包括第一人名和第一职务。此时，可以根据中文分词结果和命名实体识别技术识别出第一职务区域和第一人名区域，也可以在识别出第一职务区域后，将该第一职务区域前后的区域确定为第一人名区域，等等。

在步骤12中，按照预设的字数阈值，对第一命名实体区域中的文字进行划分，以得到第一命名实体。

示例地，在第一命名实体包括第一人名的实施例中，由于中国人的人名通常是2个、3个或者4个字，所以，该预设的字数阈值可以为4。这样，可按照该字数阈值在第一命名实体区域中进行文字划分，得到第一命名实体。

又示例地，在第一命名实体包括第一职务的实施例中，可以根据实际情况确定职务对应的字数阈值。

又示例地，在第一命名实体包括第一人名和第一职务的实施例中，该预设的字数阈值可以包括人名对应的第一字数阈值和职务对应的第二字数阈值，进而基于第一字数阈值对第一人名区域中的文字进行划分，以及基于第二字数阈值对第一职务区域中的文字进行划分，以分别得到第一人名和第一职务。

此外，考虑到由于中文分词或命名实体识别不准确而造成所提取的第一命名实体的遗漏，本公开在基于中文分词结果，从待识别文本中提取第一命名实体之后，还可以基于模糊匹配技术，从该待识别文本中识别出第一命名实体，以识别出遗漏的第一命名实体。

具体地，(1)利用模糊匹配技术中，对待识别文本进行第一命名实体的识别，以得到第一命名实体；(2)基于中文分词结果，从待识别文本中提取第一命名实体；(3)将(1)中识别到的第一命名实体和(2)中提取到的第一命名实体进行比较，若存在属于(1)中识别到的第一命名实体但不属于(2)中提取的第一命名实体的命名实体，则认为该命名实体为遗漏的，可以将其补充至(2)中提取到的第一命名实体中，以得到最终的第一命名实体。如此，可以避免因分词或命名实体识别不准确而造成的命名实体的遗漏，提高对命名实体识别的准确性。

如图2所示，图1中的步骤13可以包括以下步骤。

在步骤131中，根据第二命名实体、第一命名实体的上下文信息，确定第一命名实体是否属于预设的数据库内。

具体地，可以将第二命名实体和待识别文本输入至深度迁移学习模型中，以使该模型基于该第二命名实体和待识别文本，确定该第一命名实体是否属于预设的数据库中。

需要说明的是，第一命名实体中可能包括准确的人名和/或职务，也可以包括错误的人名和/或职务。示例地，第一命名实体中可以包括：张某某某、王某、周某。其中，王某、周某为上述高校中教师的姓名。

这样，在将待识别文本和第二命名实体“王某、周某”输入至深度迁移学习模型中时，该模型可以基于该第二命名实体“王某、周某”，以及第一命名实体“张某某某”所在文中的上下文信息，确定出“张某某某”也应该属于该高校的教师，即，确定该第一命名实体“张某某某”属于预设的数据库内。

在步骤132中，若确定第一命名实体属于预设的数据库内，则基于预设的数据库对第一命名实体进行纠错处理。

如上所述，若根据第二命名实体和第一命名实体的上下文信息，确定该第一命名实体属于预设的数据库内，则基于该预设的数据库对第一命名实体进行纠错处理。

示例地，第一命名实体为“周正”，而预设的数据库中命名实体为“周政”，则通过将该第一命名实体和预设的数据库中的命名实体进行比对，可知，该预设的数据库中不存在“周正”，而在上述步骤中，已确定该第一命名实体应该属于该预设的数据库内，因此，可认为“周正”为错误的人名。

在一种实施方式中，可以根据所述预设的数据库，对所述第一命名实体进行错别字纠正。例如，上述错误的人名“周正”，可以将其转换成拼音，在预设的数据库中查找相似读音的人名。如上所述，预设的数据库存在命名实体“周政”，则经过查找可查找到“周政”，如此，可认为在待识别文本中将“周政”错误地写成了“周正”，进而可以用“周政”纠正“周正”。

在另一种实施方式中，可以根据预设的数据库，对第一命名实体进行漏字和/或多字纠正。例如，第一命名实体为“张某某”，而在高校中没有姓名为“张某某”的教师，只有姓名为“张某”的教师，即，预设的数据库中存在“张某”的姓名，不存在“张某某”的姓名。如此，可以为第一命名实体“张某某”为多字错误，进而可以用“张某”纠正“张某某”。

需要说明的是，在对第一命名实体进行纠正之前，还可以对步骤11中所提取的第一命名实体进行过滤，以过滤掉与正确命名实体相差较大的第一命名实体。

可选地，上述步骤132的具体实施方式可以为：从第一命名实体中获取待纠错命名实体；基于预设的错误容忍度，在待纠错命名实体中确定目标纠错命名实体；基于预设的数据库对所述目标纠错命名实体进行纠错处理。

其中，可以将步骤11中提取出的，但未位于预设的数据库中的第一命名实体确定待纠错命名实体。预设的错误容忍度可以是提取出的第一命名实体与准确的命名实体不相同的字数，例如，该预设的错误容忍度为1，则表征第一命名实体与准确的命名实体的不相同的字数不能超过1，若超过1则过滤掉不进行纠错处理。该预设的错误容忍度还可以是提取出的第一命名实体与准确的命名实体的字数差异，例如，该预设的错误容忍度为2，则表征第一命名实体的字数与准确的命名实体的字数相差不能超过2，若超过2则过滤掉不进行纠错处理。

示例地，假设预设的错误容忍度表征第一命名实体与准确的命名实体的字数差异，且预设的错误容忍度为2，预设的数据中包括的人名为“张某”。若在上述步骤11中提取的第一命名实体包括“张某某”、“张某某某某”，则由于“张某某某某”与预设的数据库中的“张某”的字数相差3，大于该预设的错误容忍度，需要将第一命名实体中的“张某某某某”过滤掉，即，仅将第一命名实体中的“张某某”确定为目标纠错命名实体。

此外，在上述获取到待纠错命名实体之后，还可以进一步获取该待纠错命名实体的错误类型，其中，该错误类型可以是人名错误、职务错误，也可是多字、少字、错别字等类型，本公开对此并不作具体说明。

在按照上述方式，将与准确的命名实体差异较大的第一命名实体过滤掉之后，将与准确的命名实体差异满足预设的错误容忍度的第一命名实体确定为目标纠错命名实体，进而，基于预设的数据库对目标纠错命名实体进行纠错处理，如此，可以避免对与准确的命名实体差异较大的第一命名实体进行纠错所导致误纠正的弊端。

在又一种实施方式中，若第一命名实体不存在多字、少字，也不存在错别字，即获取的第一命名实体与预设的数据库中的命名实体一致，则可以对第一命名实体进行排序纠正。通常情况下，对参加会议或活动的人员均会按照一定的顺序进行排序，例如，可以是按照职务的高低，也可以是按照人员姓氏的先后顺序进行排序等等。因此，在本公开中，在确定第一命名实体与预设的数据库中的命名实体一致时，还可以对该第一命名实体进行排序纠错。

如图3所示，图1中的步骤13除了包括步骤131和步骤132之外，还可以包括以下步骤。

在步骤133中，确定待识别文本中的第一命名实体之间的语义关系类型。

其中，可以基于依存句法技术，结合词性标注结果，确定待识别文本中的第一命名实体之间的语义关系类型，该语义关系类型可以是转述类型，也可以是并列类型。例如，待识别文本为“XXX中学校长张三、副校长王四，在会议中指出，我们应该严格按照教育部部长李一和副部长赵二所提出的减负思想进行教学”，则在该待识别文本中，“张三”和“王四”之间的语义关系属于并列类型，“李一”和“赵二”之间的语义关系属于并列关系，而“张三”、“王四”与“李一”、“赵二”之间的语义关系属于转述类型。

在步骤134中，根据语义关系类型对所述第一命名实体进行分组，以使同一类型语义关系的第一人名位于同一组内，和/或，同一类型语义关系的第一职务位于同一组内。

沿用上述例子，由于“张三”和“王四”之间的语义关系属于并列类型，“李一”和“赵二”之间的语义关系属于并列关系，而“张三”“王四”与“李一”、“赵二”之间的语义关系属于转述类型，则需将“张三”、“王四”分为一组，将“李一”、“赵二”分为另一组。

在步骤135中，针对每一组，按照预设的排序规则对该组内的第一命名实体进行排序纠错。

针对步骤134中确定的每一组，均按照预设的排序规则对该组内的第一命名实体进行排序纠错。示例地，分别对“张三”、“王四”进行排序纠错，以及，对“李一”、“赵二”进行排序纠错。

此外，考虑到在实际应用中，人名或者职务的顺序会随着场景的不同而不同，因此在对第一命名实体进行排序纠错时所参照的预设的排序规则也是不同的。上述步骤135的具体的实施方式可以为：若第一命名实体的顺序随场景的变化而变化，则根据待识别文本，确定待识别文本对应的目标场景。需要说明的是，在本公开中，可以通过用户判断该第一命名实体的顺序是否随场景的变化而变化，若确定该第一命名实体的顺序不随场景的变化而变化，则直接按照预设的排序规则对第一命名实体进行排序。

若确定该第一命名实体的顺序随场景的变化而变化，则根据待识别文本，确定该待识别文本对应的目标场景。示例地，若确定该第一命名实体的顺序随场景的变化而变化，则将该待识别文本输入至深度迁移学习模型中，以得到与该待识别文本对应的目标场景。其中，该深度迁移学习模型是根据不同场景的语料训练完成的模型，并且在训练完成之后，该模型可以基于不同语料对该语料对应的场景进行分类。因此，在将该待识别文本输入至该深度迁移学习模型之后，该模型可以输出与该待识别文本对应的目标场景。

按照与该目标场景对应的排序规则，对第一命名实体进行排序纠正。

示例地，在高校总结大会时教师的排序是：校长、副校长、教导主任、正高级教师；在召开学术研讨会议时教师的排序为：正高级教师、副校长、校长、教导主任。若所确定的目标场景为高校总结大会的场景，则按照高校总结大会时教师的排序，对第一命名实体进行排序纠正；若所确定的目标场景为开学术研讨会议的场景，则按照该召开学术研讨会议时教师的排序，对第一命名实体进行排序纠正。

此外，在实际应用中可能会对第一命名实体进行误纠正。示例地，假设待识别文本为“在学术研讨会议中，学生会记者周正为校长张三、副校长王四拍照”。第一命名实体中包括“周正”，而该高校中一个教师姓名为“周政”，即，预设的数据库中包括“周政”。若按照上述对第一命名实体进行纠错处理的方案中，直接用“周政”来纠正“周正”，则会对第一命名实体进行误纠正。

因此，在本公开，还可以在对第一人名或对第一职务进行纠错处理时，输出修正建议，将该修正建议和待识别文本组成对比对，并将该对比对输入至校正程序中，以确定是否要对该第一人名或对第一职务进行纠正。其中，该校正程序可以对该第一人名前后的职务进行判断。示例地，可以判断“周正”前面的职务名称为“学生会记者”而不是教师的职务，此时，可以确定待识别文中的“周正”并不是预设的数据库中的“周政”，则无需用“周政”来纠正“周正”。如此，可进一步降低误报，最大程度保证对命名实体纠正的准确度。

此外，考虑到待识别文本中可能出现人名和职务搭配错误的情况。示例地，待识别文本为“在学术研讨会议中，学生会记者周正为校长赵二、副校长王四拍照”，其中，根据学校的职务表可知赵二的职务为教导主任，张三的职务为校长。即，在该待识别文本中人名“赵二”和职务“校长”的搭配是错误的。因此，为了纠正人名和职务的搭配错误，本公开还可以对人名和职务的搭配进行纠错处理。具体地，如图4所示，在第一命名实体包括第一人名和第一职务时，该方法还可以包括以下步骤。

在步骤41中，对纠错处理后的第一人名和第一职务进行搭配分组。

示例地，继续以上述待识别文件为例进行说明，根据该待识别文本，确定的搭配分组情况如下：学生会记者-周正；校长-赵二；副校长-王四。

在步骤42中，针对每一组中的第一人名和所述第一职务，确定第一人名和第一职务的搭配是否准确。

需要说明的是，在该实施例中，预设的数据库中预先存储有人名，以及该人名对应的职务，并且，一个人名可以对应一个职务，也可以对应多个职务。这样，在对第一人名和第一职务进行搭配分组之后，可以根据该预设的数据库，确定第一人名和第一职务的搭配是否准确。

示例地，可以首先在预设的数据库中查询到该第一人名，接着，确定该第一人名搭配的第一职务是否属于预设的数据库中的该第一人名对应的职务，若属于，则认为第一人名和第一职务的搭配是准确的，若不属于，则认为该第一人名和第一职务的搭配错误。

在步骤43中，若第一人名和所述第一职务的搭配错误，则根据预设的数据库，输出第一人名对应的职务。

若第一人名和第一职务的搭配错误，则可以在预设的数据库中，确定出该第一人名对应的职务，在第一人名对应的职务可以为1个时，输出该1个职务；在第一人名对应的职务可以为多个时，可以将该多个职务全输出，也可以输出预设数量的职务，等等，本公开对此不作具体限定。

基于同一发明构思，本公开还提供一种命名实体校对装置。图5是根据一示例性实施例示出的一种命名实体校对装置的框图。如图5所示，该装置可以包括：

第一提取模块51，用于基于中文分词结果，从待识别文本中提取第一命名实体，所述第一命名实体包括第一人名和/或第一职务；

第二提取模块52，用于基于预设的数据库，从所述待识别文本中提取第二命名实体，所述第二命名实体包括第二人名和/或第二职务，所述预设的数据库中包括预设的人名和/或职务；

纠错模块53，用于根据所述第二命名实体，对所述第一命名实体进行纠错处理。

可选地，所述纠错模块53可以包括：

可选地，所述第一纠错子模块，还可以用于从所述第一命名实体中获取待纠错命名实体；基于预设的错误容忍度，在所述待纠错命名实体中确定目标纠错命名实体；基于所述预设的数据库对所述目标纠错命名实体进行纠错处理。

可选地，所述第一纠错子模块，还可以用于根据所述预设的数据库，对所述第一命名实体进行错别字纠正；根据所述预设的数据库，对所述第一命名实体进行漏字和/或多字纠正；以及在获取的所述第一命名实体与所述预设的数据库中的命名实体一致时，根据所述预设的数据库，对所述第一命名实体进行排序纠正。

可选地，所述纠错模块53可以包括：

可选地，所述第二纠错子模块，还可以用于若所述第一命名实体的顺序随场景的变化而变化，则根据所述待识别文本，确定所述待识别文本对应的目标场景；按照与所述目标场景对应的排序规则，对该组内的所述第一命名实体进行排序纠正。

可选地，在所述第一命名实体包括第一人名和第一职务时，所述装置还可以包括：

可选地，所述第一提取模块51可以包括：

可选地，所述装置还可以包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种电子设备600的框图。如图6所示，该电子设备600可以包括：处理器601，存储器602。该电子设备600还可以包括多媒体组件603，输入/输出(I/O)接口604，以及通信组件605中的一者或多者。

其中，处理器601用于控制该电子设备600的整体操作，以完成上述的命名实体校对方法中的全部或部分步骤。存储器602用于存储各种类型的数据以支持在该电子设备600的操作，这些数据例如可以包括用于在该电子设备600上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器602可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件603可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器602或通过通信组件605发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口604为处理器601和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件605用于该电子设备600与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件605可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备600可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的命名实体校对方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的命名实体校对方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器602，上述程序指令可由电子设备600的处理器601执行以完成上述的命名实体校对方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的命名实体校对方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种命名实体校对方法，其特征在于，包括：

基于中文分词结果，从待识别文本中提取第一命名实体，所述第一命名实体包括第一人名和/或第一职务；基于预设的数据库，从所述待识别文本中提取第二命名实体，所述第二命名实体包括第二人名和/或第二职务，所述预设的数据库中包括预设的人名和/或职务，所述预设的数据库通过所述待识别文本确定；

根据所述第二命名实体，对所述第一命名实体进行纠错处理；

其中，根据所述第二命名实体，对所述第一命名实体进行纠错处理，包括：

在根据所述第二命名实体、所述第一命名实体的上下文信息，确定所述第一命名实体属于所述预设的数据库内的情况下，确定待识别文本中的第一命名实体之间的语义关系类型，所述语义关系类型包括转述类型和并列类型；

若所述第一命名实体的顺序随场景的变化而变化，则将所述待识别文本输入至深度迁移学习模型中，得到与所述待识别文本对应的目标场景，其中，所述深度迁移学习模型是根据不同场景的语料训练完成的模型；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第二命名实体，对所述第一命名实体进行纠错处理，包括：

3.根据权利要求2所述的方法，其特征在于，所述若确定所述命名实体属于所述预设的数据库内，则基于所述预设的数据库对所述第一命名实体进行纠错处理，包括：

从所述第一命名实体中获取待纠错命名实体；

4.根据权利要求1-3中任一项所述的方法，其特征在于，在所述第一命名实体包括第一人名和第一职务时，所述根据所述第二命名实体，对所述第一命名实体进行纠错处理之后，所述方法还包括：

5.根据权利要求1-3中任一项所述的方法，其特征在于，所述基于中文分词结果，从待识别文本中提取第一命名实体，包括：

基于中文分词结果，确定第一命名实体区域；

6.一种命名实体校对装置，其特征在于，包括：

纠错模块，用于根据所述第二命名实体，对所述第一命名实体进行纠错处理；

其中，纠错模块，包括：

第二确定子模块，用于在根据所述第二命名实体、所述第一命名实体的上下文信息，确定所述第一命名实体属于所述预设的数据库内的情况下，确定待识别文本中的第一命名实体之间的语义关系类型，所述语义关系类型包括转述类型和并列类型；

第二纠错子模块，用于若所述第一命名实体的顺序随场景的变化而变化，则将所述待识别文本输入至深度迁移学习模型中，得到与所述待识别文本对应的目标场景，其中，所述深度迁移学习模型是根据不同场景的语料训练完成的模型；按照与所述目标场景对应的排序规则，对该组内的所述第一命名实体进行排序纠正。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。

8.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-5中任一项所述方法的步骤。