WO2017137000A1

WO2017137000A1 - 对描述同一实体的不同实例进行合并的方法、装置及设备

Info

Publication number: WO2017137000A1
Application number: PCT/CN2017/072995
Authority: WO
Inventors: 杨扬; 穆冠宇; 华能威; 张伟; 吴嘉
Original assignee: 广州神马移动信息科技有限公司
Priority date: 2016-02-14
Filing date: 2017-02-06
Publication date: 2017-08-17
Also published as: CN105786980A; CN105786980B; US11544578B2; US20190005392A1

Abstract

一种对描述同一实体的不同实例进行合并的方法、装置及设备。所述方法包括：获取包含多个实例的连接图（S110），其中，连接图中的不同节点表示不同实例，节点间的连线表示节点所对应的实例之间的实例关系；基于实例关系，识别出连接图中描述同一实体的不同实例，对识别出的实例所对应的节点进行合并，并更新连接图（S120）；在更新后的连接图中识别出未发现的存在实例关系的实例对，并增添用以连接实例对所对应的节点的连线（S130）；迭代执行基于实例关系更新连接图的步骤和在更新后的连接图中增添连线的步骤，直到满足指定条件（S140）。能够较为充分地识别出描述同一实体的不同实例。

Description

对描述同一实体的不同实例进行合并的方法、装置及设备

技术领域

本发明涉及计算机技术领域，更具体地，涉及一种对描述同一实体的不同实例进行合并的方法、装置及设备。

背景技术

知识图谱旨在描述真实世界中存在的各种实体或概念。知识图谱中的每个实体或概念用一个全局唯一确定的ID来标识，称为它们的标识符(identifier)。每个属性-值对(attribute-value pair，又称AVP)用来刻画实体的内在特性，而关系(relation)用来连接两个实体，刻画它们之间的关联。

在知识图谱的构建过程中，需要用到不同来源的数据来构建图谱中的实体及关系，例如，为了使得构建的知识图谱可以更加全面，可以用来自百度百科、维基百科、搜狗百科等多种百科类站点来源的数据来构建知识图谱中的实体及关系。而实体在不同来源数据中往往会存在差异化、表述不同的实例。直接使用未融合的实例数据将给知识图谱带来冗余和错误信息，因此对描述相同实体的不同实例进行融合是知识图谱构建中一个重要的任务和步骤。

目前常见的融合方法主要是通过计算不同实例间的属性相似度，将属性相似度超过阈值的实例对进行融合。这种融合方法虽然在一定程度上也能识别出描述同一实体的不同实例，但是由于这种融合方法仅以属性相似度作为融合实例的标准，使得其对融合过程中所使用的属性模糊匹配规则必须尽可能设置完善，才能有效识别同一实体的不同实例以进行融合，但这在实际应用中是很难实现的，因此很容易将表述同一实体的实例对识别为不同的实例，对知识图谱的构建带来冗余的数据。

由此，需要一种可以较为充分地识别出描述同一实体的不同实例的方案。

发明内容

本发明主要解决的技术问题是提供一种对描述同一实体的不同实例进行合并的方法、装置及设备，其能够较为充分地识别出描述同一实体的实例对。

根据本发明的一个方面，提供了一种计算设备，包括：存储器，用于存储包含多个实例的连接图，其中，连接图中的不同节点表示不同实例，节点间的连线表示节点所对应的实例之间的实例关系；处理器，与存储器相连接，处理器能够从存储器获取连接图，该处理器配置为：基于实例关系，识别出连接图中描述同一实体的不同实例，对识别出的实例所对应的节点进行合并，并更新连接图；在更新后的连接图中识别出未发现的存在实例关系的实例对，并增添用以连接实例对所对应的节点的连线；迭代执行基于实例关系更新连接图的步骤和在更新后的连接图中增添连线的操作，直到满足指定条件。

由此，本发明的设备采用连接图的方式对多个待判定实例中的等价实例进行合并。而在合并的过程中又利用了实例关系，并基于合并后的连接图，扩充实例关系，然后迭代执行上述合并、扩充的步骤，使得可以较为充分地挖掘出连接图中存在的等价实例。

根据本发明的另一个方面，提供了一种对描述同一实体的不同实例进行合并的装置，包括：获取模块，用于获取包含多个实例的连接图，其中，连接图中的不同节点表示不同实例，节点间的连线表示节点所对应的实例之间的实例关系；合并模块，用于基于实例关系，识别出连接图中描述同一实体的不同实例，对识别出的实例所对应的节点进行合并，并更新连接图；扩充模块，用于在更新后的连接图中识别出未发现的存在实例关系的实例对，并增添用以连接实例对所对应的节点的连线；迭代模块，用于使得合并模块和扩充模块迭代执行更新连接图的操作和增添连线的操作，直到满足指定条件。

可选地，上述装置中述及的扩充模块可以包括：关联度计算模块，用于对于更新后的连接图中的任一节点，计算该节点所对应的实例和与该节点通过N个节点进行连接的节点所对应的实例之间的关联度，其中N大于等于1；第一识别模块，用于将关联度达到预定关联度阈值的两个节点所对应的实例对识别为存在实例关系的实例对，并增添连接这两个节点之间的连线。由于等价实例的合并，合并后的连接图中的实例关系也会发生一定的变化。此时，可以通过计算节点间的关联度，来发现存在实例关系的实例对。

可选地，上述装置中述及的指定条件可以设定为，扩充模块在更新后的连接图中识别出的未发现的存在实例关系的实例对的数目为零。

可选地，上述装置中述及的合并模块可以包括：分组模块，用于对多个实例进行分组；相似度计算模块，用于针对每个分组，基于实例关系计算组内任意两个实例之间的相似度；第二识别模块，用于将相似度达到预定相似度阈值的实例对识别为描述同一实体的实例对。

可选地，对于来自不同来源的两个实例，相似度计算模块可以根据以下公式计算这两个实例之间的相似度Sim：

Sim＝Jac_ij/Uniq

Uniq＝Log(Max(Cnt_sourceA,i,Cnt_sourceB,j)+1)

其中，C_i为与实例i具有实例关系的实例集合，C_j为与实例j具有实例关系的实例集合，Jac_ij为实例i、j之间的实例关系相似度，Uniq为实例的唯一性度量，Cnt_sourceA,i为实例i在来源A中的同名实例的个数、Cnt_sourceB,j为实例j在来源B中的同名实例的个数。

可选地，上述装置中述及的获取模块还可以包括：属性相似度计算模块可以计算连接图中任意两个节点所对应的实例之间的属性相似度；和第二合并模块，可以将属性相似度超过预定属性相似度阈值的两个实例所对应的节点合并为一个节点。

根据本发明的另一个方面，提供了一种对描述同一实体的不同实例进行合并的方法，该方法包括：获取包含多个实例的连接图，其中，连接图中的不同节点表示不同实例，节点间的连线表示节点所对应的实例之间的实例关系；基于实例关系，识别出连接图中描述同一实体的不同实例，对识别出的实例所对应的节点进行合并，并更新连接图；在更新后的连接图中识别出未发现的存在实例关系的实例对，并增添用以连接实例对所对应的节点的连线；迭代执行基于实例关系更新连接图的步骤和在更新后的连接图中增添连线的步骤，直到满足指定条件。

可选地，上述方法中述及的在更新后的连接图中识别出未发现的存在实例关系的实例对的步骤可以包括：对于更新后的连接图中的任一节点，计算该节点所对应的实例和与该节点通过N个节点进行连接的节点所对应的实例之间的关联度，其中N大于等于1；将关联度达到预定关联度阈值的两个节点所对应的实例对识别为存在实例关系的实例对，增添连接这两个节点之间的连线。

可选地，上述方法中述及的指定条件可以设定为，在更新后的连接图中识别出的未发现的存在实例关系的实例对的数目为零。

可选地，上述方法中述及的基于实例关系，识别出连接图中描述同一实体的不同实例的步骤可以包括：对多个实例进行分组；针对每个分组，基于实例关系计算组内任意两个实例之间的相似度；将相似度达到预定相似度阈值的实例对识别为描述同一实体的实例对。

可选地，对于来自不同来源的两个实例，可以根据以下公式计算这两个实例之间的相似度Sim：

Sim＝Jac_ij/Uniq

Uniq＝Log(Max(Cnt_sourceA,i,Cnt_sourceB,j)+1)

其中，C_i为与实例i具有实例关系的实例集合，C_j为与实例j具有实例关系的实例集合，Jac_ij为实例i、j之间的实例关系相似度，Uniq为实例的唯一性度量，Cnt_sourceA,i为实例i在来源A中的同名实例的个数、 Cnt_sourceB,j为实例j在来源B中的同名实例的个数。

可选地，上述方法中述及的获取包含多个实例的连接图的步骤还可以包括：计算连接图中任意两个节点所对应的实例之间的属性相似度；和将属性相似度超过预定属性相似度阈值的两个实例所对应的节点合并为一个节点。

本发明的对描述同一实体的不同实例进行合并的方法、装置及设备采用连接图的方式对多个实例中的等价实例进行合并，其中，在合并的过程中利用了连接图中存在的实例关系，并基于合并后的连接图扩充实例关系，然后再基于扩充的实例关系进一步发现连接图中存在的等价实例，以此类推，迭代执行上述合并、扩充的步骤，使得基于本发明的方案可以较为充分地识别出描述同一实体的实例对。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1示出了本发明述及的连接图的示意图。

图2示出了根据本发明一实施例的计算设备的结构示意图。

图3示出了根据本发明一实施例的对描述同一实体的不同实例进行合并的装置的功能模块示意图。

图4示出了根据本发明另一实施例的对描述同一实体的不同实例进行合并的装置的功能模块示意图。

图5示出了根据本发明一实施例的对描述同一实体的不同实例进行合并的方法的示意性流程图。

图6示出了图5中的步骤S110可以包括的子步骤的示意性流程图。

图7示出了图5中的步骤S120可以包括的子步骤的示意性流程图。

图8示出了图5中的步骤S130可以包括的子步骤的示意性流程图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

在介绍本发明前，首先对本发明涉及的几个概念做以简要说明。

实体：知识图谱中的知识单元，具有唯一确定的ID标识。

实例：在构建知识图谱中的实体的过程中用到的各种来源的数据。

实例关系：实例间存在的关系，对于不同的数据来源，这里的关系可以是属性关系、引用关系、链接关系等多种关系。

同名实例：名称相同，但描述的实体(内容)不同的实例。

等价实例：描述同一实体(内容)的实例。

举例来说，百度百科中的各种词条就是实例。百度百科中的词条“李宁”是一个多义词，有指代著名体操运动员的李宁，也有指代魔术师的李宁。这里，指代魔术师的李宁和指代体操运动员的李宁就是一个同名实例。在指代著名体操运动员的李宁的词条下，还存在着“奥运冠军”、“金牌”等词条，这里，我们就可以认为“李宁”和“奥运冠军”、“金牌”存在实例关系。而百度百科中指代体操运动员的“李宁”和搜狗百科中的“体操王子”就属于等价实例。

本发明主要提出了一种在众多实例中识别等价实例的方案。该方案主要基于连接图的方式识别出等价实例，并不断对连接图进行更新，以识别出更多的等价实例。

具体地说，可以首先构建包含多个实例的连接图，如图1所示，连接图中的节点表示实例，节点间的连线表示实例关系。对于连接图中的多个实例，可以根据连接图中存在的实例关系，识别出存在的等价实例，对识别出的等价实例所对应的节点进行合并。其中，在根据实例关系对连接图中的节点进行合并后，可以基于一定的识别规则，找出连接图中未发现的实例关系，根据所找到的实例关系更新连接图。然后重复执行上述基于实例关系找到等价实例的步骤和基于合并后的连接图，寻找未发现的实例关系的步骤，直到满足指定条件。

这里的指定条件可以是找不到新的实例关系或找不到新的等价实例或重复步骤达到一定次数，当然还可以是其它指定条件。另外，对本方案中的对等价实例进行合并以及更新连接图的步骤来说，可以是在对连接图中的所发现的等价实例全部合并后再更新连接图。

本发明的方案可以实现为一种如图2所示的计算设备。该计算设备可以配置为包括存储器1和处理器2。存储器1可以存储包含多个实例的连接图。处理器2与存储器1连接，可以从存储器1获取连接图，并可以执行实现上述方案中的相关步骤的操作。

具体地，处理器2例如可以是中央处理器CPU、微处理器MCU等，存储器1例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。并且，应当理解的是，尽管在图2中仅示出了计算设备包括存储器1和处理器2，但是计算设备还可以包括接口装置、通信装置、显示装置、输入装置、扬声器、麦克风等，但是，这些部件与本发明无关，故在此省略。在本发明中，并不限制计算设备的实体实施形式，计算设备可以是服务器，例如刀片服务器，也可以是计算机或者类似计算机的电子设备，例如笔记本电脑、平板电脑等。

本发明的方案还可以实现为一种包含多个功能模块的装置。其中，图2示出的处理器2的功能可以由该装置中相应的功能模块实现。

参见图3，本发明的对描述同一实体的不同实例进行合并的装置可以包括获取模块21、合并模块22、扩充模块23以及迭代模块24。其中，获取模块21、合并模块22、扩充模块23以及迭代模块24可以执行实现上述方案中的相应步骤的操作。简单地说，获取模块21可以获取连接图。合并模块22可以基于连接图中存在的实例关系识别出连接图中存在的等价实例，并对识别到的等价实例所对应的节点进行合并。扩充模块23可以识别出连接图中未发现的实例关系。迭代模块24可以使得合并模块22和扩充模块23迭代执行相应的操作，直到满足指定条件。

参见图4，获取模块21可以包括属性相似度计算模块211和第二合并模块212。合并模块22可以包括分组模块221、相似度计算模块222以及第二识别模块223。扩充模块23可以包括关联度计算模块231和第一识别模块232。对于图4所示的结构来说，获取模块21、合并模块22及扩充模块23的功能可以由其包括的相应子模块实现，此处暂不做具体描述。

图5至图8详细示出了执行本发明的方案的流程图。其中，图5至图8所示的各个步骤都可以由上文提及的处理器或装置中的相应的功能模块实现，下面结合图5至图8对本发明的方案的工作流程进行详细说明。

参见图5，在步骤S110，由处理器2或者获取模块21，获取包含多个实例的连接图。

这里述及的获取连接图的步骤可以是获取事先构建好的连接图。例如，可以事先根据多个实例构建连接图，然后存储在存储器中，需要处理时，由处理器2或获取模块21从存储器获取。

也可以是根据需要判定的实例数据构建连接图。例如，可以根据待判定的多个实例数据及实例数据中存在的实例关系，构建连接图。对于构建好的连接图，可以将其存储在存储器中，需要处理时，再由处理器2或获取模块21从存储器获取连接图，当然也可以将构建好的连接图直接发送给处理器2或获取模块21。

在执行步骤S110的过程中，还可以基于一定的识别规则识别出连接图中存在的等价实例，并合并等价实例所对应的节点。这里述及的识别规则可以是如图6所示的属性相似度的识别方式。

如图6所示，在步骤S1110，由处理器2或者由获取模块21中的属性相似度计算模块211计算连接图中任意两个节点所对应的实例间的属性相似度。

在步骤S1120，由处理器2或者由获取模块21中的第二合并模块212将属性相似度超过预定属性相似度阈值的实例所对应的节点合并为一个节点。

应该知道，在步骤S110中对连接图中的节点进行合并的步骤(步骤S110、步骤S1120)是本发明的一个可选方案，这样使得可以基于现有的计算方式初步发现连接图中存在的等价实例，并对其进行合并，以降低后续步骤的复杂度。

返回步骤S110，在执行完步骤S110后，就可以执行步骤S120，由处理器2或者由合并模块21，基于实例关系，识别出连接图中描述同一实体的不同实例(即等价实例)，对识别出的等价实例所对应的节点进行合并，并更新连接图。

其中，可以有多种基于实例关系识别连接图中的等价实例的方式。例如，可以在计算实例间的相似度的过程中，将与当前实例存在实例关系的实例参与到相似度的计算的过程中，然后将相似度超过阈值的实例对识别为等价实例。

图7示出了一种基于实例关系识别出等价实例的具体实施方式。

如图7所示，在步骤S1210，由处理器2或者由合并模块22中的分组模块221，对连接图中的多个实例进行分组。

其中，可以有多种分组方式，如可以根据名称进行分组，还可以根据属性值进行。当然根据具体情况，还有其它分组方式，此处不再赘述。

在步骤S1220，针对每个分组，可以由处理器2或者由分组模块22中的相似度计算模块222，基于实例关系计算组内任意两个实例之间的相似度。

其中，对于来自不同数据来源的两个实例来说，可以根据下述公式计算这两个实例间的相似度Sim：

Sim＝Jaci_j/Uniq

Uniq＝Log(Max(Cnt_sourceA,i,Cnt_sourceB,j)+1)

其中，C_i为与实例i具有实例关系的实例集合，C_j为与实例j具有实例关系的实例集合，Jac_ij为实例i、j之间的实例关系相似度，Uniq为实例的唯一性度量，Cnt_sourceA,i为实例i在来源A中的同名实例的个数、Cnt_sourceB,j为实例j在来源B中的同名实体的个数。

其中，对于不同来源的实例数据来说，上述公式可以有不同形式的变形。以实例数据来源为百科词条来说，可以基于下列公式计算来自不同百科的两个实例间的相似度Sim：

Sim＝(α×Jac_out+(1-α)×Jac_in)/Uniq

Uniq＝Log(Max(Cnt_sourceA,i,Cnt_sourceB,j)+1)

其中，α为权重系数，C_iout为待判定实例i链出的实例的个数，C_jout为待判定实例j链出的实例的个数，C_iin为待判定实例i被链入的实例的个数，C_jin为待判定实例j被链入的实例的个数，Jac_out为待判定实例i、j链出的实例的相似度，Jac_in为待判定实例i、j被链入的实体的相似度，Uniq为实例的唯一性度量，Cnt_sourceA,i为待判定实例i在来源A中的同名实例的个数、Cnt_sourceB,j为待判定实例j在来源B中的同名实体的个数。

以百度百科和搜狗百科为例对上述变形公式加以说明。以百度百科中的词条“李宁”和搜狗百科中的词条“李宁”来说。在百度百科中，词条“李宁”具有60个同名实例，在搜狗百科中，词条“李宁”具有52个同名实例。而对于表示体操运动员的“李宁”，该词条在百度百科中存在着“奥运冠军”、“金牌”、“自由体操”等内链词条，这些词条与“李宁”就存在实例关系，这些词条就可以看成是词条“李宁”的链出的词条(实例)。而词条“体操王子”下存在词条“李宁”，此时，“体操王子”就是“李宁”被链入的词条(实例)，词条“体操王子”与词条“李宁”也存在实例关系。此时，基于上述变形公式就可以计算出百度百科中的词条“李宁”和搜狗百科中的词条“李宁”之间的相似度。

其中，上述计算公式可以在分布式计算平台如SPARK上并行实现，达到大规模并行化图计算的目的。另外，应该知道，对于其它来源的实例数据来说，还可以有其它基于实例关系计算相似度的方式，此处不再赘述。

在步骤S1230，由处理器2或者由分组模块22中的第二识别模块223将相似度达到预定相似度阈值的实例对识别为等价实例。由此，就可以基于实例关系识别出连接图中存在的等价实例。

下面返回步骤S120，在执行完步骤S120后，就可以执行步骤S130，由处理器2或者由扩充模块23，在更新后的连接图中识别出未发现的存在实例关系的实例对，并增添用以连接实例对所对应的节点的连线。

对于执行步骤S120后的连接图，由于等价实例的合并，合并后的连接图中的实例关系也会发生一定的变化。此时，可以使用一定的识别规则识别出连接图中新增的存在实例关系的实例对。

图8示出了一种识别出连接图中未发现的实例关系的具体实施方式。

如图8所示，在步骤S1310，对于更新后的连接图中的任一节点，由处理器2或者由扩充模块23中的关联度计算模块231计算该节点所对应的实例和与该节点通过N个节点进行连接的节点所对应的实例之间的关联度，N大于等于1。

在步骤S1320，由处理器2或者由扩充模块23中的第一识别模块232将关联度达到预定关联度阈值的两个节点所对应的实例对识别为存在实例关系的实例对，增添连接这两个节点之间的连线。

其中，可以有多种计算关联度的方式。例如，对于图1中的节点D和节点L来说，节点D和节点L通过节点A、节点E两个节点进行连接，这样就可以通过分析节点A和节点E之间的相似度的大小，来判断节点D和E之间是否存在关联度。

下面返回步骤S130，对于经过步骤S130扩充后实例关系的连接图，可以执行步骤S140，由处理器2或者可以由迭代模块24判断是否满足指定条件，在不满足指定条件的情况下，返回步骤S120，重复执行S120、S130、S140的步骤。直至满足指定条件，输出合并后的连接图。

其中，步骤S140中的指定条件可以是重复执行步骤S120、S130、S140 的次数达到一定值。也可以是在重复执行步骤S120、S130、S140的过程中，在步骤S120，在扩充后实例关系的连接图中找不到新的等价实例(作为优选，可以是步骤S120连续多次识别不到新的等价实例)。还可以是在S130的执行过程中，找不到新的实例关系。作为优选，可以将在S130的执行过程中，找不到新的实例关系作为指定条件。

至此，参考附图详细描述了根据本发明的对描述同一实体的不同实例进行合并的方法、装置及设备。通过上述描述可知，本发明的对描述同一实体的不同实例进行合并的方法、装置及设备采用连接图的方式对多个实例中的等价实例进行合并。其中，在合并的过程中利用了连接图中存在的实例关系，并基于合并后的连接图扩充实例关系，然后再基于扩充的实例关系进一步发现连接图中存在的等价实例，以此类推，迭代执行上述合并、扩充的步骤，使得连接图可以并行化传播，并使得基于本发明的方案可以更充分地挖掘出等价实例。

此外，根据本发明的方法还可以实现为一种计算机程序，该计算机程序包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。或者，根据本发明的方法还可以实现为一种计算机程序产品，该计算机程序产品包括计算机可读介质，在该计算机可读介质上存储有用于执行本发明的上述方法中限定的上述功能的计算机程序。本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

一种计算设备，包括：

存储器，用于存储包含多个实例的连接图，其中，所述连接图中的不同节点表示不同实例，节点间的连线表示节点所对应的实例之间的实例关系；以及

处理器，与所述存储器相连接，所述处理器能够从所述存储器获取所述连接图，该处理器配置为：

基于所述实例关系，识别出所述连接图中描述同一实体的不同实例，对识别出的实例所对应的节点进行合并，并更新所述连接图；

在更新后的连接图中识别出未发现的存在实例关系的实例对，并增添用以连接所述实例对所对应的节点的连线；

迭代执行所述基于实例关系更新连接图的步骤和所述在更新后的连接图中增添连线的操作，直到满足指定条件。
一种对描述同一实体的不同实例进行合并的装置，包括：

获取模块，用于获取包含多个实例的连接图，其中，所述连接图中的不同节点表示不同实例，节点间的连线表示节点所对应的实例之间的实例关系；

合并模块，用于基于所述实例关系，识别出所述连接图中描述同一实体的不同实例，对识别出的实例所对应的节点进行合并，并更新所述连接图；

扩充模块，用于在更新后的连接图中识别出未发现的存在实例关系的实例对，并增添用以连接所述实例对所对应的节点的连线；

迭代模块，用于使得所述合并模块和所述扩充模块迭代执行更新所述连接图的操作和增添连线的操作，直到满足指定条件。
根据权利要求2所述的装置，其中，所述扩充模块包括：

关联度计算模块，用于对于更新后的连接图中的任一节点，计算该节点所对应的实例和与该节点通过N个节点进行连接的节点所对应的实例之间的关联度，其中N大于等于1；

第一识别模块，用于将所述关联度达到预定关联度阈值的两个节点所对应的实例对识别为存在实例关系的实例对，并增添连接这两个节点之间的连线。
根据权利要求2或3所述的装置，其中，所述指定条件被设定为，

所述扩充模块在更新后的连接图中识别出的未发现的存在实例关系的实例对的数目为零。
根据权利要求2-4中任意一项所述的装置，其中，所述合并模块包括：

分组模块，用于对所述多个实例进行分组；

相似度计算模块，用于针对每个分组，基于实例关系计算组内任意两个实例之间的相似度；

第二识别模块，用于将相似度达到预定相似度阈值的实例对识别为描述同一实体的实例对。
根据权利要求2-5中任意一项所述的装置，其中，对于来自不同来源的两个实例，所述相似度计算模块根据以下公式计算这两个实例之间的相似度Sim：

Sim＝Jac_ij/Uniq

Uniq＝Log(Max(Cnt_sourceA,i,Cnt_sourceB,j)+1)

其中，C_i为与实例i具有实例关系的实例集合，C_j为与实例j具有实例关系的实例集合，Jac_ij为实例i、j之间的实例关系相似度，Uniq为实例的唯一性度量，Cnt_sourceA,i为实例i在来源A中的同名实例的个数、Cnt_sourceB,j为实例j在来源B中的同名实例的个数。
根据权利要求2-6中任意一项所述的装置，其中，所述获取模块还包括：

属性相似度计算模块，用于计算连接图中任意两个节点所对应的实例之间的属性相似度；和

第二合并模块，用于将所述属性相似度超过预定属性相似度阈值的两个实例所对应的节点合并为一个节点。
一种对描述同一实体的不同实例进行合并的方法，包括：

获取包含多个实例的连接图，其中，所述连接图中的不同节点表示不同实例，节点间的连线表示节点所对应的实例之间的实例关系；

基于所述实例关系，识别出所述连接图中描述同一实体的不同实例，对识别出的实例所对应的节点进行合并，并更新所述连接图；

在更新后的连接图中识别出未发现的存在实例关系的实例对，并增添用以连接所述实例对所对应的节点的连线；

迭代执行所述基于所述实例关系更新所述连接图的步骤和所述在更新后的连接图中增添连线的步骤，直到满足指定条件。
根据权利要求8所述的方法，其中，所述在更新后的连接图中识别出未发现的存在实例关系的实例对的步骤包括：

对于更新后的连接图中的任一节点，计算该节点所对应的实例和与该节点通过N个节点进行连接的节点所对应的实例之间的关联度，其中N大于等于1；

将所述关联度达到预定关联度阈值的两个节点所对应的实例对识别为存在实例关系的实例对，增添连接这两个节点之间的连线。
根据权利要求8或9所述的方法，其中，所述指定条件被设定为，

在更新后的连接图中识别出的未发现的存在实例关系的实例对的数目为零。
根据权利要求8-10中任意一项所述的方法，其中，所述基于实例关系，识别出连接图中描述同一实体的不同实例的步骤包括：

对所述多个实例进行分组；

针对每个分组，基于所述实例关系计算组内任意两个实例之间的相似度；

将相似度达到预定相似度阈值的实例对识别为描述同一实体的实例对。
根据权利要求8-11中任意一项所述的方法，其中，对于来自不同来源的两个实例，根据以下公式计算这两个实例之间的相似度Sim：

Sim＝Jac_ij/Uniq

Uniq＝Log(Max(Cnt_sourceA,i,Cnt_sourceB,j)+1)

其中，C_i为与实例i具有实例关系的实例集合，C_j为与实例j具有实例关系的实例集合，Jac_ij为实例i、j之间的实例关系相似度，Uniq为实例的唯一性度量，Cnt_sourceA,i为实例i在来源A中的同名实例的个数、Cnt_sourceB,j为实例j在来源B中的同名实例的个数。
根据权利要求8-12中任意一项所述的方法，其中，所述获取包含多个实例的连接图的步骤还包括：

计算连接图中任意两个节点所对应的实例之间的属性相似度；和

将所述属性相似度超过预定属性相似度阈值的两个实例所对应的节点合并为一个节点。