CN111309823A - 用于知识图谱的数据预处理方法及装置 - Google Patents
用于知识图谱的数据预处理方法及装置 Download PDFInfo
- Publication number
- CN111309823A CN111309823A CN202010089110.5A CN202010089110A CN111309823A CN 111309823 A CN111309823 A CN 111309823A CN 202010089110 A CN202010089110 A CN 202010089110A CN 111309823 A CN111309823 A CN 111309823A
- Authority
- CN
- China
- Prior art keywords
- node
- vector
- relation
- vectors
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000007781 pre-processing Methods 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 305
- 238000012545 processing Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 abstract description 19
- 238000011156 evaluation Methods 0.000 abstract description 7
- 230000000875 corresponding effect Effects 0.000 description 83
- 230000008569 process Effects 0.000 description 12
- 238000012549 training Methods 0.000 description 12
- 238000013459 approach Methods 0.000 description 10
- 238000012512 characterization method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000002596 correlated effect Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供一种用于知识图谱的数据预处理方法和装置,在确定知识图谱中的节点及连接关系类别的向量表达时,以三元组中首节点对应的第一节点向量与首节点和尾节点之间的连接关系类别对应的第一关系向量的哈达玛积融合得到中间向量,并将中间向量与尾节点对应的第二节点向量的距离作为参考评价指标,基于对正负样本在参考评价指标上的取值的调整,更新相应的节点向量及关系向量。这种方式在节约参数的基础上,能够同时表达诸如对称关系、相反关系、组合关系等常见关联关系,提升知识图谱的表达能力。
Description
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及通过计算机确定知识图谱的向量表示的数据预处理方法和装置。
背景技术
随着互联网的发展,网络数据内容呈现爆炸式增长的趋势。由于互联网内容的大规模、异质多元、组织结构松散的特点,给人们有效获取信息和知识提出了挑战。知识图谱(Knowledge Graph)以其强大的语义处理能力和开放组织能力,为知识化组织和人工智能应用奠定了基础。
知识图谱主要用来描述真实世界中存在的各种实体和概念,以及他们之间的关系,具有很强的数据描述能力。其初衷是为了提高搜索引擎的能力,改善用户的搜索质量以及搜索体验。随着人工智能的技术发展和应用,知识图谱作为关键技术之一,已被广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域。特别是,可以将知识图谱与机器学习模型相结合,增强模型的预测能力。例如,在客服机器人问答系统中,可以通过引入与产品服务相关的知识图谱,帮助意图识别模型对用户使用自然语言提出的问题进行语义分析和意图识别,之后在知识图谱中查询答案推送给用户。
知识图谱的使用离不开知识图谱的表征,也就是将知识图谱中各个实体以及实体之间的关系用向量的形式进行表征。然而,常规技术中对知识图谱的学习和表征不够深入和全面,使得其表达能力有限。特别地,对于表示实体之间关系的知识图谱,需要表达的关系错综复杂,例如可以包括对称关系(配偶)、相反关系(妻子和丈夫相反)、组合关系(“妻子”和“父亲”组合得到“岳父”)等等。常规技术在这些错综复杂的实体关系表达上,要么不够全面,要么参数量过大。
因此,希望能有改进的方案,更有效对知识图谱进行表征,增强其表达能力。
发明内容
本说明书一个或多个实施例描述了一种用于知识图谱的数据预处理方法及装置,基于对当前实体关系向量的新的评估方法,挖掘对知识图谱进行表征的向量表示,从而提高表征向量对特殊关系的表达能力。
根据第一方面,提供了一种用于知识图谱的数据预处理方法,所述知识图谱包括对应于M个实体的M个节点,以及N个连接关系类别,并通过对应于N个连接关系类别的有向连接边描述M个节点之间的关联关系,M个节点分别对应M个s维的节点向量,N个连接关系类别分别对应N个s维的关系向量,所述方法包括:根据所述知识图谱获取当前三元组,其中,所述当前三元组包括第一节点、第二节点以及第一连接关系类别,所述第一节点对应第一节点向量,所述第一连接关系类别对应第一关系向量,所述第二节点对应第二节点向量;确定所述第一节点向量与所述第一关系向量通过哈达玛积融合得到的中间向量,与所述第二节点向量的距离;基于所述距离,更新相应的节点向量及关系向量,从而得到用于表征知识图谱中的各个节点及各个连接关系类别的向量表示,使得所述知识图谱用于进行对应于通过N个连接关系类别关联的所述M个节点的实体关系业务处理。
在一个实施例中,所述第一节点向量、所述第二节点向量、所述第一关系向量分别对应的初始向量,通过随机赋值确定,或者预先设定。
在一个实施例中,所述第一关系向量在各个维度上的初始值均在-1到1之间。
在一个实施例中,所述确定所述第一节点向量与所述第一关系向量通过哈达玛积融合得到的中间向量,与所述第二节点向量的距离包括:确定所述中间向量与所述第二节点向量的差向量;将所述差向量在各个维度上的数值的绝对值之和或者所述差向量的模确定为所述距离。
在一个实施例中,所述当前三元组为从所述知识图谱获取的正例三元组;所述基于所述距离,更新相应的节点向量及关系向量包括:以在最小化所述距离为目标,更新相应的节点向量及关系向量。
在一个实施例中,所述当前三元组为对从所述知识图谱获取的正例三元组进行以下中的一项操作得到的负例三元组:用正例三元组的首节点以外的其他节点替换所述首节点作为第一节点;用正例三元组的尾节点以外的其他节点替换所述尾节点作为第二节点;所述基于所述距离,更新相应的节点向量及关系向量包括:以在最大化所述距离为目标,更新相应的节点向量及关系向量。
在一个实施例中,所述方法还包括:基于所述距离确定所述第一节点通过所述第一连接关系类别指向所述第二节点的概率,所述概率与所述距离负相关;在所述当前三元组为正例三元组的情况下,所述基于所述距离,更新相应的节点向量及关系向量包括:以最大化所述概率为目标,更新相应的节点向量及关系向量;在所述当前三元组为负例三元组的情况下,所述基于所述距离,更新相应的节点向量及关系向量包括:以最小化所述概率为目标,更新相应的节点向量及关系向量。
根据第二方面,提供了一种用于知识图谱的数据预处理装置,所述知识图谱包括对应于M个实体的M个节点,以及N个连接关系类别,并通过对应于N个连接关系类别的有向连接边描述M个节点之间的关联关系,M个节点分别对应M个s维的节点向量,N个连接关系类别分别对应N个s维的关系向量,所述装置包括:
获取单元,配置为根据所述知识图谱获取当前三元组,其中,所述当前三元组包括第一节点、第二节点以及第一连接关系类别,所述第一节点对应第一节点向量,所述第一连接关系类别对应第一关系向量,所述第二节点对应第二节点向量;
确定单元,配置为确定所述第一节点向量与所述第一关系向量通过哈达玛积融合得到的中间向量,与所述第二节点向量的距离;
更新单元,配置为基于所述距离,更新相应的节点向量及关系向量,从而得到用于表征知识图谱中的各个节点及各个连接关系类别的向量表示,使得所述知识图谱用于进行对应于通过N个连接关系类别关联的所述M个节点的实体关系业务处理。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的用于知识图谱的数据预处理方法及装置,在确定知识图谱中的节点及连接关系类别的向量表达时,以三元组中首节点对应的第一节点向量与首节点和尾节点之间的连接关系类别对应的第一关系向量的哈达玛积融合得到中间向量,并将中间向量与尾节点对应的第二节点向量的距离作为参考评价指标,基于对正负样本在参考评价指标上的取值的调整,更新相应的节点向量及关系向量。这种方式不会大量增加参数,并能够同时表达诸如对称关系、相反关系、组合关系等常见关联关系,提升知识图谱的表达能力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的用于知识图谱的数据预处理的方法流程图;
图3示出在一个具体框架中针对三元组的向量调整过程示意图;
图4示出根据一个实施例的用于知识图谱的数据预处理的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
为了便于说明,结合图1示出的本说明书实施例的一个具体适用场景进行描述。图1示出的是一个描述实体之间的关系的知识图谱的示意图。如图1所示,知识图谱中可以包含多个实体(或概念),例如,张三,李四,A公司,B公司,杭州,每个实体对应知识图谱中一个节点。具有一定关联关系的节点之间通过有向边连接,该有向连接边示出所连接的两个节点之间的连接关系。知识图谱中实体之间的关系可以有多种类型,可以称之为连接关系类别。例如在图1中,从李四指向A公司的有向连接边对应连接关系类别“法人”,从张三指向A公司,以及从A公司指向B公司的有向连接边对应连接关系类别“股东”,从李四指向杭州,以及从A公司指向杭州的有向连接边对应连接关系类别“所在地”,等等。
可以理解,知识图谱中的一个连接关系类别可以在不同的两两节点之间重复,例如图1示出的所在地、股东等。一个实体也可以和其他的多个实体具有连接关系,例如图1中的节点李四,同时和杭州、A公司具有连接关系。也就是说,一个知识图谱可以归纳为M个节点和N个连接关系类别,M个节点中,两两之间可以通过对应于N个连接关系类别中的任一个连接关系类别的有向连接边进行连接。
作为图结构的一种,知识图谱可以采用常规图结构记录方式,例如邻接矩阵之类,记录其拓扑结构。
在一些实现中,基于知识图谱本身的特点,在本领域中常常采用(头节点h,关系r,尾节点t)三元组的方式,来记录知识图谱。可以理解,一个三元组可以记录知识图谱中一条连接边所对应的实体关系,其中头节点h(head)为该连接边出发的节点,尾节点t(tail)为该连接边指向的节点,关系r(relation)即为该连接边对应的连接关系类别。例如,图1中虚线圈出区域的实体关系可以表示为三元组(张三,股东,A公司)。
通常,借鉴神经网络的思想,知识图谱可以通过图神经网络进行处理。为了表征知识图谱,可以将上述三元组示出的实体关系作为表征学习的目标。也就是说,为了使得图神经网络正确处理知识图谱中的实体关系,在表征知识图谱时,将图谱中各个实体以及各种关系均用向量的形式表达,并且尽量使得向量表示可以符合三元组示出的实体关系。
在知识图谱表示过程中,常常遇到的关系有:对称关系、相反关系、组合关系等等。例如:对于知识图谱中的对称关系,有(h,r,t)和(t,r,h)同时成立,如r为合作伙伴、配偶等;对于相反关系,有(h,r1,t)和(t,r2,h)同时成立,如r1为父子(如is Father Of),r2为子女-父亲(如Fatherls);对于组合关系,有(h1,r1,t1)、(t1,r2,t2)、(h1,r3,t2)同时成立,如r1为父女,r2为配偶,r3为翁婿;等等。
通常,用于知识图谱的向量表示思路是,用向量描述各个节点、关系,将实体关系表达式作为优化目标。常规技术的方法例如有:
基于距离度量的模型,如TransE、RotatE等;其中:TransE用评价三元组的向量表达评价指标,学习知识图谱的向量表达,该方式在稀疏数据上效果较好,但在图谱中存在(h,r,t)、(t,r,h)的情况下,根据三元组的向量表达方程,可能出现对应于r,其embedding中的每一维都接近为0,如果知识图谱中有很多个对称关系r1、r2、r3,学习到的r1、r2、r3的embedding一致性较高,无法有效区分,因此其在表示对称关系方面的性能不够好;RotatE同时能够表示关系的对称/非对称关系、相反关系和组合关系,但其将实体及向量映射到复数空间(一个向量的每一维都用复数表示,包括实部和虚部)进行角度旋转,所用参数数量过大,计算复杂度相比于建立在实数空间的方法更高;
基于语义匹配的模型,如:DistMult、ComplEx等;基于语义匹配的模型例如通过得到一个向量,对该向量各个维度的值求和得到的数值来作为三元组向量表达的评价指标(如数值越大,语义匹配度越高,三元组关系成立概率越高),学习知识图谱的向量表达,该方式得到的向量表达在稠密数据上效果较好,但是其在表示组合关系方面效果不够好;等等。
本说明书为了寻求一种既可以同时描述对称关系、相反关系、组合关系等错综复杂的实体关系,又不会使用过多参数增加计算负担,尽可能的降低计算复杂度,以适应规模较大的知识图谱的向量表达方式,提出一种用于学习知识图谱的向量表达的技术构思。下面详细描述本说明书的技术构思。
图2示出一个实施例的用于知识图谱的数据预处理流程。该方法的执行主体可以是任何具有计算、处理能力的系统、设备、装置、平台或服务器。该方法适用于描述各种实体的知识图谱,尤其适用于描述包含诸如对称关系、相反关系、组合关系等等实体关系的知识图谱。为了描述方便,本说明书中可以假设知识图谱中的节点数量为M,连接关系类别数量为N,其中M和N可以相互独立。可选地,两个节点之间可以具有多个连接关系类型的连接边,不同组两两节点之间的连接边也可以为同一个连接关系类型。
其中,为了利用知识图谱进行业务处理,各个节点和各个连接关系类别分别可以通过预定维数的向量进行描述,例如s维向量。图2示出的流程通过机器学习方式,确定M个节点和N个连接关系类别分别对应的各个s维向量,从而使得知识图谱更好地描述节点之间的连接关系。
为了将节点及连接关系类别通过合适的向量描述出来,可以先为各个节点及连接关系类别对应的向量进行初始化,将初始化的向量中的各个维度上的值作为机器学习的初始模型参数,利用样本对其进行修正。其中,向量初始化的方式可以是随机赋值、预先设定为预定向量(按照预定规则设置元素的值,例如关系向量个元素全部设为0.5)等,在此不再赘述。
如图2所示,该用于知识图谱的数据预处理方法可以包括以下步骤:步骤201,根据知识图谱获取当前三元组,其中,当前三元组包括第一节点、第二节点以及第一连接关系类别,第一节点通过对应于第一连接关系类别的连接边指向第二节点,第一节点对应第一节点向量,第一连接关系类别对应第一关系向量,第二节点对应第二节点向量;步骤202,确定第一节点向量与第一关系向量通过哈达玛积融合得到的中间向量,与第二节点向量的距离;步骤203,基于上述距离,更新相应的节点向量及关系向量,从而得到用于表征知识图谱中的各个节点及各个连接关系类别的向量表示,使得知识图谱用于进行对应于上述M个节点的实体关系业务处理。
首先,在步骤201中,根据知识图谱获取当前三元组。其中,当前三元组可以包括第一节点(即首节点)、第二节点(即尾节点)以及第一连接关系类别。
可以理解,如果当前三元组是从知识图谱中直接获取的三元组,例如是前述的(h,r,t)三元组,其中,h为首节点,即第一节点,t为尾节点,即第二节点,r为首节点指向尾节点的有向连接边的连接关系类别,如第一连接关系类别。如,h为“张三”,t为“张小三”,r为“父子”。此时,当前三元组也可以称为正例三元组(即正样本),即在知识图谱中真实存在的三元组。
当前三元组也可以基于知识图谱,按照预定规则构造,例如从M个节点随机选择2个节点,分别作为首节点h、尾节点t,从N个连接关系类别中随机选择一个连接关系类别来描述首节点到尾节点的连接关系,在此不再赘述。或者对于上述的正例三元组,随机替换掉其中的首节点、尾节点、连接关系类别中的至少一项。例如,对于从正例三元组(h,r,t),用h之外的任意一个节点h'替换h,得到三元组(h',r,t)作为负例三元组,或者用t之外的任意一个节点t'替换t,得到三元组(h,r,t')作为负例三元组,等等。在进一步的实施例中,对于按照预定规则构造的三元组,还可以检测其是否存在于知识图谱,不存在于知识图谱的情况下,将其作为负例三元组(即负样本)。
对于当前三元组而言,第一节点可以对应有第一节点向量,第二节点可以对应有第二节点向量,第一连接关系类别可以对应有第一关系向量。第一节点向量、第二节点向量、第一关系向量分别是第一节点、第二节点、第一连接关系类别当前对应的s维向量,其可以是初始化的向量,也可以是经过若干次修正的向量,在此不作限定。
接着,在步骤202中,确定第一节点向量与第一关系向量通过哈达玛积融合得到的中间向量,与第二节点向量的距离。
可以理解,如果当前三元组是从知识图谱结构中获取的,则其中的第一节点通过第一连接关系类别连接到第二节点。例如第一节点对应“张三”,第二节点对应“张小三”,第一连接关系对应“父子”。相反地,如果当前三元组不是从知识图谱结构中直接获取的,则其作为在知识图谱中不存在的三元组,第一节点通过第一连接关系类别无法连接到第二节点。例如第一节点对应“张三”,第二节点对应“李四”,第一连接关系对应“父子”。
利用机器学习的思路,可以根据第一节点向量、第一关系向量及第二节点向量,确定第一节点通过第一连接关系类别连接到第二节点的概率,例如,正例三元组具有接近1的概率,负例三元组具有接近0的概率。在本步骤202中,可以利用能够表征上述概率的指标,来评价当前的向量表达在当前三元组上的有效性。
可以理解,将向量映射到与向量维度数量(如s维)一致的维度空间,则第一节点向量+第一关系向量=第二节点向量是最直观的表示方式,将向量转化成标量的内积也是常规技术的惯用思路,然而,对于存在诸如对称关系、相反关系、组合关系等各种关系的知识图谱,需要寻求更有效的表达方式。
为了寻求有效的知识图谱的向量表示,设想利用第一节点向量与第一关系向量的哈达玛积(Hadamard product),与第二节点向量的距离,作为衡量当前三元组中第一节点可以通过第一连接关系类别连接到第二节点的指标。
其中,两个相同维数矩阵的哈达玛积是将两个矩阵一致位置的元素的乘积作为结果矩阵中相应位置的元素,即矩阵A与矩阵B的哈达玛积可以表示为|A*B|ij=Aij×Bij。如此,s维的第一节点向量与s维的第一关系向量的哈达玛积仍为s维的向量。该距离可以体现,头节点与尾节点之间具有通过第一连接关系类别连接的概率,距离越小,概率越大,当距离为0,则表示第一节点向量与第一关系向量的哈达玛积与尾节点向量的差的范数,整个三元组的向量表征与三元组的实体关系完全匹配。
作为示例,向量与向量之间的距离,可以通过差的范数来描述。以三元组(h,r,t)为例,中间向量可以表示为h*r,中间向量与第二节点向量的差向量为h*r-t。以上距离可以表示为:
fr(h,t)=|h*r-t|1/2
以上述指标是|h*r-t|的1-范数为例,在整个三元组的向量表征与三元组的实体关系完全匹配的情况下,也就是说,第i维度上,|hi×ri-ti|无限接近0。在可选的实现方式中,在整个三元组的向量表征与三元组的实体关系完全匹配的情况下,第一节点向量与第一关系向量的哈达玛积可以完全等于尾节点向量,即,|hi×ri-ti|=0。
下面通过在各种关系下,通过哈达玛积融合的中间向量得到上述距离的过程,说明表征知识图谱中的各种关系的可行性。
对于对称关系,(h,r,t)和(t,r,h)同时成立,理想情况下,整个三元组的向量表征与三元组的实体关系完全匹配,h*r-t与t*r-h的1-范数或2-范数均为0,即h*r=t与t*r=h同时成立。也就是说,t*r*r=t成立,进一步地,ti×ri×ri=ti成立,从而,如果ri 2=1成立,就可以表征对称关系。
对于相反关系,如果(h,r1,t)和(t,r2,h)同时成立,理想情况下,有:
于是,h*r1*r2=h,根据哈达玛积的定义,如果r1i×r2i=1成立,则r1和r2可以表示相反关系。
对于组合关系,有(h1,r1,t1)、(t1,r2,t2)、(h1,r3,t2)同时成立,则理想情况下,在h1*r1=t1、t1*r2=t2、h1*r3=t2的基础上,如果存在r1i×r2i=r3i,则r1+r2=>r3的组合关系成立,可以表达组合关系。
根据一个可能的设计,还可以根据上述距离,确定第一节点通过第一连接关系类别连接到第二节点的概率。由前文可知,该概率w可以与以下项负相关:第一节点向量与第一关系向量的哈达玛积,与第二节点向量的距离f=fr(h,t)。该负相关关系例如可以是:w=1/f、w=-af+b(其中a为正数),等等。
接着,在步骤203,基于上述距离,更新相应的节点向量及各个关系向量,从而得到用于表征知识图谱中的各个节点及各个连接关系类别的向量表示。如此,可以使得知识图谱用于进行对应于通过N个连接关系类别关联的所述M个节点的实体关系业务处理。
这里,相应的节点向量及关系向量可以包括第一节点向量、第二节点向量、第一关系向量。在可能的实施例中,还可以包括其他节点向量。
在一个实施例中,当前三元组是正例三元组,即存在于知识图谱中的三元组,可以以最小化上述距离为目标,更新相应的节点向量及关系向量。例如,可以将训练过程中的损失定义为以上距离fr(h,t)。如此,训练损失正相关于上述距离,上述概率负相关于上述距离,损失减小的方向即距离减小的方向,也就是概率增大的方向。
在另一实施例中,当前三元组是负例三元组,例如根据从知识图谱中直接获取的正例三元组(h,r,t)改造得到(h′,r,t)或(h,r,t′)等。其中h′是除h外的任意节点,t′是除t外的任意节点,此时,实际上节点h′没有通过对应连接关系类别为r的连接边指向节点t,节点h没有通过对应连接关系类别为r的连接边指向节点t′。此时,可以以最大化上述距离为目标,更新相应的节点向量及关系向量。例如将训练损失定义为上述距离的相反数-fr(h,t)。如此,训练损失正相关于上述距离,上述概率负相关于上述距离,损失减小的方向即距离增大的方向,也就是概率减小的方向。
根据一个可能的设计,还可以在确定一个正例三元组(如(h,r,t))对应的距离和与该正例三元组对应的负例三元组(如(h′,r,t))对应的距离之后,以最小化正例三元组对应的距离的同时,最小化负例三元组对应的距离为目标,调整正例三元组和负例三元组中涉及的节点向量和关系向量(如h、r、t、h′)。
在这样的情况下,训练损失例如可以定义为:
Loss=λ+fr(h,t)-fr(h′,t′)
其中,fr(h,t)表示正例三元组(如从知识图谱中获取的(h,r,t))对应的距离,fr(h′,t′)表示负例三元组(如不存在于知识图谱的(h′,r,t)、(h,r,t′)等)对应的距离。训练的目标包括,最小化距离fr(h,t),同时最大化距离fr(h′,t′),这相当于,最大化正例三元组对应的概率,同时最小化负例三元组对应的概率。值得说明的是,λ是一个训练常数,用于防止模型过拟合。
在确定出训练损失的基础上,就可以在损失减小的方向调整各个节点向量和连接关系类别向量,直到达到预定收敛条件。
可以理解的是,在上述最小化距离fr(h,t)的过程中,如果反复输入具有对称关系的三元组,则在最小化|hi×ri-ti|与|ti×ri-hi|的过程中,必然使得ri 2趋近于1,从而相应连接关系类别r可以表征知识图谱中的对称关系。如果反复输入具有相反关系的三元组,则在最小化|hi×r1i-ti|与|ti×r2i-hi|的过程中,hi*r1i趋近于ti,hi×r1i×r2i趋近于hi,必然使得r1i×r2i趋近于1,从而相应连接关系类别r1和r2可以表征知识图谱中的相反关系。如果反复输入组合关系(h1,r1,t1)、(t1,r2,t2)、(h1,r3,t2),则在最小化|h1*r1-t1|、|t1*r2-t2|、|h1*r3-t2|的过程中,h1i×r1i趋近于t1i,t1i×r2i趋近于h1i×r1i×r2i趋近于t2i,t2i趋近于h1i×r3i,从而r1i×r2i趋近于r3i,从而相应连接关系类别r3可以表征知识图谱中的相应连接关系类别r1和r2的组合关系。
另一方面,根据以上描述可知,在对称关系和相反关系的表征条件中,都涉及关系向量在各个维度上的元素与1的关系。同时,实验表明,对称关系对应的关系向量的最终表征中,各个元素的取值在1和-1处收敛,相反关系对应的关系向量的最终表征中,两个具有相反关系的关联关系类型分别对应的额两个关系向量,在相对应的元素上的两个取值的乘积在1处收敛。因此,为了提高知识图谱的向量表征挖掘效率,在一个实施例中,可以将各个关系向量中,各个维度上的初始值均设定为区间[-1,1]上的数。
图2中,以当前三元组为例对用于知识图谱的数据预处理方法进行了描述,为了更明确本说明书的发明构思,请参考图3所示,从一个具体实施框架的角度,针对一个知识图谱的数据预处理过程进行描述。
如图3所示,在获取到知识图谱之后,首先对知识图谱中的各个节点向量和关系向量进行初始化。例如分别随机赋予一个向量。然后,随机知识图谱中获取一个三元组,作为正例三元组,如(h,r,t),对于随机获取的三元组(h,r,t),可以构造相应的负例三元组(h',r,t)或(h,r,t')。然后,分别确定正例三元组和负例三元组对应的距离,并根据距离确定训练损失,如Loss=λ+fr(h,t)-fr(h′,t′)。并向损失减小的方向调整相关节点向量、关系向量。其中,可以对每一对正例三元组和负例三元组,确定一次训练损失,也可以对多对正例三元组和负例三元组(如包含r的所有三元组)确定一次训练损失,在此不作限定。每确定一次训练损失,进行一次向量调整操作。在可选的实现中,上述训练过程中正例三元组和负例三元组可以反复使用。最后,输出调整好的各个节点向量及各个连接关系类别对应的关系向量。至此,知识图谱中的各个实体对应的节点及各个连接关系类别都可以通过有效的向量进行表征。
通过以上数据预处理方法,可以对知识图谱中的节点和连接关系类别进行表征,不会大规模增加参数量,同时更有效地表征各种类型的连接关系,如对称关系、相反关系、组合关系等。在一个实验过程中,通过本说明书实施例架构下的知识图谱的数据预处理方法确定的知识图谱的向量表征,在参数量为RotatE的51%的情况下,在FB15K-237数据集上MRR(Mean Reciprocal Rank,平均导数等级)的准确度领先RotatE0.6%。同时,由于参数量较RotatE少,计算复杂度也明显低于RotatE,在测试集上完成全部预测的情况下,较RotatE减少一半以上的时间。与常规技术相比,达到了在不增加参数量的基础上,准确表征相应连接关系类别的效果,提高知识图谱的向量表征的有效性。
根据另一方面的实施例,还提供一种用于知识图谱的数据预处理装置。图4示出根据一个实施例的用于知识图谱的数据预处理装置的示意性框图。其中,知识图谱可以包括对应于M个实体的M个节点,以及N个连接关系类别,并通过对应于N个连接关系类别的有向连接边描述M个节点之间的关联关系,M个节点分别对应M个s维的节点向量,N个连接关系类别分别对应N个s维的关系向量。
如图4所示,用于知识图谱的数据预处理装置400包括:获取单元41,配置为根据知识图谱获取当前三元组,其中,当前三元组包括第一节点、第二节点以及第一连接关系类别,第一节点对应第一节点向量,第一连接关系类别对应第一关系向量,第二节点对应第二节点向量;
确定单元42,配置为确定第一节点向量与第一关系向量通过哈达玛积融合得到的中间向量,与第二节点向量的距离;
更新单元43,配置为基于上述距离,更新相应的节点向量及关系向量,从而得到用于表征知识图谱中的各个节点及各个连接关系类别的向量表示,使得知识图谱用于进行对应于通过N个连接关系类别关联的M个节点的实体关系业务处理。
在一个实施例中,第一节点向量、第二节点向量、第一关系向量分别对应的初始向量,通过随机赋值确定,或者预先设定。
在一个实施例中,第一关系向量在各个维度上的初始值均在-1到1之间。
根据一个可能的设计,确定单元42进一步可以配置为:
确定中间向量与第二节点向量的差向量;
将差向量在各个维度上的数值的绝对值之和或者差向量的模确定为上述距离。
在一个实施方式中,当前三元组为从知识图谱获取的正例三元组;
更新单元43进一步可以配置为:
以在最小化距离为目标,更新相应的节点向量及关系向量。
在另一个实施方式中,当前三元组为对从知识图谱获取的正例三元组进行以下中的一项操作得到的负例三元组:用正例三元组的首节点以外的其他节点替换首节点作为第一节点;用正例三元组的尾节点以外的其他节点替换尾节点作为第二节点;
更新单元43进一步可以配置为:
以在最大化距离为目标,更新相应的节点向量及关系向量。
根据一个实施例,确定单元42还可以配置为:
基于距离确定第一节点通过第一连接关系类别连接到第二节点的概率,概率与距离负相关;
在当前三元组为正例三元组的情况下,更新单元43进一步配置为:
以最大化概率为目标,更新相应的节点向量及关系向量;
在当前三元组为负例三元组的情况下,更新单元43进一步配置为:
以最小化概率为目标,更新相应的节点向量及关系向量。
值得说明的是,图4所示的装置400是与图2示出的方法实施例相对应的装置实施例,图2示出的方法实施例中的相应描述同样适用于装置400,在此不再赘述。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书的技术构思的具体实施方式而已,并不用于限定本说明书的技术构思的保护范围,凡在本说明书实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的技术构思的保护范围之内。
Claims (16)
1.一种用于知识图谱的数据预处理方法,所述知识图谱包括对应于M个实体的M个节点,以及N个连接关系类别,并通过对应于N个连接关系类别的有向连接边描述M个节点之间的关联关系,M个节点分别对应M个s维的节点向量,N个连接关系类别分别对应N个s维的关系向量,所述方法包括:
根据所述知识图谱获取当前三元组,其中,所述当前三元组包括第一节点、第二节点以及第一连接关系类别,所述第一节点对应第一节点向量,所述第一连接关系类别对应第一关系向量,所述第二节点对应第二节点向量;
确定所述第一节点向量与所述第一关系向量通过哈达玛积融合得到的中间向量,与所述第二节点向量的距离;
基于所述距离,更新相应的节点向量及关系向量,从而得到用于表征知识图谱中的各个节点及各个连接关系类别的向量表示,使得所述知识图谱用于进行对应于所述M个节点的实体关系业务处理。
2.根据权利要求1所述的方法,其中,所述第一节点向量、所述第二节点向量、所述第一关系向量分别对应的初始向量,通过随机赋值确定,或者预先设定。
3.根据权利要求1或2所述的方法,其中,所述第一关系向量在各个维度上的初始值均在-1到1之间。
4.根据权利要求1所述的方法,其中,所述确定所述第一节点向量与所述第一关系向量通过哈达玛积融合得到的中间向量,与所述第二节点向量的距离包括:
确定所述中间向量与所述第二节点向量的差向量;
将所述差向量在各个维度上的数值的绝对值之和或者所述差向量的模确定为所述距离。
5.根据权利要求1所述的方法,其中,所述当前三元组为从所述知识图谱获取的正例三元组;所述基于所述距离,更新相应的节点向量及关系向量包括:
以最小化所述距离为目标,更新相应的节点向量及关系向量。
6.根据权利要求1所述的方法,所述当前三元组为对从所述知识图谱获取的正例三元组进行以下中的一项操作得到的负例三元组:用正例三元组的首节点以外的其他节点替换所述首节点作为第一节点;用正例三元组的尾节点以外的其他节点替换所述尾节点作为第二节点;
所述基于所述距离,更新相应的节点向量及关系向量包括:
以最大化所述距离为目标,更新相应的节点向量及关系向量。
7.根据权利要求1所述的方法,其中,所述方法还包括:
基于所述距离确定所述第一节点通过所述第一连接关系类别连接到所述第二节点的概率,所述概率与所述距离负相关;
在所述当前三元组为正例三元组的情况下,所述基于所述距离,更新相应的节点向量及关系向量包括:
以最大化所述概率为目标,更新相应的节点向量及关系向量;
在所述当前三元组为负例三元组的情况下,所述基于所述距离,更新相应的节点向量及关系向量包括:
以最小化所述概率为目标,更新相应的节点向量及关系向量。
8.一种用于知识图谱的数据预处理装置,所述知识图谱包括对应于M个实体的M个节点,以及N个连接关系类别,并通过对应于N个连接关系类别的有向连接边描述M个节点之间的关联关系,M个节点分别对应M个s维的节点向量,N个连接关系类别分别对应N个s维的关系向量,所述装置包括:
获取单元,配置为根据所述知识图谱获取当前三元组,其中,所述当前三元组包括第一节点、第二节点以及第一连接关系类别,所述第一节点对应第一节点向量,所述第一连接关系类别对应第一关系向量,所述第二节点对应第二节点向量;
确定单元,配置为确定所述第一节点向量与所述第一关系向量通过哈达玛积融合得到的中间向量,与所述第二节点向量的距离;
更新单元,配置为基于所述距离,更新相应的节点向量及关系向量,从而得到用于表征知识图谱中的各个节点及各个连接关系类别的向量表示,使得所述知识图谱用于进行对应于通过N个连接关系类别关联的所述M个节点的实体关系业务处理。
9.根据权利要求8所述的装置,其中,所述第一节点向量、所述第二节点向量、所述第一关系向量分别对应的初始向量,通过随机赋值确定,或者预先设定。
10.根据权利要求8或9所述的装置,其中,所述第一关系向量在各个维度上的初始值均在-1到1之间。
11.根据权利要求8所述的装置,其中,所述确定单元进一步配置为:
确定所述中间向量与所述第二节点向量的差向量;
将所述差向量在各个维度上的数值的绝对值之和或者所述差向量的模确定为所述距离。
12.根据权利要求8所述的装置,其中,所述当前三元组为从所述知识图谱获取的正例三元组;
所述更新单元进一步配置为:
以在最小化所述距离为目标,更新相应的节点向量及关系向量。
13.根据权利要求8所述的装置,所述当前三元组为对从所述知识图谱获取的正例三元组进行以下中的一项操作得到的负例三元组:用正例三元组的首节点以外的其他节点替换所述首节点作为第一节点;用正例三元组的尾节点以外的其他节点替换所述尾节点作为第二节点;
所述更新单元进一步配置为:
以在最大化所述距离为目标,更新相应的节点向量及关系向量。
14.根据权利要求8所述的装置,其中,所述确定单元还配置为:
基于所述距离确定所述第一节点通过所述第一连接关系类别连接到所述第二节点的概率,所述概率与所述距离负相关;
在所述当前三元组为正例三元组的情况下,所述更新单元进一步配置为:
以最大化所述概率为目标,更新相应的节点向量及关系向量;
在所述当前三元组为负例三元组的情况下,所述更新单元进一步配置为:
以最小化所述概率为目标,更新相应的节点向量及关系向量。
15.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-7中任一项的所述的方法。
16.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010089110.5A CN111309823A (zh) | 2020-02-12 | 2020-02-12 | 用于知识图谱的数据预处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010089110.5A CN111309823A (zh) | 2020-02-12 | 2020-02-12 | 用于知识图谱的数据预处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111309823A true CN111309823A (zh) | 2020-06-19 |
Family
ID=71159378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010089110.5A Pending CN111309823A (zh) | 2020-02-12 | 2020-02-12 | 用于知识图谱的数据预处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111309823A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115261A (zh) * | 2020-08-21 | 2020-12-22 | 浙江工商大学 | 基于对称和互逆关系统计的知识图谱数据扩展方法 |
CN113571179A (zh) * | 2021-07-09 | 2021-10-29 | 清华大学 | 基于知识图谱的指标提取方法和装置 |
CN114743420A (zh) * | 2022-04-27 | 2022-07-12 | 广东职业技术学院 | 一种英语课文辅助教学方法及系统 |
-
2020
- 2020-02-12 CN CN202010089110.5A patent/CN111309823A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115261A (zh) * | 2020-08-21 | 2020-12-22 | 浙江工商大学 | 基于对称和互逆关系统计的知识图谱数据扩展方法 |
CN113571179A (zh) * | 2021-07-09 | 2021-10-29 | 清华大学 | 基于知识图谱的指标提取方法和装置 |
CN113571179B (zh) * | 2021-07-09 | 2023-01-31 | 清华大学 | 基于知识图谱的指标提取方法和装置 |
CN114743420A (zh) * | 2022-04-27 | 2022-07-12 | 广东职业技术学院 | 一种英语课文辅助教学方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11893781B2 (en) | Dual deep learning architecture for machine-learning systems | |
Hamer et al. | Fedboost: A communication-efficient algorithm for federated learning | |
US20210174264A1 (en) | Training tree-based machine-learning modeling algorithms for predicting outputs and generating explanatory data | |
WO2023000574A1 (zh) | 一种模型训练方法、装置、设备及可读存储介质 | |
CN108399428B (zh) | 一种基于迹比准则的三元组损失函数设计方法 | |
CN110210625B (zh) | 基于迁移学习的建模方法、装置、计算机设备和存储介质 | |
US20190340533A1 (en) | Systems and methods for preparing data for use by machine learning algorithms | |
JP7376731B2 (ja) | 画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体 | |
EP4217934A1 (en) | Method and system for relation learning by multi-hop attention graph neural network | |
TW201909112A (zh) | 圖像特徵獲取 | |
CN112231592B (zh) | 基于图的网络社团发现方法、装置、设备以及存储介质 | |
CN111309823A (zh) | 用于知识图谱的数据预处理方法及装置 | |
CN113987236B (zh) | 基于图卷积网络的视觉检索模型的无监督训练方法和装置 | |
CN113408706B (zh) | 训练用户兴趣挖掘模型、用户兴趣挖掘的方法和装置 | |
CN114677535A (zh) | 域适应图像分类网络的训练方法、图像分类方法及装置 | |
Lim et al. | More powerful selective kernel tests for feature selection | |
CN113712511B (zh) | 一种脑成像融合特征的稳定模式判别方法 | |
US20230018525A1 (en) | Artificial Intelligence (AI) Framework to Identify Object-Relational Mapping Issues in Real-Time | |
CN113239272B (zh) | 一种网络管控系统的意图预测方法和意图预测装置 | |
JP7563495B2 (ja) | 学習装置、学習方法、及び、プログラム | |
CN114429404A (zh) | 一种多模异质社交网络社区发现方法 | |
CN114937166A (zh) | 图像分类模型构建方法、图像分类方法及装置、电子设备 | |
CN115114442A (zh) | 知识图谱的更新方法和装置、存储介质及电子设备 | |
CN113987280B (zh) | 针对动态图训练图模型的方法及装置 | |
CN113537269B (zh) | 图像处理方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200619 |
|
RJ01 | Rejection of invention patent application after publication |