CN111368099B - 核心信息语义图谱生成方法及装置 - Google Patents
核心信息语义图谱生成方法及装置 Download PDFInfo
- Publication number
- CN111368099B CN111368099B CN202010245822.1A CN202010245822A CN111368099B CN 111368099 B CN111368099 B CN 111368099B CN 202010245822 A CN202010245822 A CN 202010245822A CN 111368099 B CN111368099 B CN 111368099B
- Authority
- CN
- China
- Prior art keywords
- core information
- information
- core
- association
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000003993 interaction Effects 0.000 claims abstract description 35
- 238000004590 computer program Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 5
- 239000000872 buffer Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种核心信息语义图谱生成方法及装置,方法包括:获取交互类的文本数据并基于所述文本数据得到核心信息;计算抽取出的各个所述核心信息之间的关联关系;根据各个所述核心信息之间的关联关系确定核心信息语义图谱中的中心节点;基于所述中心节点生成核心信息语义图谱。本发明能够有效提高核心信息语义图谱生成的效率并提高构建核心信息语义图谱的准确度。
Description
技术领域
本发明涉及知识图谱领域,具体涉及一种核心信息语义图谱生成方法及装置。
背景技术
在客户与智能设备交互的过程中(如:智能应答)会产生大量的非结构化数据,从这些数据中选出核心信息并构建核心信息语义图谱(从客户交互类文本或者其他文本中抽取实体或者核心信息等核心信息并构建这些对象之间的语义关联关系,形成网状图结构,用户通过图谱迅速了解核心信息,也可用于关联计算。),以网状结构展示出来,通过核心信息语义图谱可以迅速了解交互数据的核心内容及用户提问问题之间的语义关系。
目前智能交互平台在客户智能应答、语音导航及智能交易等多个交互场景中起到越来越重要的左右,随着交易流水的增加,对于交易流水的分析尤其是从中获取核心信息并构建核心信息语义图谱是一个重要功能,利用图谱能迅速找到客户问题的倾向性,对于信息库里面缺少的核心信息引导业务人员进行补充,对于信息库已经存在的信息可以建立其关联,用于问答关联推荐等场景。核心信息语义图谱构建从最原始的数据出发,采用一系列自动或者半自动的技术手段,通过人工从原始数据库和第三方数据库中提取知识事实,并将其存入知识库的数据层和模式层,这种方案通常存在耗时耗力构建效率较低的问题。
因此,亟需一种能够准确构建核心信息语义图谱的实现方案。
发明内容
针对现有技术中的问题,本发明提供一种核心信息语义图谱生成方法及装置,能够有效提高核心信息语义图谱生成的效率并提高构建核心信息语义图谱的准确度。
为解决上述技术问题,本发明提供以下技术方案:
第一方面,本发明提供一种核心信息语义图谱生成方法,包括:
获取交互类的文本数据并基于所述文本数据得到核心信息;
计算抽取出的各个所述核心信息之间的关联关系;
根据各个所述核心信息之间的关联关系确定核心信息语义图谱中的中心节点;
基于所述中心节点生成核心信息语义图谱。
其中,所述获取交互类的文本数据并从所述文本数据中抽取出核心信息,包括:
基于预设的分类器对获取交互类的文本数据进行分类,对各个分类中的分类信息和内容信息进行聚类处理生成各个分类各自对应的标签和属性;
抽取交互类的文本数据中的实体以及实体之间的关系;
由分类各自对应的标签和属性、实体以及实体之间的关系构成所述核心信息。
其中,所述根据各个所述核心信息之间的关联关系确定核心信息语义图谱中的中心节点,包括:
计算各个核心信息各自对应的关联度的总和;
确定关联度总和最大的核心信息为中心节点。
其中,所述基于所述中心节点生成核心信息语义图谱,包括:
根据所述中心节点确定该中心节点对应的预设数目的下级节点;
将所述下级节点作为次级节点,获取次级节点对应的预设数目的下级节点;
重复执行:将所述下级节点作为次级节点,获取次级节点对应的预设数目的下级节点,直至生成核心信息语义图谱。
第二方面,本发明提供一种核心信息语义图谱生成装置,包括:
获取单元,用于获取交互类的文本数据并基于所述文本数据得到核心信息;
关联单元,用于计算抽取出的各个所述核心信息之间的关联关系;
中心节点单元,用于根据各个所述核心信息之间的关联关系确定核心信息语义图谱中的中心节点;
图谱生成单元,用于基于所述中心节点生成核心信息语义图谱。
其中,所述获取单元包括:
分类聚类子单元,用于基于预设的分类器对获取交互类的文本数据进行分类,对各个分类中的分类信息和内容信息进行聚类处理生成各个分类各自对应的标签和属性;
抽取子单元,用于抽取交互类的文本数据中的实体以及实体之间的关系;
核心信息子单元,用于由分类各自对应的标签和属性、实体以及实体之间的关系构成所述核心信息。
其中,所述中心节点单元包括:
关联度子单元,用于计算各个核心信息各自对应的关联度的总和;
中心节点子单元,用于确定关联度总和最大的核心信息为中心节点。
其中,所述图谱生成单元包括:
下级子单元,用于根据所述中心节点确定该中心节点对应的预设数目的下级节点;
迭代子单元,用于将所述下级节点作为中心节点,重复执行:根据所述中心节点确定该中心节点对应的预设数目的下级节点,直至生成核心信息语义图谱。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的核心信息语义图谱生成方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的核心信息语义图谱生成方法的步骤。
由上述技术方案可知,本发明提供一种核心信息语义图谱生成方法及装置,通过获取交互类的文本数据并基于所述文本数据得到核心信息;计算抽取出的各个所述核心信息之间的关联关系;根据各个所述核心信息之间的关联关系确定核心信息语义图谱中的中心节点;基于所述中心节点生成核心信息语义图谱,能够有效提高核心信息语义图谱生成的效率并提高构建核心信息语义图谱的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中的核心信息语义图谱生成方法的流程示意图。
图2为本发明实施例中的核心信息语义图谱生成方法中步骤S101的流程示意图。
图3为本发明实施例中的核心信息语义图谱生成方法中步骤S103的流程示意图。
图4为本发明实施例中的核心信息语义图谱生成方法中步骤S104的流程示意图。
图5为本发明实施例中的核心信息语义图谱生成装置的结构示意图。
图6为本发明实施例中的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种核心信息语义图谱生成方法的实施例,参见图1,所述核心信息语义图谱生成方法具体包含有如下内容:
S101:获取交互类的文本数据并基于所述文本数据得到核心信息;
在本步骤中,核心信息是从一个完整的交互类的文本数据里面抽取的代表该文本数据核心内容的词汇。通过文本识别并与预设词汇库进行比较,可以快速确认核心信息。
进一步的,本实施例提供一种获取核心信息的具体方法,参见图2,包括:
S1011:基于预设的分类器对获取交互类的文本数据进行分类,对各个分类中的分类信息和内容信息进行聚类处理生成各个分类各自对应的标签和属性;
在本步骤中,通过预设的分类器对获取交互类的文本数据进行分类,具体可以按照文本数据的内容维度分类,例如:分为日常类和业务类,以及日常类和业务类的二级维度分类,还可以基于文本数据对应的用户维度分类,例如:用户年龄、性别等基础属性。
在对文本数据进行分类后,对各个分类内的分类信息和内容信息进行聚类处理,具体可以采用K-Means聚类算法进行聚类处理。通过聚类得到多个关系紧密的交互信息集合,该交互信息集合对应的标签和属性即为各个分类各自对应的标签和属性。
S1012:抽取交互类的文本数据中的实体以及实体之间的关系;
在本步骤中,对交互类的文本数据进行抽取处理,抽取文本数据中的实体以及实体之间的关系。
S1013:由分类各自对应的标签和属性、实体以及实体之间的关系构成所述核心信息。
在本步骤中,核心信息包括步骤S1011确认的标签和属性,以及步骤S1012确认的实体以及实体之间的关系。
S102:计算抽取出的各个所述核心信息之间的关联关系;
在本步骤中,若核心信息之间为实体关系,则关联关系为0.5;若核心信息之间为同一条信息同一句话,2个核心信息同时存在但不相连且中间无指定词性的词相连,关系度为1.0;若核心信息之间为同一条信息同一句话,2个核心信息中间一个连词相连,正向关系度为2.0,反向关系度为1.1;若核心信息之间为同一条信息同一句话,2个核心信息中间一个副词相连,正向关系度为3.0,反向关系度为1.2;若核心信息之间为同一条信息同一句话,2个核心信息中间一个动词相连,正向关系度为4.0,反向关系度为1.3;若核心信息之间为2个核心信息存在包含关系,被包含关系度5.0,包含关系度为1.4。若核心信息之间为同一条信息同一句话,2个核心信息相连,正向关系度为6.0,反向关系度为1.5。若核心信息之间为推导关系,A核心信息和B核心信息相连,B核心信息和C核心信息相连,ABC为推导关系,关系度为7.0。若核心信息在信息标题中,3~4核心信息相连,3~4核心信息中间间隔1个非名词和非词组词性的词,关系度为8.0。其中,关联关系即为关联度。
需要说明的是,实体关系是指两个核心信息满足业务级别的实体关联,为强关联关系。强关联关系是指两个核心信息来源于同一句话且相邻,或者来源于同一句话不相邻且中间只相隔连词等特定词性的词汇。
弱关联关系是指两个核心信息来源于同一个信息;包含关联关系是指两个核心信息存在包含关系,通过弱关联关系和包含关联关系推到出来的关系为推导关联关系。
S103:根据各个所述核心信息之间的关联关系确定核心信息语义图谱中的中心节点;
在本步骤中,中心节点是指与其他节点关联度得分总和最高的节点。以中心节点为中心确认与中心节点关联度最强的几个核心信息,能够形成核心信息语义图谱。
进一步的,本实施例提供一种根据各个核心信息之间的关联关系确定核心信息语义图谱中的中心节点的具体方法,参见图3,包括:
S1031:计算各个核心信息各自对应的关联度的总和;
S1032:确定关联度总和最大的核心信息为中心节点。
在本步骤中,中心节点是指与其他节点关联度得分总和最高的节点。中心节点选择依据如下:关联度得分总和最高的节点,关联度得分为一个核心信息与其他核心信息的关联度之和。
S104:基于所述中心节点生成核心信息语义图谱。
在本步骤中,确定各个核心信息里面的关联度得分最高的中心节点;根据中心节点信息,获取对应的全部有关联度的核心信息集合,优先抽取关系度最强的N个核心信息,再循环N个核心信息,获取N个核心信息对应的全部有关联度的核心信息集合,抽取关系度最强的M个核心信息,至此3层关系数据已经生成。
进一步的,本实施例提供一种基于所述中心节点生成核心信息语义图谱的具体方法,参见图4,包括:
S1041:根据所述中心节点确定该中心节点对应的预设数目的下级节点;
在本步骤中,根据中心节点确定与该中心节点关联度高的N个核心信息,该N个核心信息即为预设N个数目的下级节点;
S1042:将所述下级节点作为次级节点,获取次级节点对应的预设数目的下级节点;
在本步骤中,将N个核心信息分别确定为次级节点,并确定各个次级节点分别对应的M个核心信息,M个核心信息即为次级节点的下级节点;
S1043:重复执行:将所述下级节点作为次级节点,获取次级节点对应的预设数目的下级节点,直至生成核心信息语义图谱。
需要说明的是,根据生成核心信息语义图谱的层数关系来执行步骤S1043的次数。其中,如果生成3层的核心信息语义图谱,只需执行步骤S1043一次即可。
进一步的,在确定N个核心信息或M个核心信息时,当3层节点数超过1个,去掉关系度为1.0的核心信息;当3核心信息相连数据,当2层节点循环数据时,遇到以中心节点开头3核心信息相连数据,2层核心信息为3核心信息相连最后一个核心信息时排除掉此核心信息,并在3层节点获取此核心信息,保证3核心信息数据的强关联性;当核心信息已经被使用过,做去重处理。
从上述描述可知,本发明实施例提供的核心信息语义图谱生成方法,通过获取交互类的文本数据并基于所述文本数据得到核心信息;计算抽取出的各个所述核心信息之间的关联关系;根据各个所述核心信息之间的关联关系确定核心信息语义图谱中的中心节点;基于所述中心节点生成核心信息语义图谱,能够有效提高核心信息语义图谱生成的效率并提高构建核心信息语义图谱的准确度。
本发明实施例提供一种能够实现所述核心信息语义图谱生成方法中全部内容的核心信息语义图谱生成装置的具体实施方式,参见图5,所述核心信息语义图谱生成装置具体包括如下内容:
获取单元10,用于获取交互类的文本数据并基于所述文本数据得到核心信息;
关联单元20,用于计算抽取出的各个所述核心信息之间的关联关系;
中心节点单元30,用于根据各个所述核心信息之间的关联关系确定核心信息语义图谱中的中心节点;
图谱生成单元40,用于基于所述中心节点生成核心信息语义图谱。
其中,所述获取单元10包括:
分类聚类子单元,用于基于预设的分类器对获取交互类的文本数据进行分类,对各个分类中的分类信息和内容信息进行聚类处理生成各个分类各自对应的标签和属性;
抽取子单元,用于抽取交互类的文本数据中的实体以及实体之间的关系;
核心信息子单元,用于由分类各自对应的标签和属性、实体以及实体之间的关系构成所述核心信息。
其中,所述中心节点单元30包括:
关联度子单元,用于计算各个核心信息各自对应的关联度的总和;
中心节点子单元,用于确定关联度总和最大的核心信息为中心节点。
其中,所述图谱生成单元40包括:
下级子单元,用于根据所述中心节点确定该中心节点对应的预设数目的下级节点;
迭代子单元,用于将所述下级节点作为中心节点,重复执行:根据所述中心节点确定该中心节点对应的预设数目的下级节点,直至生成核心信息语义图谱。
本发明提供的核心信息语义图谱生成装置的实施例具体可以用于执行上述实施例中的核心信息语义图谱生成方法的实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
从上述描述可知,本发明实施例提供的核心信息语义图谱生成装置,通过获取交互类的文本数据并基于所述文本数据得到核心信息;计算抽取出的各个所述核心信息之间的关联关系;根据各个所述核心信息之间的关联关系确定核心信息语义图谱中的中心节点;基于所述中心节点生成核心信息语义图谱,能够有效提高核心信息语义图谱生成的效率并提高构建核心信息语义图谱的准确度。
本申请提供一种用于实现所述核心信息语义图谱生成方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现相关设备之间的信息传输;该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照实施例用于实现所述核心信息语义图谱生成方法的实施例及用于实现所述核心信息语义图谱生成装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
图6为本申请实施例的电子设备9600的系统构成的示意框图。如图6所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图6是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,核心信息语义图谱生成功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
获取交互类的文本数据并基于所述文本数据得到核心信息;
计算抽取出的各个所述核心信息之间的关联关系;
根据各个所述核心信息之间的关联关系确定核心信息语义图谱中的中心节点;
基于所述中心节点生成核心信息语义图谱。
从上述描述可知,本申请的实施例提供的电子设备,通过获取交互类的文本数据并基于所述文本数据得到核心信息;计算抽取出的各个所述核心信息之间的关联关系;根据各个所述核心信息之间的关联关系确定核心信息语义图谱中的中心节点;基于所述中心节点生成核心信息语义图谱,能够有效提高核心信息语义图谱生成的效率并提高构建核心信息语义图谱的准确度。
在另一个实施方式中,核心信息语义图谱生成装置可以与中央处理器9100分开配置,例如可以将核心信息语义图谱生成配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现核心信息语义图谱生成功能。
如图6所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图6中所示的所有部件;此外,电子设备9600还可以包括图6中没有示出的部件,可以参考现有技术。
如图6所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本发明的实施例还提供能够实现上述实施例中的核心信息语义图谱生成方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的核心信息语义图谱生成方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
获取交互类的文本数据并基于所述文本数据得到核心信息;
计算抽取出的各个所述核心信息之间的关联关系;
根据各个所述核心信息之间的关联关系确定核心信息语义图谱中的中心节点;
基于所述中心节点生成核心信息语义图谱。
从上述描述可知,本发明实施例提供的计算机可读存储介质,通过获取交互类的文本数据并基于所述文本数据得到核心信息;计算抽取出的各个所述核心信息之间的关联关系;根据各个所述核心信息之间的关联关系确定核心信息语义图谱中的中心节点;基于所述中心节点生成核心信息语义图谱,能够有效提高核心信息语义图谱生成的效率并提高构建核心信息语义图谱的准确度。
虽然本发明提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本领域技术人员应明白,本说明书的实施例可提供为方法、装置(系统)或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面,也不局限于任何单一的实施例,也不局限于这些方面和/或实施例的任意组合和/或置换。而且,可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (8)
1.一种核心信息语义图谱生成方法,其特征在于,包括:
基于预设的分类器对获取交互类的文本数据进行分类,对各个分类中的分类信息和内容信息进行聚类处理生成各个分类各自对应的标签和属性;
抽取交互类的文本数据中的实体以及实体之间的关系;
由分类各自对应的标签和属性、实体以及实体之间的关系构成所述核心信息;
计算抽取出的各个所述核心信息之间的关联关系;
根据各个所述核心信息之间的关联关系确定核心信息语义图谱中的中心节点;
基于所述中心节点生成核心信息语义图谱;
其中,若核心信息之间为实体关系,则关联关系为0.5;若核心信息之间为同一条信息同一句话,2个核心信息同时存在但不相连且中间无指定词性的词相连,关系度为1.0;若核心信息之间为同一条信息同一句话,2个核心信息中间一个连词相连,正向关系度为2.0,反向关系度为1.1;若核心信息之间为同一条信息同一句话,2个核心信息中间一个副词相连,正向关系度为3.0,反向关系度为1.2;若核心信息之间为同一条信息同一句话,2个核心信息中间一个动词相连,正向关系度为4.0,反向关系度为1.3;若核心信息之间为2个核心信息存在包含关系,被包含关系度5.0,包含关系度为1.4;若核心信息之间为同一条信息同一句话,2个核心信息相连,正向关系度为6.0,反向关系度为1.5;若核心信息之间为推导关系,A核心信息和B核心信息相连,B核心信息和C核心信息相连,ABC为推导关系,关系度为7.0;若核心信息在信息标题中,3~4核心信息相连,3~4核心信息中间间隔1个非名词和非词组词性的词,关系度为8.0;
其中,关联关系即为关联度,实体关系是指两个核心信息满足业务级别的实体关联,为强关联关系;强关联关系是指两个核心信息来源于同一句话且相邻,或者来源于同一句话不相邻且中间只相隔连词;弱关联关系是指两个核心信息来源于同一个信息;包含关联关系是指两个核心信息存在包含关系,通过弱关联关系和包含关联关系推到出来的关系为推导关联关系。
2.根据权利要求1所述的核心信息语义图谱生成方法,其特征在于,所述根据各个所述核心信息之间的关联关系确定核心信息语义图谱中的中心节点,包括:
计算各个核心信息各自对应的关联度的总和;
确定关联度总和最大的核心信息为中心节点。
3.根据权利要求1所述的核心信息语义图谱生成方法,其特征在于,所述基于所述中心节点生成核心信息语义图谱,包括:
根据所述中心节点确定该中心节点对应的预设数目的下级节点;
将所述下级节点作为次级节点,获取次级节点对应的预设数目的下级节点;
重复执行:将所述下级节点作为次级节点,获取次级节点对应的预设数目的下级节点,直至生成核心信息语义图谱。
4.一种核心信息语义图谱生成装置,其特征在于,包括:
获取单元,用于基于预设的分类器对获取交互类的文本数据进行分类,对各个分类中的分类信息和内容信息进行聚类处理生成各个分类各自对应的标签和属性;抽取交互类的文本数据中的实体以及实体之间的关系;由分类各自对应的标签和属性、实体以及实体之间的关系构成所述核心信息;
关联单元,用于计算抽取出的各个所述核心信息之间的关联关系;
中心节点单元,用于根据各个所述核心信息之间的关联关系确定核心信息语义图谱中的中心节点;
图谱生成单元,用于基于所述中心节点生成核心信息语义图谱;
其中,若核心信息之间为实体关系,则关联关系为0.5;若核心信息之间为同一条信息同一句话,2个核心信息同时存在但不相连且中间无指定词性的词相连,关系度为1.0;若核心信息之间为同一条信息同一句话,2个核心信息中间一个连词相连,正向关系度为2.0,反向关系度为1.1;若核心信息之间为同一条信息同一句话,2个核心信息中间一个副词相连,正向关系度为3.0,反向关系度为1.2;若核心信息之间为同一条信息同一句话,2个核心信息中间一个动词相连,正向关系度为4.0,反向关系度为1.3;若核心信息之间为2个核心信息存在包含关系,被包含关系度5.0,包含关系度为1.4;若核心信息之间为同一条信息同一句话,2个核心信息相连,正向关系度为6.0,反向关系度为1.5;若核心信息之间为推导关系,A核心信息和B核心信息相连,B核心信息和C核心信息相连,ABC为推导关系,关系度为7.0;若核心信息在信息标题中,3~4核心信息相连,3~4核心信息中间间隔1个非名词和非词组词性的词,关系度为8.0;
其中,关联关系即为关联度,实体关系是指两个核心信息满足业务级别的实体关联,为强关联关系;强关联关系是指两个核心信息来源于同一句话且相邻,或者来源于同一句话不相邻且中间只相隔连词;弱关联关系是指两个核心信息来源于同一个信息;包含关联关系是指两个核心信息存在包含关系,通过弱关联关系和包含关联关系推到出来的关系为推导关联关系。
5.根据权利要求4所述的核心信息语义图谱生成装置,其特征在于,所述中心节点单元包括:
关联度子单元,用于计算各个核心信息各自对应的关联度的总和;
中心节点子单元,用于确定关联度总和最大的核心信息为中心节点。
6.根据权利要求4所述的核心信息语义图谱生成装置,其特征在于,所述图谱生成单元包括:
下级子单元,用于根据所述中心节点确定该中心节点对应的预设数目的下级节点;
迭代子单元,用于将所述下级节点作为中心节点,重复执行:根据所述中心节点确定该中心节点对应的预设数目的下级节点,直至生成核心信息语义图谱。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至3任一项所述的核心信息语义图谱生成方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至3任一项所述的核心信息语义图谱生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010245822.1A CN111368099B (zh) | 2020-03-31 | 2020-03-31 | 核心信息语义图谱生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010245822.1A CN111368099B (zh) | 2020-03-31 | 2020-03-31 | 核心信息语义图谱生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111368099A CN111368099A (zh) | 2020-07-03 |
CN111368099B true CN111368099B (zh) | 2024-01-19 |
Family
ID=71207027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010245822.1A Active CN111368099B (zh) | 2020-03-31 | 2020-03-31 | 核心信息语义图谱生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368099B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145559A (zh) * | 2017-05-02 | 2017-09-08 | 吉林大学 | 基于语义技术和游戏化的智能课堂知识管理平台及方法 |
CN108846006A (zh) * | 2018-04-24 | 2018-11-20 | 成都量子矩阵科技有限公司 | 财经领域非结构化文本数据的挖掘、搜索方法与系统 |
CN109933671A (zh) * | 2019-01-31 | 2019-06-25 | 平安科技(深圳)有限公司 | 构建个人知识图谱的方法、装置、计算机设备和存储介质 |
CN110321482A (zh) * | 2019-06-11 | 2019-10-11 | 阿里巴巴集团控股有限公司 | 一种信息的推荐方法、装置及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10509832B2 (en) * | 2015-07-13 | 2019-12-17 | Facebook, Inc. | Generating snippet modules on online social networks |
-
2020
- 2020-03-31 CN CN202010245822.1A patent/CN111368099B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145559A (zh) * | 2017-05-02 | 2017-09-08 | 吉林大学 | 基于语义技术和游戏化的智能课堂知识管理平台及方法 |
CN108846006A (zh) * | 2018-04-24 | 2018-11-20 | 成都量子矩阵科技有限公司 | 财经领域非结构化文本数据的挖掘、搜索方法与系统 |
CN109933671A (zh) * | 2019-01-31 | 2019-06-25 | 平安科技(深圳)有限公司 | 构建个人知识图谱的方法、装置、计算机设备和存储介质 |
CN110321482A (zh) * | 2019-06-11 | 2019-10-11 | 阿里巴巴集团控股有限公司 | 一种信息的推荐方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111368099A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220214775A1 (en) | Method for extracting salient dialog usage from live data | |
KR102295935B1 (ko) | 흉내 및 풍부한 멀티미디어로 응답하는 디지털 개인용 어시스턴트 상호작용 기법 | |
US8972265B1 (en) | Multiple voices in audio content | |
CN107039038A (zh) | 学习个性化实体发音 | |
US20140164371A1 (en) | Extraction of media portions in association with correlated input | |
CN104718569A (zh) | 改进语音发音 | |
CN111386686B (zh) | 用于回答与文档相关的查询的机器阅读理解系统 | |
TW200900967A (en) | Multi-mode input method editor | |
CN112579733B (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
CN103268313A (zh) | 一种自然语言的语义解析方法及装置 | |
AU2017216520A1 (en) | Common data repository for improving transactional efficiencies of user interactions with a computing device | |
CN111767394A (zh) | 一种基于人工智能专家系统的摘要提取方法及装置 | |
CN109710799B (zh) | 语音交互方法、介质、装置和计算设备 | |
CN114631094A (zh) | 智能电子邮件标题行建议和重制 | |
CN112182255A (zh) | 用于存储媒体文件和用于检索媒体文件的方法和装置 | |
CN111538830A (zh) | 法条检索方法、装置、计算机设备及存储介质 | |
CN109492126B (zh) | 一种智能交互方法及装置 | |
CN110931014A (zh) | 基于正则匹配规则的语音识别方法及装置 | |
CN109948155B (zh) | 一种多意图的选择方法及装置、终端设备 | |
CN108595141A (zh) | 语音输入方法及装置、计算机装置和计算机可读存储介质 | |
CN111368099B (zh) | 核心信息语义图谱生成方法及装置 | |
CN110263135B (zh) | 一种数据交换匹配方法、装置、介质和电子设备 | |
CN111767259A (zh) | 内容分享的方法、装置、可读介质和电子设备 | |
CN113535125A (zh) | 金融需求项生成方法及装置 | |
CN113961707B (zh) | 用于服务录音的分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220923 Address after: 25 Financial Street, Xicheng District, Beijing 100033 Applicant after: CHINA CONSTRUCTION BANK Corp. Address before: 25 Financial Street, Xicheng District, Beijing 100033 Applicant before: CHINA CONSTRUCTION BANK Corp. Applicant before: Jianxin Financial Science and Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |