CN113806549A - 人员关系图谱的构建方法、装置及电子设备 - Google Patents
人员关系图谱的构建方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113806549A CN113806549A CN202110177821.2A CN202110177821A CN113806549A CN 113806549 A CN113806549 A CN 113806549A CN 202110177821 A CN202110177821 A CN 202110177821A CN 113806549 A CN113806549 A CN 113806549A
- Authority
- CN
- China
- Prior art keywords
- personnel
- text
- words
- relationship
- constructing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims description 42
- 238000000605 extraction Methods 0.000 claims description 31
- 238000010276 construction Methods 0.000 abstract description 16
- 238000012545 processing Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000009193 crawling Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请提出一种人员关系图谱的构建方法、装置及电子设备,方法包括:抓取用于构建人员关系图谱的各个文本语句,针对每个文本语句,先抽取文本语句中的人员实体词;然后结合文本语句以及人员实体词,抽取文本语句中的关系角色词;结合文本语句中的人员实体词以及关系角色词,生成文本语句对应的多元组信息;进而根据各个文本语句对应的多元组信息,构建人员关系图谱,从而能够自动抽取文本语句对应的多元组信息,自动构建人员关系图谱,提高了人员关系图谱的构建效率,降低了人员关系图谱的构建成本。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种人员关系图谱的构建方法、装置及电子设备。
背景技术
人员关系图谱是以“人员”实体和人员之间的社会关系为核心构建的知识图谱。根据“六度分离理论”,在人际交往中,任意两个陌生人最多只要通过五个朋友就能建立联系。从某种意义上来说,世界上所有人都可以通过个人的关系网以特殊的方式联系起来。
目前,建立人员关系图谱的方式主要有两种,第一种是人工手动构建人员关系图谱;第二种是收集结构化人员数据库转换成图谱格式。上述第一种方式,人员关系图谱的构建成本大,效率差;上述第二种方式,结构化人员数据库中的结构化人员信息比较片面,缺少很多文本信息,效率差。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
本申请提出一种人员关系图谱的构建方法、装置及电子设备,以解决相关技术中的人员关系图谱的构建方法成本大,效率差的技术问题。
本申请第一方面实施例提出了一种人员关系图谱的构建方法,包括:抓取用于构建人员关系图谱的各个文本语句;针对每个文本语句,抽取所述文本语句中的人员实体词;结合所述文本语句以及所述人员实体词,抽取所述文本语句中的关系角色词;结合所述文本语句中的所述人员实体词以及所述关系角色词,生成所述文本语句对应的多元组信息;根据所述各个文本语句对应的多元组信息,构建人员关系图谱。
本申请第二方面实施例提出了一种人员关系图谱的构建装置,包括:抓取模块,用于抓取用于构建人员关系图谱的各个文本语句;第一抽取模块,用于针对每个文本语句,抽取所述文本语句中的人员实体词;第二抽取模块,用于结合所述文本语句以及所述人员实体词,抽取所述文本语句中的关系角色词;生成模块,用于结合所述文本语句中的所述人员实体词以及所述关系角色词,生成所述文本语句对应的多元组信息;构建模块,用于根据所述各个文本语句对应的多元组信息,构建人员关系图谱。
本申请第三方面实施例提出了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本申请第一方面实施例提出的人员关系图谱的构建方法。
本申请第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如本申请第一方面实施例提出的人员关系图谱的构建方法。
本申请第五方面实施例提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如本申请第一方面实施例提出的人员关系图谱的构建方法。
本申请提出的技术方案,具有如下有益效果:
通过抓取用于构建人员关系图谱的各个文本语句,针对每个文本语句,先抽取文本语句中的人员实体词;然后结合文本语句以及人员实体词,抽取文本语句中的关系角色词;结合文本语句中的人员实体词以及关系角色词,生成文本语句对应的多元组信息;进而根据各个文本语句对应的多元组信息,构建人员关系图谱,从而能够自动抽取文本语句对应的多元组信息,自动构建人员关系图谱,提高了人员关系图谱的构建效率,降低了人员关系图谱的构建成本。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的人员关系图谱的构建方法的流程示意图;
图2为本申请实施例二所提供的人员关系图谱的构建方法的流程示意图;
图3为本申请实施例三所提供的人员关系图谱的构建装置的结构示意图;
图4为本申请实施例四所提供的人员关系图谱的构建装置的结构示意图;
图5示出了适于用来实现本申请实施方式的示例性电子设备的框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
相关技术中,通常是人工手动构建人员关系图谱,或者,收集结构化人员数据库转换成图谱格式,手动构建成本大,构建效率差;且结构化人员数据库中的结构化人员信息比较片面,缺少很多文本信息,构建效率差。
本申请主要针对相关技术中的人员关系图谱的构建方法成本大,效率差的技术问题,提出一种人员关系图谱的构建方法。
本申请实施例的人员关系图谱的构建方法,通过抓取用于构建人员关系图谱的各个文本语句,针对每个文本语句,先抽取文本语句中的人员实体词;然后结合文本语句以及人员实体词,抽取文本语句中的关系角色词;结合文本语句中的人员实体词以及关系角色词,生成文本语句对应的多元组信息;进而根据各个文本语句对应的多元组信息,构建人员关系图谱,从而能够自动抽取文本语句对应的多元组信息,自动构建人员关系图谱,提高了人员关系图谱的构建效率,降低了人员关系图谱的构建成本。
下面参考附图描述本申请实施例的人员关系图谱的构建方法、装置及电子设备。
图1为本申请实施例一所提供的人员关系图谱的构建方法的流程示意图。
需要说明的是,本申请实施例以该人员关系图谱的构建方法被配置于人员关系图谱的构建装置中来举例说明,该人员关系图谱的构建装置可以应用于任一电子设备中,以使该电子设备可以执行人员关系图谱的构建功能。
其中,电子设备可以为个人电脑(Personal Computer,简称PC)、云端设备、移动设备等,移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
如图1所示,该人员关系图谱的构建方法可以包括以下步骤:
步骤101,抓取用于构建人员关系图谱的各个文本语句。
本申请实施例中,人员关系图谱的构建装置执行步骤101的过程例如可以为,确定用于构建人员关系图谱的各个人员信息以及抓取源;从抓取源对应的页面中,抓取与各个人员信息相关的文本语句;将与各个人员信息相关的文本语句,确定为用于构建人员关系图谱的各个文本语句。
本申请实施例中,抓取源例如可以为论文库、建立库、网站的网页等。其中,人员信息例如可以包括:人员名称、人员地址、人员手机号等参数;与人员信息相关的文本语句,可以为包括人员信息中任意一个参数的文本语句。
步骤102,针对每个文本语句,抽取文本语句中的人员实体词。
本申请实施例中,人员关系图谱的构建装置执行步骤102的过程例如可以为,确定文本语句对应的文本向量;将文本语句对应的文本向量输入预设的人员实体词抽取模型,以抽取文本语句中的人员实体词。
本申请实施例中,为了提高文本向量的准确度,人员关系图谱的构建装置确定文本语句对应的文本向量的方式例如可以为,获取文本语句中的各个词语;结合语义表示模型以及文本语句,确定各个词语对应的词语向量;结合各个词语对应的词语向量、文本内容、预设的句法依存树以及图向量模型,确定文本语句对应的文本向量。
其中,确定各个词语对应的词语向量的方式例如可以为,将文本语句以及文本语句中的各个词语输入语义表示模型,以获取文本语句中各个词语对应的词语向量。其中,语义表示模型可以为经过大数据预训练的语义表示模型,从而能够在词语向量中包含大量语言知识。
其中,结合文本内容以及句法依存树,来确定文本语句对应的文本向量,能够在文本向量中包含文本语句中词语之间的依存关系,从而提高文本向量的准确度。
其中,预设的人员实体词抽取模型的获取方式例如可以为,获取训练数据,其中,训练数据包括:大量的样本文本语句以及对应的人员实体词;采用训练数据对初始的人员实体词抽取模型进行训练,得到所述预设的人员实体词抽取模型。其中,人员实体词抽取模型,具体可以为序列标注模型。
步骤103,结合文本语句以及人员实体词,抽取文本语句中的关系角色词。
本申请实施例中,人员关系图谱的构建装置执行步骤103的过程例如可以为,确定文本语句对应的文本向量;将文本向量以及人员实体词输入预设的关系角色词抽取模型,以获取文本语句中的关系角色词。
其中,关系角色词抽取模型获取文本语句中的关系角色词的过程例如可以为,对文本向量以及人员实体词进行全连接网络层编码处理,以获取关于人员实体词的语义编码矩阵,该语义编码矩阵通过卷积神经网络层进行处理,以获取文本语句中各个关系角色词的开始位置以及结束位置,进而获取文本语句中的各个关系角色词。
其中,预设的关系角色词抽取模型的获取方式例如可以为,获取训练数据,其中,训练数据包括:大量的样本文本语句以及对应的人员实体词和关系角色词;采用训练数据对初始的关系角色词抽取模型进行训练,得到所述预设的关系角色词抽取模型。其中,关系角色词抽取模型,具体可以为序列标注模型。
步骤104,结合文本语句中的人员实体词以及关系角色词,生成文本语句对应的多元组信息。
本申请实施例中,人员关系图谱的构建装置根据文本语句中的人员实体词的所在位置以及关系角色词的所在位置,可以确定各个人员实体词之间的关系,进而生成多元组信息。其中,多元组信息可以为三元组、四元组或者更多元组等。以三元组为例,三元组信息中可以包括:人员实体词A、人员实体词B、A与B之间的关系。以多元组为例,多元组信息中可以包括:人员实体词A、人员实体词B、A与B之间的关系、人员实体词A、人员实体词C、A与C之间的关系。
本申请实施例中,需要说明的是,由于部分人员存在多个名称,例如昵称、小名、软件账号名称等,因此,需要对各个文本语句对应的多元组信息进行对齐处理,也就是说,对指代相同人员的多个人员实体词进行实体词统一化处理,将指代相同人员的多个人员实体词的关系,作为统一化处理后的人员实体词的关系。
步骤105,根据各个文本语句对应的多元组信息,构建人员关系图谱。
本申请实施例中,人员关系图谱的构建装置根据各个文本语句对应的多元组信息中的各个人员实体词以及之间的对应关系,就可以构建人员关系图谱。
本申请实施例的人员关系图谱的构建方法,通过抓取用于构建人员关系图谱的各个文本语句,针对每个文本语句,先抽取文本语句中的人员实体词;然后结合文本语句以及人员实体词,抽取文本语句中的关系角色词;结合文本语句中的人员实体词以及关系角色词,生成文本语句对应的多元组信息;进而根据各个文本语句对应的多元组信息,构建人员关系图谱,从而能够自动抽取文本语句对应的多元组信息,自动构建人员关系图谱,提高了人员关系图谱的构建效率,降低了人员关系图谱的构建成本。
图2为本申请实施例二所提供的人员关系图谱的构建方法的流程示意图。如图2所示,在图1所示实施例的基础上,步骤105之后,所述的方法还可以包括以下步骤:
步骤201,接收查询请求,其中,查询请求包括:待查询的人员信息。
本申请实施例中,待查询的人员信息例如可以包括:待查询的人员名称等。其中,待查询的人员信息,可以为用户在查询框中输入的,或者为用户语音输入后对语音进行识别后得到的。
步骤202,根据待查询的人员信息查询人员关系图谱,以获取与待查询的人员信息匹配的第一人员实体词,以及与第一人员实体词建立有关系的第二人员实体词。
本申请实施例中,与待查询的人员信息匹配的第一人员实体词,可以包含在待查询的人员信息中,或者与待查询的人员信息的相似度超过一定阈值。其中,第一人员实体词与第二人员实体词之间的关系例如可以为,父子关系、同事关系、亲戚关系、客户关系等。其中,第二人员实体词的数量可以为一个或者多个。
本申请实施例中,所述的方法还包括:若未查询到第一人员实体词,或者,未查询到与第一人员实体词建立有关系的第二人员实体词,则抓取与待查询的人员信息相关的文本语句;从与待查询的人员信息相关的文本语句中抽取多元组信息,并结合抽取到的多元组信息对人员关系图谱进行更新处理;根据待查询的人员信息查询更新后的人员关系图谱,以获取与待查询的人员信息匹配的第一人员实体词,以及与第一人员实体词建立有关系的第二人员实体词。
其中,人员关系图谱的更新触发条件可以包括:针对某个待查询的人员信息,未查询到第一人员实体词,或者,未查询到与第一人员实体词建立有关系的第二人员实体词。另外,为了进一步提高查询效率,人员关系图谱的更新触发条件还可以包括:周期性触发,例如,每隔预设时间段触发人员关系图谱的更新。
其中,人员关系图谱的更新过程可以与构建过程类似,只是最后一个步骤是对已有的人员关系图谱进行更新,而不是重建构建,其它步骤可以参考图1所示实施例的说明,此处不做详细说明。
步骤203,展示第二人员实体词,以及第一人员实体词与所述第二人员实体词之间的关系。
本申请实施例中,人员关系图谱的构建装置的展示方式可以为,将第二人员实体词,以及第一人员实体词与所述第二人员实体词之间的关系发送给用户所使用的终端设备,终端设备在显示屏上进行展示。
本申请实施例的人员关系图谱的构建方法,通过抓取用于构建人员关系图谱的各个文本语句,针对每个文本语句,先抽取文本语句中的人员实体词;然后结合文本语句以及人员实体词,抽取文本语句中的关系角色词;结合文本语句中的人员实体词以及关系角色词,生成文本语句对应的多元组信息;进而根据各个文本语句对应的多元组信息,构建人员关系图谱;之后,接收查询请求,其中,查询请求包括:待查询的人员信息;根据待查询的人员信息查询人员关系图谱,以获取与待查询的人员信息匹配的第一人员实体词,以及与第一人员实体词建立有关系的第二人员实体词;展示第二人员实体词,以及第一人员实体词与第二人员实体词之间的关系,从而能够结合自动构建的人员关系图谱进行人员信息查询,提高人员信息查询效率。
图3为本申请实施例三所提供的人员关系图谱的构建装置的结构示意图。
如图3所示,该人员关系图谱的构建装置300可以包括:抓取模块310、第一抽取模块320、第二抽取模块330、生成模块340和构建模块350。
其中,抓取模块310,用于抓取用于构建人员关系图谱的各个文本语句;
第一抽取模块320,用于针对每个文本语句,抽取所述文本语句中的人员实体词;
第二抽取模块330,用于结合所述文本语句以及所述人员实体词,抽取所述文本语句中的关系角色词;
生成模块340,用于结合所述文本语句中的所述人员实体词以及所述关系角色词,生成所述文本语句对应的多元组信息;
构建模块350,用于根据所述各个文本语句对应的多元组信息,构建人员关系图谱。
进一步地,在本申请实施例的一种可能的实现方式中,所述抓取模块310具体用于,确定用于构建所述人员关系图谱的各个人员信息以及抓取源;从所述抓取源对应的页面中,抓取与所述各个人员信息相关的文本语句;将与所述各个人员信息相关的文本语句,确定为用于构建所述人员关系图谱的所述各个文本语句。
进一步地,在本申请实施例的一种可能的实现方式中,所述第一抽取模块320具体用于,确定所述文本语句对应的文本向量;将所述文本语句对应的文本向量输入预设的人员实体词抽取模型,以抽取所述文本语句中的人员实体词。
进一步地,在本申请实施例的一种可能的实现方式中,所述第一抽取模块320具体用于,获取所述文本语句中的各个词语;结合语义表示模型以及所述文本语句,确定所述各个词语对应的词语向量;结合所述各个词语对应的词语向量、所述文本内容、预设的句法依存树以及图向量模型,确定所述文本语句对应的文本向量。
进一步地,在本申请实施例的一种可能的实现方式中,所述第二抽取模块330具体用于,确定所述文本语句对应的文本向量;将所述文本向量以及所述人员实体词输入预设的关系角色词抽取模型,以获取所述文本语句中的关系角色词。
进一步地,在本申请实施例的一种可能的实现方式中,结合参考图4,所述的装置还包括:接收模块360、查询模块370和展示模块380;所述接收模块360,用于接收查询请求,其中,所述查询请求包括:待查询的人员信息;所述查询模块370,用于根据所述待查询的人员信息查询所述人员关系图谱,以获取与所述待查询的人员信息匹配的第一人员实体词,以及与所述第一人员实体词建立有关系的第二人员实体词;所述展示模块380,用于展示所述第二人员实体词,以及所述第一人员实体词与所述第二人员实体词之间的关系。
进一步地,在本申请实施例的一种可能的实现方式中,所述的装置还包括:更新模块;所述抓取模块310,还用于在未查询到所述第一人员实体词,或者,未查询到与所述第一人员实体词建立有关系的所述第二人员实体词时,抓取与所述待查询的人员信息相关的文本语句;所述更新模块,用于从与所述待查询的人员信息相关的文本语句中抽取多元组信息,并结合抽取到的所述多元组信息对所述人员关系图谱进行更新处理;所述查询模块370,还用于根据所述待查询的人员信息查询所述更新后的人员关系图谱,以获取与所述待查询的人员信息匹配的第一人员实体词,以及与所述第一人员实体词建立有关系的第二人员实体词。
需要说明的是,前述人员关系图谱的构建方法实施例中的解释说明也适用于该实施例的人员关系图谱的构建装置,此处不再赘述。
本申请实施例的人员关系图谱的构建装置,通过抓取用于构建人员关系图谱的各个文本语句,针对每个文本语句,先抽取文本语句中的人员实体词;然后结合文本语句以及人员实体词,抽取文本语句中的关系角色词;结合文本语句中的人员实体词以及关系角色词,生成文本语句对应的多元组信息;进而根据各个文本语句对应的多元组信息,构建人员关系图谱,从而能够自动抽取文本语句对应的多元组信息,自动构建人员关系图谱,提高了人员关系图谱的构建效率,降低了人员关系图谱的构建成本。
为了实现上述实施例,本申请还提出一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本申请前述实施例提出的人员关系图谱的构建方法。
为了实现上述实施例,本申请还提出一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如本申请前述实施例提出的人员关系图谱的构建方法。
为了实现上述实施例,本申请还提出一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如本申请前述实施例提出的人员关系图谱的构建方法。
图5示出了适于用来实现本申请实施方式的示例性电子设备的框图。图5显示的电子设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图5中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (16)
1.一种人员关系图谱的构建方法,其特征在于,包括:
抓取用于构建人员关系图谱的各个文本语句;
针对每个文本语句,抽取所述文本语句中的人员实体词;
结合所述文本语句以及所述人员实体词,抽取所述文本语句中的关系角色词;
结合所述文本语句中的所述人员实体词以及所述关系角色词,生成所述文本语句对应的多元组信息;
根据所述各个文本语句对应的多元组信息,构建人员关系图谱。
2.根据权利要求1所述的人员关系图谱的构建方法,其特征在于,所述抓取用于构建人员关系图谱的各个文本语句,包括:
确定用于构建所述人员关系图谱的各个人员信息以及抓取源;
从所述抓取源对应的页面中,抓取与所述各个人员信息相关的文本语句;
将与所述各个人员信息相关的文本语句,确定为用于构建所述人员关系图谱的所述各个文本语句。
3.根据权利要求1所述的人员关系图谱的构建方法,其特征在于,所述抽取所述文本语句中的人员实体词,包括:
确定所述文本语句对应的文本向量;
将所述文本语句对应的文本向量输入预设的人员实体词抽取模型,以抽取所述文本语句中的人员实体词。
4.根据权利要求3所述的人员关系图谱的构建方法,其特征在于,所述确定所述文本语句对应的文本向量,包括:
获取所述文本语句中的各个词语;
结合语义表示模型以及所述文本语句,确定所述各个词语对应的词语向量;
结合所述各个词语对应的词语向量、所述文本内容、预设的句法依存树以及图向量模型,确定所述文本语句对应的文本向量。
5.根据权利要求1所述的人员关系图谱的构建方法,其特征在于,所述结合所述文本语句以及所述人员实体词,抽取所述文本语句中的关系角色词,包括:
确定所述文本语句对应的文本向量;
将所述文本向量以及所述人员实体词输入预设的关系角色词抽取模型,以获取所述文本语句中的关系角色词。
6.根据权利要求1所述的人员关系图谱的构建方法,其特征在于,还包括:
接收查询请求,其中,所述查询请求包括:待查询的人员信息;
根据所述待查询的人员信息查询所述人员关系图谱,以获取与所述待查询的人员信息匹配的第一人员实体词,以及与所述第一人员实体词建立有关系的第二人员实体词;
展示所述第二人员实体词,以及所述第一人员实体词与所述第二人员实体词之间的关系。
7.根据权利要求6所述的人员关系图谱的构建方法,其特征在于,还包括:
若未查询到所述第一人员实体词,或者,未查询到与所述第一人员实体词建立有关系的所述第二人员实体词,则抓取与所述待查询的人员信息相关的文本语句;
从与所述待查询的人员信息相关的文本语句中抽取多元组信息,并结合抽取到的所述多元组信息对所述人员关系图谱进行更新处理;
根据所述待查询的人员信息查询所述更新后的人员关系图谱,以获取与所述待查询的人员信息匹配的第一人员实体词,以及与所述第一人员实体词建立有关系的第二人员实体词。
8.一种人员关系图谱的构建装置,其特征在于,包括:
抓取模块,用于抓取用于构建人员关系图谱的各个文本语句;
第一抽取模块,用于针对每个文本语句,抽取所述文本语句中的人员实体词;
第二抽取模块,用于结合所述文本语句以及所述人员实体词,抽取所述文本语句中的关系角色词;
生成模块,用于结合所述文本语句中的所述人员实体词以及所述关系角色词,生成所述文本语句对应的多元组信息;
构建模块,用于根据所述各个文本语句对应的多元组信息,构建人员关系图谱。
9.根据权利要求8所述的人员关系图谱的构建装置,其特征在于,所述抓取模块具体用于,
确定用于构建所述人员关系图谱的各个人员信息以及抓取源;
从所述抓取源对应的页面中,抓取与所述各个人员信息相关的文本语句;
将与所述各个人员信息相关的文本语句,确定为用于构建所述人员关系图谱的所述各个文本语句。
10.根据权利要求8所述的人员关系图谱的构建装置,其特征在于,所述第一抽取模块具体用于,
确定所述文本语句对应的文本向量;
将所述文本语句对应的文本向量输入预设的人员实体词抽取模型,以抽取所述文本语句中的人员实体词。
11.根据权利要求10所述的人员关系图谱的构建装置,其特征在于,所述第一抽取模块具体用于,
获取所述文本语句中的各个词语;
结合语义表示模型以及所述文本语句,确定所述各个词语对应的词语向量;
结合所述各个词语对应的词语向量、所述文本内容、预设的句法依存树以及图向量模型,确定所述文本语句对应的文本向量。
12.根据权利要求8所述的人员关系图谱的构建装置,其特征在于,所述第二抽取模块具体用于,
确定所述文本语句对应的文本向量;
将所述文本向量以及所述人员实体词输入预设的关系角色词抽取模型,以获取所述文本语句中的关系角色词。
13.根据权利要求8所述的人员关系图谱的构建装置,其特征在于,还包括:接收模块、查询模块和展示模块;
所述接收模块,用于接收查询请求,其中,所述查询请求包括:待查询的人员信息;
所述查询模块,用于根据所述待查询的人员信息查询所述人员关系图谱,以获取与所述待查询的人员信息匹配的第一人员实体词,以及与所述第一人员实体词建立有关系的第二人员实体词;
所述展示模块,用于展示所述第二人员实体词,以及所述第一人员实体词与所述第二人员实体词之间的关系。
14.根据权利要求13所述的人员关系图谱的构建装置,其特征在于,还包括:更新模块;
所述抓取模块,还用于在未查询到所述第一人员实体词,或者,未查询到与所述第一人员实体词建立有关系的所述第二人员实体词时,抓取与所述待查询的人员信息相关的文本语句;
所述更新模块,用于从与所述待查询的人员信息相关的文本语句中抽取多元组信息,并结合抽取到的所述多元组信息对所述人员关系图谱进行更新处理;
所述查询模块,还用于根据所述待查询的人员信息查询所述更新后的人员关系图谱,以获取与所述待查询的人员信息匹配的第一人员实体词,以及与所述第一人员实体词建立有关系的第二人员实体词。
15.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110177821.2A CN113806549B (zh) | 2021-02-09 | 2021-02-09 | 人员关系图谱的构建方法、装置及电子设备 |
PCT/CN2022/075564 WO2022171093A1 (zh) | 2021-02-09 | 2022-02-08 | 人员关系图谱的构建方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110177821.2A CN113806549B (zh) | 2021-02-09 | 2021-02-09 | 人员关系图谱的构建方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113806549A true CN113806549A (zh) | 2021-12-17 |
CN113806549B CN113806549B (zh) | 2024-07-16 |
Family
ID=78892818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110177821.2A Active CN113806549B (zh) | 2021-02-09 | 2021-02-09 | 人员关系图谱的构建方法、装置及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113806549B (zh) |
WO (1) | WO2022171093A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022171093A1 (zh) * | 2021-02-09 | 2022-08-18 | 京东科技控股股份有限公司 | 人员关系图谱的构建方法、装置及电子设备 |
CN116562275A (zh) * | 2023-06-09 | 2023-08-08 | 创意信息技术股份有限公司 | 一种结合实体属性图的自动文本摘要方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN107526722A (zh) * | 2017-07-31 | 2017-12-29 | 努比亚技术有限公司 | 一种人物关系分析方法及终端 |
CN109446343A (zh) * | 2018-11-05 | 2019-03-08 | 上海德拓信息技术股份有限公司 | 一种公共安全知识图谱构建的方法 |
CN110222199A (zh) * | 2019-06-20 | 2019-09-10 | 青岛大学 | 一种基于本体和多种神经网络集成的人物关系图谱构建方法 |
CN110516012A (zh) * | 2019-08-30 | 2019-11-29 | 广东工业大学 | 一种人物关系图谱构建方法 |
CN110851610A (zh) * | 2018-07-25 | 2020-02-28 | 百度在线网络技术(北京)有限公司 | 知识图谱生成方法、装置、计算机设备以及存储介质 |
CN111177315A (zh) * | 2019-12-19 | 2020-05-19 | 北京明略软件系统有限公司 | 知识图谱的更新方法、装置及计算机可读存储介质 |
CN111858898A (zh) * | 2020-07-30 | 2020-10-30 | 中国科学院自动化研究所 | 基于人工智能的文本处理方法、装置及电子设备 |
WO2021004333A1 (zh) * | 2019-07-08 | 2021-01-14 | 平安科技(深圳)有限公司 | 基于知识图谱的事件处理方法、装置、设备和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160117311A1 (en) * | 2014-10-22 | 2016-04-28 | Thomson Licensing | Method and Device for Performing Story Analysis |
CN106776544B (zh) * | 2016-11-24 | 2020-05-05 | 四川无声信息技术有限公司 | 人物关系识别方法及装置和分词方法 |
CN113806549B (zh) * | 2021-02-09 | 2024-07-16 | 京东科技控股股份有限公司 | 人员关系图谱的构建方法、装置及电子设备 |
-
2021
- 2021-02-09 CN CN202110177821.2A patent/CN113806549B/zh active Active
-
2022
- 2022-02-08 WO PCT/CN2022/075564 patent/WO2022171093A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN107526722A (zh) * | 2017-07-31 | 2017-12-29 | 努比亚技术有限公司 | 一种人物关系分析方法及终端 |
CN110851610A (zh) * | 2018-07-25 | 2020-02-28 | 百度在线网络技术(北京)有限公司 | 知识图谱生成方法、装置、计算机设备以及存储介质 |
CN109446343A (zh) * | 2018-11-05 | 2019-03-08 | 上海德拓信息技术股份有限公司 | 一种公共安全知识图谱构建的方法 |
CN110222199A (zh) * | 2019-06-20 | 2019-09-10 | 青岛大学 | 一种基于本体和多种神经网络集成的人物关系图谱构建方法 |
WO2021004333A1 (zh) * | 2019-07-08 | 2021-01-14 | 平安科技(深圳)有限公司 | 基于知识图谱的事件处理方法、装置、设备和存储介质 |
CN110516012A (zh) * | 2019-08-30 | 2019-11-29 | 广东工业大学 | 一种人物关系图谱构建方法 |
CN111177315A (zh) * | 2019-12-19 | 2020-05-19 | 北京明略软件系统有限公司 | 知识图谱的更新方法、装置及计算机可读存储介质 |
CN111858898A (zh) * | 2020-07-30 | 2020-10-30 | 中国科学院自动化研究所 | 基于人工智能的文本处理方法、装置及电子设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022171093A1 (zh) * | 2021-02-09 | 2022-08-18 | 京东科技控股股份有限公司 | 人员关系图谱的构建方法、装置及电子设备 |
CN116562275A (zh) * | 2023-06-09 | 2023-08-08 | 创意信息技术股份有限公司 | 一种结合实体属性图的自动文本摘要方法 |
CN116562275B (zh) * | 2023-06-09 | 2023-09-15 | 创意信息技术股份有限公司 | 一种结合实体属性图的自动文本摘要方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2022171093A1 (zh) | 2022-08-18 |
CN113806549B (zh) | 2024-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106971009B (zh) | 语音数据库生成方法及装置、存储介质、电子设备 | |
CN109348275B (zh) | 视频处理方法和装置 | |
CN106407404B (zh) | 数据存储方法、数据管理方法及系统、数据库、客户端 | |
CN111459967A (zh) | 结构化查询语句生成方法、装置、电子设备及介质 | |
CN107909088B (zh) | 获取训练样本的方法、装置、设备和计算机存储介质 | |
CN112650867B (zh) | 图片匹配方法、装置、电子设备以及存储介质 | |
CN109299227B (zh) | 基于语音识别的信息查询方法和装置 | |
CN112001179A (zh) | 命名实体识别方法、装置、电子设备及可读存储介质 | |
CN111309905A (zh) | 一种对话语句的聚类方法、装置、电子设备及存储介质 | |
CN111428503B (zh) | 同名人物的识别处理方法及处理装置 | |
CN113806549B (zh) | 人员关系图谱的构建方法、装置及电子设备 | |
US20200175150A1 (en) | Information processing apparatus, information processing system, and method of processing information | |
CN114595686A (zh) | 知识抽取方法、知识抽取模型的训练方法及装置 | |
CN114238584A (zh) | 信息搜索方法、设备及存储介质 | |
CN109657127B (zh) | 一种答案获取方法、装置、服务器及存储介质 | |
CN109299238B (zh) | 一种数据查询方法和装置 | |
CN113553406A (zh) | 结合rpa和ai的信息采集方法、装置和计算机设备 | |
CN113672699A (zh) | 基于知识图谱的nl2sql生成方法 | |
CN111062193B (zh) | 医疗数据标注方法及装置、存储介质、电子设备 | |
CN112582073A (zh) | 医疗信息获取方法、装置、电子设备和介质 | |
CN111931034A (zh) | 数据搜索方法、装置、设备及存储介质 | |
CN111680224A (zh) | 跨平台课程推送方法、装置、电子设备、存储介质 | |
CN113722550B (zh) | 一种关系图谱的实现方法、装置、电子设备及存储介质 | |
CN111046020B (zh) | 信息处理方法与装置、存储介质、电子设备 | |
CN111178531B (zh) | 关系推理以及关系推理模型的获取方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |