[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN110929519B - 实体属性抽取方法及装置 - Google Patents

实体属性抽取方法及装置 Download PDF

Info

Publication number
CN110929519B
CN110929519B CN201811106182.5A CN201811106182A CN110929519B CN 110929519 B CN110929519 B CN 110929519B CN 201811106182 A CN201811106182 A CN 201811106182A CN 110929519 B CN110929519 B CN 110929519B
Authority
CN
China
Prior art keywords
fusion
attribute
entity
question
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811106182.5A
Other languages
English (en)
Other versions
CN110929519A (zh
Inventor
王潇斌
马春平
谢朋峻
李林琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811106182.5A priority Critical patent/CN110929519B/zh
Publication of CN110929519A publication Critical patent/CN110929519A/zh
Application granted granted Critical
Publication of CN110929519B publication Critical patent/CN110929519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种实体属性抽取方法及装置。其中,该方法包括:确定待抽取属性的对象;获取与对象存在关联关系的关联对象;将关联对象与对象进行融合,得到融合对象;抽取融合对象中的实体的属性。本发明解决了相关技术中的实体属性抽取精度不高的技术问题。

Description

实体属性抽取方法及装置
技术领域
本发明涉及信息处理领域,具体而言,涉及一种实体属性抽取方法及装置。
背景技术
在信息筛选中,存在需要在大量的文本信息中,提取实体属性信息的情况。实体可以是人物,事物等,实体属性也即是,上述人物或事物的相关信息。例如,人物的姓名,住址。对于实体属性的抽取问题,在传统属性抽取的方法中,一般是以单个句子作为分析对象,利用模式匹配、分类器、神经网络等对句子中是否包含实体属性以及包含何种类型的属性进行判断。其突出缺点是将分析范围局限于单一句子,忽略了上下文中有效的相关信息。会导致实体属性信息抽取的精度较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种实体属性抽取方法及装置,以至少解决相关技术中的实体属性抽取精度不高的技术问题。
根据本发明实施例的一个方面,提供了一种实体属性抽取方法,包括:确定待抽取属性的对象;获取与所述对象存在关联关系的关联对象;将所述关联对象与所述对象进行融合,得到融合对象;抽取所述融合对象中的实体的属性。
根据本发明实施例的另一方面,还提供了一种实体属性抽取方法,包括:确定待抽取属性的笔录;获取与所述笔录存在关联关系的关联笔录;将所述关联笔录与所述笔录进行融合,得到融合笔录;抽取所述融合笔录中的实体的属性。
根据本发明实施例的另一方面,还提供了一种实体属性抽取方法,包括:确定待抽取属性的法律语句;获取与所述法律语句存在关联关系的关联法律语句;将所述关联法律语句与所述法律语句进行融合,得到融合法律语句;抽取所述融合法律语句中的实体的属性。
根据本发明实施例的另一方面,还提供了一种实体属性抽取装置,包括:确定模块,用于确定待抽取属性的对象;获取模块,用于获取与所述对象存在关联关系的关联对象;融合模块,用于将所述关联对象与所述对象进行融合,得到融合对象;抽取模块,用于抽取所述融合对象中的实体的属性。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述中任意一项所述的实体属性抽取方法。
根据本发明实施例的另一方面,还提供了一种计算设备,包括至少一个处理器;和存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如上述中任一项所述的实体属性抽取方法。
在本发明实施例中,采用确定待抽取属性的对象;获取与所述对象存在关联关系的关联对象;将所述关联对象与所述对象进行融合,得到融合对象;抽取所述融合对象中的实体的属性的方式,通过对带抽取属性的相关联的关联对象进行融合,达到了通过融合对象进行实体属性信息抽取的目的,从而实现了根据相关联的关联对象,进行实体属性信息抽取,精度高,有效防止遗漏信息的技术效果,进而解决了相关技术中的实体属性抽取精度不高的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了一种用于实现实体属性抽取方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本发明实施例1的一种实体属性抽取方法的流程图;
图3是根据本发明实施例1的另一种实体属性抽取方法的流程图;
图4是根据本发明实施例1的另一种实体属性抽取方法的流程图;
图5是根据本发明实施例1的另一种实体属性抽取方法的流程图;
图6是根据本发明实施例1优选实施方式的实体属性抽取方法的流程图;
图7是根据本发明实施例2的一种实体属性抽取方法的流程图;
图8是根据本发明实施例3的一种实体属性抽取方法的流程图;
图9是根据本发明实施例4的一种实体属性抽取装置的结构示意图;
图10是根据本发明实施例5的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
实体:是指具体的人物,或者组织、地点等现实事物。
属性:与上述实体相关的信息,如人物的身份证号,组织的注册地。
softmax分类层:基于softmax函数对多类问题进行分类的多分类运算层,上述多分类是指分类结果不只两个的分类问题,例如,识别一个数字是几,分类结果会有很多,此问题就属于多分类问题。
实施例1
根据本发明实施例,还提供了一种实体属性抽取方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现实体属性抽取方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104。除此以外,还可以包括:传输模块、显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的实体属性抽取方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的实体属性抽取方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述传输模块用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输模块包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
图1示出的硬件结构框图,不仅可以作为上述计算机终端10(或移动设备)的示例性框图,还可以作为上述服务器的示例性框图,一种可选实施例中,计算机终端10(或移动设备)可以经由数据网络连接或电子连接到一个或多个服务器(例如安全服务器、资源服务器、游戏服务器等)。一种可选实施例中,上述计算机终端10(或移动设备)可以是任意移动计算设备等。数据网络连接可以是局域网连接、广域网连接、因特网连接,或其他类型的数据网络连接。计算机终端10(或移动设备)可以执行以连接到由一个服务器(例如安全服务器)或一组服务器执行的网络服务。网络服务器是基于网络的用户服务,诸如社交网络、云资源、电子邮件、在线支付或其他在线应用。
信息筛选抽取是一种常见的信息处理方式,在信息筛选中,存在需要在大量的文本信息中提取实体属性信息的情况。上述实体可以是人物,事物等,上述实体属性也即是,上述人物或事物的相关信息,例如人物的姓名,住址等。上述在大量的文本信息中提取实体属性信息,可以是多种实际情况,例如,公安系统中,从大量的笔录文本信息中,抽取实体属性信息。
在上述情况下,公安信息系统中存在大量的案件文本,尤其是笔录文本。基于海量的笔录文本信息,人工排查实体属性信息的方式即不准确也十分浪费时间,效率极低。因此,公安系统对此类文本进行自动化的实体属性信息抽取有强烈的需求。
对于实体属性的抽取问题,在传统属性抽取的方法中,一般是以单个句子作为分析对象,利用模式匹配、分类器、神经网络等对句子中是否包含实体属性以及包含何种类型的属性进行判断。现有的属性抽取方法,其突出缺点是将分析范围局限于单一句子,忽略了上下文中有效的相关信息。尤其一些简便的问答文本中,回答句常常有较多省略(省略与问句相同的内容),对属性抽取方法的使用非常不利。如“问:你现在住在哪里?”“答:XX花园”,仅从回答中无法判断“XX花园”这个地点与实体的关系。需要联系上下文,即需要联系此回答之前的问题才能确定此回答为需要提取的实体属性信息。上述以单一句子作为分析对象的实体属性信息抽取方法,准确度低,精度低。
在上述运行环境下,本申请提供了如图2所示的实体属性抽取方法。图2是根据本发明实施例1的一种实体属性抽取方法的流程图,如图2所示,该方法执行下列步骤:
步骤S202,确定待抽取属性的对象。
作为一种可选的实施例,上述待抽取的属性,可以是实体属性。上述实体可以是人物,事物。上述实体的属性,是指与该对象相关联的信息,可以是人物的属性,例如,人物的住址,姓名等。还可以是事物的属性,例如,事件发生的地点,时间等。
作为一种可选的实施例,上述确定待抽取属性的对象,也即是在进行抽取的信息库中,众多的对象搜寻具有待抽取属性的对象。上述信息库为具有上述待抽取属性的对象和其他不具有上述待抽取属性的对象的集合。上述信息库从形式上,还可以是数据库,文本库,或者数据块等,上述信息库从内容上可以是文本信息库,图像信息库,音频信息库等。
作为一种可选的实施例,在本实施例的应用场景下,也即是公安系统的笔录文本信息,上述信息库可以是文本信息库,上述带抽取属性的对象可以为,具有需要搜寻的属性的文本信息对象,上述文本信息对象可以是多种不同的文本信息对象,例如,句子,段落,短语,词汇,甚至文字等。
作为一种可选的实施例,上述待抽取属性的对象可以是短语,词汇或文字。可以具有比句子更精细的精度,更准确的信息。
步骤S204,获取与对象存在关联关系的关联对象。
作为一种可选的实施例,与上述对象存在关联关系的关联对象,上述关联关系可以是逻辑关系,可以是因果关系,可以是并列关系,可以是转折关系等。上述关联关系还可以是交互问答关系,上述关联关系还可以是语义补充关系等。
作为一种可选的实施例,上述关联对象与上述对象可以相同,同为文本信息短语,词汇,或者文字。上述关联对象与上述对象也可以不同,例如,对象为文本信息词汇,关联对象可以为词汇,关联对象也可以为短语。
作为一种可选的实施例,上述获取与对象存在关联关系的关联对象可以是通过上述关联关系进行确定,根据上述对象和关联关系确定关联对象。
步骤S206,将关联对象与对象进行融合,得到融合对象。
作为一种可选的实施例,上述融合对象可以是上述关联对象与对象中的信息组合,例如,在一组问答中,“问:张三,你现在住在哪里?答:XXX地方”,上述对象可以为答句“XX地方”,对该对象单独分析并无属性。则关联对象可以为问句“张三,你现在住在哪里”,对该关联对象进行单独分析也无属性,将上述对象和关联对象(答句和问句)进行融合,可以获得融合对象“张三住在XXX地方”。可以成为新的融合对象,该融合对象具有需要的属性,进而可以进行属性提取。
作为一种可选的实施例,上述将关联对象与对象进行融合时,可以将具有关联关系的对象和关联对象的离散化的词转化为连续、低维、稠密的向量。作为神经网络的输入。然后,通过卷积神经网络(CNN)或者长短时记忆网络(LSTM)获取该对象的向量化表示。对上述对象和关联对象信息融合,例如,可以将问题的向量和回答向量作为输入,经过一个全连接神经网络,获得一个融合问答信息的向量。
步骤S208,抽取融合对象中的实体的属性。
作为一种可选的实施例,上述在抽取融合对象中的实体的属性以上述对象和关联对象的融合对象的向量作为输入,融合完整的问答信息进行分析。
作为一种可选的实施例,上述抽取融合对象中的实体的属性,可以通过对上述对象和关联对象进行运算得到实体属性,还可以通过对上述对象和关联对象进行其他处理方式得到实体属性,还可以是从上述对象和关联对象进行特征组合,并提取实体属性等。
在上述实施例中,采用确定待抽取属性的对象;获取与对象存在关联关系的关联对象;将关联对象与对象进行融合,得到融合对象;抽取融合对象中的实体的属性的方式,通过对带抽取属性的相关联的关联对象进行融合,达到了通过融合对象进行实体属性信息抽取的目的,从而实现了根据相关联的关联对象,进行实体属性信息抽取,精度高,有效防止遗漏信息的技术效果,进而解决了相关技术中的实体属性抽取精度不高的技术问题。
作为一种可选的实施例,获取与对象存在关联关系的关联对象包括:获取与对象存在问答关系的关联对象,其中,与对象存在问答关系包括:在对象包括问句的情况下,存在与问句对应的答句;在对象包括答句的情况下,存在与答句对应的问句。
作为一种可选的实施例,上述关联对象可以与上述对象之间存在多种关联关系,在上述实施例中,获取与对象存在问答关系的关联对象,可以有效解决简便问答中的实体属性容易省略,而找不到属性对应的实体的问题,有效提高笔录文本信息中的实体属性的提取的准确率和精度。
作为一种可选的实施例,上述关联对象与上述对象之间具有问答关系,上述问答关系包括:在对象包括问句的情况下,存在与问句对应的答句。上述对象包括问句,也即是上述对象为问答关系双方中进行的问话;与该问句对应的答句,则为问答关系中的答的句,也即是与该对象对应的关联对象。
作为一种可选的实施例,上述问答关系还包括:在对象包括答句的情况下,存在与答句对应的问句。上述对象包括答句的情况下,说明上述对象为问答关系中的答句;与该答句对应的问句,则为问答关系中的问句,也即是与该对象具有问答关系的关联对象。
作为一种可选的实施例,图3是根据本发明实施例1的另一种实体属性抽取方法的流程图,如图3所示,将关联对象与对象进行融合,得到融合对象包括:
步骤S302,将对象转换为对象向量,以及将关联对象转换为关联对象向量;
步骤S304,将对象向量与关联对象向量进行向量运算,得到融合对象的融合向量。
作为一种可选的实施例,上述将关联对象与对象进行融合,得到融合对象,可以是多种方式,可以通过向量的方式进行融合。
在上述通过向量的方式进行融合,将对象转化为对象向量,将关联对象转化为关联对象向量,然后通过上述对象向量和关联对象向量,确定融合向量。
作为一种可选的实施例,上述通过上述对象向量和关联对象向量确定融合向量时,可以通过多种方式,例如,将上述对象向量和关联对象向量进行叠加,得到上述融合向量。还可以通过对上述对象向量和关联对象向量进行向量运算,确定融合向量。本实施例中,优选通过对上述对象向量和关联对象向量进行向量运算确定融合向量,运算结果准确可靠。
作为一种可选的实施例,上述通过对对象向量和关联对象向量进行向量运算确定融合向量,可以是多种运算方式。可以是对上述对象向量进行相加,相减等,确定融合向量。还可以是通过向量函数进行运算确定融合向量,还可以通过运算模型输入上述对象向量和关联对象向量,由该运算模型输出对应的融合向量。
作为一种可选的实施例,将对象转换为对象向量,以及将关联对象转换为关联对象向量包括:分别提取对象中所包括的离散化的词,和关联对象中的离散化的词;将提取的离散化的词映射到预定坐标空间中,得到与对应的词对应的词向量;将对象中所包括的离散化的词对应的词向量进行关联,得到对象向量;将关联对象中的离散化的词对应的词向量进行关联,得到关联对象向量。
作为一种可选的实施例,上述将对象转换为对象向量的方式,先提取对象中所包括的离散化的词,然后将提取的离散化的词映射到预定坐标空间中,得到与对应的词(对象中所包括的离散化的词)对应的词向量,将对象中所包括的离散化的词对应的词向量进行关联,得到对象向量。
作为一种可选的实施例,上述对象可以为文本信息对象,上述关联对象也可以为文本信息对象。将上述对象转换对象向量,与将关联对象转换为关联对象向量的方式可以相同也可以不同,本实施例中采用相同的方式将上述对象转换为对象向量,将上述关联对象转换为关联对象向量。
作为一种可选的实施例,上述将关联对象转换为关联对象向量的方式,与上述对象转换为对象向量相同,方便进行运算,有利于减轻运算系统的复杂程度和运算量。先提取出关联对象中所包括的离散化的词,然后将提取的离散化的词映射到预定坐标空间内中,得到与对应的词(关联对象中所包括的离散化的词)对应的词向量,将关联对象中所包括的离散化的词对应的词向量进行关联,得到关联对象向量。
作为一种可选的实施例,将提取的离散化的词映射到预定坐标空间中,得到与对应的词对应的词向量可以采用多种方式,例如,可以采用词嵌入(word embedding)的方式,该词嵌入的方式可以通过以下方式实现:先确定预定坐标空间的维度,其中,不同的维度表示不同的特征,需要说明的是,预定坐标空间的维度可以为多维(一般为数百维),该多维所表示的特征也可以是多种(一般为数百种),该特征可以包括上述所指的待抽取的属性特征;之后,根据提取的离散化的词在不同维度上的分布,将离散化的词映射到预定坐标空间内的坐标上;最后,根据预定坐标空间的坐标原点,以及离散化的词映射的坐标,确定离散化的词对应的词向量。
作为一种可选的实施例,在抽取融合对象中的实体的属性时,为提高抽取的效率以及准确性,可以先对融合对象进行筛选,例如,将包括主体的融合对象先选择出来,之后,依据选择的融合对象来抽取属性。举例来说,图4是根据本发明实施例1的另一种实体属性抽取方法的流程图,如图4所示,抽取融合对象中的实体的属性包括:
步骤S402,在融合对象为多个的情况下,对多个融合对象进行分类,选择包括实体的融合对象;
步骤S404,从选择的融合对象中抽取实体的属性。
以输入“XX公司的CEO是李明”的句子为例:
首先,进行实体识别,该步骤用于识别句子中是否有需要的实体。对于输入的句子,可以识别出实体“XX公司”和“李明”。对于抽取“组织的CEO”这个属性,这个句子包含了需要的实体。
之后,进行句子分类,在该步骤中,对于包含需要的实体的句子,需要进行分类,即判断这个句子是否描述了所需的属性。如“XX公司的CEO是李明”、“王五一行考察了XX公司”,这两个句子都包含了“组织-人物”这样的实体对,但是只有前者描述的是“组织-CEO-人物”这种属性逻辑,因此,这样的句子被选择为待抽取属性的融合对象。从这样的句子中能够抽取组织实体“XX公司”的CEO属性是“李明”。
作为一种可选的实施例,图5是根据本发明实施例1的另一种实体属性抽取方法的流程图,如图5所示,抽取融合对象中的实体的属性包括:
步骤S502,将选择的融合对象对应的融合向量输入卷积神经网络,获得选择的融合对象在多个属性上的概率;
步骤S504,确定概率最高的属性为融合对象中的实体的属性。
作为一种可选的实施例,上述通过卷积神经网络提取上述融合向量中的实体属性信息,先将选择的融合对象对应的融合向量输入卷积神经网络,获得选择的融合对象对应的融合对象在多个不同的实体属性上的概率;确定概率最高的实体属性为融合对象中的实体的属性。
作为一种可选的实施例,将关联对象与对象进行融合,得到融合对象包括:在关联关系为问答关系的情况下,将对象与关联对象对应的问句和答句直接连在一起,并将形成的组合句子作为融合对象。
作为一种可选的实施例,在对象为答句的情况下,获取与对象存在关联关系的关联对象包括:获取与答句对应的问句,并将问句作为关联对象;抽取融合对象中的实体的属性包括:从问句中抽取答句中的主体,从答句中抽取主体对应的属性。
作为一种可选的实施例,上述对象与上述关联对象为问答关系,在对象为答句的情况下,获取与上述对象存在关问答关系的关联对象包括:获取与答句对应的问句,并将问句作为关联对象,一般情况问句与答句相连,而且,问句与答句通常都存在相同的语言特征,也有可能不存在相同的语言特征,但是相关的语言特征存在关联。
作为一种可选的实施例,上述在问答对话中,问句文本信息包含实体,答句文本信息包含该实体的属性信息的情况下,抽取融合对象中的实体的属性包括:从问句中抽取答句中的主体,从答句中抽取主体对应的属性。例如,问答对话为“问:你现在住在哪里?答:XX地方。”问句包含实体,人物“你”,答句中包含上述实体的属性信息,“你”住在XX地方。将问句中的主体与答句中该主题的属性信息进行融合可以确定该问答对话中的实体属性信息。
作为一种可选的实施例,上述问答对话,还可以有不同的形式,可以是问句中包含属性信息,答句中包含实体信息,则可以通过与上述方式相类似的方式进行提取实体属性。例如如下问答对话:“问:谁现在住在XX地方?答:李四”。还可以是问句中包含属性信息,省略实体,答句中也省略实体信息的问答。例如如下问答对话:“问:是住在XX地方吗?答:是”,则需要根据之前的对话进行提取,确定该属性信息的实体。
作为一种可选的实施例,图6是根据本发明实施例1优选实施方式的实体属性抽取方法的流程图,如图6所示,示出了一种对于问答文本的实体属性抽取方法的流程,步骤如下:
步骤S601,word embedding(词汇嵌入),将问、答的句子中离散化的词转化为连续、低维、稠密的向量。适合作为神经网络的输入。
步骤S602,通过卷积神经网络(CNN)或者长短时记忆网络(LSTM)获取句子的向量化表示。
步骤S603,问答句子信息融合,将问题的向量和回答向量作为输入,经过一个全连接神经网络,获得一个融合问答信息的向量。
步骤S604,属性分类,使用softmax分类层,以问答信息向量作为输入,获得答句在各个属性类别上的概率分布。通过引入问句信息,融合完整的问答信息进行分析。
作为一种可选的实施例,在上述实施方式中,还可以简单的将问句和回答连接成一个句子,然后套用已有的属性抽取方法。
本实施方式考虑问答类型文本的特点,引入问句信息作为回答句子的补充,可以有效克服回答句信息省略对属性抽取带来的困难。一方面可以提高抽取的召回率,另一方面,引入问句信息可以起到消歧的作用,对提高抽取的准确率也将有所帮助。
实施例2
根据本发明实施例,还提供了另一种实体属性抽取方法,图7是根据本发明实施例2的一种实体属性抽取方法的流程图,如图7所示,该流程包括如下步骤:
步骤S702,确定待抽取属性的笔录。
作为一种可选的实施例,上述待抽取的属性可以是实体属性。上述实体可以是人物,事物。上述实体的属性,是指与该对象相关联的信息,可以是人物的属性,例如,人物的住址,姓名等。还可以是事物的属性,例如,事件发生的地点,时间等。
作为一种可选的实施例,上述确定待抽取属性的笔录,也即是在进行抽取的笔录库中,众多的笔录搜寻具有待抽取属性的笔录。上述笔录库为具有上述待抽取属性的笔录和其他不具有上述待抽取属性的笔录的集合。上述笔录库从形式上,还可以是数据库,文本库,或者数据块等,上述笔录库从内容上可以是文本信息,图像信息,音频信息等。
作为一种可选的实施例,上述待抽取属性的笔录,在笔录为文本信息的情况下,上述笔录可以是短语,词汇或文字。可以具有比句子更精细的精度,更准确的信息。
步骤S704,获取与笔录存在关联关系的关联笔录。
作为一种可选的实施例,与上述笔录存在关联关系的关联笔录,上述关联关系可以是逻辑关系,可以是因果关系,可以是并列关系,可以是转折关系等。上述关联关系还可以是交互问答关系,上述关联关系还可以是语义补充关系等。
作为一种可选的实施例,上述关联笔录与上述笔录可以相同,同为文本信息短语,词汇,或者文字。上述关联笔录与上述笔录也可以不同,例如,笔录为文本信息词汇,关联笔录可以为词汇,关联笔录也可以短语。
作为一种可选的实施例,上述获取与笔录存在关联关系的关联笔录可以是通过上述关联关系进行确定,根据上述笔录和关联关系确定关联笔录。
步骤S706,将关联笔录与笔录进行融合,得到融合笔录。
作为一种可选的实施例,上述笔录与笔录的融合方式有很多,例如可以采用实施例1中对象与关联对象的融合方式,得到融合笔录。
步骤S708,抽取融合笔录中的实体的属性。
作为一种可选的实施例,在实施例1中的对象为笔录时,执行上述从融合对象中抽取实体属性的步骤类似,可以采用相同的方法从上述融合笔录中提取实体的属性。
上述方法可以应用于公安系统,笔录查询,笔录整理等。
在本发明实施例中,采用确定待抽取属性的笔录;获取与笔录存在关联关系的关联笔录;将关联笔录与笔录进行融合,得到融合笔录;抽取融合笔录中的实体的属性的方式,通过对带抽取属性的相关联的关联对象进行融合,达到了通过融合对象进行实体属性信息抽取的目的,从而实现了根据相关联的关联对象,进行实体属性信息抽取,精度高,有效防止遗漏信息的技术效果,进而解决了相关技术中的实体属性抽取精度不高的技术问题。
作为一种可选的实施例,笔录包括:答句笔录,关联笔录包括:问句笔录。上述答句笔录和问句笔录分别为具有问答关系的两个笔录。
实施例3
根据本发明实施例,还提供了另一种实体属性抽取方法,图8是根据本发明实施例3的一种实体属性抽取方法的流程图,如图8所示,该流程包括如下步骤:
步骤S802,确定待抽取属性的法律语句。
步骤S804,获取与法律语句存在关联关系的关联法律语句。
步骤S806,将关联法律语句与法律语句进行融合,得到融合法律语句。
步骤S808,抽取融合法律语句中的实体的属性。
上述方法步骤与实施例1中的方式相类似,通过对法律语句与关联法律语句(对象与关联对象)的融合,得到融合法律语句(融合对象),从融合法律语句(融合对象)中提取实体属性。上述方法可以应用于法律系统和或公安系统,包括法律咨询,法律查询等,以及审问查询等。
在本发明实施例中,采用确定待抽取属性的法律语句;获取与法律语句存在关联关系的关联法律语句;将关联法律语句与法律语句进行融合,得到融合法律语句;抽取融合法律语句中的实体的属性的方式,通过对带抽取属性的相关联的关联对象进行融合,达到了通过融合对象进行实体属性信息抽取的目的,从而实现了根据相关联的关联对象,进行实体属性信息抽取,精度高,有效防止遗漏信息的技术效果,进而解决了相关技术中的实体属性抽取精度不高的技术问题。
作为一种可选的实施例,法律语句包括:当事人答话,关联法律语句包括:法律人问话。上述当事人答话和法律人问话分别为具有问答关系的两个法律语句。
作为一种可选的实施例,上述所指的法律人可以至少包括以下之一:公安人员,法官,律师。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例4
根据本发明实施例,还提供了一种用于实施上述实施例1的实体属性抽取方法,图9是根据本发明实施例4的一种实体属性抽取装置的结构示意图,如图9所示,该装置包括:确定模块92,获取模块94,融合模块96和抽取模块98,下面对该装置进行详细说明。
确定模块92,用于确定待抽取属性的对象;获取模块94,与上述确定模块92相连,用于获取与对象存在关联关系的关联对象;融合模块96,与上述获取模块94相连,用于将关联对象与对象进行融合,得到融合对象;抽取模块98,与上述融合模块96相连,用于抽取融合对象中的实体的属性。
此处需要说明的是,上述确定模块92,获取模块94,融合模块96和抽取模块98对应于实施例1中的步骤S202至步骤S208,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
实施例5
本发明的实施例可以提供一种计算设备,该计算设备可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算设备包括至少一个处理器;和存储有程序指令的存储器,其中,程序指令被配置为适于由至少一个处理器执行,程序指令可以执行应用程序的实体属性抽取方法中以下步骤的程序代码:确定待抽取属性的对象;获取与对象存在关联关系的关联对象;将关联对象与对象进行融合,得到融合对象;抽取融合对象中的实体的属性。
可选地,图10是根据本发明实施例5的一种计算机终端的结构框图。如图10所示,该计算机终端10可以包括:一个或多个(图中仅示出一个)处理器1002、存储器1004、以及外设接口1006。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的实体属性抽取方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的实体属性抽取方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:确定待抽取属性的对象;获取与对象存在关联关系的关联对象;将关联对象与对象进行融合,得到融合对象;抽取融合对象中的实体的属性。
可选的,上述处理器还可以执行如下步骤的程序代码:获取与对象存在关联关系的关联对象包括:获取与对象存在问答关系的关联对象,其中,与对象存在问答关系包括:在对象包括问句的情况下,存在与问句对应的答句;在对象包括答句的情况下,存在与答句对应的问句。
可选的,上述处理器还可以执行如下步骤的程序代码:将关联对象与对象进行融合,得到融合对象包括:将对象转换为对象向量,以及将关联对象转换为关联对象向量;将对象向量与关联对象向量进行向量运算,得到融合对象的融合向量。
可选的,上述处理器还可以执行如下步骤的程序代码:将对象转换为对象向量,以及将关联对象转换为关联对象向量包括:分别提取对象中所包括的离散化的词,和关联对象中的离散化的词;将提取的离散化的词映射到预定坐标空间中,得到与对应的词对应的词向量;将对象中所包括的离散化的词对应的词向量进行关联,得到对象向量;将关联对象中的离散化的词对应的词向量进行关联,得到关联对象向量。
可选的,上述处理器还可以执行如下步骤的程序代码:将提取的离散化的词映射到预定坐标空间中,得到与对应的词对应的词向量包括:确定预定坐标空间的维度,其中,不同的维度表示不同的特征;根据提取的离散化的词在不同维度上的分布,将离散化的词映射到预定坐标空间内的坐标上;根据预定坐标空间的坐标原点,以及离散化的词映射的坐标,确定离散化的词对应的词向量。
可选的,上述处理器还可以执行如下步骤的程序代码:在融合对象为多个的情况下,对多个融合对象进行分类,选择包括实体的融合对象;从选择的融合对象中抽取实体的属性。
可选的,上述处理器还可以执行如下步骤的程序代码:从选择的融合对象中抽取实体的属性包括:将选择的融合对象对应的融合向量输入卷积神经网络,获得选择的融合对象在多个属性上的概率;确定概率最高的属性为融合对象中的实体的属性。
可选的,上述处理器还可以执行如下步骤的程序代码:将关联对象与对象进行融合,得到融合对象包括:在关联关系为问答关系的情况下,将对象与关联对象对应的问句和答句直接连在一起,并将形成的组合句子作为融合对象。
可选的,上述处理器还可以执行如下步骤的程序代码:在对象为答句的情况下,获取与对象存在关联关系的关联对象包括:获取与答句对应的问句,并将问句作为关联对象;抽取融合对象中的实体的属性包括:从问句中抽取答句中的主体,从答句中抽取主体对应的属性。
可选的,上述处理器还可以执行如下步骤的程序代码:另一种实体属性抽取方法,包括:确定待抽取属性的笔录;获取与笔录存在关联关系的关联笔录;将关联笔录与笔录进行融合,得到融合笔录;抽取融合笔录中的实体的属性。
可选的,上述处理器还可以执行如下步骤的程序代码:笔录包括:答句笔录,关联笔录包括:问句笔录。
可选的,上述处理器还可以执行如下步骤的程序代码:另一种实体属性抽取方法,包括:确定待抽取属性的法律语句;获取与法律语句存在关联关系的关联法律语句;将关联法律语句与法律语句进行融合,得到融合法律语句;抽取融合法律语句中的实体的属性。
可选的,上述处理器还可以执行如下步骤的程序代码:法律语句包括:当事人答话,关联法律语句包括:法律人问话。
可选的,上述处理器还可以执行如下步骤的程序代码:法律人至少包括以下之一:公安人员,法官,律师。
采用本发明实施例,提供了一种实体属性抽取方法的方案。通过确定待抽取属性的对象;获取与对象存在关联关系的关联对象;将关联对象与对象进行融合,得到融合对象;抽取融合对象中的实体的属性的方式,对带抽取属性的相关联的关联对象进行融合,达到了通过融合对象进行实体属性信息抽取的目的,从而实现了根据相关联的关联对象,进行实体属性信息抽取,精度高,有效防止遗漏信息的技术效果,进而解决了相关技术中的实体属性抽取精度不高的技术问题。
本领域普通技术人员可以理解,图10所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图10所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例6
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例1所提供的实体属性抽取方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:确定待抽取属性的对象;获取与对象存在关联关系的关联对象;将关联对象与对象进行融合,得到融合对象;抽取融合对象中的实体的属性。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取与对象存在关联关系的关联对象包括:获取与对象存在问答关系的关联对象,其中,与对象存在问答关系包括:在对象包括问句的情况下,存在与问句对应的答句;在对象包括答句的情况下,存在与答句对应的问句。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将关联对象与对象进行融合,得到融合对象包括:将对象转换为对象向量,以及将关联对象转换为关联对象向量;将对象向量与关联对象向量进行向量运算,得到融合对象的融合向量。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将关联对象与对象进行融合,得到融合对象包括:将对象转换为对象向量,以及将关联对象转换为关联对象向量;将对象向量与关联对象向量进行向量运算,得到融合对象的融合向量。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将对象转换为对象向量,以及将关联对象转换为关联对象向量包括:分别提取对象中所包括的离散化的词,和关联对象中的离散化的词;将提取的离散化的词映射到预定坐标空间中,得到与对应的词对应的词向量;将对象中所包括的离散化的词对应的词向量进行关联,得到对象向量;将关联对象中的离散化的词对应的词向量进行关联,得到关联对象向量。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将提取的离散化的词映射到预定坐标空间中,得到与对应的词对应的词向量包括:确定预定坐标空间的维度,其中,不同的维度表示不同的特征;根据提取的离散化的词在不同维度上的分布,将离散化的词映射到预定坐标空间内的坐标上;根据预定坐标空间的坐标原点,以及离散化的词映射的坐标,确定离散化的词对应的词向量。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:抽取融合对象中的实体的属性包括:在融合对象为多个的情况下,对多个融合对象进行分类,选择包括实体的融合对象;从选择的融合对象中抽取实体的属性。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:从选择的融合对象中抽取实体的属性包括:将选择的融合对象对应的融合向量输入卷积神经网络,获得选择的融合对象在多个属性上的概率;确定概率最高的属性为融合对象中的实体的属性。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将关联对象与对象进行融合,得到融合对象包括:在关联关系为问答关系的情况下,将对象与关联对象对应的问句和答句直接连在一起,并将形成的组合句子作为融合对象。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在对象为答句的情况下,获取与对象存在关联关系的关联对象包括:获取与答句对应的问句,并将问句作为关联对象;抽取融合对象中的实体的属性包括:从问句中抽取答句中的主体,从答句中抽取主体对应的属性。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:另一种实体属性抽取方法,包括:确定待抽取属性的笔录;获取与笔录存在关联关系的关联笔录;将关联笔录与笔录进行融合,得到融合笔录;抽取融合笔录中的实体的属性。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:笔录包括:答句笔录,关联笔录包括:问句笔录。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:另一种实体属性抽取方法,包括:确定待抽取属性的法律语句;获取与法律语句存在关联关系的关联法律语句;将关联法律语句与法律语句进行融合,得到融合法律语句;抽取融合法律语句中的实体的属性。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:法律语句包括:当事人答话,关联法律语句包括:法律人问话。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:法律人至少包括以下之一:公安人员,法官,律师。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种实体属性抽取方法,包括:
确定待抽取属性的对象;
获取与所述对象存在关联关系的关联对象;
将所述关联对象与所述对象进行融合,得到融合对象;
抽取所述融合对象中的实体的属性;
其中,从选择的融合对象中抽取所述实体的属性包括:将选择的所述融合对象对应的融合向量输入卷积神经网络,获得选择的所述融合对象在多个属性上的概率;确定概率最高的属性为所述融合对象中的实体的属性;
抽取所述融合对象中的实体的属性还包括:在所述融合对象为多个的情况下,对多个融合对象进行分类,选择包括所述实体的融合对象;从选择的融合对象中抽取所述实体的属性。
2.根据权利要求1所述的方法,其中,获取与所述对象存在关联关系的关联对象包括:
获取与所述对象存在问答关系的关联对象,其中,与所述对象存在问答关系包括:在所述对象包括问句的情况下,存在与所述问句对应的答句;在所述对象包括答句的情况下,存在与所述答句对应的问句。
3.根据权利要求2所述的方法,其中,将所述关联对象与所述对象进行融合,得到融合对象包括:
将所述对象转换为对象向量,以及将所述关联对象转换为关联对象向量;
将所述对象向量与所述关联对象向量进行向量运算,得到所述融合对象的融合向量。
4.根据权利要求3所述的方法,其中,将所述对象转换为对象向量,以及将所述关联对象转换为关联对象向量包括:
分别提取所述对象中所包括的离散化的词,和关联对象中的离散化的词;
将提取的离散化的词映射到预定坐标空间中,得到与对应的词对应的词向量;
将所述对象中所包括的离散化的词对应的词向量进行关联,得到所述对象向量;将所述关联对象中的离散化的词对应的词向量进行关联,得到所述关联对象向量。
5.根据权利要求4所述的方法,其中,将提取的离散化的词映射到预定坐标空间中,得到与对应的词对应的词向量包括:
确定所述预定坐标空间的维度,其中,不同的维度表示不同的特征;
根据提取的离散化的词在不同维度上的分布,将离散化的词映射到所述预定坐标空间内的坐标上;
根据所述预定坐标空间的坐标原点,以及离散化的词映射的坐标,确定离散化的词对应的词向量。
6.根据权利要求2所述的方法,其中,将所述关联对象与所述对象进行融合,得到融合对象包括:
在所述关联关系为问答关系的情况下,将所述对象与所述关联对象对应的问句和答句直接连在一起,并将形成的组合句子作为所述融合对象。
7.根据权利要求1至6中任一项所述的方法,其中,
在所述对象为答句的情况下,获取与所述对象存在关联关系的关联对象包括:获取与所述答句对应的问句,并将所述问句作为所述关联对象;
抽取所述融合对象中的实体的属性包括:从所述问句中抽取所述答句中的主体,从所述答句中抽取所述主体对应的属性。
8.一种实体属性抽取方法,包括:
确定待抽取属性的笔录;
获取与所述笔录存在关联关系的关联笔录;
将所述关联笔录与所述笔录进行融合,得到融合笔录;
抽取所述融合笔录中的实体的属性;
其中,从选择的融合笔录中抽取所述实体的属性包括:将选择的所述融合笔录对应的融合向量输入卷积神经网络,获得选择的所述融合笔录在多个属性上的概率;确定概率最高的属性为所述融合笔录中的实体的属性;
抽取所述融合笔录中的实体的属性还包括:在所述融合笔录为多个的情况下,对多个融合笔录进行分类,选择包括所述实体的融合笔录;从选择的融合笔录中抽取所述实体的属性。
9.根据权利要求8所述的方法,其中,所述笔录包括:答句笔录,所述关联笔录包括:问句笔录。
10.一种实体属性抽取方法,包括:
确定待抽取属性的法律语句;
获取与所述法律语句存在关联关系的关联法律语句;
将所述关联法律语句与所述法律语句进行融合,得到融合法律语句;
抽取所述融合法律语句中的实体的属性;
其中,从选择的融合法律语句中抽取所述实体的属性包括:将选择的所述融合法律语句对应的融合向量输入卷积神经网络,获得选择的所述融合法律语句在多个属性上的概率;确定概率最高的属性为所述融合法律语句中的实体的属性;
抽取所述融合法律语句中的实体的属性还包括:在所述融合法律语句为多个的情况下,对多个融合法律语句进行分类,选择包括所述实体的融合法律语句;从选择的融合法律语句中抽取所述实体的属性。
11.根据权利要求10所述的方法,其中,所述法律语句包括:当事人答话,所述关联法律语句包括:法律人问话。
12.根据权利要求11所述的方法,其中,所述法律人至少包括以下之一:公安人员,法官,律师。
13.一种实体属性抽取装置,包括:
确定模块,用于确定待抽取属性的对象;
获取模块,用于获取与所述对象存在关联关系的关联对象;
融合模块,用于将所述关联对象与所述对象进行融合,得到融合对象;
抽取模块,用于抽取所述融合对象中的实体的属性;
所述抽取模块,还用于将选择的所述融合对象对应的融合向量输入卷积神经网络,获得选择的所述融合对象在多个属性上的概率;确定概率最高的属性为所述融合对象中的实体的属性;在所述融合对象为多个的情况下,对多个融合对象进行分类,选择包括所述实体的融合对象;从选择的融合对象中抽取所述实体的属性。
14.一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至12中任意一项所述的实体属性抽取方法。
15.一种计算设备,包括至少一个处理器;和存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1至12中任一项所述的实体属性抽取方法。
CN201811106182.5A 2018-09-20 2018-09-20 实体属性抽取方法及装置 Active CN110929519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811106182.5A CN110929519B (zh) 2018-09-20 2018-09-20 实体属性抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811106182.5A CN110929519B (zh) 2018-09-20 2018-09-20 实体属性抽取方法及装置

Publications (2)

Publication Number Publication Date
CN110929519A CN110929519A (zh) 2020-03-27
CN110929519B true CN110929519B (zh) 2023-05-02

Family

ID=69856355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811106182.5A Active CN110929519B (zh) 2018-09-20 2018-09-20 实体属性抽取方法及装置

Country Status (1)

Country Link
CN (1) CN110929519B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541085B (zh) * 2020-12-07 2021-08-24 北京左医科技有限公司 问卷的结构化方法、问卷的结构化装置及存储介质
CN115346690B (zh) * 2022-07-08 2023-12-01 中国疾病预防控制中心慢性非传染性疾病预防控制中心 引导接线员对求助者进行问话的系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9367608B1 (en) * 2009-01-07 2016-06-14 Guangsheng Zhang System and methods for searching objects and providing answers to queries using association data
CN107870964A (zh) * 2017-07-28 2018-04-03 北京中科汇联科技股份有限公司 一种应用于答案融合系统的语句排序方法及系统
CN108052547A (zh) * 2017-11-27 2018-05-18 华中科技大学 基于问句和知识图结构分析的自然语言问答方法及系统
CN108304911A (zh) * 2018-01-09 2018-07-20 中国科学院自动化研究所 基于记忆神经网络的知识抽取方法以及系统和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10275515B2 (en) * 2017-02-21 2019-04-30 International Business Machines Corporation Question-answer pair generation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9367608B1 (en) * 2009-01-07 2016-06-14 Guangsheng Zhang System and methods for searching objects and providing answers to queries using association data
CN107870964A (zh) * 2017-07-28 2018-04-03 北京中科汇联科技股份有限公司 一种应用于答案融合系统的语句排序方法及系统
CN108052547A (zh) * 2017-11-27 2018-05-18 华中科技大学 基于问句和知识图结构分析的自然语言问答方法及系统
CN108304911A (zh) * 2018-01-09 2018-07-20 中国科学院自动化研究所 基于记忆神经网络的知识抽取方法以及系统和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jian Liao等."FREERL: Fusion relation embedded representation learning framework for aspect extraction".《Knowledge-Based Systems》.2017,第135卷第9-17页. *
江腾蛟等."基于语义分析的评价对象-情感词对抽取".《计算机学报》.2017,第40卷(第3期),第617-633页. *

Also Published As

Publication number Publication date
CN110929519A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
CN107193974B (zh) 基于人工智能的地域性信息确定方法和装置
CN110020009B (zh) 在线问答方法、装置及系统
CN110895568B (zh) 处理庭审记录的方法和系统
CN110442697B (zh) 一种人机交互方法、系统、计算机设备和存储介质
CN114461777B (zh) 智能问答方法、装置、设备及存储介质
CN111310440A (zh) 文本的纠错方法、装置和系统
CN107436916B (zh) 智能提示答案的方法及装置
CN105095415A (zh) 网络情绪的确定方法和装置
CN110837586A (zh) 问答匹配方法、系统、服务器及存储介质
CN110489747A (zh) 一种图像处理方法、装置、存储介质及电子设备
CN117076688A (zh) 基于领域知识图谱的知识问答方法及其装置、电子设备
CN110018823B (zh) 交互式应用程序的处理方法及系统、生成方法及系统
US20180101521A1 (en) Avoiding sentiment model overfitting in a machine language model
CN110929519B (zh) 实体属性抽取方法及装置
CN116775815B (zh) 对话数据的处理方法、装置、电子设备及存储介质
CN111274813B (zh) 语言序列标注方法、装置存储介质及计算机设备
CN112581297B (zh) 基于人工智能的信息推送方法、装置及计算机设备
CN111753062A (zh) 一种会话应答方案确定方法、装置、设备及介质
CN117349515A (zh) 搜索处理方法、电子设备和存储介质
CN117010413A (zh) 社区问答方法、装置、存储介质及计算机设备
CN115859973A (zh) 文本特征提取方法、装置、非易失性存储介质及电子设备
CN113505293B (zh) 信息推送方法、装置、电子设备及存储介质
CN117933260A (zh) 一种文本质量分析方法、装置、设备及存储介质
CN111401083B (zh) 名称的识别方法及装置、存储介质和处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant