CN107391673B - 携带时间戳的中文通用知识图谱的生成方法及装置 - Google Patents
携带时间戳的中文通用知识图谱的生成方法及装置 Download PDFInfo
- Publication number
- CN107391673B CN107391673B CN201710601438.9A CN201710601438A CN107391673B CN 107391673 B CN107391673 B CN 107391673B CN 201710601438 A CN201710601438 A CN 201710601438A CN 107391673 B CN107391673 B CN 107391673B
- Authority
- CN
- China
- Prior art keywords
- entity
- entities
- knowledge graph
- information
- named
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供的携带时间戳的中文通用知识图谱的生成方法及装置,方法为:对多种外部数据源和数据库中的实体进行命名实体识别,得到多个命名实体;对多个实体进行连接,得到多个实体关系,并在多个实体关系中添加时间戳信息,得到多个携带时间戳信息的实体关系;根据多个实体和多个携带时间戳信息的实体关系,生成携带时间戳的中文通用知识图谱。本发明通过对结构数据和非结构数据中的实体进行识别和实体关系识别,使知识图谱中携带时间戳信息,使知识图谱更为高效地为使用者提供服务。
Description
技术领域
本发明涉及人工智能领域,尤其涉及携带时间戳的中文通用知识图谱的生成方法及装置领域。
背景技术
知识图谱技术2012年由谷歌提出,其目标在于描述真实世界中存在的各种实体和概念,及实体、概念之间的关联关系,从而改善搜索结果。随后,知识图谱技术得到了研究人员和企业的重视,并在检索、风控等方面得到了应用。知识图谱在对输入进行回复的过程中,可以做一层、二层甚至多层检索以便组织最符合用户意图的全面的答案。知识图谱中实体关系与时间之间往往有强相关关系,如:对自然界的认知由“地心说”变为“日心说”再认识到多宇宙空间的存在;人与人的关系会随着时间而变化;根据时间可以推断出新的关系。因此,在知识图谱的构建过程中,保留并充分使用时间信息是非常有必要的。
现有技术方案多是搜索引擎公司开发(google baidu sougou),用于特殊领域,比如百度和搜狗均开发人物关系的知识图谱,谷歌作为英文搜索为主的搜索引擎,对中文知识图谱的建立也有不足。尽管中文开放知识图谱联盟(OpenKG)已经搭建有OpenKG.CN技术平台,有35家机构入驻。吸引了国内如Zhishi.me,CN-DBPedia,PKUBase等最著名知识图谱资源加入,并已经包含了来自于常识、医疗、金融、城市、出行等15个类目的开放知识图谱。但中文通用知识图谱的开发目前仍显不足,中文通用知识图谱的开发平台也仍是空白领域。
目前,很多公开的知识图谱,如YAGO,在知识图谱中携带了时态知识,但是对时态知识的使用还稍显不足。上述平台对中文字词的理解尚显不足,如在zhishi.me搜索“大家王国维”返回零条搜索结果,但是用户的搜索意图为“文学大家王国维”,“大家”在中文中为多义词,导致所搜索结果不佳。另外,上述平台多是面向研究的,实用性和易用性不强。网络上的文字、图片、音频、视频等信息自计算机出现就被记录,时间跨度大内容庞杂,有用性也不同,同时以相同的权值分析这些信息会导致无用信息对知识图谱的噪声干扰。
因此,现有技术中的缺陷是:现有的知识图谱中由于各种数据的时间跨度大,内容庞杂,有用性不同,以相同的权制备分析这些数据会导致无用信息对知识图谱的干扰,影响知识图谱的使用。
发明内容
针对上述技术问题,本发明提供一种携带时间戳的中文通用知识图谱的生成方法及装置,通过对结构数据和非结构数据中的实体进行识别和实体关系识别,在实体中增加时间戳信息,避免无用数据对知识图谱的干扰,使知识图谱更为高效地为使用者提供服务。
为解决上述技术问题,本发明提供的技术方案是:
第一方面,本发明提供一种携带时间戳的中文通用知识图谱的生成方法,包括:
步骤S1,对多种外部数据源和数据库中的实体进行命名实体识别,得到多个命名实体;
步骤S2,对所述多个命名实体进行连接,得到多个实体关系,并在所述多个实体关系中添加时间戳信息,得到多个携带时间戳信息的实体关系;
步骤S3,根据所述多个实体和所述多个携带时间戳信息的实体关系,生成携带时间戳的中文通用知识图谱。
本发明提供一种携带时间戳的中文通用知识图谱的生成方法,其技术方案为:对多种外部数据源和数据库中的实体进行命名实体识别,得到多个命名实体;对所述多个命名实体进行连接,得到多个实体关系,并在所述多个实体关系中添加时间戳信息,得到多个携带时间戳信息的实体关系;根据所述多个实体和所述多个携带时间戳信息的实体关系,生成携带时间戳的中文通用知识图谱。
本发明提供的一种携带时间戳的中文通用知识图谱的生成方法,通过对结构数据和非结构数据中的实体进行识别和实体关系识别,在实体中增加时间戳信息,避免无用数据对知识图谱的干扰,使知识图谱更为高效地为使用者提供服务。
进一步地,所述步骤S2,具体为:
通过RDF三元组,建立索引列表,所述索引列表中包括时间戳信息;
根据所述时间戳信息,在所述多个实体关系中添加时间戳信息,得到多个携带时间戳信息的实体关系。
进一步地,所述步骤S1中,还包括:
对多种外部数据源和数据库中的实体进行命名实体识别,得到多个实体标识符;
对所述多个实体标识符进行标准化处理,得到多个命名实体。
进一步地,多种所述外部数据源包括文本数据、图像数据、音频数据和视频数据中的至少一种。
进一步地,对多种所述外部数据源中的实体进行命名实体识别,具体为:
当所述外部数据源为文本数据,通过条件随机场、有监督或无监督的机器学习的方式对所述文本数据中的实体进行命名实体识别;
当所述外部数据源为图像数据,通过数字图像识别技术对所述图像数据中的实体进行命名实体识别;
当所述外部数据源为音频数据,通过语音识别技术将所述音频数据转化为文本信息后,采用文本数据实体识别技术对所述文本信息中的实体进行命名实体识别;
当所述外部数据源为视频数据,通过视频分析及识别技术对所述视频数据中的实体进行命名实体识别。
进一步地,所述步骤S3,具体为:
通过公共实例或类URI对所述多个命名实体进行连接,得到多个实体关系,所述多个实体关系包括时态相关实体关系和时态无关实体关系。
进一步地,还包括,图谱更新步骤:
获取新的数据,所述新的数据包括外部数据源和数据库;
对所述新的数据中的实体进行实体识别和实体关系抽取;
根据所述实体关系中的时间戳信息,判断所述实体关系与时态的相关性,实现对所述知识图谱的更新。
进一步地,还包括:将事件的起止时间信息保存到所述知识图谱中,根据所述事件的起止时间信息,通过RDF三元组,重新建立新的索引列表,所述新的索引列表中包括时间戳信息和所述事件的起止时间信息。
第二方面,本发明提供一种携带时间戳的中文通用知识图谱的生成装置,包括:
实体识别模块,用于对多种外部数据源和数据库中的实体进行命名实体识别,得到多个命名实体;
时间戳信息添加模块,用于对所述多个命名实体进行连接,得到多个实体关系,并在所述多个实体关系中添加时间戳信息,得到多个携带时间戳信息的实体关系;
知识图谱生成模块,用于根据所述多个实体和所述多个携带时间戳信息的实体关系,生成携带时间戳的中文通用知识图谱。
本发明提供的携带时间戳的中文通用知识图谱的生成装置,其技术方案为:通过实体识别模块,对多种外部数据源和数据库中的实体进行命名实体识别,得到多个命名实体,通过时间戳信息添加模块,对所述多个命名实体进行连接,得到多个实体关系,并在所述多个实体关系中添加时间戳信息,得到多个携带时间戳信息的实体关系;通过知识图谱生成模块,根据所述多个实体和所述多个携带时间戳信息的实体关系,生成携带时间戳的中文通用知识图谱。
本发明提供一种携带时间戳的中文通用知识图谱的生成装置,通过对结构数据和非结构数据中的实体进行识别和实体关系识别,在实体中增加时间戳信息,避免无用数据对知识图谱的干扰,使知识图谱更为高效地为使用者提供服务。
第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现第一方面任一所述的方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
图1示出了本发明实施例所提供的一种携带时间戳的中文通用知识图谱的生成方法的流程图;
图2示出了本发明实施例所提供的一种携带时间戳的中文通用知识图谱的生成装置的示意图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
实施例一
首先,对本发明中出现的名词进行解释:
知识图谱:一种基于图的数据结构,由节点和边组成。知识图谱是实体间关系的最有效表示方式。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。
实体:在知识图谱里,每个节点表示现实世界中存在的“实体”。
实体属性:在知识图谱里,每个节点表示的“实体”的属性。
实体关系:在知识图谱里,每条边为实体与实体之间的“关系”。
第一方面,图1示出了本发明实施例所提供的一种携带时间戳的中文通用知识图谱的生成方法的流程图;如图1所示,实施例一提供的一种携带时间戳的中文通用知识图谱的生成方法,包括:
步骤S1,对多种外部数据源和数据库中的实体进行命名实体识别,得到多个命名实体;
步骤S2,对多个命名实体进行连接,得到多个实体关系,并在多个实体关系中添加时间戳信息,得到多个携带时间戳信息的实体关系;
步骤S3,根据多个实体和多个携带时间戳信息的实体关系,生成携带时间戳的中文通用知识图谱。
本发明提供一种携带时间戳的中文通用知识图谱的生成方法,其技术方案为:对多种外部数据源和数据库中的实体进行命名实体识别,得到多个命名实体,对多个命名实体进行连接,得到多个实体关系,并在多个实体关系中添加时间戳信息,得到多个携带时间戳信息的实体关系;根据多个实体和多个携带时间戳信息的实体关系,生成携带时间戳的中文通用知识图谱。
本发明提供的一种携带时间戳的中文通用知识图谱的生成方法,通过对结构数据和非结构数据中的实体进行识别和实体关系识别,在实体中增加时间戳信息,避免无用数据对知识图谱的干扰,使知识图谱更为高效地为使用者提供服务。
其中,步骤S1中之前,还包括:本体的构建,本体包括通用公开本体和专业领域公开本体,本体用来做数据描述和数据集成。本体可以从OWL(web本体语言)中直接获取,不需要额外的转换。
优选地,还可以在实体识别过程中添加时间戳信息,使实体中携带时间戳信息,实体时间戳可以表示为实体创立时间,实体被添加进知识图谱的时间,可以添加进去增加知识图谱的延拓性。
具体地,步骤S2,具体为:
通过RDF三元组,建立索引列表,索引列表中包括时间戳信息;
根据时间戳信息,在多个实体关系中添加时间戳信息,得到多个携带时间戳信息的实体关系。
其中,命名实体的识别,可通过将多种外部数据源和数据库映射为RDF(资源描述框架)结构实现。
基于RDF三元组,在索引列表中增加时间戳信息,具体过程为:
对于RDF三元组,其结构为<object,predicate,subject>),建立结构如<object,predicate,subject>,<timestamp,flag>的索引列表,其中timestamp为该RDF三元组最后被更新的时间,flag=0:表示RDF三元组不受时间信息影响,如人的出生日期、公司建立日期及其它既定事实,flag=1:表示RDF三元组受时间信息影响,如人的婚姻状况、公司续存信息等。特别地,当某一关系的时间戳不确定时,以符号##顶位。通过标识符flag的赋值,对命名实体进行时间识别,即在命名实体中增加时间戳信息,使实体中包含时间戳信息。
特别地,基于上述结构,通过对不同时间来源的实体关系赋权值,可以为具体应用提供决策依据。
优选地,步骤S1中,还包括:
对多种外部数据源和数据库中的实体进行命名实体识别,得到多个实体标识符;
对多个实体标识符进行标准化处理,得到多个命名实体。
优选地,通过一组策略的前缀对多个实体标识符进行标准化处理,得到多个实体,前缀具有到http URI的定义映射。
由于,对于不同的数据源,没有任何两个源能保证以完全相同的标识符标识同一实体,因此进行标准化处理,使命名实体的识别更准确。
具体地,多种外部数据源包括文本数据、图像数据、音频数据和视频数据中的至少一种。外部数据源为非结构数据,数据库为结构数据。
具体地,对多种外部数据源中的实体进行命名实体识别,具体为:
当外部数据源为文本数据,通过条件随机场、有监督或无监督的机器学习的方式对文本数据中的实体进行命名实体识别;
当外部数据源为图像数据,通过数字图像识别技术对图像数据中的实体进行命名实体识别;具体为:通过图像去燥、分割、特征抽取等步骤获取图像的特征表示,将获取的图像特征输入到分类器中,分类器输出图像中包含的实体类型和实体相关属性,为基于现有技术实现,因此在本发明中不再赘述。
当外部数据源为音频数据,通过语音识别技术将音频数据转化为文本信息后,采用文本数据实体识别技术对文本信息中的实体进行命名实体识别;具体为:语音识别包括语音转文字、分词、标注、命名实体识别等步骤,基于现有技术实现,因此在本发明中不再赘述。
当外部数据源为视频数据,通过视频分析及识别技术对视频数据中的实体进行命名实体识别。具体为:包括:关键帧提取、上下文分析、关键帧识别、场景识别等,其实现方式为基于现有技术实现的,因此在本发明中不再赘述。
不同类型的数据,命名实体的识别过程也不尽相同,对于不同类型的数据进行差异性的识别处理,保证命名实体识别的准确性。
优选地,步骤S3,具体为:
通过公共实例或类URI对多个实体进行连接,得到多个实体关系,多个实体关系包括时态相关实体关系和时态无关实体关系。
将知识图谱中的关系区分为时态相关和时态无关两种,这种区分是以RDF三元组中的predicate和经验为依据进行的。使知识图谱中携带时间戳信息,基于时间戳信息的知识图谱可以通过知识图谱更为高效地为使用者提供行程管理、情绪记录等日常相关服务。
优选地,还包括,图谱更新步骤:
获取新的数据,新的数据包括外部数据源和数据库;
对新的数据中的实体进行实体识别和实体关系抽取;
根据实体关系中的时间戳信息,判断实体关系与时态的相关性,实现对知识图谱的更新。
通过时间戳建立负反馈的知识图谱自学习进化方案,结合时态信息更新知识,图谱使图谱保持更新状态。
具体举例说明:
当一个实体关系需要更新,系统判断flag=1(时态相关),且时间戳携带的时间信息早于新的关系携带的时间信息,则更新实体关系;
当实体属性(人的姓名)需要更新,且人名最后更新时间(时间戳携带的时间信息)为2016.12.12,当前时间为2017.7.18(新的关系携带的时间信息),则更新人名;
当实体属性(人的性别)需要更新,系统判断flag=0(时态无关),则拒绝此次更新;
当实体关系(人的父母)需要更新,系统判断flag=0,则拒绝此次更新;
当实体关系(人的配偶)需要更新,系统判断flag=1,且配偶关系最后更新时间(时间戳携带的时间信息)为2016.12.12晚于新的关系携带的时间信息(2015.4.13),则拒绝更新。
优选地,通过定期爬取社交网站获得新的数据,或通过定期搜索日志获得。
由于定期获得新的数据对知识图谱进行更新,可保证知识图谱进行半监督/无监督的更新。
结合上述两种新的数据的获取方式,对图谱的更新进行具体说明:
第一种更新方式,定期爬取社交网站(如微博、豆瓣、天涯、知乎)产生的新内容,作为新的数据,并进行实体识别与实体关系抽取。对新抽取到的实体关系,首先判断该关系的flag的值,如果判断该关系与时态相关,则更新知识图谱中的这条关系;如果判断该关系与时态无关且这条关系与知识图谱中已有的关系冲突,则需要进行消歧的处理(标准化处理)。
第二种更新方式,定期挖掘形如<查询,点击的页面链接,时间戳>的搜索日志,从查询的关键词短语和点击的页面所对应的标题中抽取实体及其属性,以发现最新出现的各种实体及其属性,采用第一种更新方式中的判别更新的方式进行更新,保证知识图谱的实时性。
另外,在使用者与机器进行交互的过程中,可以结合时间戳信息更新机器自身的知识图谱和以用户为中心的知识图谱:
a、机器不断修正自身的属性和技能、学习具体使用者的习惯,结合机器自身的周期性生活习惯,记录机器主观的情绪变换及关键事件。
b、及时补充完善用户的日常行程安排。
c、实时更新用户与时间相关属性的属性值,比如:婚姻状况、社会关系状况、职业状况、健康状况、情绪状态等。
基于携带时间戳信息的知识图谱,在人机交互过程中,可基于时间戳信息进行知识图谱的不断完善,同时,对于人机交互的过程中,知识图谱更加完善,可为使用者和机器人之间提供更准确更智能的回复,提高人机交互的体验,比如根据事件的发生起止时间,在交互过程中,机器人会根据事件先后辨别使用者最新的状态,比如婚姻状况、社会关系等,避免出现让使用者不想聊的话题,比如该使用者近期已经离婚,如果没有及时根据离婚时间进行使用者图谱的更新,在人机交互过程中,机器人提到使用者的妻子或丈夫时,会使使用者不开心,降低用户体验,但如果已经及时更新了使用者的婚姻状况,就会避免上述情况的发生,还可尽量提一些让使用者开心的话题,让使用者开心,提高用户体验。
优选地,还包括:将事件的起止时间信息保存到知识图谱中,根据事件的起止时间信息,通过RDF三元组,重新建立新的索引列表,新的索引列表中包括时间戳信息和事件的起止时间信息。
将事件发生的起始时间作为时间戳信息保存到知识图谱中,具体地RDF三元组的格式变为:
<object,predicate,subject>,<timestamp,flag>,<start date>,<end date>
这种方式可以更有效地抽取事件相关问题的回答,提高用户体验度。
第二方面,本发明提供一种携带时间戳的中文通用知识图谱的生成装置10,包括:
实体识别模块101,用于对多种外部数据源和数据库中的实体进行命名实体识别,得到多个命名实体;
时间戳信息添加模块102,用于对多个命名实体进行连接,得到多个实体关系,并在多个实体关系中添加时间戳信息,得到多个携带时间戳信息的实体关系;
知识图谱生成模块103,用于根据多个实体和多个携带时间戳信息的实体关系,生成携带时间戳的中文通用知识图谱。
本发明提供的携带时间戳的中文通用知识图谱的生成装置10,其技术方案为:通过实体识别模块101,对多种外部数据源和数据库中的实体进行命名实体识别,得到多个命名实体,通过时间戳信息添加模块102,对多个命名实体进行连接,得到多个实体关系,并在多个实体关系中添加时间戳信息,得到多个携带时间戳信息的实体关系;通过知识图谱生成模块103,根据多个实体和多个携带时间戳信息的实体关系,生成携带时间戳的中文通用知识图谱。
本发明提供一种携带时间戳的中文通用知识图谱的生成装置10,通过对结构数据和非结构数据中的实体进行识别和实体关系识别,在实体中增加时间戳信息,避免无用数据对知识图谱的干扰,使知识图谱更为高效地为使用者提供服务。
第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现第一方面任一的方法。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (5)
1.一种携带时间戳的中文通用知识图谱的生成方法,其特征在于,包括:
步骤S1,对多种外部数据源和数据库中的实体进行命名实体识别,得到多个命名实体;
步骤S2,对所述多个命名实体进行连接,得到多个实体关系,并在所述多个实体关系中添加时间戳信息,得到多个携带时间戳信息的实体关系;
步骤S3,根据所述多个实体和所述多个携带时间戳信息的实体关系,生成携带时间戳的中文通用知识图谱;
所述步骤S2,具体为:
通过RDF三元组,建立索引列表,所述索引列表中包括时间戳信息;
根据所述时间戳信息,在所述多个实体关系中添加时间戳信息,得到多个携带时间戳信息的实体关系;
所述步骤S1中,还包括:
对多种外部数据源和数据库中的实体进行命名实体识别,得到多个实体标识符;
对所述多个实体标识符进行标准化处理,得到多个命名实体;
所述步骤S3,具体为:
通过公共实例或类URI对所述多个命名实体进行连接,得到多个实体关系,所述多个实体关系包括时态相关实体关系和时态无关实体关系;
还包括,图谱更新步骤:
获取新的数据,所述新的数据包括外部数据源和数据库;
对所述新的数据中的实体进行实体识别和实体关系抽取;
根据所述实体关系中的时间戳信息,判断所述实体关系与时态的相关性,实现对所述知识图谱的更新;
所述新的数据通过定期爬取社交网站获得,或通过定期搜索日志获得;
还包括:将事件的起止时间信息保存到所述知识图谱中,根据所述事件的起止时间信息,通过RDF三元组,重新建立新的索引列表,所述新的索引列表中包括时间戳信息和所述事件的起止时间信息。
2.根据权利要求1所述的携带时间戳的中文通用知识图谱的生成方法,其特征在于,
多种所述外部数据源包括文本数据、图像数据、音频数据和视频数据中的至少一种。
3.根据权利要求2所述的携带时间戳的中文通用知识图谱的生成方法,其特征在于,
对多种所述外部数据源中的实体进行命名实体识别,具体为:
当所述外部数据源为文本数据,通过条件随机场、有监督或无监督的机器学习的方式对所述文本数据中的实体进行命名实体识别;
当所述外部数据源为图像数据,通过数字图像识别技术对所述图像数据中的实体进行命名实体识别;
当所述外部数据源为音频数据,通过语音识别技术将所述音频数据转化为文本信息后,采用文本数据实体识别技术对所述文本信息中的实体进行命名实体识别;
当所述外部数据源为视频数据,通过视频分析及识别技术对所述视频数据中的实体进行命名实体识别。
4.一种实施权利要求1-3之一所述的携带时间戳的中文通用知识图谱的生成方法的携带时间戳的中文通用知识图谱的生成装置,其特征在于,包括:
实体识别模块,用于对多种外部数据源和数据库中的实体进行命名实体识别,得到多个命名实体;
时间戳信息添加模块,用于对所述多个命名实体进行连接,得到多个实体关系,并在所述多个实体关系中添加时间戳信息,得到多个携带时间戳信息的实体关系;
知识图谱生成模块,用于根据所述多个实体和所述多个携带时间戳信息的实体关系,生成携带时间戳的中文通用知识图谱。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-3之一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710601438.9A CN107391673B (zh) | 2017-07-21 | 2017-07-21 | 携带时间戳的中文通用知识图谱的生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710601438.9A CN107391673B (zh) | 2017-07-21 | 2017-07-21 | 携带时间戳的中文通用知识图谱的生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107391673A CN107391673A (zh) | 2017-11-24 |
CN107391673B true CN107391673B (zh) | 2020-11-03 |
Family
ID=60335737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710601438.9A Expired - Fee Related CN107391673B (zh) | 2017-07-21 | 2017-07-21 | 携带时间戳的中文通用知识图谱的生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107391673B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052501A (zh) * | 2017-12-13 | 2018-05-18 | 北京数洋智慧科技有限公司 | 一种基于人工智能的实体关系对识别方法及系统 |
CN110019911A (zh) * | 2017-12-29 | 2019-07-16 | 苏州工业职业技术学院 | 支持知识演化的知识图谱的查询方法和装置 |
CN108197269A (zh) * | 2018-01-04 | 2018-06-22 | 北京金堤科技有限公司 | 一种动态关系图谱的生成方法、装置和用户终端 |
CN108171213A (zh) * | 2018-01-22 | 2018-06-15 | 北京邮电大学 | 一种适用图文知识图谱的关系抽取方法 |
CN108920588B (zh) * | 2018-06-26 | 2021-02-26 | 北京光年无限科技有限公司 | 一种用于人机交互的知识图谱更新方法及系统 |
CN109145123B (zh) * | 2018-09-30 | 2020-11-17 | 国信优易数据股份有限公司 | 知识图谱模型的构建方法、智能交互方法、系统及电子设备 |
CN109636564A (zh) * | 2018-10-16 | 2019-04-16 | 平安科技(深圳)有限公司 | 用于风控的信息核实方法、装置、设备及存储介质 |
CN109614498A (zh) * | 2018-11-20 | 2019-04-12 | 北京松鼠山科技有限公司 | 知识库构建方法及装置 |
CN109960722B (zh) * | 2019-03-31 | 2021-10-22 | 联想(北京)有限公司 | 一种信息处理方法及装置 |
CN110119694B (zh) * | 2019-04-24 | 2021-03-12 | 北京百炼智能科技有限公司 | 一种图片处理方法、装置及计算机可读存储介质 |
CN110222156B (zh) * | 2019-06-14 | 2021-11-16 | 北京百度网讯科技有限公司 | 发现实体的方法和装置、电子设备、计算机可读介质 |
CN110580293A (zh) * | 2019-09-03 | 2019-12-17 | 北京明略软件系统有限公司 | 实体关系的存储方法及装置 |
CN111414484B (zh) * | 2020-03-04 | 2021-05-28 | 科大讯飞(苏州)科技有限公司 | 有效时段信息确定方法、装置、电子设备和存储介质 |
CN113742498B (zh) * | 2021-09-24 | 2024-04-09 | 国务院国有资产监督管理委员会研究中心 | 一种知识图谱的构建更新方法 |
CN114579672B (zh) * | 2022-01-11 | 2024-10-29 | 南京航空航天大学 | 一种基于关系型数据库PostgreSQL的时态RDF存储和查询方法 |
CN115858822B (zh) * | 2023-02-21 | 2023-05-26 | 北京网智天元大数据科技有限公司 | 一种时序知识图谱构建方法及系统 |
CN117435694A (zh) * | 2023-08-29 | 2024-01-23 | 南通康盛医疗器械有限公司 | 一种医疗器械智能化检索系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355627A (zh) * | 2015-07-16 | 2017-01-25 | 中国石油化工股份有限公司 | 一种用于生成知识图谱的方法及系统 |
CN106777331A (zh) * | 2017-01-11 | 2017-05-31 | 北京航空航天大学 | 知识图谱生成方法及装置 |
-
2017
- 2017-07-21 CN CN201710601438.9A patent/CN107391673B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355627A (zh) * | 2015-07-16 | 2017-01-25 | 中国石油化工股份有限公司 | 一种用于生成知识图谱的方法及系统 |
CN106777331A (zh) * | 2017-01-11 | 2017-05-31 | 北京航空航天大学 | 知识图谱生成方法及装置 |
Non-Patent Citations (1)
Title |
---|
"信息抽取中实体关系识别研究";张奇;《中国博士学位论文全文数据库 信息科技辑》;20100915(第9期);正文第41-51页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107391673A (zh) | 2017-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107391673B (zh) | 携带时间戳的中文通用知识图谱的生成方法及装置 | |
CN107391677B (zh) | 携带实体关系属性的中文通用知识图谱的生成方法及装置 | |
US8631048B1 (en) | Data alignment system | |
US9373086B1 (en) | Crowdsource reasoning process to facilitate question answering | |
US20160196491A1 (en) | Method For Recommending Content To Ingest As Corpora Based On Interaction History In Natural Language Question And Answering Systems | |
US20120158791A1 (en) | Feature vector construction | |
Debattista et al. | Linked'Big'Data: towards a manifold increase in big data value and veracity | |
KR101684579B1 (ko) | 지식 생성 시스템 및 방법 | |
Gunaratna et al. | Alignment and dataset identification of linked data in semantic web | |
Sebei et al. | SNOWL model: social networks unification-based semantic data integration | |
Guo et al. | Topic mining for call centers based on A‐LDA and distributed computing | |
Rogushina | Ontological Approach in the Smart Data Paradigm as a Basis for Open Data Semantic Markup. | |
CN116467291A (zh) | 一种知识图谱存储与搜索方法及系统 | |
Cudré-Mauroux et al. | PicShark: mitigating metadata scarcity through large-scale P2P collaboration | |
Carmagnola | Handling semantic heterogeneity in interoperable distributed user models | |
Lakshmi et al. | Search for social smart objects constituting sensor ontology, social iot and social network interaction | |
Shoaib et al. | Ontology based knowledge representation and semantic profiling in personalized semantic social networking framework | |
Hu et al. | Construction of domain knowledge graph based on open source intelligence | |
El Asikri et al. | Mining the Web for learning ontologies: State of art and critical review | |
Grassi et al. | Towards an RDF encoding of ConceptNet | |
Bravo et al. | Enriching semantically web service descriptions | |
Rettinger et al. | Semantic technologies: enabler for knowledge 4.0 | |
Riemer et al. | Using complex event processing for modeling semantic requests in real-time social media monitoring | |
Seidler et al. | MOSAIC: Criminal network analysis for multi-modal surveillance and decision support | |
Stegmayer et al. | ANN-agent for distributed knowledge source discovery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 301, Building 39, 239 Renmin Road, Gusu District, Suzhou City, Jiangsu Province, 215000 Applicant after: SHENZHEN GOWILD ROBOTICS Co.,Ltd. Address before: Oriental Science and Technology Building No. 16 Keyuan Road, Shenzhen street 518057 city in Guangdong province Nanshan District Guangdong 1307-09 Applicant before: SHENZHEN GOWILD ROBOTICS Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201103 Termination date: 20210721 |