[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111209412A - 一种循环更新迭代的期刊文献知识图谱构建方法 - Google Patents

一种循环更新迭代的期刊文献知识图谱构建方法 Download PDF

Info

Publication number
CN111209412A
CN111209412A CN202010084144.5A CN202010084144A CN111209412A CN 111209412 A CN111209412 A CN 111209412A CN 202010084144 A CN202010084144 A CN 202010084144A CN 111209412 A CN111209412 A CN 111209412A
Authority
CN
China
Prior art keywords
entity
extraction
ontology
dictionary
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010084144.5A
Other languages
English (en)
Other versions
CN111209412B (zh
Inventor
吕强
段飞虎
蔡陨
谢一鸣
胡磊
冯自强
张宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Original Assignee
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Tongfang Knowledge Network Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongfang Knowledge Network Digital Publishing Technology Co ltd, Tongfang Knowledge Network Beijing Technology Co ltd filed Critical Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority to CN202010084144.5A priority Critical patent/CN111209412B/zh
Publication of CN111209412A publication Critical patent/CN111209412A/zh
Application granted granted Critical
Publication of CN111209412B publication Critical patent/CN111209412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种循环更新迭代的期刊文献知识图谱构建方法,包括概念模型设计,定义期刊文献知识图谱的本体结构,包括定义本体、本体的关系属性和本体内部的数据属性;管理词表和语料,词表分为主题词表和关系词表,语料库分为文本库和语句库并涉及多个来源的语料;基于深度学习的标注、训练、识别、校准实体关系抽取模型,采用深度学习实体关系抽取技术结合词典和语料,进行实体抽取和关系抽取,并更新迭代;通过概念设计定义的本体结构并引入模板进行语料属性抽取;对实体识别和关系抽取的结果进行审核和消歧,对于属性抽取的结果进行实体消歧;识别结果存入知识图谱,并不定时更新主题词典、关系词典和训练模型,以新的词典和模型再对语料进行识别达到循环迭代更新构建知识图谱。

Description

一种循环更新迭代的期刊文献知识图谱构建方法
技术领域
本发明涉及自然语言处理和计算机信息处理技术领域,尤其涉及一种循环更新迭代的期刊文献知识图谱构建方法。
背景技术
现有知识图谱是以“语义网络”为骨架构建起来的巨型、网络化的知识系统,旨在描述客观世界的概念、实体、事件及其之间的关系。其中,概念是指人们在认识世界过程中形成对客观事物的概念化表示。知识图谱的关键技术涉及自然语言处理、数据挖掘和信息检索等多个领域,主要分为知识驱动和数据驱动两类,随着大数据的发展到了广泛应用,如法律、社交网络、医疗知识图谱等。
知识图谱构建的关键技术包括包括实体及关系抽取技术、知识融合技术、实体链接技术和知识推理技术,知识图谱构建包含从数据来源到应用等各个环节的相关技术。然而当前知识图谱构建主要侧重点在于实体关系抽取、语义分析等丰富和优化图谱内容环节,并没有在构建流程上进行深入探索。尤其是对于知识图谱的更新迭代和校准没有一个系统的规范,使其达到一个闭环,真正实现构建知识图谱智能化和自动化。
发明内容
为解决上述技术问题,本发明的目的是提供一种循环更新迭代的期刊文献知识图谱构建方法,该方法从自动化构建知识图谱的角度出发,以知网期刊文献库为数据来源,将概念设计、词典管理、语料管理、模型训练、知识元抽取、实体消歧等多个知识图谱构建模块有机结合,通过更新迭代和不断优化知识图谱和训练的准确性从而形成闭环真正实现智能化循环更新迭代构建期刊文献知识图谱。
本发明的目的通过以下的技术方案来实现:
一种循环更新迭代的期刊文献知识图谱构建方法,包括:
A概念模型设计,定义期刊文献知识图谱的本体结构,包括定义本体、本体的关系属性和本体内部的数据属性;
B管理词表和语料,词表分为主题词表和关系词表,语料库分为文本库和语句库并涉及多个来源的语料;
C基于深度学习的标注、训练、识别、校准实体关系抽取模型,采用深度学习实体关系抽取技术结合词典和语料,进行实体抽取和关系抽取,并更新迭代;
D通过概念设计定义的本体结构并引入模板进行语料属性抽取;
E对实体识别和关系抽取的结果进行审核和消歧,对于属性抽取的结果进行实体消歧;
F识别结果存入知识图谱,并不定时更新主题词典、关系词典和训练模型,以新的词典和模型再对语料进行识别达到循环迭代更新构建知识图谱。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
本发明对构建知识图谱提供一个规范流程参考,使构建知识图谱真正面向智能化,相对减少人力资源的浪费,提高知识图谱的易用性和实用性。
附图说明
图1是循环更新迭代的期刊文献知识图谱构建方法流程图;
图2是主题词表结构图;
图3是文本数据库结构图;
图4是语句数据库结构图;
图5是循环更新迭代的期刊文献知识图谱构建方法流程图;
图6是实体识别更新迭代模型流程图;
图7是关系识别更新迭代模型流程图;
图8是属性抽取模型流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为循环更新迭代的期刊文献知识图谱构建方法,包括步骤10概念模型设计,对知识图谱定义本体、数据属性和关系属性的规范。
本体模型参考复用CIDOC CRM、EDM、FOAF、EVENT、FRBR等国际上应用较为广泛的本体模型或数据标准,并根据自身业务特征进行扩展和自定义,提高本体模型的可复用性与国际化程度。
所述期刊文献知识图谱的本体构建包含了对期刊文献知识图谱的本体与数据模型层进行定义,其中包含以下:定义本体、定义本体的关系属性、定义本体内部的数据属性。
所述的本体为对象或对象的集合,例如:文本、作者和机构等信息。本体的关系属性主要定义本体之间的关联关系,例如:作者和作者之间有合作关系、作者和机构之间有从属关系等。本体内部的数据属性是本体自身的特征不存在关联关系,例如:作者姓名、年龄和籍贯等。
本发明为知识图谱定义了三元组规范:(E1,R,E2),(E,P,V)其中E代表本体,R代表关系属性,P代表数据属性,V代表属性值。在实体-关系-实体的联系中,实体的值域是本体。
定义的期刊文献部分本体结构如下表:
表1
标识 本体
E1 文本
E2 作者
E3 机构
E4 时间
E5 关系类型
E6 领域实体
E7 地区
定义的期刊文献部分关系属性如下表:
表2
Figure BDA0002381426920000041
步骤20管理词表和语料,词表分为主题词表和关系词表,语料库分为文本库和语句库并涉及多个来源的语料;
期刊文献知识图谱的词表和语料库采用中图分类法的形式分成多个领域的数据。在词表在形式上分为主题词表和关系词表,主题词表定义了实体词的来源、领域、子领域等属性,关系词表定义了主题词表实体词之间的关系,在文献期刊中对词关系定义了上下位、相似、反义、相关等10种关系。
语料库分为文本库和语句库,文本库是网络期刊文献和本地资源的集合库,主要存储文献数据。为了便于进行文本深度挖掘,对文本库的期刊文献进行了预处理,并形成了语句库。其中语句库包含了来自期刊文献的语句以及主题词表中实体词所在语句的位置。其中,主题词表结构如图2所示。
其中content为实体词,English为英文翻译,catalog为中图分类,domain为词的来源等。
关系词表如表3:
表3
Figure BDA0002381426920000051
其中orgid和tarid为实体词所在主题词表的索引id,reltype为词关系id。语料库中文本库和语句库如图3和图4所示。
步骤30基于深度学习的标注、训练、识别、校准实体关系抽取模型,采用深度学习实体关系抽取技术结合词典和语料,进行实体抽取和关系抽取,并更新迭代。
实体抽取的更新迭代:
1、使用词典对语料集进行标注,对在语料中出现的实体词标注标签。
2、选取实体识别算法对标注集进行训练。实体识别的算法由机器学习到深度学习经历了一个更新迭代的过程,例如:HMM,CRF,BILSTM+CRF,Bert+BILSTM+CRF等。本发明采取Bert+BILSTM+CRF的算法进行实体识别。
3、使用训练好的标注模型继续对语料进行识别,并将识别结果进行校准将主题词典中未出现的新词保存到主题词典中。
4、再次用更新后的词典进行标注,并再次训练更新模型和词典。
实体抽取过程通过加入主题词典并以循环标注语料和训练模型的形式形成了更新迭代的闭环。使模型能够不断优化以提高实体识别的准确性。
关系抽取的更新迭代:
1、使用关系词典和已有的关系抽取模板对语句集进行标注,并形成训练模型。关系抽取涉及领域较广,传统的深度学习模型很难在关系抽取的训练上有较好的表现。因此,传统关系抽取设计了大量的模板包含了词性和语法特征。本发明通过模板和关系词库两种模式对语句集进行标注并形成训练样本。
2、选取关系抽取算法对标注集进行训练,关系抽取模型选取PCNN+Attention算法。使用使用CNN/PCNN作为sentence encoder,并使用句子级别的attention机制。
3、使用训练模型对新的语料进行关系识别,并将识别结果保存到数据库中通过人工审核进行纠正并保存到关系词典和语句集中,为新的训练样本进行语料储备。
4、使用新的训练样本再次识别语料并做循环迭代。
关系识别与实体识别采取同样的循环迭代流程,同时结合以往大量经验形成的模板提高识别的准确性。
循环更新迭代的期刊文献知识图谱构建方法流程图如图5所示,本地数据和期刊文献数据经过统一映射整理到文本库,文本库数据经过预处理形成语句库。文本库和语句库的数据为实体抽取模型和关系识别模型的输入语聊,词表中的主题词和关系词也伴随语料输入模型,属性抽取模型同时引入概念模型。实体抽取和关系识别模型的输出分别是识别的实体和新的关系词组,属性抽取模型输出是实体属性三元组。实体消歧之后进行校准并更新词表数据库和期刊文献知识图谱。新的词表再结合新的语料进行模型训练书输出的数据再次更新词表和知识图谱,由此过程实现更新迭代并不断修正模型和词表和知识图谱提高准确率和易用性,形成有机的智能的循环更新迭代机制。
如图6为实体识别更新迭代模型,通过词表对语料进行实体标注并将标注样本输入模型进行训练。训练出的模型对语料进行实体识别,识别结果再次更新词表和知识图谱从而形成实体识别的更新迭代模型。
同时关系识别更新迭代模型流程图如图7所示。
步骤40通过概念设计定义的本体结构并引入模板进行语料属性抽取。
属性抽取采用了依存句法分析模型,属性抽取过程如下:
1、结合概念设计中定义的本体结构和数据属性,形成实体属性模板并在语句集中遍历实体与存在相关属性的语句。
2、采用CRF算法对语句进行词性标注,实体词往往具有其固定词性,词性标注的难点在于对未登陆词判定词性和对词组词汇词性的判断。词性标注的结果对句法分析有很大影响。因此,使用CRF进行词性标注能够学习更多的实体特征并利于更新迭代。
3、将标注结果代入句法分析器进行句法分析,句法分析器采用依存算法,该算法的核心基于arc-standard系统,使用分类器根据从配置信息中提取的特征来预测正确的转换操作,计算效率非常高
4、通过匹配语法模板来分析句法结果并抽取属性,例如主谓宾结构等。
如图8所示为属性抽取模型,概念模型和主题词典作为输入从语句库抽取语句当做样本模型。样本模型通过CRF做词性标注并将标注结果进行依存句法分析,分析出带有语法特征的语句结果,通过语法模板进行属性抽取并形成实体属性三元组存入知识图谱中。属性抽取模型的更新迭代主要通过循环训练CRF模型校准词性标注的准确率。
步骤50实体消歧和审核,对实体识别和关系抽取的结果进行审核和消歧,对于属性抽取的结果进行实体消歧。
实体消歧主要解决自然语言存在的一词多义和多词一义的现象。实体消歧分为两步,第一步在实体识别和关系识别之前上进行深度学习的消歧;第二主要采用关系词典和主题词典进行匹配消歧。将实体识别、关系识别和属性抽取的结果进行消歧。
步骤60识别结果存入知识图谱,并不定时更新主题词典、关系词典和训练模型。以新的词典和模型再对语料进行识别达到循环迭代更新构建知识图谱。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (6)

1.一种循环更新迭代的期刊文献知识图谱构建方法,其特征在于,所述方法包括:
A概念模型设计,定义期刊文献知识图谱的本体结构,包括定义本体、本体的关系属性和本体内部的数据属性;
B管理词表和语料,词表分为主题词表和关系词表,语料库分为文本库和语句库并涉及多个来源的语料;
C基于深度学习的标注、训练、识别、校准实体关系抽取模型,采用深度学习实体关系抽取技术结合词典和语料,进行实体抽取和关系抽取,并更新迭代;
D通过概念设计定义的本体结构并引入模板进行语料属性抽取;
E对实体识别和关系抽取的结果进行审核和消歧,对于属性抽取的结果进行实体消歧;
F识别结果存入知识图谱,并不定时更新主题词典、关系词典和训练模型,以新的词典和模型再对语料进行识别达到循环迭代更新构建知识图谱。
2.如权利要求1所述的循环更新迭代的期刊文献知识图谱构建方法,其特征在于,所述步骤A中:
本体为对象或对象的集合;
本体的关系属性用于定义本体之间的关联关系;
本体内部的数据属性是本体自身的特征不存在关联关系。
3.如权利要求1所述的循环更新迭代的期刊文献知识图谱构建方法,其特征在于,所述步骤B中:
主题词表定义了实体词的来源、领域与子领域属性;
关系词表定义了主题词表实体词之间的关系,并在文献期刊中对词关系定义了上下位、相似、反义与相关关系;
文本库是网络期刊文献和本地资源的集合库,主要存储文献数据;对文本库的期刊文献进行了预处理,形成了语句库;所述语句库中包含来自期刊文献的语句以及主题词表中实体词所在语句的位置。
4.如权利要求1所述的循环更新迭代的期刊文献知识图谱构建方法,其特征在于,所述步骤C中实体抽取的更新迭代包括:
使用词典对语料集进行标注,对在语料中出现的实体词标注标签;
选取实体识别算法对标注集进行训练;
使用训练好的标注模型继续对语料进行识别,并将识别结果进行校准将主题词典中未出现的新词保存到主题词典中;
再次用更新后的词典进行标注,并再次训练更新模型和词典。
5.如权利要求1所述的循环更新迭代的期刊文献知识图谱构建方法,其特征在于,所述步骤C中关系抽取的更新迭代包括:
使用关系词典和已有的关系抽取模板对语句集进行标注,并形成训练模型;
选取关系抽取算法对标注集进行训练,关系抽取模型选取PCNN+Attention算法;
使用训练模型对新的语料进行关系识别,并将识别结果保存到数据库中通过人工审核进行纠正并保存到关系词典和语句集中,为新的训练样本进行语料储备;
使用新的训练样本再次识别语料并做循环迭代。
6.如权利要求1所述的循环更新迭代的期刊文献知识图谱构建方法,其特征在于,所述步骤D中属性抽取采用了依存句法分析模型,属性抽取过程如下:
结合概念设计中定义的本体结构和数据属性,形成实体属性模板并在语句集中遍历实体与存在相关属性的语句;
采用CRF算法对语句进行词性标注;
将标注结果代入句法分析器进行句法分析;
通过匹配语法模板来分析句法结果并抽取属性。
CN202010084144.5A 2020-02-10 2020-02-10 一种循环更新迭代的期刊文献知识图谱构建方法 Active CN111209412B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010084144.5A CN111209412B (zh) 2020-02-10 2020-02-10 一种循环更新迭代的期刊文献知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010084144.5A CN111209412B (zh) 2020-02-10 2020-02-10 一种循环更新迭代的期刊文献知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN111209412A true CN111209412A (zh) 2020-05-29
CN111209412B CN111209412B (zh) 2023-05-12

Family

ID=70787817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010084144.5A Active CN111209412B (zh) 2020-02-10 2020-02-10 一种循环更新迭代的期刊文献知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN111209412B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753021A (zh) * 2020-06-17 2020-10-09 第四范式(北京)技术有限公司 构建知识图谱的方法、装置、设备和可读存储介质
CN111914550A (zh) * 2020-07-16 2020-11-10 华中师范大学 一种面向限定领域的知识图谱更新方法及系统
CN112100405A (zh) * 2020-09-23 2020-12-18 中国农业大学 一种基于加权lda的兽药残留知识图谱构建方法
CN112101036A (zh) * 2020-09-22 2020-12-18 山东旗帜信息有限公司 一种基于预定义关系的知识联合抽取的方法及装置
CN112559772A (zh) * 2020-12-29 2021-03-26 厦门市美亚柏科信息股份有限公司 一种知识图谱动态维护方法、终端设备及存储介质
CN113010593A (zh) * 2021-04-02 2021-06-22 北京智通云联科技有限公司 非结构化文本的事件抽取方法、系统及装置
CN113010663A (zh) * 2021-04-26 2021-06-22 东华大学 一种基于工业认知图谱的自适应推理问答方法和系统
CN113204648A (zh) * 2021-04-30 2021-08-03 武汉工程大学 一种基于判决书文本的自动抽取关系的知识图谱补全方法
CN113221566A (zh) * 2021-05-08 2021-08-06 北京百度网讯科技有限公司 实体关系抽取方法、装置、电子设备和存储介质
CN113392223A (zh) * 2021-05-12 2021-09-14 同方知网数字出版技术股份有限公司 一种基于气象领域的知识图谱构建方法
CN113392183A (zh) * 2021-05-31 2021-09-14 南京师范大学 一种儿童范畴图谱知识的表征与计算方法
CN113553439A (zh) * 2021-06-18 2021-10-26 杭州摸象大数据科技有限公司 知识图谱挖掘的方法和系统
WO2021254457A1 (zh) * 2020-06-17 2021-12-23 第四范式(北京)技术有限公司 构建知识图谱的方法及装置、计算机装置及存储介质
CN116205217A (zh) * 2023-05-05 2023-06-02 北京邮电大学 一种小样本关系抽取方法、系统、电子设备及存储介质
CN117009519A (zh) * 2023-07-19 2023-11-07 上交所技术有限责任公司 一种基于词袋模型的企业挂靠产业方法
CN112000791B (zh) * 2020-08-26 2024-02-02 哈电发电设备国家工程研究中心有限公司 一种电机故障知识抽取系统及方法
CN117725229A (zh) * 2024-01-08 2024-03-19 中国科学技术信息研究所 一种知识组织体系辅助更新方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN106844658A (zh) * 2017-01-23 2017-06-13 中山大学 一种中文文本知识图谱自动构建方法及系统
WO2018222448A1 (en) * 2017-06-02 2018-12-06 Microsoft Technology Licensing, Llc Modeling an action completion conversation using a knowledge graph
CN110110092A (zh) * 2018-09-30 2019-08-09 北京国双科技有限公司 一种知识图谱构建方法及相关设备
CA3040373A1 (en) * 2018-04-16 2019-10-16 Tata Consultancy Services Limited Deep learning techniques based multi-purpose conversational agents for processing natural language queries

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN106844658A (zh) * 2017-01-23 2017-06-13 中山大学 一种中文文本知识图谱自动构建方法及系统
WO2018222448A1 (en) * 2017-06-02 2018-12-06 Microsoft Technology Licensing, Llc Modeling an action completion conversation using a knowledge graph
CA3040373A1 (en) * 2018-04-16 2019-10-16 Tata Consultancy Services Limited Deep learning techniques based multi-purpose conversational agents for processing natural language queries
CN110110092A (zh) * 2018-09-30 2019-08-09 北京国双科技有限公司 一种知识图谱构建方法及相关设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEIDONG LI,XINYU ZHANG,YAQIAN WANG,ZHIHUAN YAN,RONG PENG: ""Graph2Seq: Fusion Embedding Learning for Knowledge Graph Completion"", 《IEEE ACCESS》 *
徐增林等: "知识图谱技术综述", 《电子科技大学学报》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4170520A4 (en) * 2020-06-17 2023-11-29 The 4th Paradigm Technology Co., Ltd METHOD AND DEVICE FOR CONSTRUCTING A KNOWLEDGE GRAPH, COMPUTER DEVICE AND STORAGE MEDIUM
CN111753021A (zh) * 2020-06-17 2020-10-09 第四范式(北京)技术有限公司 构建知识图谱的方法、装置、设备和可读存储介质
WO2021254457A1 (zh) * 2020-06-17 2021-12-23 第四范式(北京)技术有限公司 构建知识图谱的方法及装置、计算机装置及存储介质
CN111914550A (zh) * 2020-07-16 2020-11-10 华中师范大学 一种面向限定领域的知识图谱更新方法及系统
CN111914550B (zh) * 2020-07-16 2023-12-15 华中师范大学 一种面向限定领域的知识图谱更新方法及系统
CN112000791B (zh) * 2020-08-26 2024-02-02 哈电发电设备国家工程研究中心有限公司 一种电机故障知识抽取系统及方法
CN112101036A (zh) * 2020-09-22 2020-12-18 山东旗帜信息有限公司 一种基于预定义关系的知识联合抽取的方法及装置
CN112100405A (zh) * 2020-09-23 2020-12-18 中国农业大学 一种基于加权lda的兽药残留知识图谱构建方法
CN112100405B (zh) * 2020-09-23 2024-01-30 中国农业大学 一种基于加权lda的兽药残留知识图谱构建方法
CN112559772B (zh) * 2020-12-29 2022-09-09 厦门市美亚柏科信息股份有限公司 一种知识图谱动态维护方法、终端设备及存储介质
CN112559772A (zh) * 2020-12-29 2021-03-26 厦门市美亚柏科信息股份有限公司 一种知识图谱动态维护方法、终端设备及存储介质
CN113010593A (zh) * 2021-04-02 2021-06-22 北京智通云联科技有限公司 非结构化文本的事件抽取方法、系统及装置
CN113010593B (zh) * 2021-04-02 2024-02-13 北京智通云联科技有限公司 非结构化文本的事件抽取方法、系统及装置
CN113010663A (zh) * 2021-04-26 2021-06-22 东华大学 一种基于工业认知图谱的自适应推理问答方法和系统
CN113204648A (zh) * 2021-04-30 2021-08-03 武汉工程大学 一种基于判决书文本的自动抽取关系的知识图谱补全方法
CN113221566B (zh) * 2021-05-08 2023-08-01 北京百度网讯科技有限公司 实体关系抽取方法、装置、电子设备和存储介质
CN113221566A (zh) * 2021-05-08 2021-08-06 北京百度网讯科技有限公司 实体关系抽取方法、装置、电子设备和存储介质
CN113392223A (zh) * 2021-05-12 2021-09-14 同方知网数字出版技术股份有限公司 一种基于气象领域的知识图谱构建方法
CN113392183A (zh) * 2021-05-31 2021-09-14 南京师范大学 一种儿童范畴图谱知识的表征与计算方法
CN113553439A (zh) * 2021-06-18 2021-10-26 杭州摸象大数据科技有限公司 知识图谱挖掘的方法和系统
CN116205217A (zh) * 2023-05-05 2023-06-02 北京邮电大学 一种小样本关系抽取方法、系统、电子设备及存储介质
CN116205217B (zh) * 2023-05-05 2023-09-01 北京邮电大学 一种小样本关系抽取方法、系统、电子设备及存储介质
CN117009519A (zh) * 2023-07-19 2023-11-07 上交所技术有限责任公司 一种基于词袋模型的企业挂靠产业方法
CN117725229A (zh) * 2024-01-08 2024-03-19 中国科学技术信息研究所 一种知识组织体系辅助更新方法

Also Published As

Publication number Publication date
CN111209412B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN111209412B (zh) 一种循环更新迭代的期刊文献知识图谱构建方法
CN109271626B (zh) 文本语义分析方法
Gupta et al. Abstractive summarization: An overview of the state of the art
CN110298033B (zh) 关键词语料标注训练提取系统
CN111310471B (zh) 一种基于bblc模型的旅游命名实体识别方法
Kiyavitskaya et al. Cerno: Light-weight tool support for semantic annotation of textual documents
CN111324742A (zh) 一种数字人文知识图谱的构建方法
Vasyl et al. Application of sentence parsing for determining keywords in Ukrainian texts
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN111061882A (zh) 一种知识图谱构建方法
CN113806563A (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN112183059A (zh) 一种中文结构化事件抽取方法
CN113312922A (zh) 一种改进的篇章级三元组信息抽取方法
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN112257442A (zh) 一种基于扩充语料库神经网络的政策文件信息提取方法
Kanev et al. Metagraph knowledge base and natural language processing pipeline for event extraction and time concept analysis
CN113963748A (zh) 一种蛋白质知识图谱向量化方法
CN117473054A (zh) 基于知识图谱的通用智能问答方法及装置
Lim et al. Real-world sentence boundary detection using multitask learning: A case study on French
CN111241827B (zh) 一种基于句子检索模式的属性抽取方法
CN113821618B (zh) 一种电子病历是否类细项提取方法与系统
Liu et al. An MLM Decoding Space Enhancement for Legal Document Proofreading
Barakhnin et al. Word reordering algorithm for poetry analysis
CN116720502B (zh) 基于机器阅读理解与模板规则的航空文档信息抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230419

Address after: Room B201-B203, B205-B210, 2nd Floor, Building B-2, Zhongguancun Dongsheng Science and Technology Park, No. 66 Xixiaokou Road, Haidian District, Beijing, 100192 (Dongsheng District)

Applicant after: TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLISHING TECHNOLOGY CO.,LTD.

Address before: 100084 Beijing city Haidian District Tsinghua University Tsinghua Yuan 36 zone B1410, Huaye building 1412, room 1414

Applicant before: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co.,Ltd.

Applicant before: TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLISHING TECHNOLOGY CO.,LTD.

GR01 Patent grant
GR01 Patent grant