CN116127090A - 基于融合和半监督信息抽取的航空系统知识图谱构建方法 - Google Patents
基于融合和半监督信息抽取的航空系统知识图谱构建方法 Download PDFInfo
- Publication number
- CN116127090A CN116127090A CN202211699386.0A CN202211699386A CN116127090A CN 116127090 A CN116127090 A CN 116127090A CN 202211699386 A CN202211699386 A CN 202211699386A CN 116127090 A CN116127090 A CN 116127090A
- Authority
- CN
- China
- Prior art keywords
- aviation system
- entity
- aviation
- attribute
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 92
- 238000000605 extraction Methods 0.000 title claims abstract description 76
- 238000010276 construction Methods 0.000 title claims abstract description 29
- 238000002372 labelling Methods 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 32
- 238000000034 method Methods 0.000 claims description 18
- 230000000903 blocking effect Effects 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 15
- 230000014509 gene expression Effects 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 16
- 238000010586 diagram Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于融合和半监督信息抽取的航空系统知识图谱构建方法,其包括:构建航空系统知识体系库,构建航空系统标签与实体类别词表,构建航空系统领域知识体系,构建基于属性与邻居特征的航空系统实体融合模型,构建基于阅读理解的航空系统半监督信息抽取模型,进行航空系统信息抽取,生成航空系统知识图谱。本发明针对知识体系构建问题,基于标签提取与语义特征提出了体系融合算法,降低了构建难度,提高体系丰富度;针对实体融合问题,基于属性与邻居特征提出了实体融合算法,提高了实体融合效果;针对高质量大规模数据难以获取问题,基于阅读理解提出了半监督信息抽取框架,使模型逐渐具有航空系统领域特性,提升了知识图谱实用性。
Description
技术领域
本发明属于知识图谱构建技术领域,特别是一种基于融合和半监督信息抽取的航空系统知识图谱构建方法。
背景技术
随着互联网技术的发展和网络数据的海量增长,知识图谱首先被谷歌提出用于改善搜索引擎的搜索结果,它通过将现实世界中的概念和关联转化为结构化三元组,以图的形式进行存储,形成了一种网络状的结构化知识库,这种网状知识结构具有强大的关系表达能力和对现实世界的建模能力,可以对互联网上繁冗复杂的信息进行组织和整合,将信息转化为有价值的知识,使信息资源可以更好地被理解和使用;同时,网络状的知识结构也具有强大的语义处理能力和开放互通能力,提高了许多下游任务的效果。目前,知识图谱已经被广泛用于问答检索、智能客服、风险控制、用户推荐等多个场景,同时在金融、法律、医疗、工业、政府等多个行业都取得了不错的效果。
由于垂直领域之间数据的差异性与场景应用的特殊性,不同领域的知识图谱不能直接迁移复用,需要根据知识特点和需求场景需求重新构建。然而,现有的知识图谱构建过程缺少具备知识体系融合、实体融合和信息抽取功能的通用工具辅助支撑,构建时面临以下问题:其一,缺少对可复用知识体系的统一管理,导致构建时无法找到相应的参考,增加了构建的难度,降低了知识体系的利用率,而且不同的体系存在对同一属性的不同表述,知识体系融合性能影响图谱构建效果;其二,实体融合未考虑长值属性的特点以及关系节点存在冗余的情况,导致融合准确率下降;其三,高质量大规模的训练数据难以获取而导致的深度学习模型效果下降,知识和业务需求场景存在差异化使得不同领域训练的抽取模型难以迁移复用。因此,针对航空系统,寻求一种基于融合和半监督信息抽取的航空系统知识图谱构建方法,以解决知识体系构建梳理繁琐且体系无法复用、高质量训练数据难以获取以及实体融合未充分考虑实体属性和邻居特征的问题是十分迫切且必要的。
发明内容
本发明针对上述现有技术中的缺陷,提出一种基于融合和半监督信息抽取的航空系统知识图谱构建方法。该方法包括构建航空系统知识体系库,构建航空系统标签与实体类别词表,构建航空系统领域知识体系,构建基于属性与邻居特征的航空系统实体融合模型,构建基于阅读理解的航空系统半监督信息抽取模型,进行航空系统信息抽取,生成航空系统知识图谱。本发明针对知识体系构建问题,基于标签提取与语义特征提出了体系融合算法,降低了构建难度,提高体系丰富度;针对实体融合问题,基于属性与邻居特征提出了实体融合算法,提高了实体融合效果;针对高质量大规模数据难以获取问题,基于阅读理解提出了半监督信息抽取框架,使模型逐渐具有航空系统领域特性,提升了知识图谱实用性。
本发明提供一种基于融合和半监督信息抽取的航空系统知识图谱构建方法,其包括以下步骤:
S1、构建航空系统知识体系库;
S11、获取航空系统原始数据,分别获取表格类数据、JSON类数据和Neo4j图数据库数据,综合作为航空系统原始数据;
S12、进行航空系统数据预处理,得到航空系统实体的属性及实体间的关系;
S13、航空系统统一知识体系存储;考虑到部分航空系统知识图谱可能只存在实体及属性或实体与实体间的关系信息,将步骤S12中获得的航空系统实体的属性由航空系统的实体属性表进行存储,航空系统实体间的关系由航空系统的实体关系表进行存储;
S14、构建航空系统知识体系库:将航空系统的所述实体属性表和实体关系表综合作为航空系统知识体系库;
S2、构建航空系统标签与实体类别词表;
S21、航空系统关键词提取:采用tf-idf关键词提取算法,从航空系统实体名称和描述性属性值中,抽取出航空系统实体的关键词;
S22、获取航空系统标签与实体类别词表:对航空系统同类实体的关键词进行统计和排序获得航空系统高频关键词,使用航空系统高频关键词构建航空系统标签与实体类别词表;
S3、构建航空系统领域知识体系;针对html网页文件进行航空系统实体属性提取、航空系统实体标签提取、航空系统结构特征发现与实体类别对齐和航空系统知识体系融合,获取航空系统领域知识体系;
S4、构建基于属性与邻居特征的航空系统实体融合模型;针对步骤S3所构建的航空系统领域知识体系中的航空系统知识体系融合,基于属性与邻居特征进行改进,获得实体融合后的航空系统领域知识体系;
S5、构建基于阅读理解的航空系统半监督信息抽取模型,生成航空系统知识图谱;
S51、获取航空系统半监督信息抽取模型的输入数据:基于航空系统领域知识体系获得三元组,基于航空系统领域非结构化文本获得文本,所述三元组和文本组合为输入数据;
S52、针对输入数据,基于问句生成模板进行航空系统数据预处理,生成问句语料对集;
S53、针对问句语料对集,采用阅读理解模型生成航空系统预标注数据;
S54、针对问句语料对集,基于阈值设置获取航空系统标注数据;
S55、基于航空系统标注数据进行航空系统信息抽取,生成航空系统知识图谱;
S551、针对航空系统实体识别任务,若训练数据足量,则采用CRF模型进行信息抽取,若训练数据不足,则采用Bert-BiLSTM-CRF模型进行航空系统信息抽取;
S552、针对航空系统关系抽取任务,采用Bert-BiGRU-ATT模型进行航空系统信息抽取;
S553、综合抽取的航空系统信息,返回步骤S43训练迭代,最终生成航空系统知识图谱。
进一步,所述步骤S3具体包括以下步骤:
S31、输入html网页文件并进行航空系统实体属性提取:分析百科网站航空系统的网页结构,通过网页判断具体网站,根据不同网站的InfoBox解析设定不同的规则获取航空系统实体属性;
S32、航空系统实体标签提取:使用基于无监督的隐含狄利克雷分布LDA算法,对百科网站的航空系统描述性信息进行航空系统实体标签提取;
S33、航空系统结构特征发现与实体类别对齐:基于提取的航空系统实体标签,遍历所述航空系统标签与实体类别词表,若命中标签,则返回相应的航空系统实体类别;否则计算与航空系统实体类别的语义相似度,返回语义相似度最高的航空系统实体类别,作为航空系统候选实体类别;
S34、航空系统知识体系融合:针对航空系统实体类别对齐的航空系统实体进行属性融合和结构融合;
S35、获取航空系统领域知识体系:将航空系统知识体系融合获得的航空系统实体组成航空系统领域知识体系,并分别对所述航空系统知识体系库和航空系统标签与实体类别词表进行补充。
可优选的,所述步骤S4具体包括以下步骤:
S41、航空系统实体属性规范化:将航空系统实体属性进行规范化处理,所述规范化处理包括属性名规范化和属性值表达统一化;
S42、航空系统实体分块:将航空系统实体分别进行基于实体名称的分块处理和基于实体类别的分块处理;
S421、将航空系统实体名称转化为Bi-gram系列,并建立航空系统实体倒排索引表;
S422、将航空系统实体插入航空系统实体倒排索引中表中;
S423、将航空系统实体倒排索引表中的长度大于1键值对应的航空系统实体划入同一块;
S424、将块中同一类别的航空系统实体再划入统一子块中,作为最终的航空系统实体分块结果;
S43、航空系统实体对齐:提取航空系统实体属性特征与邻居特征,分别计算匹配度并取平均值,作为航空系统实体对的匹配得分;
S44、航空系统实体融合:对于航空系统实体对的匹配得分超过设定阈值的航空系统实体对进行融合,所述融合包括属性融合和关系融合;航空系统实体属性为单值属性时,比较其属性值的语义相似度,若语义相似度高于一定值时保留一个值,否则两个值都保留;航空系统实体属性为多值属性时,直接将所有值进行保留。
可优选的,所述步骤S52中所述问句生成模板包括第一问句生成模板和第二问句生成模板,基于第一问句生成模板进行航空系统实体识别任务数据预处理,生成第一问句语料对集;基于第二问句生成模板进行航空系统关系抽取任务数据预处理,生成第二问句语料对集;所述问句语料对集包括所述第一问句语料对集和第二问句语料对集;
所述步骤S53中所述阅读理解模型通过接入激活函数为softmax的全连接层,来获取航空系统输出文本的条件概率,通过起始位置和结束位置确定一个航空系统文本片段,计算所述航空系统文本片段的得分,即为答案置信度,最终所述阅读理解模型输出置信度最高的航空系统文本片段;
所述步骤S54中针对第一问句语料对集采用BIO标注方式获取标注数据,针对第二问句语料对集采用第二标注方式获取标注数据,所述BIO标注方式为通过生成一个句子长度的“O”列表,从句子中找到实体词所在位置,将实体类别转化为拼音,实体词的第一个字标注为“B-类别拼音”,其余位置标注为“I-类别拼音”,按行写入文件,得到航空系统标注数据;所述第二标注方式为获取知识体系中的关系类别,生成“类别号-类别”对应表,将类别号、实体对以及句子进行拼接,按行写入文件,得到航空系统标注数据;
所述步骤S551中所述Bert-BiLSTM-CRF模型包括Bert预训练模型、双向LSTM模型和CRF层,所述Bert预训练模型用于捕获语料上下文中的隐藏信息,将结果作为向量输入所述双向LSTM模型,所述双向LSTM模型通过完整的上下文信息自动提取句子特征,在每一步挑选一个最大概率值的标签输出,通过所述CRF层对输出的标签进行合理的限制,所述CRF层通过转移概率对不合理结果进行筛选,将线性链CRF里原始的线性特征函数与双向LSTM的非线性输出相结合;
所述步骤S552中所述Bert-BiGRU-ATT模型包括Bert向量化输入层、隐含层和输出层,所述Bert向量化输入层对文本进行向量化,输入所述隐含层,所述隐含层包括BiGRU层、Attention层和Dense全连接层,所述隐含层用于计算每个词向量应该分配的概率权重,所述BiGRU层对上下文信息进行深层次的特征提取。
可优选的,所述步骤S32中基于无监督的隐含狄利克雷分布LDA算法具体包括以下步骤:
S321、设定标签数k,遍历航空系统文档,将单词随机地与一个标签进行关联;
S322、对于每篇航空系统文档d,扫描每个单词w并计算在航空系统文档d中属于标签t的单词的比例p(topict|documentd)和标签t在所有的航空系统文档中来源于单词w的比例p(wordw|topict);
S323、更新属于标签t的单词w的概率p(wordwwith topict):
p(wordwwith topict)=p(topict|documentd)×p(wordw|topict) (1)。
可优选的,所述步骤S34中所述属性融合为对航空系统实体属性进行遍历,将航空系统实体属性名称转化为Bert词向量,计算Bert词向量的余弦相似度,对于余弦相似度高于一定值的航空系统实体属性只保留一个;所述余弦相似度Similarity的计算为:
Similarity(attr1,attr2)=cos(Bert(attr1),Bert(attr2)) (2)
其中,attr1,attr2分别表示航空系统实体第一属性和航空系统实体第二属性;Bert(attr1),Bert(attr2)分别表示第一Bert词向量和第二Bert词向量。
可优选的,所述步骤S12具体包括以下步骤:
S121、表格表头解析:所述表格类数据对excel表格的表头进行解析,得到航空系统实体的属性及实体间的关系;
S122、JSON格式解析:所述JSON类数据通过解析JSON结构,得到航空系统实体的属性及实体间的关系,
S123、航空系统实体属性及关系统计:所述Neo4j图数据库数据通过Cypher语句查询航空系统数据库所有数据,统计航空系统每类实体含有的属性,统计航空系统实体间的关系。
可优选的,所述步骤S5中所述航空系统半监督信息抽取模型包括航空系统数据预处理模块、航空系统预标注数据生成模块、航空系统标注数据选择与生成模块和航空系统信息抽取模块。
与现有技术相比,本发明的技术效果为:
1、本发明设计的一种基于融合和半监督信息抽取的航空系统知识图谱构建方法,针对知识体系构建的问题,基于标签提取与语义特征提出了体系融合算法,通过构建航空系统知识体系库,对航空系统知识体系进行统一管理,并且基于航空系统知识体系库进行体系融合,降低了构建难度,提高体系丰富度;针对实体融合的问题,提出了基于属性与邻居特征的航空系统实体融合算法,在航空系统实体名称语义的基础上,综合考虑航空系统实体的属性及邻居特征,提高了实体融合的效果。
2、本发明设计的一种基于融合和半监督信息抽取的航空系统知识图谱构建方法,针对高质量大规模数据难以获取的问题,提出了一个基于阅读理解的航空系统半监督信息抽取框架,基于构建的航空系统知识体系库,通过阅读理解模型生成预标注数据,送入信息抽取模型进行训练,模型预测的结果再送回阅读理解模型进行迭代,通过迭代训练的方式使模型逐渐具有航空系统领域特性,从而提高在信息抽取任务上的表现。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1是本发明的基于融合和半监督信息抽取的航空系统知识图谱构建方法流程图;
图2是本发明的基于语义特征的体系融合算法流程图;
图3是本发明的基于属性与邻居特征的航空系统实体融合模型流程图;
图4是本发明的实体分块示例图;
图5是本发明的实体融合流程图;
图6是本发明的基于阅读理解的航空系统半监督信息抽取模型流程图;
图7是本发明的RoBERTa_wwm_ext_large模型示意图;
图8是本发明的航空系统标注数据标注示意图;
图9是本发明的Bert-BiLSTM-CRF模型的示意图;
图10是本发明的Bert-BiGRU-ATT模型的示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了本发明的基于融合和半监督信息抽取的航空系统知识图谱构建方法,该方法包括以下步骤:
S1、构建航空系统知识体系库,如图2所示。
S11、获取航空系统原始数据,分别获取表格类数据、JSON类数据和Neo4j图数据库数据,综合作为航空系统原始数据。
S12、进行航空系统数据预处理,得到航空系统实体的属性及实体间的关系。
S121、表格表头解析:表格类数据对excel表格的表头进行解析,得到航空系统实体的属性及实体间的关系。
S122、JSON格式解析:JSON类数据通过解析JSON结构,得到航空系统实体的属性及实体间的关系。
S123、航空系统实体属性及关系统计:Neo4j图数据库数据通过Cypher语句查询航空系统数据库所有数据,统计航空系统每类实体含有的属性,统计航空系统实体间的关系。
S13、航空系统统一知识体系存储;考虑到部分航空系统知识图谱可能只存在实体及属性或实体与实体间的关系信息,将步骤S12中获得的航空系统实体的属性由航空系统的实体属性表进行存储,航空系统实体间的关系由航空系统的实体关系表进行存储。
S14、构建航空系统知识体系库:将航空系统的实体属性表和实体关系表综合作为航空系统知识体系库。
S2、构建航空系统标签与实体类别词表,如图2所示。
S21、航空系统关键词提取:采用tf-idf关键词提取算法,从航空系统实体名称和描述性属性值中,抽取出航空系统实体的关键词。
S22、获取航空系统标签与实体类别词表:对航空系统同类实体的关键词进行统计和排序获得航空系统高频关键词,使用航空系统高频关键词构建航空系统标签与实体类别词表。
S3、构建航空系统领域知识体系;针对html网页文件进行航空系统实体属性提取、航空系统实体标签提取、航空系统结构特征发现与实体类别对齐和航空系统知识体系融合,获取航空系统领域知识体系,如图2所示。
S31、输入html网页文件并进行航空系统实体属性提取:百科网站的InfoBox具有结构化的属性名称,可以辅助用户构建知识体系,分析百度百科和维基百科两大百科网站的网页结构,通过网页判断具体网站,根据不同网站的InfoBox解析设定不同的规则获取航空系统实体属性。
由于百科网站缺少实体标签,无法与知识体系中的实体类别对齐,所以本发明使用标签提取算法,对百科网站的描述性信息进行航空系统实体标签提取,再根据构建的航空系统标签实体表,找到航空系统候选实体类别。
S32、航空系统实体标签提取:使用基于无监督的隐含狄利克雷分布LDA算法,对百科网站的航空系统描述性信息进行航空系统实体标签提取。
基于无监督的隐含狄利克雷分布LDA算法具体包括以下步骤:
S321、设定标签数k,遍历航空系统文档,将单词随机地与一个标签进行关联。
S322、对于每篇航空系统文档d,扫描每个单词w并计算在航空系统文档d中属于标签t的单词的比例p(topict|documentd)和标签t在所有的航空系统文档中来源于单词w的比例p(wordw|topict)。
S323、更新属于标签t的单词w的概率p(wordw with topict):
p(wordw with topict)=p(topict|documentd)×p(wordw|topict) (1)。
S33、航空系统结构特征发现与实体类别对齐:基于提取的航空系统实体标签,遍历航空系统标签与实体类别词表,若命中标签,则返回相应的航空系统实体类别;否则计算与航空系统实体类别的语义相似度,返回语义相似度最高的航空系统实体类别,作为航空系统候选实体类别。
S34、航空系统知识体系融合:针对航空系统实体类别对齐的航空系统实体进行属性融合和结构融合。
属性融合为对航空系统实体属性进行遍历,将航空系统实体属性名称转化为Bert词向量,计算Bert词向量的余弦相似度,对于余弦相似度高于一定值的航空系统实体属性只保留一个;余弦相似度Similarity的计算为:
Similarity(attr1,attr2)=cos(Bert(attr1),Bert(attr2)) (2)
其中,attr1,attr2分别表示航空系统实体第一属性和航空系统实体第二属性;Bert(attr1),Bert(attr2)分别表示第一Bert词向量和第二Bert词向量。
S35、获取航空系统领域知识体系:将航空系统知识体系融合获得的航空系统实体组成航空系统领域知识体系,分别对航空系统知识体系库和航空系统标签与实体类别词表进行补充。
目前,虽然有众包类型的知识图谱网站,但是其数据形态各异,无法直接使用知识体系进行融合,故通过搜集和整理,通过构建知识体系库的方式,对知识体系使用统一格式进行管理和存储,为体系融合打下了坚实的基础。用户构建知识体系时缺少参考,百科网站的InfoBox能够提供结构化信息,但是缺少实体标签信息,无法直接匹配知识体系库中的类别进行融合,通过对知识图谱的数据进行分析,统计实体名称和描述性属性中的关键词,将类别与高频关键词相对应,构建标签实体类别表,对网页进行解析时,获取描述性信息,然后通过标签提取模型提取实体关键词,通过标签-实体类别表进行映射,找知识体系库中的类别,实现知识体系的复用。语言的多样性导致属性融合时会产生冲突,故本发明使用基于语义特征的体系融合算法,计算属性名称的相似度,合并相似度高的属性,提高知识体系的质量,并且保留其丰富度,此为本发明的一个重要发明点。
S4、构建基于属性与邻居特征的航空系统实体融合模型;针对步骤S3所构建的航空系统领域知识体系中的航空系统知识体系融合,基于属性与邻居特征进行改进,获得实体融合后的航空系统领域知识体系,如图3所示。
S41、航空系统实体属性规范化:将航空系统实体属性进行规范化处理,规范化处理包括属性名规范化和属性值表达统一化。
语言表达的多样性会造成对同一属性的不同描述,可以按照定义的知识体系将属性名进行统一。属性值一般可以分为三类:数值型属性、日期型属性和字符串型属性,数值型属性需要统一单位,如“125厘米”和“1.25米”为相同值的不同形式,应在统一单位下比较属性值是否匹配;日期型属性也存在多种表达,需要将其转化为年-月-日的格式,再进行比较,表达形式的统一可提高后续实体对齐的效果。在一个具体实施例中,针对几类常见数值型属性,设定了标准单位,如表1所示,然后使用正则表达式对数值进行提取,再转化为标准单位;对于日期型属性,通过设计日期表达模板抽取年月日数字化,再结合正则表达式进行转化。
表1
S42、航空系统实体分块:将航空系统实体分别进行基于实体名称的分块处理和基于实体类别的分块处理。
考虑到垂直领域的知识图谱规模都在千级以上,实体间两两匹配会影响实体融合的效率,故引入实体分块技术,将可能指向相同的实体对放入同一块中,实体对齐在实体分块中进行,减少两两匹配的次数。
考虑到冗余实体的特点,指代相同的实体名称中存在重合的序列,但其描述具有多样性,在一个具体实施例中,“银河-1”和“银河一号巨型计算机”指向同一实体,但是名称差别较大,比较文本相似度不会将其作为待对齐实体对,降低了分块的准确率,如图4所示。所以本发明考虑通过实体名称的Bi-gram序列来进行分块,由于类别不同的实体不可能指向一致,所以引入实体类别来对分块结果进行校正,提高分块的准确率。
S421、将航空系统实体名称转化为Bi-gram系列,并建立航空系统实体倒排索引表。
S422、将航空系统实体插入航空系统实体倒排索引中表中。
S423、将航空系统实体倒排索引表中的长度大于1键值对应的航空系统实体划入同一块;
S424、将块中同一类别的航空系统实体再划入统一子块中,作为最终的航空系统实体分块结果。
实体融合是通过发现指向一致的实体对并进行合并,来提高知识图谱质量。由于存在同名指向不同和不同名指向相同的情况,所以需要利用尽可能多实体的信息,提高实体对匹配的准确率。计算实体对匹配度的方法主要可以分为两类,一类是有监督的方式,通过训练得到特征编码模型,从而对待对齐的实体对特征进行编码,计算编码间的相似度,对相似度超过阈值的实体对进行统一;一类是无监督的方式,通过实体信息计算实体对的匹配度,对匹配对高的实体对进行融合。考虑到构建工具的通用性,本发明选择使用无监督的方法进行实体融合,设计了基于实体属性和邻居特征的实体融合算法,充分利用实体的特征,提高实体融合的准确率,其算法框架如图5所示。算法输入为待匹配实体对,输出为实体对匹配得分。
S43、航空系统实体对齐:航空系统实体具有属性与邻居结构两种信息,为了提高实体融合的准确率,本发明对这两类进行充分利用,提取航空系统实体属性特征与邻居特征,分别计算匹配度,考虑到属性信息与结构信息同样重要,所以最终对两种特征的匹配度取平均值,作为航空系统实体对的匹配得分。
S44、航空系统实体融合:对于航空系统实体对的匹配得分超过设定阈值的航空系统实体对进行融合,融合包括属性融合和关系融合。
在融合时,数据多样性会导致属性值存在冲突的情况,本发明设计了一种冲突解决策略,保证实体融合后数据的准确性和多样性。航空系统实体属性为单值属性时,比较其属性值的语义相似度,若语义相似度高于一定值时保留一个值,否则两个值都保留;航空系统实体属性为多值属性时,直接将所有值进行保留。
从多个来源获取数据,能够提高知识图谱知识的多样性,但是会出现数据冗余的问题,实体融合的主要目的是对不同数据源中指代同一实体的节点进行合并,有助于对知识图谱进行纠错和补全,增加知识图谱中知识的多样性,提高知识图谱的质量。由于实体存在两种情况:同名但指代不同实体、不同名但指代相同实体,所以不能简单使用实体名称进行融合。针对实体融合的问题,本发明提出了基于属性与邻居特征的实体融合算法,在实体名称语义的基础上,综合考虑的实体的属性及邻居特征,提高实体融合的质量,此为本发明的又一个重要发明点。
S5、构建基于阅读理解的航空系统半监督信息抽取模型,生成航空系统知识图谱;航空系统半监督信息抽取模型包括航空系统数据预处理模块、航空系统预标注数据生成模块、航空系统标注数据选择与生成模块和航空系统信息抽取模块,如图6所示。
S51、获取航空系统半监督信息抽取模型的输入数据:基于航空系统领域知识体系获得三元组,基于航空系统领域非结构化文本获得文本,三元组和文本组合为输入数据。
S52、针对输入数据,基于问句生成模板进行航空系统数据预处理,生成问句语料对集。
问句生成模板包括第一问句生成模板和第二问句生成模板,基于第一问句生成模板进行航空系统实体识别任务数据预处理,生成第一问句语料对集;基于第二问句生成模板进行航空系统关系抽取任务数据预处理,生成第二问句语料对集;问句语料对集包括第一问句语料对集和第二问句语料对集。
S53、针对问句语料对集,采用阅读理解模型生成航空系统预标注数据;阅读理解模型通过接入激活函数为softmax的全连接层,来获取航空系统输出文本的条件概率,通过起始位置和结束位置确定一个航空系统文本片段,计算航空系统文本片段的得分,即为答案置信度,最终阅读理解模型输出置信度最高的航空系统文本片段。
在一个具体实施例中,如图7所示,考虑到框架的通用性,阅读理解模型使用在海量中文语料上训练的RoBERTa_wwm_ext_large模型(wwm即whole word masking),其是Bert(Bidirectional Encoder Representation from Transformers,来自Transformers的双向编码表示)模型的升级版本,使用哈工大的LTP作为分词工具,通过全词mask和动态遮挡的方式使其在更大的数据集或者更多步数的训练上有更好的表现,RoBERTa还取消了效果不太好的NSP任务,在训练的时候选择用更长的时间,更大的batch size,更多的数据进行训练,提升了模型在下游任务上的效果。
S54、针对问句语料对集,基于阈值设置获取航空系统标注数据,针对第一问句语料对集采用BIO标注方式获取标注数据,针对第二问句语料对集采用第二标注方式获取标注数据;BIO标注方式为通过生成一个句子长度的“O”列表,从句子中找到实体词所在位置,将实体类别转化为拼音,实体词的第一个字标注为“B-类别拼音”,其余位置标注为“I-类别拼音”,按行写入文件,得到航空系统标注数据;第二标注方式为获取知识体系中的关系类别,生成“类别号-类别”对应表,将类别号、实体对以及句子进行拼接,按行写入文件,得到航空系统标注数据。在一个具体实施例中,如图8所示,左侧为采用BIO标注方式标注结果,右侧为采用第二标注方式标注结果。
S55、基于航空系统标注数据进行航空系统信息抽取,生成航空系统知识图谱。
S551、针对航空系统实体识别任务,若训练数据足量,则采用条件随机场(conditional random field)CRF模型进行信息抽取,若训练数据不足,则采用Bert-BiLSTM-CRF模型进行航空系统信息抽取。
实体识别的主要任务是根据定义的知识体系抽取领域实体,不同的模型具有不同的特点,可以适应不同的场景,比如CRF模型的特点是训练速度较快,在足量标注数据的情况下抽取效果也较为理想,适合有足量标注数据且快速抽取结构化数据的场景;Bert-BiLSTM-CRF模型需要一定的训练时间,但是可以减少对标注数据量的需求,适合标注数据不足的场景。预设多种模型,可以适应不同的抽取场景,提高抽取的通用性。
如图9所示,Bert-BiLSTM-CRF模型包括Bert预训练模型、双向LSTM(long short-termmemory)模型和CRF层,Bert预训练模型用于捕获语料上下文中的隐藏信息,将结果作为向量输入双向LSTM模型,双向LSTM模型通过完整的上下文信息自动提取句子特征,在每一步挑选一个最大概率值的标签输出,通过CRF层对输出的标签进行合理的限制,CRF层通过转移概率对不合理结果进行筛选,将线性链CRF里原始的线性特征函数与双向LSTM的非线性输出相结合,提高了实体识别的模型效果。
S552、针对航空系统关系抽取任务,采用Bert-BiGRU-ATT模型进行航空系统信息抽取;
如图10所示,Bert-BiGRU-ATT模型包括Bert向量化输入层、隐含层和输出层,Bert向量化输入层对文本进行向量化,输入隐含层,隐含层包括BiGRU层(双向门控循环单元Bi-gated recurrent unit)、注意力Attention层和密集Dense全连接层,隐含层用于计算每个词向量应该分配的概率权重,BiGRU层对上下文信息进行深层次的特征提取,。
概率权重的计算是通过Attention机制来实现的,通过进一步提取文本的特征,对文本中的关键信息赋予更高的权重,区分不同的文本内容。在句子中,不同的词对关系分类起到不同的作用,某些类别的词语对关系分类的重要程度极小;一些描述关系的词语对关系分类的重要程度极高。引入Attention层对该类词语进行区分,将BiGRU网络激活处理的输出的向量h_ijt输入Attention层,Attention机制矩阵由Attention机制分配的不同概率权重与各个隐层状态的乘积的累加和,使用Softmax函数做归一化操作得到预测标签。
S553、综合抽取的航空系统信息,返回步骤S43训练迭代,最终生成航空系统知识图谱。
知识图谱存储结构化三元组数据,然而获取的数据大多以非结构化文本的形式存储,从非结构化文本中抽取结构化三元组存在以下问题:(1)深度学习模型的抽取效果取决于训练数据的质量和数量,高质量大规模的训练数据难以获取;(2)知识和业务需求场景存在差异化,不同领域训练的抽取模型难以迁移复用。
针对以上两个问题,本发明提出了一个基于阅读理解的航空系统半监督信息抽取模型。所提模型基于定义的知识体系,通过阅读理解模型自动生成预标注数据,选取高质量数据输入信息抽取模型进行训练,抽取模型预测的结果再输入阅读理解模型进行迭代训练,提高模型在航空系统领域抽取任务上的效果;通过自动生成预标注数据结合模型迭代训练的方法,解决标注数据难以获取及模型无法迁移通用的问题,提高模型的通用性,此为本发明的又一个重要发明点。
本发明设计的一种基于融合和半监督信息抽取的航空系统知识图谱构建方法,针对知识体系构建的问题,基于标签提取与语义特征提出了体系融合算法,通过构建航空系统知识体系库,对航空系统知识体系进行统一管理,并且基于航空系统知识体系库进行体系融合,降低了构建难度,提高体系丰富度;针对实体融合的问题,提出了基于属性与邻居特征的航空系统实体融合算法,在航空系统实体名称语义的基础上,综合考虑航空系统实体的属性及邻居特征,提高了实体融合的效果;针对高质量大规模数据难以获取的问题,提出了一个基于阅读理解的航空系统半监督信息抽取框架,基于构建的航空系统知识体系库,通过阅读理解模型生成预标注数据,送入信息抽取模型进行训练,模型预测的结果再送回阅读理解模型进行迭代,通过迭代训练的方式使模型逐渐具有航空系统领域特性,从而提高在信息抽取任务上的表现。
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种基于融合和半监督信息抽取的航空系统知识图谱构建方法,其特征在于,其包括以下步骤:
S1、构建航空系统知识体系库;
S11、获取航空系统原始数据,分别获取表格类数据、JSON类数据和Neo4j图数据库数据,综合作为航空系统原始数据;
S12、进行航空系统数据预处理,得到航空系统实体的属性及实体间的关系;
S13、航空系统统一知识体系存储;考虑到部分航空系统知识图谱可能只存在实体及属性或实体与实体间的关系信息,将步骤S12中获得的航空系统实体的属性由航空系统的实体属性表进行存储,航空系统实体间的关系由航空系统的实体关系表进行存储;
S14、构建航空系统知识体系库:将航空系统的所述实体属性表和实体关系表综合作为航空系统知识体系库;
S2、构建航空系统标签与实体类别词表;
S21、航空系统关键词提取:采用tf-idf关键词提取算法,从航空系统实体名称和描述性属性值中,抽取出航空系统实体的关键词;
S22、获取航空系统标签与实体类别词表:对航空系统同类实体的关键词进行统计和排序获得航空系统高频关键词,使用航空系统高频关键词构建航空系统标签与实体类别词表;
S3、构建航空系统领域知识体系;针对html网页文件进行航空系统实体属性提取、航空系统实体标签提取、航空系统结构特征发现与实体类别对齐和航空系统知识体系融合,获取航空系统领域知识体系;
S4、构建基于属性与邻居特征的航空系统实体融合模型;针对步骤S3所构建的航空系统领域知识体系中的航空系统知识体系融合,基于属性与邻居特征进行改进,获得实体融合后的航空系统领域知识体系;
S5、构建基于阅读理解的航空系统半监督信息抽取模型,生成航空系统知识图谱;
S51、获取航空系统半监督信息抽取模型的输入数据:基于航空系统领域知识体系获得三元组,基于航空系统领域非结构化文本获得文本,所述三元组和文本组合为输入数据;
S52、针对输入数据,基于问句生成模板进行航空系统数据预处理,生成问句语料对集;
S53、针对问句语料对集,采用阅读理解模型生成航空系统预标注数据;
S54、针对问句语料对集,基于阈值设置获取航空系统标注数据;
S55、基于航空系统标注数据进行航空系统信息抽取,生成航空系统知识图谱;
S551、针对航空系统实体识别任务,若训练数据足量,则采用CRF模型进行信息抽取,若训练数据不足,则采用Bert-BiLSTM-CRF模型进行航空系统信息抽取;
S552、针对航空系统关系抽取任务,采用Bert-BiGRU-ATT模型进行航空系统信息抽取;
S553、综合抽取的航空系统信息,返回步骤S43训练迭代,最终生成航空系统知识图谱。
2.根据权利要求1所述的基于融合和半监督信息抽取的航空系统知识图谱构建方法,其特征在于,所述步骤S3具体包括以下步骤:
S31、输入html网页文件并进行航空系统实体属性提取:分析百科网站航空系统的网页结构,通过网页判断具体网站,根据不同网站的InfoBox解析设定不同的规则获取航空系统实体属性;
S32、航空系统实体标签提取:使用基于无监督的隐含狄利克雷分布LDA算法,对百科网站的航空系统描述性信息进行航空系统实体标签提取;
S33、航空系统结构特征发现与实体类别对齐:基于提取的航空系统实体标签,遍历所述航空系统标签与实体类别词表,若命中标签,则返回相应的航空系统实体类别;否则计算与航空系统实体类别的语义相似度,返回语义相似度最高的航空系统实体类别,作为航空系统候选实体类别;
S34、航空系统知识体系融合:针对航空系统实体类别对齐的航空系统实体进行属性融合和结构融合;
S35、获取航空系统领域知识体系:将航空系统知识体系融合获得的航空系统实体组成航空系统领域知识体系,并分别对所述航空系统知识体系库和航空系统标签与实体类别词表进行补充。
3.根据权利要求1所述的基于融合和半监督信息抽取的航空系统知识图谱构建方法,其特征在于,所述步骤S4具体包括以下步骤:
S41、航空系统实体属性规范化:将航空系统实体属性进行规范化处理,所述规范化处理包括属性名规范化和属性值表达统一化;
S42、航空系统实体分块:将航空系统实体分别进行基于实体名称的分块处理和基于实体类别的分块处理;
S421、将航空系统实体名称转化为Bi-gram系列,并建立航空系统实体倒排索引表;
S422、将航空系统实体插入航空系统实体倒排索引中表中;
S423、将航空系统实体倒排索引表中的长度大于1键值对应的航空系统实体划入同一块;
S424、将块中同一类别的航空系统实体再划入统一子块中,作为最终的航空系统实体分块结果;
S43、航空系统实体对齐:提取航空系统实体属性特征与邻居特征,分别计算匹配度并取平均值,作为航空系统实体对的匹配得分;
S44、航空系统实体融合:对于航空系统实体对的匹配得分超过设定阈值的航空系统实体对进行融合,所述融合包括属性融合和关系融合;航空系统实体属性为单值属性时,比较其属性值的语义相似度,若语义相似度高于一定值时保留一个值,否则两个值都保留;航空系统实体属性为多值属性时,直接将所有值进行保留。
4.根据权利要求1所述的基于融合和半监督信息抽取的航空系统知识图谱构建方法,其特征在于,所述步骤S52中所述问句生成模板包括第一问句生成模板和第二问句生成模板,基于第一问句生成模板进行航空系统实体识别任务数据预处理,生成第一问句语料对集;基于第二问句生成模板进行航空系统关系抽取任务数据预处理,生成第二问句语料对集;所述问句语料对集包括所述第一问句语料对集和第二问句语料对集;
所述步骤S53中所述阅读理解模型通过接入激活函数为softmax的全连接层,来获取航空系统输出文本的条件概率,通过起始位置和结束位置确定一个航空系统文本片段,计算所述航空系统文本片段的得分,即为答案置信度,最终所述阅读理解模型输出置信度最高的航空系统文本片段;
所述步骤S54中针对第一问句语料对集采用BIO标注方式获取标注数据,针对第二问句语料对集采用第二标注方式获取标注数据,所述BIO标注方式为通过生成一个句子长度的“O”列表,从句子中找到实体词所在位置,将实体类别转化为拼音,实体词的第一个字标注为“B-类别拼音”,其余位置标注为“I-类别拼音”,按行写入文件,得到航空系统标注数据;所述第二标注方式为获取知识体系中的关系类别,生成“类别号-类别”对应表,将类别号、实体对以及句子进行拼接,按行写入文件,得到航空系统标注数据;
所述步骤S551中所述Bert-BiLSTM-CRF模型包括Bert预训练模型、双向LSTM模型和CRF层,所述Bert预训练模型用于捕获语料上下文中的隐藏信息,将结果作为向量输入所述双向LSTM模型,所述双向LSTM模型通过完整的上下文信息自动提取句子特征,在每一步挑选一个最大概率值的标签输出,通过所述CRF层对输出的标签进行合理的限制,所述CRF层通过转移概率对不合理结果进行筛选,将线性链CRF里原始的线性特征函数与双向LSTM的非线性输出相结合;
所述步骤S552中所述Bert-BiGRU-ATT模型包括Bert向量化输入层、隐含层和输出层,所述Bert向量化输入层对文本进行向量化,输入所述隐含层,所述隐含层包括BiGRU层、Attention层和Dense全连接层,所述隐含层用于计算每个词向量应该分配的概率权重,所述BiGRU层对上下文信息进行深层次的特征提取。
5.根据权利要求1或者步骤2所述的基于融合和半监督信息抽取的航空系统知识图谱构建方法,其特征在于,所述步骤S32中基于无监督的隐含狄利克雷分布LDA算法具体包括以下步骤:
S32l、设定标签数k,遍历航空系统文档,将单词随机地与一个标签进行关联;
S322、对于每篇航空系统文档d,扫描每个单词w并计算在航空系统文档d中属于标签t的单词的比例p(topict1|documentd)和标签t在所有的航空系统文档中来源于单词w的比例p(wordw|topict);
S323、更新属于标签t的单词w的概率p(wordw with topict):
p(wordw with topict)=p(topict|documentd)×p(wordw|topict) (1)。
6.根据权利要求1所述的基于融合和半监督信息抽取的航空系统知识图谱构建方法,其特征在于,所述步骤S34中所述属性融合为对航空系统实体属性进行遍历,将航空系统实体属性名称转化为Bert词向量,计算Bert词向量的余弦相似度,对于余弦相似度高于一定值的航空系统实体属性只保留一个;所述余弦相似度Similarity的计算为:
Similarity(attr1,attr2)=coS(Bert(attr1),Bert(attr2)) (2)
其中,attr1,attr2分别表示航空系统实体第一属性和航空系统实体第二属性;Bert(attr1),Bert(attr2)分别表示第一Bert词向量和第二Bert词向量。
7.根据权利要求1所述的基于融合和半监督信息抽取的航空系统知识图谱构建方法,其特征在于,所述步骤S12具体包括以下步骤:
S121、表格表头解析:所述表格类数据对excel表格的表头进行解析,得到航空系统实体的属性及实体间的关系;
S122、JSON格式解析:所述JSON类数据通过解析JSON结构,得到航空系统实体的属性及实体间的关系,
S123、航空系统实体属性及关系统计:所述Neo4j图数据库数据通过Cypher语句查询航空系统数据库所有数据,统计航空系统每类实体含有的属性,统计航空系统实体间的关系。
8.根据权利要求1所述的基于融合和半监督信息抽取的航空系统知识图谱构建方法,其特征在于,所述步骤S5中所述航空系统半监督信息抽取模型包括航空系统数据预处理模块、航空系统预标注数据生成模块、航空系统标注数据选择与生成模块和航空系统信息抽取模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211699386.0A CN116127090B (zh) | 2022-12-28 | 2022-12-28 | 基于融合和半监督信息抽取的航空系统知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211699386.0A CN116127090B (zh) | 2022-12-28 | 2022-12-28 | 基于融合和半监督信息抽取的航空系统知识图谱构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116127090A true CN116127090A (zh) | 2023-05-16 |
CN116127090B CN116127090B (zh) | 2023-11-21 |
Family
ID=86302108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211699386.0A Active CN116127090B (zh) | 2022-12-28 | 2022-12-28 | 基于融合和半监督信息抽取的航空系统知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116127090B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116701665A (zh) * | 2023-08-08 | 2023-09-05 | 滨州医学院 | 基于深度学习的中医古籍知识图谱构建方法 |
CN116821376A (zh) * | 2023-08-30 | 2023-09-29 | 北京华琦远航国际咨询有限公司 | 煤矿安全生产领域的知识图谱构建方法及系统 |
CN117151222A (zh) * | 2023-09-15 | 2023-12-01 | 大连理工大学 | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 |
CN117786103A (zh) * | 2023-11-07 | 2024-03-29 | 任拓数据科技(上海)有限公司 | 一种基于电商数据和社交媒体营销内容数据建立内容标签的方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019843A (zh) * | 2018-09-30 | 2019-07-16 | 北京国双科技有限公司 | 知识图谱的处理方法及装置 |
CN111444351A (zh) * | 2020-03-24 | 2020-07-24 | 清华苏州环境创新研究院 | 一种行业工艺领域知识图谱构建方法及装置 |
CN112182241A (zh) * | 2020-09-24 | 2021-01-05 | 四川大学 | 一种空管领域知识图谱的自动化构建方法 |
CN112542223A (zh) * | 2020-12-21 | 2021-03-23 | 西南科技大学 | 一种从中文电子病历构建医疗知识图谱的半监督学习方法 |
CN112800247A (zh) * | 2021-04-09 | 2021-05-14 | 华中科技大学 | 基于知识图谱共享的语义编/解码方法、设备和通信系统 |
CN114896417A (zh) * | 2022-05-20 | 2022-08-12 | 郑州轻工业大学 | 一种基于知识图谱构建计算机教育知识图谱的方法 |
CN115329101A (zh) * | 2022-09-06 | 2022-11-11 | 南京邮电大学 | 一种电力物联网标准知识图谱构建方法及装置 |
CN115422370A (zh) * | 2022-08-31 | 2022-12-02 | 苏州空天信息研究院 | 一种基于知识图谱的需求影响域分析方法 |
-
2022
- 2022-12-28 CN CN202211699386.0A patent/CN116127090B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019843A (zh) * | 2018-09-30 | 2019-07-16 | 北京国双科技有限公司 | 知识图谱的处理方法及装置 |
CN111444351A (zh) * | 2020-03-24 | 2020-07-24 | 清华苏州环境创新研究院 | 一种行业工艺领域知识图谱构建方法及装置 |
CN112182241A (zh) * | 2020-09-24 | 2021-01-05 | 四川大学 | 一种空管领域知识图谱的自动化构建方法 |
CN112542223A (zh) * | 2020-12-21 | 2021-03-23 | 西南科技大学 | 一种从中文电子病历构建医疗知识图谱的半监督学习方法 |
CN112800247A (zh) * | 2021-04-09 | 2021-05-14 | 华中科技大学 | 基于知识图谱共享的语义编/解码方法、设备和通信系统 |
CN114896417A (zh) * | 2022-05-20 | 2022-08-12 | 郑州轻工业大学 | 一种基于知识图谱构建计算机教育知识图谱的方法 |
CN115422370A (zh) * | 2022-08-31 | 2022-12-02 | 苏州空天信息研究院 | 一种基于知识图谱的需求影响域分析方法 |
CN115329101A (zh) * | 2022-09-06 | 2022-11-11 | 南京邮电大学 | 一种电力物联网标准知识图谱构建方法及装置 |
Non-Patent Citations (4)
Title |
---|
IRLAN GRANGEL-GONZÁLEZ 等: "Link Prediction with Supervised Learning on an Industry 4.0 related Knowledge Graph", 《2021 26TH IEEE INTERNATIONAL CONFERENCE ON EMERGING TECHNOLOGIES AND FACTORY AUTOMATION (ETFA )》, pages 1 - 8 * |
唐进君 等: "基于BERT-Bi-LSTM-CRF模型的自主式交通系统参与主体识别方法", 《交通信息与安全》, vol. 40, no. 240, pages 80 - 90 * |
董洪飞 等: "航空语义知识库构建方法研究", 《航空标准化与质量》, no. 5, pages 52 - 56 * |
邱凌 等: "航空制造知识图谱构建研究综述", 《计算机应用研究》, vol. 39, no. 4, pages 968 - 977 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116701665A (zh) * | 2023-08-08 | 2023-09-05 | 滨州医学院 | 基于深度学习的中医古籍知识图谱构建方法 |
CN116821376A (zh) * | 2023-08-30 | 2023-09-29 | 北京华琦远航国际咨询有限公司 | 煤矿安全生产领域的知识图谱构建方法及系统 |
CN116821376B (zh) * | 2023-08-30 | 2024-03-08 | 北京华琦远航国际咨询有限公司 | 煤矿安全生产领域的知识图谱构建方法及系统 |
CN117151222A (zh) * | 2023-09-15 | 2023-12-01 | 大连理工大学 | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 |
CN117151222B (zh) * | 2023-09-15 | 2024-05-24 | 大连理工大学 | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 |
CN117786103A (zh) * | 2023-11-07 | 2024-03-29 | 任拓数据科技(上海)有限公司 | 一种基于电商数据和社交媒体营销内容数据建立内容标签的方法 |
CN117786103B (zh) * | 2023-11-07 | 2024-10-18 | 任拓数据科技(上海)有限公司 | 一种基于电商数据和社交媒体营销内容数据建立内容标签的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116127090B (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jung | Semantic vector learning for natural language understanding | |
CN109271529B (zh) | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 | |
CN116127090B (zh) | 基于融合和半监督信息抽取的航空系统知识图谱构建方法 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN112115238B (zh) | 一种基于bert和知识库的问答方法和系统 | |
CN112199511A (zh) | 跨语言多来源垂直领域知识图谱构建方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN109271506A (zh) | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 | |
CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
CN112487190B (zh) | 基于自监督和聚类技术从文本中抽取实体间关系的方法 | |
CN113157859B (zh) | 一种基于上位概念信息的事件检测方法 | |
CN114238653A (zh) | 一种编程教育知识图谱构建、补全与智能问答的方法 | |
CN113761208A (zh) | 一种基于知识图谱的科技创新资讯分类方法和存储设备 | |
CN114443855A (zh) | 一种基于图表示学习的知识图谱跨语言对齐方法 | |
CN111061939A (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN117973519A (zh) | 一种基于知识图谱的数据处理方法 | |
CN115390806A (zh) | 基于双模态联合建模的软件设计模式推荐方法 | |
CN114117000A (zh) | 应答方法、装置、设备及存储介质 | |
Tarride et al. | A comparative study of information extraction strategies using an attention-based neural network | |
Aghaei et al. | Question answering over knowledge graphs: A case study in tourism | |
CN111930892A (zh) | 一种基于改进互信息函数的科技文本分类方法 | |
CN114881043A (zh) | 基于深度学习模型的法律文书语义相似度评估方法及系统 | |
CN117933249A (zh) | 一种装备故障知识的智能交互方法及系统 | |
CN112613318B (zh) | 实体名称归一化系统及其方法、计算机可读介质 | |
Dan et al. | Enhancing legal judgment summarization with integrated semantic and structural information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |