[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN109284396A - 医学知识图谱构建方法、装置、服务器及存储介质 - Google Patents

医学知识图谱构建方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN109284396A
CN109284396A CN201811129838.5A CN201811129838A CN109284396A CN 109284396 A CN109284396 A CN 109284396A CN 201811129838 A CN201811129838 A CN 201811129838A CN 109284396 A CN109284396 A CN 109284396A
Authority
CN
China
Prior art keywords
training
obtains
text data
model
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811129838.5A
Other languages
English (en)
Inventor
沈颖
雷凯
司尚春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Priority to CN201811129838.5A priority Critical patent/CN109284396A/zh
Publication of CN109284396A publication Critical patent/CN109284396A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种医学知识图谱构建方法、装置、服务器及存储介质,属于人工智能领域。所述方法包括:获取文本数据并对文本数据进行预处理,得到训练数据集;采用所述训练数据集进行神经网络训练,得到面向医学文本的同义实体学习模型;采用所述训练数据集进行神经网络训练,得到面向医学文本的关系抽取模型;通过所述同义实体学习模型和所述关系抽取模型从利用医学文本数据中获取同义实体和实体间关系,得到医学知识图谱。该医学知识图谱构建方法通过构建的模型自动化完成,无需通过人工对海量医学数据进行标注来获得,省时省力。

Description

医学知识图谱构建方法、装置、服务器及存储介质
技术领域
本发明涉及人工智能领域,特别涉及一种医学知识图谱构建方法、装置、服务器及存储介质。
背景技术
近几年来,知识图谱开始在学术界和工业界普及并引起广泛关注。知识图谱是一种旨在实现更智能搜索引擎的语义网络,本质上是一个具有有向图结构的知识库。随着互联网和信息产业的发展,医学相关的数据呈爆发式增长。
由于医学这个特定专业领域,与通用领域相比具有较强的专业性,因此在构建知识图谱时会遇到特有的问题,如:医学语境的固化导致某些词汇常常共现,以至共现词被错误解读为同义词;某些医学实体在文本中出现频率过低(也即低频词多),难以学习;实体所在的文本信息不完备、背景知识不足、信息描述模糊,导致关系抽取困难,准确率低;医学专业文本更长,文本中实体间隔更大,带来实体间关系弱、难以捕捉的挑战。因此,现有医学知识图谱主要是通过人工对海量医学数据进行标注来获得,耗时耗力。
发明内容
为了解决现有医学知识图谱主要是通过人工对海量医学数据进行标注来获得,耗时耗力的问题,本发明实施例提供了一种医学知识图谱构建方法、装置、服务器及存储介质。所述技术方案如下:
一方面,本发明实施例提供了一种医学知识图谱构建方法,所述方法包括:
获取文本数据并对文本数据进行预处理,得到训练数据集;
采用所述训练数据集进行神经网络训练,得到面向医学文本的同义实体学习模型;
采用所述训练数据集进行神经网络训练,得到面向医学文本的关系抽取模型;
通过所述同义实体学习模型和所述关系抽取模型从利用医学文本数据中获取同义实体和实体间关系,得到医学知识图谱。
在本发明实施例的一种实现方式中,所述获取文本数据并对文本数据进行预处理,得到训练数据集,包括:
获取多源异构医学领域文本数据;
对获取到的所述多源异构医学领域文本数据进行分词处理,得到医学领域的数据集;
获取通用领域文本数据;
对获取到的所述通用领域文本数据进行分词处理,得到通用领域的数据集;
通过远监督方式对所述医学领域的数据集和所述通用领域的数据集进行文本对齐和标注,得到所述训练数据集。
在本发明实施例的另一种实现方式中,所述采用所述训练数据集进行神经网络训练,得到面向医学文本的同义实体学习模型,包括:
在神经网络语言模型中添加已有医学词汇层级结构信息和现有同义词信息;
设计所述神经网络语言模型,使其能够同时考虑全局上下文和局部上下文;
采用所述训练数据集作为训练语料对所述神经网络语言模型进行训练,得到所述同义实体学习模型。
在本发明实施例的另一种实现方式中,所述采用所述训练数据集进行神经网络训练,得到面向医学文本的关系抽取模型,包括:
采用双向门控循环单元模型作为关系抽取的训练模型,并在所述训练模型中添加注意力机制;
将句法依存信息转化成向量添加到所述训练模型中;
采用所述训练数据集作为训练语料,对所述训练模型进行训练,得到所述关系抽取模型。
另一方面,本发明实施例还提供了一种医学知识图谱构建装置,所述装置包括:
获取模块,用于获取文本数据并对文本数据进行预处理,得到训练数据集;
第一构建模块,用于采用所述训练数据集进行神经网络训练,得到面向医学文本的同义实体学习模型;
第二构建模块,用于采用所述训练数据集进行神经网络训练,得到面向医学文本的关系抽取模型;
处理模块,用于通过所述同义实体学习模型和所述关系抽取模型从利用医学文本数据中获取同义实体和实体间关系,得到医学知识图谱。
在本发明实施例的一种实现方式中,所述获取模块,用于获取多源异构医学领域文本数据;对获取到的所述多源异构医学领域文本数据进行分词处理,得到医学领域的数据集;获取通用领域文本数据;对获取到的所述通用领域文本数据进行分词处理,得到通用领域的数据集;通过远监督方式对所述医学领域的数据集和所述通用领域的数据集进行文本对齐和标注,得到所述训练数据集。
在本发明实施例的另一种实现方式中,所述第一构建模块,用于在神经网络语言模型中添加已有医学词汇层级结构信息和现有同义词信息;设计所述神经网络语言模型,使其能够同时考虑全局上下文和局部上下文;采用所述训练数据集作为训练语料对所述神经网络语言模型进行训练,得到所述同义实体学习模型。
在本发明实施例的另一种实现方式中在本发明实施例的另一种实现方式中,所述第二构建模块,用于采用双向门控循环单元模型作为关系抽取的训练模型,并在所述训练模型中添加注意力机制;将句法依存信息转化成向量添加到所述训练模型中;采用所述训练数据集作为训练语料,对所述训练模型进行训练,得到所述关系抽取模型。
另一方面,本发明实施例还提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如第一方面任一项所述的医学知识图谱构建方法。
另一方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如第一方面任一项所述的医学知识图谱构建方法。
本发明实施例提供的技术方案带来的有益效果是:
本发明提供的方案通过获取文本数据并对文本数据进行预处理,得到训练数据集,然后利用训练数据集训练同义实体学习模型和关系抽取模型,采用训练得到的同义实体学习模型和关系抽取模型进行同义实体学习和实体间关系的抽取,得到医学知识图谱,该医学知识图谱构建方法通过构建的模型自动化完成,无需通过人工对海量医学数据进行标注来获得,省时省力。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种医学知识图谱构建方法的流程图;
图2是本发明实施例提供的医学知识图谱构建过程示意图;
图3是本发明实施例提供的一种医学知识图谱构建装置的结构示意图;
图4是本发明实施例提供的一种服务器的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
为便于对本发明实施例提供的技术方案的理解,下面对知识图谱进行介绍:
知识图谱(Knowledge Graph)是由一些相互连接的实体和他们的属性构成的。换句话说,知识图谱是由一条条知识组成,每条知识表示为一个主谓宾(Subject-Predicate-Object,SPO)三元组,用来表示实体和实体之间的关系,例如,流感-症状-发热,流感-全称-流行性感冒。
在医学领域,知识图谱能够在诸多实际应用中发挥作用,如基于知识的医学智能问答、个性化的精准医疗、临床辅助医学决策等。因此一个完善的高质量的医学知识图谱对于很多医学领域实际应用有着重要意义。
由于医学这个特定专业领域,与通用领域相比具有较强的专业性,因此在构建知识图谱时会遇到特有的问题,如:医学语境的固化导致某些词汇常常共现,以至共现词被错误解读为同义词;某些医学实体在文本中出现频率过低,难以学习;实体所在的文本信息不完备、背景知识不足、信息描述模糊,导致关系抽取困难,准确率低;医学专业文本更长,文本中实体间隔更大,带来实体间关系弱、难以捕捉的挑战。因此,现有医学知识图谱主要是通过人工对海量医学数据进行标注来获得,耗时耗力。
为了解决上述问题,本发明实施例提供了一种医学知识图谱构建方法。
图1是本发明实施例提供的一种医学知识图谱构建方法的流程图,参见图1,所述医学知识图谱构建方法包括:
步骤S101、获取文本数据并对文本数据进行预处理,得到训练数据集。
其中,文本数据既包括医学领域文本数据,又包括通用领域文本数据。无论是医学领域文本数据,还是通用领域文本数据,都是多源文本数据,也即由来自不同数据源的文本数据构成。
在步骤S101,通过对多源文本数据进行预处理,将其整合成本申请所提出方法能处理的格式,为面向医学文本的同义实体学习和关系抽取提供数据支持。
在本发明实施例中,步骤S101可以包括:
第一步:获取多源异构医学领域文本数据。
通过爬虫获取互联网上权威医学相关网站的医学专业文本数据;通过光学字符识别(Optical Character Recognition,OCR)技术将医学专业教科书的内容电子化,获取医学专业文本数据。通过上述两个步骤得到多源异构医学领域文本数据。
第二步:对获取到的所述多源异构医学领域文本数据进行分词处理,得到医学领域的数据集。
利用医学字典对医学领域文本数据进行分词,作为医学领域的数据集,为后续处理做准备。
其中,对医学领域文本数据进行分词具体可以采用现有的分词工具实现,例如采用结巴分词。
第三步:获取通用领域文本数据。
这里,通用领域文本数据可以从Mintz等研究者整理的《纽约时报》的文本数据中进行筛选。
第四步:对获取到的所述通用领域文本数据进行分词处理,得到通用领域的数据集。
对通用领域文本数据进行分词处理,作为通用领域的数据集,为后续处理做准备。
第五步:通过远监督方式对所述医学领域的数据集和所述通用领域的数据集进行文本对齐和标注,得到所述训练数据集。
其中,文本对齐是指从数据集中找出同义实体。
对于已经获取的医学领域的数据集和通用领域的数据集,采用远监督的方式进行对齐和标注,无需人工参与。
步骤S102、采用所述训练数据集进行神经网络训练,得到面向医学文本的同义实体学习模型。
在步骤S102中,采用训练数据集作为训练语料,在当前神经网络语言模型的基础上进行改进,使其更多关注词的相关性而非相似性的问题,并使其能更好综合利用全局上下文和局部上下文。
在本发明实施例中,步骤S102可以包括:
第一步:在神经网络语言模型中添加已有医学词汇层级结构信息和现有同义词信息。
当前神经网络语言模型有更多关注词的相关性而非相似性的问题,这将导致同义实体学习的准确率降低,因此本发明通过在神经网络语言模型中添加已有医学词汇层级结构信息、现有同义词信息等外源信息,来提高同义实体学习准确率。其中,医学词汇层级结构信息包括医学词汇间的父子层级关系,比如,药物-抗生素-四环素,这就是一个典型的父类子类层级关系。该医学词汇层级结构信息可以通过网络爬虫爬取百科信息自行构建所得,也可以参照维基百科的医学词汇层级信息构建。具体地,采用python编写的爬虫爬取百科信息可得到医学词汇层级结构信息,比如,在维基百科当中,通过爬虫爬取网页https://en.wikipedia.org/wiki/List_of_antibiotics,获得抗生素和子类药物信息,形成父类子类层级关系。现有同义词信息可以利用哈工大同义词林构建。
其中,在神经网络语言模型中添加已有医学词汇层级结构信息和现有同义词信息,包括:将携带有医学词汇层级结构信息和现有同义词信息的句法依存树中的结构信息以及句法依存标签信息,转化成向量的方式添加到神经网络中。
第二步:设计所述神经网络语言模型,使其能够同时考虑全局上下文和局部上下文。
在文本语料中,通常包含两种上下文信息:全局上下文(Global Context)和局部上下文(Local Context)。其中,全局上下文表达了主题信息(Topical Information),在主题模型中能够用来从语料中发现主题;局部上下文可以用来训练得到词向量,因为其能够捕捉文本语料中的语义信息。将二者综合考虑能够有更好的词向量学习效果。
其中,全局上下文按照如下方式获得:先通过文档主题生成模型(LatentDirichlet Allocation,LDA)对目标词所在的整个文本进行处理,然后通过word2vec或glove转化为向量表示。局部上下文按照如下方式获得:将目标词所在的句子用word2vec或glove训练,输出向量表示。在拼接全局上下文向量和局部上下文向量后,将其作为输入,放入神经网络中,得到所述神经网络语言模型。
第三步:采用所述训练数据集作为训练语料对所述神经网络语言模型进行训练,得到所述同义实体学习模型。
步骤S103、采用所述训练数据集进行神经网络训练,得到面向医学文本的关系抽取模型。
在步骤S103中,采用训练数据集作为训练语料,采用双向GRU模型作为关系抽取的训练模型,并通过在训练模型中添加句法依存树等先验语言学知识信息,让模型能够更好地捕捉医学文本所特有的“长距离关系”。
在本发明实施例中,步骤S103可以包括:
第一步:采用双向门控循环单元(Bi-Gated Recurrent Unit,Bi-GRU)模型作为关系抽取的训练模型,并在所述训练模型中添加注意力机制。
Bi-GRU是一种应用广泛的循环神经网络(Recurrent Neural Network,RNN)的改进版本,Bi-GRU通常比原始的RNN能够更好地对长短时依赖进行表达。该模型相对于一般的RNN,通过注意力机制(不同的单词、不同的句子,赋予不同的权重),减少了远监督带来的噪声数据问题。具体地,对隐藏层进行改进,来实现前述注意力机制:序列中不同的位置处的单词(以单词举例)对当前的隐藏层的状态的影响不同,越前面的影响越小,即前面每一层的隐藏层状态对当前层的影响进行了距离加权,距离越远,权值越小。Bi-GRU是长短期记忆网络(Long Short-Term Memory,LSTM)模型的一种。Bi-GRU模型主要由一个双层模型构建,每一层都是一个单向的传递结构,且每一层都包含词向量表示模块和特征抽取模块。前向传递层可获取到输入序列的上文信息,后向传递层可获取到输入序列的下文信息,对于相同的输入节点,前向传递层和后向传递层的隐藏层状态合并之后可以作为最后的输出层的输入,可以得到最后的包含上下文信息的语义编码。
其中,序列是指一个句子的各个单词组成的序列,例如输入一个句子“hello,howare you”,序列就是[hello,how,are,you]。
第二步:将句法依存信息转化成向量添加到所述训练模型中。
本发明通过句法依存树的层次结构获取句法依存信息,句法依存信息包括相对依存特征(Relative Dependency Features)和依存标签(Dependency Tag)。句法依存信息可利用Stanford parser或HaNLP添加到所述训练模型中。
相对依存特征揭示了树中两个节点之间的相对位置关系,具体包括与根节点的关系、与实体的关系;依存标签是当前节点相对其父节点的标签信息,可直接从句法依存分析的结果中获得。为了使获得的句法依存信息能够被Bi-GRU模型使用,本申请将句法依存信息全部向量化,与预训练得到的词向量拼接在一起。具体可以通过代码将句法依存信息映射成为向量,直接拼接到步骤S101的词向量后面。
通过依存句法分析,线性的文本被组织成树的结构,缩短了文本的长句、实体间的距离,使得医学文本中的“长距离关系”难以捕捉的现象得到缓解。同时,句法依存树提供了更多抽象层面的结构信息,因此训练所需的数据更少。
第三步:采用所述训练数据集作为训练语料,对所述训练模型进行训练,得到所述关系抽取模型。
步骤S104、通过所述同义实体学习模型和所述关系抽取模型从利用医学文本数据中获取同义实体和实体间关系,得到医学知识图谱。
采用步骤S104得到的医学知识图谱对已有医学知识图谱在实体和关系两个层面进行补全,也即对已有医学知识图谱进行增量更新。
图2是本发明实施例提供的医学知识图谱构建过程示意图,下面结合图2对本发明实施例提供的医学知识图谱构建方法进行说明:
“流行性感冒又称流感,其症状影响全身,常伴有发热、出汗等症状”,这句话中存在“流行性感冒”和“流感”两个同义实体,同时表达了“流感”和“发热”之间存在着“疾病-症状”这一关系。因此,采用同义实体学习模型可以从中学习到“流行性感冒”和“流感”为同义实体,采用关系抽取模型可以从中抽取“流行性感冒-发热”这一“疾病-症状”关系。最后,再对已有医学知识图谱进行更新补全。
在本发明实施例中,通过对医学文本的获取和预处理,并通过远监督的方式获取训练语料;根据训练语料构建一个面向医学文本的同义实体学习模型,该同义实体学习模型添加已有医学同义词和上下级关系等外源信息,将局部上下文和全局上下文信息相结合,解决医学同义实体数量多、低频词多和语境固化所导致的学习准确率低问题;同时,根据训练语料构建一个能较好捕捉“长距离关系”的抽取模型,将医学文本的语义特征引入关系抽取中,在神经网络模型中添加词性、位置信息、句法依存信息等,从而缓解医学文本长和实体间隔大所导致的“长距离关系”难抽取的问题;本发明提出一套医学知识图谱补全方法,利用上述两个模型,从实体和关系两个层面对知识图谱进行补全,为其他知识图谱补全工作提供借鉴。
图3是本发明实施例提供的一种医学知识图谱构建装置的结构示意图,参见图3,所述医学知识图谱构建装置200包括:获取模块201、第一构建模块202、第二构建模块203和处理模块204。
获取模块201用于获取文本数据并对文本数据进行预处理,得到训练数据集;第一构建模块202用于采用所述训练数据集进行神经网络训练,得到面向医学文本的同义实体学习模型;第二构建模块203用于采用所述训练数据集进行神经网络训练,得到面向医学文本的关系抽取模型;处理模块204用于通过所述同义实体学习模型和所述关系抽取模型从利用医学文本数据中获取同义实体和实体间关系,得到医学知识图谱。
在本发明实施例中,所述获取模块201,用于获取多源异构医学领域文本数据;对获取到的所述多源异构医学领域文本数据进行分词处理,得到医学领域的数据集;获取通用领域文本数据;对获取到的所述通用领域文本数据进行分词处理,得到通用领域的数据集;通过远监督方式对所述医学领域的数据集和所述通用领域的数据集进行文本对齐和标注,得到所述训练数据集。
在本发明实施例中,所述第一构建模块202,用于在神经网络语言模型中添加已有医学词汇层级结构信息和现有同义词信息;设计所述神经网络语言模型,使其能够同时考虑全局上下文和局部上下文;采用所述训练数据集作为训练语料对所述神经网络语言模型进行训练,得到所述同义实体学习模型。
在本发明实施例中,所述第二构建模块203,用于采用双向门控循环单元模型作为关系抽取的训练模型,并在所述训练模型中添加注意力机制;将句法依存信息转化成向量添加到所述训练模型中;采用所述训练数据集作为训练语料,对所述训练模型进行训练,得到所述关系抽取模型。
图4示出了本发明一个示例性实施例提供的服务器300的结构框图,该服务器300可以为前述医学知识图谱构建装置。
服务器300包括中央处理单元(CPU)301、包括随机存取存储器(RAM)302和只读存储器(ROM)303的系统存储器304,以及连接系统存储器304和中央处理单元301的系统总线305。服务器300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)306,和用于存储操作系统313、应用程序314和其他程序模块315的大容量存储设备307。
基本输入/输出系统306包括有用于显示信息的显示器308和用于用户输入信息的诸如鼠标、键盘之类的输入设备309。其中显示器308和输入设备309都通过连接到系统总线305的输入输出控制器310连接到中央处理单元301。基本输入/输出系统306还可以包括输入输出控制器310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器310还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备307通过连接到系统总线305的大容量存储控制器(未示出)连接到中央处理单元301。大容量存储设备307及其相关联的计算机可读介质为服务器300提供非易失性存储。也就是说,大容量存储设备307可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器304和大容量存储设备307可以统称为存储器。
根据本发明的各种实施例,服务器300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器300可以通过连接在系统总线305上的网络接口单元311连接到网络312,或者说,也可以使用网络接口单元311来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。所述一个或者一个以上程序包含用于进行本发明实施例提供的图1所示的医学知识图谱构建方法的指令。
需要说明的是:上述实施例提供的医学知识图谱构建装置在实现医学知识图谱构建时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的医学知识图谱构建装置与医学知识图谱构建方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种医学知识图谱构建方法,其特征在于,所述方法包括:
获取文本数据并对文本数据进行预处理,得到训练数据集;
采用所述训练数据集进行神经网络训练,得到面向医学文本的同义实体学习模型;
采用所述训练数据集进行神经网络训练,得到面向医学文本的关系抽取模型;
通过所述同义实体学习模型和所述关系抽取模型从利用医学文本数据中获取同义实体和实体间关系,得到医学知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述获取文本数据并对文本数据进行预处理,得到训练数据集,包括:
获取多源异构医学领域文本数据;
对获取到的所述多源异构医学领域文本数据进行分词处理,得到医学领域的数据集;
获取通用领域文本数据;
对获取到的所述通用领域文本数据进行分词处理,得到通用领域的数据集;
通过远监督方式对所述医学领域的数据集和所述通用领域的数据集进行文本对齐和标注,得到所述训练数据集。
3.根据权利要求2所述的方法,其特征在于,所述采用所述训练数据集进行神经网络训练,得到面向医学文本的同义实体学习模型,包括:
在神经网络语言模型中添加已有医学词汇层级结构信息和现有同义词信息;
设计所述神经网络语言模型,使其能够同时考虑全局上下文和局部上下文;
采用所述训练数据集作为训练语料对所述神经网络语言模型进行训练,得到所述同义实体学习模型。
4.根据权利要求2所述的方法,其特征在于,所述采用所述训练数据集进行神经网络训练,得到面向医学文本的关系抽取模型,包括:
采用双向门控循环单元模型作为关系抽取的训练模型,并在所述训练模型中添加注意力机制;
将句法依存信息转化成向量添加到所述训练模型中;
采用所述训练数据集作为训练语料,对所述训练模型进行训练,得到所述关系抽取模型。
5.一种医学知识图谱构建装置,其特征在于,所述装置包括:
获取模块,用于获取文本数据并对文本数据进行预处理,得到训练数据集;
第一构建模块,用于采用所述训练数据集进行神经网络训练,得到面向医学文本的同义实体学习模型;
第二构建模块,用于采用所述训练数据集进行神经网络训练,得到面向医学文本的关系抽取模型;
处理模块,用于通过所述同义实体学习模型和所述关系抽取模型从利用医学文本数据中获取同义实体和实体间关系,得到医学知识图谱。
6.根据权利要求5所述的装置,其特征在于,所述获取模块,用于获取多源异构医学领域文本数据;对获取到的所述多源异构医学领域文本数据进行分词处理,得到医学领域的数据集;获取通用领域文本数据;对获取到的所述通用领域文本数据进行分词处理,得到通用领域的数据集;通过远监督方式对所述医学领域的数据集和所述通用领域的数据集进行文本对齐和标注,得到所述训练数据集。
7.根据权利要求6所述的装置,其特征在于,所述第一构建模块,用于在神经网络语言模型中添加已有医学词汇层级结构信息和现有同义词信息;设计所述神经网络语言模型,使其能够同时考虑全局上下文和局部上下文;采用所述训练数据集作为训练语料对所述神经网络语言模型进行训练,得到所述同义实体学习模型。
8.根据权利要求6所述的装置,其特征在于,所述第二构建模块,用于采用双向门控循环单元模型作为关系抽取的训练模型,并在所述训练模型中添加注意力机制;将句法依存信息转化成向量添加到所述训练模型中;采用所述训练数据集作为训练语料,对所述训练模型进行训练,得到所述关系抽取模型。
9.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1至4任一项所述的医学知识图谱构建方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至4任一项所述的医学知识图谱构建方法。
CN201811129838.5A 2018-09-27 2018-09-27 医学知识图谱构建方法、装置、服务器及存储介质 Pending CN109284396A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811129838.5A CN109284396A (zh) 2018-09-27 2018-09-27 医学知识图谱构建方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811129838.5A CN109284396A (zh) 2018-09-27 2018-09-27 医学知识图谱构建方法、装置、服务器及存储介质

Publications (1)

Publication Number Publication Date
CN109284396A true CN109284396A (zh) 2019-01-29

Family

ID=65181888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811129838.5A Pending CN109284396A (zh) 2018-09-27 2018-09-27 医学知识图谱构建方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN109284396A (zh)

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134842A (zh) * 2019-04-03 2019-08-16 深圳价值在线信息科技股份有限公司 基于信息图谱的信息匹配方法、装置、存储介质和服务器
CN110275928A (zh) * 2019-06-24 2019-09-24 复旦大学 迭代式实体关系抽取方法
CN110287337A (zh) * 2019-06-19 2019-09-27 上海交通大学 基于深度学习和知识图谱获取医学同义词的系统及方法
CN110322959A (zh) * 2019-05-24 2019-10-11 山东大学 一种基于知识的深度医疗问题路由方法及系统
CN111048167A (zh) * 2019-10-31 2020-04-21 中电药明数据科技(成都)有限公司 一种层级式病例结构化方法及系统
CN111274397A (zh) * 2020-01-20 2020-06-12 北京百度网讯科技有限公司 建立实体关系检测模型的方法以及装置
CN111339407A (zh) * 2020-02-18 2020-06-26 北京航空航天大学 一种信息抽取云平台的实现方法
CN111339777A (zh) * 2020-02-24 2020-06-26 中国科学院自动化研究所 基于神经网络的医学相关意图识别方法及系统
CN111753094A (zh) * 2019-03-27 2020-10-09 杭州海康威视数字技术股份有限公司 事件知识图谱的构建方法、装置及事件确定方法、装置
CN111813950A (zh) * 2020-05-20 2020-10-23 淮阴工学院 一种基于神经网络自适应寻优调参的建筑领域知识图谱构建方法
CN111897970A (zh) * 2020-07-27 2020-11-06 平安科技(深圳)有限公司 基于知识图谱的文本比对方法、装置、设备及存储介质
CN111949797A (zh) * 2019-04-30 2020-11-17 广东小天才科技有限公司 一种基于神经网络的实体关系补全方法及装置
CN111949802A (zh) * 2020-08-06 2020-11-17 平安科技(深圳)有限公司 医学领域知识图谱的构建方法、装置、设备及存储介质
CN111950264A (zh) * 2020-08-05 2020-11-17 广东工业大学 文本数据增强方法及知识元抽取方法
CN112036151A (zh) * 2020-09-09 2020-12-04 平安科技(深圳)有限公司 基因疾病关系知识库构建方法、装置和计算机设备
CN112148884A (zh) * 2020-08-21 2020-12-29 北京阿叟阿巴科技有限公司 用于孤独症干预的系统及方法
CN112259180A (zh) * 2020-10-21 2021-01-22 平安科技(深圳)有限公司 一种基于异构医学知识图谱的疾病预测方法及相关设备
CN112307218A (zh) * 2020-10-21 2021-02-02 浙江大学 基于知识图谱的智能电厂典型设备故障诊断知识库构建方法
CN112307216A (zh) * 2020-07-30 2021-02-02 北京沃东天骏信息技术有限公司 药品知识图谱的构建方法和装置
CN112364174A (zh) * 2020-10-21 2021-02-12 山东大学 基于知识图谱的病人病历相似度评估方法及系统
CN112420212A (zh) * 2020-11-27 2021-02-26 湖南师范大学 一种脑卒中医疗知识图谱的构建方法
CN112541354A (zh) * 2020-12-04 2021-03-23 百度国际科技(深圳)有限公司 用于医学知识图谱的处理方法和装置
CN112542243A (zh) * 2020-12-05 2021-03-23 大连东软教育科技集团有限公司 一种icu电子病历知识图谱构建方法、系统和存储介质
CN112597124A (zh) * 2020-11-30 2021-04-02 新华三大数据技术有限公司 一种数据字段映射方法、装置及存储介质
CN112784061A (zh) * 2021-01-27 2021-05-11 数贸科技(北京)有限公司 知识图谱的构建方法、装置、计算设备及存储介质
CN112818138A (zh) * 2021-04-19 2021-05-18 中译语通科技股份有限公司 知识图谱本体构建方法、装置、终端设备及可读存储介质
WO2021102632A1 (zh) * 2019-11-25 2021-06-03 京东方科技集团股份有限公司 字符获取、页面处理与知识图谱构建方法及装置、介质
CN112906368A (zh) * 2021-02-19 2021-06-04 北京百度网讯科技有限公司 行业文本增量方法、相关装置及计算机程序产品
CN113420551A (zh) * 2021-07-13 2021-09-21 华中师范大学 一种建模实体相似性的生物医学实体关系抽取方法
CN113434626A (zh) * 2021-08-27 2021-09-24 之江实验室 一种多中心医学诊断知识图谱表示学习方法及系统
CN113688256A (zh) * 2021-10-27 2021-11-23 上海柯林布瑞信息技术有限公司 临床知识库的构建方法、装置
CN114912451A (zh) * 2021-02-07 2022-08-16 阿里巴巴集团控股有限公司 一种数据抽取、实体识别方法和装置
CN117809798A (zh) * 2024-03-01 2024-04-02 金堂县第一人民医院 基于大模型的检验报告解读方法、系统、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150370782A1 (en) * 2014-06-23 2015-12-24 International Business Machines Corporation Relation extraction using manifold models
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN107908671A (zh) * 2017-10-25 2018-04-13 南京擎盾信息科技有限公司 基于法律数据的知识图谱构建方法及系统
CN108182262A (zh) * 2018-01-04 2018-06-19 华侨大学 基于深度学习和知识图谱的智能问答系统构建方法和系统
CN108197109A (zh) * 2017-12-29 2018-06-22 北京百分点信息科技有限公司 一种基于自然语言处理的多语言分析方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150370782A1 (en) * 2014-06-23 2015-12-24 International Business Machines Corporation Relation extraction using manifold models
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN107908671A (zh) * 2017-10-25 2018-04-13 南京擎盾信息科技有限公司 基于法律数据的知识图谱构建方法及系统
CN108197109A (zh) * 2017-12-29 2018-06-22 北京百分点信息科技有限公司 一种基于自然语言处理的多语言分析方法和装置
CN108182262A (zh) * 2018-01-04 2018-06-19 华侨大学 基于深度学习和知识图谱的智能问答系统构建方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邹玉薇: "中文医疗知识图谱半自动化构建研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753094B (zh) * 2019-03-27 2024-02-02 杭州海康威视数字技术股份有限公司 事件知识图谱的构建方法、装置及事件确定方法、装置
CN111753094A (zh) * 2019-03-27 2020-10-09 杭州海康威视数字技术股份有限公司 事件知识图谱的构建方法、装置及事件确定方法、装置
CN110134842A (zh) * 2019-04-03 2019-08-16 深圳价值在线信息科技股份有限公司 基于信息图谱的信息匹配方法、装置、存储介质和服务器
CN111949797A (zh) * 2019-04-30 2020-11-17 广东小天才科技有限公司 一种基于神经网络的实体关系补全方法及装置
CN110322959A (zh) * 2019-05-24 2019-10-11 山东大学 一种基于知识的深度医疗问题路由方法及系统
CN110322959B (zh) * 2019-05-24 2021-09-28 山东大学 一种基于知识的深度医疗问题路由方法及系统
CN110287337A (zh) * 2019-06-19 2019-09-27 上海交通大学 基于深度学习和知识图谱获取医学同义词的系统及方法
CN110275928A (zh) * 2019-06-24 2019-09-24 复旦大学 迭代式实体关系抽取方法
CN110275928B (zh) * 2019-06-24 2022-11-22 复旦大学 迭代式实体关系抽取方法
CN111048167A (zh) * 2019-10-31 2020-04-21 中电药明数据科技(成都)有限公司 一种层级式病例结构化方法及系统
CN111048167B (zh) * 2019-10-31 2023-08-18 中电药明数据科技(成都)有限公司 一种层级式病例结构化方法及系统
JP2023510667A (ja) * 2019-11-25 2023-03-15 京東方科技集團股▲ふん▼有限公司 キャラクタ取得、ページ処理と知識グラフ構築方法及び装置、媒体
WO2021102632A1 (zh) * 2019-11-25 2021-06-03 京东方科技集团股份有限公司 字符获取、页面处理与知识图谱构建方法及装置、介质
CN113260988A (zh) * 2019-11-25 2021-08-13 京东方科技集团股份有限公司 字符获取、页面处理与知识图谱构建方法及装置、介质
US12131809B2 (en) 2019-11-25 2024-10-29 Boe Technology Group Co., Ltd. Character acquisition, page processing and knowledge graph construction method and device, medium
CN111274397B (zh) * 2020-01-20 2023-10-27 北京百度网讯科技有限公司 建立实体关系检测模型的方法以及装置
CN111274397A (zh) * 2020-01-20 2020-06-12 北京百度网讯科技有限公司 建立实体关系检测模型的方法以及装置
CN111339407B (zh) * 2020-02-18 2023-12-05 北京航空航天大学 一种信息抽取云平台的实现方法
CN111339407A (zh) * 2020-02-18 2020-06-26 北京航空航天大学 一种信息抽取云平台的实现方法
CN111339777A (zh) * 2020-02-24 2020-06-26 中国科学院自动化研究所 基于神经网络的医学相关意图识别方法及系统
CN111813950B (zh) * 2020-05-20 2024-02-27 淮阴工学院 一种基于神经网络自适应寻优调参的建筑领域知识图谱构建方法
CN111813950A (zh) * 2020-05-20 2020-10-23 淮阴工学院 一种基于神经网络自适应寻优调参的建筑领域知识图谱构建方法
CN111897970B (zh) * 2020-07-27 2024-05-10 平安科技(深圳)有限公司 基于知识图谱的文本比对方法、装置、设备及存储介质
CN111897970A (zh) * 2020-07-27 2020-11-06 平安科技(深圳)有限公司 基于知识图谱的文本比对方法、装置、设备及存储介质
CN112307216A (zh) * 2020-07-30 2021-02-02 北京沃东天骏信息技术有限公司 药品知识图谱的构建方法和装置
CN112307216B (zh) * 2020-07-30 2024-06-18 北京京东拓先科技有限公司 药品知识图谱的构建方法和装置
CN111950264B (zh) * 2020-08-05 2024-04-26 广东工业大学 文本数据增强方法及知识元抽取方法
CN111950264A (zh) * 2020-08-05 2020-11-17 广东工业大学 文本数据增强方法及知识元抽取方法
CN111949802A (zh) * 2020-08-06 2020-11-17 平安科技(深圳)有限公司 医学领域知识图谱的构建方法、装置、设备及存储介质
WO2021139247A1 (zh) * 2020-08-06 2021-07-15 平安科技(深圳)有限公司 医学领域知识图谱的构建方法、装置、设备及存储介质
CN112148884B (zh) * 2020-08-21 2023-09-22 北京阿叟阿巴科技有限公司 用于孤独症干预的系统及方法
CN112148884A (zh) * 2020-08-21 2020-12-29 北京阿叟阿巴科技有限公司 用于孤独症干预的系统及方法
CN112036151B (zh) * 2020-09-09 2024-04-05 平安科技(深圳)有限公司 基因疾病关系知识库构建方法、装置和计算机设备
CN112036151A (zh) * 2020-09-09 2020-12-04 平安科技(深圳)有限公司 基因疾病关系知识库构建方法、装置和计算机设备
CN112307218B (zh) * 2020-10-21 2022-08-05 浙江大学 基于知识图谱的智能电厂典型设备故障诊断知识库构建方法
CN112364174A (zh) * 2020-10-21 2021-02-12 山东大学 基于知识图谱的病人病历相似度评估方法及系统
CN112307218A (zh) * 2020-10-21 2021-02-02 浙江大学 基于知识图谱的智能电厂典型设备故障诊断知识库构建方法
CN112259180B (zh) * 2020-10-21 2023-06-27 平安科技(深圳)有限公司 一种基于异构医学知识图谱的疾病预测方法及相关设备
CN112259180A (zh) * 2020-10-21 2021-01-22 平安科技(深圳)有限公司 一种基于异构医学知识图谱的疾病预测方法及相关设备
CN112420212B (zh) * 2020-11-27 2023-12-26 湖南师范大学 一种脑卒中医疗知识图谱的构建方法
CN112420212A (zh) * 2020-11-27 2021-02-26 湖南师范大学 一种脑卒中医疗知识图谱的构建方法
CN112597124A (zh) * 2020-11-30 2021-04-02 新华三大数据技术有限公司 一种数据字段映射方法、装置及存储介质
CN112541354A (zh) * 2020-12-04 2021-03-23 百度国际科技(深圳)有限公司 用于医学知识图谱的处理方法和装置
CN112542243B (zh) * 2020-12-05 2024-06-04 东软教育科技集团有限公司 一种icu电子病历知识图谱构建方法、系统和存储介质
CN112542243A (zh) * 2020-12-05 2021-03-23 大连东软教育科技集团有限公司 一种icu电子病历知识图谱构建方法、系统和存储介质
CN112784061A (zh) * 2021-01-27 2021-05-11 数贸科技(北京)有限公司 知识图谱的构建方法、装置、计算设备及存储介质
CN112784061B (zh) * 2021-01-27 2024-08-09 数贸科技(北京)有限公司 知识图谱的构建方法、装置、计算设备及存储介质
CN114912451A (zh) * 2021-02-07 2022-08-16 阿里巴巴集团控股有限公司 一种数据抽取、实体识别方法和装置
CN112906368A (zh) * 2021-02-19 2021-06-04 北京百度网讯科技有限公司 行业文本增量方法、相关装置及计算机程序产品
CN112818138A (zh) * 2021-04-19 2021-05-18 中译语通科技股份有限公司 知识图谱本体构建方法、装置、终端设备及可读存储介质
CN113420551A (zh) * 2021-07-13 2021-09-21 华中师范大学 一种建模实体相似性的生物医学实体关系抽取方法
CN113434626A (zh) * 2021-08-27 2021-09-24 之江实验室 一种多中心医学诊断知识图谱表示学习方法及系统
CN113688256A (zh) * 2021-10-27 2021-11-23 上海柯林布瑞信息技术有限公司 临床知识库的构建方法、装置
CN117809798B (zh) * 2024-03-01 2024-04-26 金堂县第一人民医院 基于大模型的检验报告解读方法、系统、设备及介质
CN117809798A (zh) * 2024-03-01 2024-04-02 金堂县第一人民医院 基于大模型的检验报告解读方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN109284396A (zh) 医学知识图谱构建方法、装置、服务器及存储介质
Sheth et al. Shades of knowledge-infused learning for enhancing deep learning
Bhutani et al. Learning to answer complex questions over knowledge bases with query composition
US10496749B2 (en) Unified semantics-focused language processing and zero base knowledge building system
CN109710932A (zh) 一种基于特征融合的医疗实体关系抽取方法
US20200242146A1 (en) Artificial intelligence system for generating conjectures and comprehending text, audio, and visual data using natural language understanding
US20150051900A1 (en) Unsupervised learning of deep patterns for semantic parsing
Bella et al. Language and domain aware lightweight ontology matching
CN111143574A (zh) 一种基于少数民族文化知识图谱的查询及可视化系统构建方法
US20210042344A1 (en) Generating or modifying an ontology representing relationships within input data
Miao et al. A dynamic financial knowledge graph based on reinforcement learning and transfer learning
CN114004237A (zh) 一种基于膀胱癌知识图谱的智能问答系统构建方法
Li et al. Neural factoid geospatial question answering
Mezghanni et al. Deriving ontological semantic relations between Arabic compound nouns concepts
US12106045B2 (en) Self-learning annotations to generate rules to be utilized by rule-based system
CN112800244B (zh) 一种中医药及民族医药知识图谱的构建方法
Liu DKG-PIPD: A Novel Method About Building Deep Knowledge Graph
Zouaq et al. Semantic analysis using dependency-based grammars and upper-level ontologies.
Sonakneware et al. Ontology based approach for domain specific semantic information retrieval system
CN112927807B (zh) 一种食源性检测模型训练方法、疾病检测方法
Xie et al. A survey of event relation extraction
CN113268975A (zh) 一种基于自然语言处理算法的人体临床信息评估方法
Tang et al. ResiAdvNet: A named entity recognition model for potato diseases and pests based on progressive residual structures and adversarial training
Dannélls Multilingual text generation from structured formal representations
Cremaschi ENABLING TABULAR DATA UNDERSTANDING BY HUMANS AND MACHINES THROUGH SEMANTIC INTERPRETATION

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190129

RJ01 Rejection of invention patent application after publication