CN110245242B - 医学知识图谱构建方法、装置以及终端 - Google Patents
医学知识图谱构建方法、装置以及终端 Download PDFInfo
- Publication number
- CN110245242B CN110245242B CN201910537781.0A CN201910537781A CN110245242B CN 110245242 B CN110245242 B CN 110245242B CN 201910537781 A CN201910537781 A CN 201910537781A CN 110245242 B CN110245242 B CN 110245242B
- Authority
- CN
- China
- Prior art keywords
- medical
- entry
- standard
- characteristic
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims description 29
- 238000000034 method Methods 0.000 claims abstract description 33
- 239000013598 vector Substances 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 11
- 238000003062 neural network model Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000006854 communication Effects 0.000 abstract description 13
- 230000004927 fusion Effects 0.000 abstract description 5
- 238000003759 clinical diagnosis Methods 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 10
- 201000010099 disease Diseases 0.000 description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 208000024891 symptom Diseases 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000002372 labelling Methods 0.000 description 4
- 229940079593 drug Drugs 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- 241001178520 Stomatepia mongo Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013498 data listing Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 208000001780 epistaxis Diseases 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/22—Social work or social welfare, e.g. community support activities or counselling services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明实施例提出一种医学知识图谱构建方法、装置以及终端,方法包括:从多个订阅源分别获取医学数据;根据各订阅源的医学数据中的各医学词条及其对应的医学描述,提取各医学词条对应的各医学特征关键词;对各医学词条及其对应的多个医学特征关键词进行归一化和校验,得到各标准的医学词条和对应的各标准的医学特征关键词;根据各标准医学词条和对应的各标准医学特征关键词构建医学知识图谱。极大的加快的数据融合收录过程,能稳定辅助临床诊断,减少了与医学专家的沟通过程。
Description
技术领域
本发明涉及医学知识图谱技术领域,尤其涉及一种医学知识图谱构建方法、装置以及终端。
背景技术
知识图谱是一种基于图的数据结构,由实体(节点)和实体间的关系(边)组成,本质是一种语义网络。知识图谱把不同类型的数据连接到一张关系网络中,进而具备从“关系”角度去分析问题的能力。知识图谱按照覆盖面可分为通用知识图谱和领域知识图谱。其中,领域知识图谱强调知识的深度,具有较强的针对性和专业性,一般应用于领域内的数据挖掘或决策支持等。通过领域知识图谱,用户可以迅速有效的获取相关知识以及知识之间的逻辑关系,进而更全面的了解领域信息。在医疗领域内,各家医院、站点均有自己的相关数据,每个来源的命名方式及表述内容均存在差异,如何将数据有效的融合,形成知识图谱至关重要。
发明内容
本发明实施例提供一种医学知识图谱构建方法、装置以及终端,以解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种医学知识图谱构建方法,包括:
从多个订阅源分别获取医学数据;
根据各订阅源的医学数据中的各医学词条及其对应的医学描述,提取各医学词条对应的各医学特征关键词;
对各医学词条及其对应的多个医学特征关键词进行归一化和校验,得到各标准的医学词条和对应的各标准的医学特征关键词;
根据各标准医学词条和对应的各标准医学特征关键词构建医学知识图谱。
在一种实施方式中,对各医学词条及其对应的多个医学特征关键词进行归一化和校验,得到各标准医学词条和对应的各标准医学特征关键词,包括:
将各医学词条及其对应的多个医学特征关键词转换为词向量;
将所述词向量输入至神经网络模型中,输出各统一的医学词条和对应的各统一的医学特征关键词;
对各医学词条及其对应的多个医学特征关键词,以及各统一的医学词条和对应的各统一的医学特征关键词进行校验,得到各标准的医学词条和对应的各标准的医学特征关键词。
在一种实施方式中,还包括:
将各医学词条及其对应的医学描述,各医学词条对应的各医学特征关键词,以及各标准的医学词条和对应的各标准的医学特征关键词收录至数据发布库中。
在一种实施方式中,还包括:
将重复的医学词条,及其对应的医学描述和医学特征关键词删除。
在一种实施方式中,还包括:
计算每个医学特征关键词出现的次数与所有医学特征关键词出现的次数的比值,得到第一概率;
计算每个医学特征关键词在与其对应的医学词条中出现的次数与医学词条出现的次数的比值,得到第二概率;
将所述第一概率与所述第二概率相乘,得到每个医学特征关键词在与其对应的医学词条中的第三概率。
第二方面,本发明实施例提供了一种医学知识图谱构建装置,包括:
医学数据获取模块,用于从多个订阅源分别获取医学数据;
特征提取模块,用于根据各订阅源的医学数据中的各医学词条及其对应的医学描述,提取各医学词条对应的各医学特征关键词;
归一化校验模块,用于对各医学词条及其对应的多个医学特征关键词进行归一化和校验,得到各标准的医学词条和对应的各标准的医学特征关键词;
医学知识图谱构建模块,用于根据各标准医学词条和对应的各标准医学特征关键词构建医学知识图谱。
在一种实施方式中,所述归一化校验模块包括:
词向量转换单元,用于将各医学词条及其对应的多个医学特征关键词转换为词向量;
归一化单元,用于将所述词向量输入至神经网络模型中,输出各统一的医学词条和对应的各统一的医学特征关键词;
校验单元,用于对各医学词条及其对应的多个医学特征关键词,以及各统一的医学词条和对应的各统一的医学特征关键词进行校验,得到各标准的医学词条和对应的各标准的医学特征关键词。
在一种实施方式中,还包括:
数据收录模块,用于将各医学词条及其对应的医学描述,各医学词条对应的各医学特征关键词,以及各标准的医学词条和对应的各标准的医学特征关键词收录至数据发布库中。
在一种实施方式中,还包括:
重复删除模块,用于将重复的医学词条,及其对应的医学描述和医学特征关键词删除。
在一种实施方式中,还包括:
特征概率计算模块,用于计算每个医学特征关键词出现的次数与所有医学特征关键词出现的次数的比值,得到第一概率;计算每个医学特征关键词在与其对应的医学词条中出现的次数与医学词条出现的次数的比值,得到第二概率;将所述第一概率与所述第二概率相乘,得到每个医学特征关键词在与其对应的医学词条中的第三概率。
第三方面,本发明实施例提供了一种医学知识图谱构建终端,所述医学知识图谱构建终端的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,所述医学知识图谱终端构建终端的结构中包括处理器和存储器,所述存储器用于存储支持所述医学知识图谱构建终端执行上述医学知识图谱构建方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述医学知识图谱构建终端还可以包括通信接口,用于与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储医学知识图谱构建终端所用的计算机软件指令,其包括用于执行上述医学知识图谱构建方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:能够有效融合多个订阅源的医学数据,并根据各医学词条及其对应的医学描述挖掘各医学特征关键词的数据关系,并对各医学词条及其对应的多个医学特征关键词进行归一化和校验,得到各标准的医学词条和对应的各标准的医学特征关键词,进而构建完整图谱网络。极大的加快的数据融合收录过程,能稳定辅助临床诊断,减少了与医学专家的沟通过程。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出根据本发明实施例的一种医学知识图谱构建方法的流程图。
图2示出根据本发明实施例的一种医学知识图谱构建方法的数据流图。
图3示出根据本发明实施例的另一种医学知识图谱构建方法的流程图。
图4示出根据本发明实施例的数据收录流程图。
图5示出根据本发明实施例的一种医学知识图谱构建方法的数据流图。
图6示出根据本发明实施例的一种医学知识图谱构建装置的结构框图。
图7示出根据本发明实施例的另一种医学知识图谱构建装置的结构框图。
图8示出根据本发明实施例的一种医学知识图谱构建终端的结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
实施例一
在一种具体实施方式中,如图1所示,提供了一种医学知识图谱构建方法,包括:
步骤S10:从多个订阅源分别获取医学数据。
在一种示例中,如图2所示,订阅源可以包括书籍、网站、病历以及医学专家手工整理的医学知识。将上述订阅源获取的医学数据存入原始库中。书籍订阅源包括权威站点的书籍,涉及专科、全科、学习、临床等方面的多本权威书籍。这些书籍主要是疾病的相关信息,包括临床表现、病因、治疗手段、用药等。可以通过终端的应用程序,模拟器以及网页中进行电子抓取书籍中的医学数据,抓取的医学数据主要是医学的文本信息。网站订阅源可以包括人卫临床助手、拇指医生、知网临床助手、医疗百科、百科名医、军医网、合理用药信息支持系统等十多个站点。可以通过遥感工程化应用平台、终端的应用程序等方式抓取医学数据。抓取的医学数据主要是疾病、症状、药物的实体信息以及关系信息。医学专家手工整理的医学知识可以涉及实体信息、关系信息、文本信息等多类型的数据。病历订阅源是与各大医院及机构合作的订阅源,从病理订阅源中获取的数据比较敏感和稀有,且无法单独离线获取。如图5所示,将经过RD挖掘后的数据输出。
步骤S20:根据各订阅源的医学数据中的各医学词条及其对应的医学描述,提取各医学词条对应的各医学特征关键词。
在一种示例中,通过知识提取,从上述多个订阅源获取的医学数据中获取实体、关系以及实体属性信息。实体抽取也称为命名实体学习或命名实体识别,指的是从原始数据语料中自动识别出命名实体,命名实体可以包括各个医学词条。由于实体是知识图谱中的最基本元素,其抽取的完整性、准确率、召回率等将直接影响到知识图谱构建的质量。实体间关系的抽取是从上述的数据从抽取实体间的关系。关系抽取定义为两个或多个实体之间的联系,关系抽取就是自动识别实体之间的某种语义关系。可以利用SPO三元组(主语-谓语-宾语Subject-Predication-Object)进行关系抽取。SPO三元组关系抽取的方法包括:从标题里面抽取医学词条,从小节里面抽取医学描述,从长文本里面抽取医学特征关键词。例如,已知各医学词条及其对应的医学描述<感冒,临床特征>->找到医学特征关键词<咳嗽,发烧>。如图2所示,抽取各个订阅源的多个实体后,存入抽取实体库。还可以从其他图谱中过滤得到实体集合,存入单源实体库。抽取的实体间关系存入关系库中。如图5所示,还可以将各医学词条及其对应的医学描述存储至展示库中。
步骤S30:对各医学词条及其对应的多个医学特征关键词进行归一化和校验,得到各标准的医学词条和对应的各标准的医学特征关键词。
在一种示例中,在医学知识图谱的构建过程中,由于医学数据来源众多,导致医学实体有十几种复杂的类型,每种类型的医学实体可能会属于同一实体。所以,消岐要解决的是判断两个实体是否描述同一实体。例如,鼻出血既是疾病又是症状。为了保证数据非常高的准确性,每个归一的数据都需要医学专家校验,因此将问题转化成提供候选的归一项,提高专家校验速度,减轻医学专家工作量。如图5所示,为了便于与专家交流,可以在建立标注平台,将关系库、展示库、实体库以及单源实体库进行集合存储至标注平台中。医生可以将添加的标注数据以及校验数据存储在标注平台中。同时,专家也可以对标注平台中各个数据库中的数据进行校验,并标注其是否正确,可以得到各标准医学词条和对应的各标准医学特征关键词。
步骤S40:根据各标准医学词条和对应的各标准医学特征关键词构建医学知识图谱。
可以将标准医学词条和对应的各标准医学特征关键词以及其它数据进行收录。得到的标准医学词条和对应的各标准医学特征关键词不仅仅能够用于构建医学知识图谱。将医学知识图谱进行发布,以供其他平台使用。同时,极大的加快的数据融合收录过程,能稳定辅助临床诊断,减少了与医学专家的沟通过程。
在一种实施方式中,如图3所示,步骤S30,包括:
步骤S301:将各医学词条及其对应的多个医学特征关键词转换为词向量;
步骤S302:将词向量输入至神经网络模型中,输出各统一的医学词条和对应的各统一的医学特征关键词;
步骤S303:对各医学词条及其对应的多个医学特征关键词,以及各统一的医学词条和对应的各统一的医学特征关键词进行校验,得到各标准的医学词条和对应的各标准的医学特征关键词。
在一种示例中,将要归一的实体特征输入神经网络模型中。其中,实体特征可以包括医学词条和医学特征关键词的字符、分词结果、属性、关系、语义等转成词向量,然后将该词向量输入神经网络模型,网络模型计算完成后就是要归一的结果,即各统一的医学词条和对应的各统一的医学特征关键词。为了保证数据非常高的准确性,每个归一的数据都需要医学专家校验,因此将问题转化成提供候选的归一项,提高专家校验速度。还可以通过搭建了标注平台,方便医学专家对各医学词条及其对应的多个医学特征关键词,以及各统一的医学词条和对应的各统一的医学特征关键词进行校验。
在一种实施方式中,如图3所示,还包括:
步骤S50:将各医学词条及其对应的医学描述,各医学词条对应的各医学特征关键词,以及各标准的医学词条和对应的各标准的医学特征关键词收录至数据发布库中。
如图5所示,将标注平台中输出的数据进行收录。
步骤S60:将重复的医学词条,及其对应的医学描述和医学特征关键词删除。
在一种示例中,在一种示例中,如图4和5所示,主要分为四个步骤:schema收录、实体数据收录、其他订阅源数据融合、实体退场。由于医疗收录流里面的schema与通用图谱的schema不一样,需要一套定制的收录流处理数据。为了处理的简洁,收录流会以实体收录为主,只有当实体数据收录了,其属性才会被融合到收录库。Schema收录是所有收录的第一步,如果数据的schema未被收录,那么新增的数据将不会被收录。Schema例行任务中,每天会定期校验数据是否更新,如果有更新,则会拉取最新的schema数据。实体数据收录主要是从mongo库里面直接出库即可,然后将数据存入到订阅库rawbase。实体数据的新增收录涉及消歧、归一、实体融合择优、建边等操作。其他订阅源数据融合除人为站点会收录展示型数据外,其他订阅源均只收录展示型的数据。实体退场是指核心实体需要从核心实体里删除,包括对应的边关系也需删除。
在一种实施方式中,如图3所示,还包括:
步骤S71:计算每个医学特征关键词出现的次数与所有医学特征关键词出现的次数的比值,得到第一概率;
步骤S72:计算每个医学特征关键词在与其对应的医学词条中出现的次数与医学词条出现的次数的比值,得到第二概率;
步骤S73:将第一概率与第二概率相乘,得到每个医学特征关键词在与其对应的医学词条中的第三概率。
在一种示例中,在已有的医疗知识图谱及可信语料上,给定疾病,计算对应症状的相关性(分数,概率(症状|疾病))。构建出有效概率关系数据方便医疗诊断推理。依据拇指医生的方法,从预料里面的构建疾病-症状的频繁项集(前提是数据范围足够大以及一个疾病的症状越重要,其出现的越频繁)采用TF-IDF的思路:将整个对话语料库作为文档库,将对话语料里面标定好的同一的疾病作为单个文档,内部的症状作为关键词(本来应该是构建好的疾病-症状图谱作为该数据,由于当前惠美云诊所与语料库匹配的太少,不适合计算),目标是计算一个疾病内,各个症状的重要性。
实施例二
在另一种具体实施方式中,如图6所示,提供了一种医学知识图谱构建装置,包括:
医学数据获取模块10,用于从多个订阅源分别获取医学数据;
特征提取模块20,用于根据各订阅源的医学数据中的各医学词条及其对应的医学描述,提取各医学词条对应的各医学特征关键词;
归一化校验模块30,用于对各医学词条及其对应的多个医学特征关键词进行归一化和校验,得到各标准的医学词条和对应的各标准的医学特征关键词;
医学知识图谱构建模块40,用于根据各标准医学词条和对应的各标准医学特征关键词构建医学知识图谱。
在一种实施方式中,如图7所示,所述归一化校验模块30包括:
词向量转换单元301,用于将各医学词条及其对应的多个医学特征关键词转换为词向量;
归一化单元302,用于将所述词向量输入至神经网络模型中,输出各统一的医学词条和对应的各统一的医学特征关键词;
校验单元303,用于对各医学词条及其对应的多个医学特征关键词,以及各统一的医学词条和对应的各统一的医学特征关键词进行校验,得到各标准的医学词条和对应的各标准的医学特征关键词。
在一种实施方式中,如图7所示,还包括:
数据收录模块50,用于将各医学词条及其对应的医学描述,各医学词条对应的各医学特征关键词,以及各标准的医学词条和对应的各标准的医学特征关键词收录至数据发布库中。
在一种实施方式中,如图7所示,还包括:
重复删除模块60,用于将重复的医学词条,及其对应的医学描述和医学特征关键词删除。
在一种实施方式中,如图7所示,还包括:
特征概率计算模块70,用于计算每个医学特征关键词出现的次数与所有医学特征关键词出现的次数的比值,得到第一概率;计算每个医学特征关键词在与其对应的医学词条中出现的次数与医学词条出现的次数的比值,得到第二概率;将所述第一概率与所述第二概率相乘,得到每个医学特征关键词在与其对应的医学词条中的第三概率。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
实施例三
图8示出根据本发明实施例的医学知识图谱构建终端的结构框图。如图8所示,该终端包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的医学知识图谱构建方法。所述存储器910和处理器920的数量可以为一个或多个。
该终端还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA,Extended IndustryStandard Architecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述实施例中任一所述方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (12)
1.一种医学知识图谱构建方法,其特征在于,包括:
从多个订阅源分别获取医学数据;
根据各订阅源的医学数据中的各医学词条及其对应的医学描述,提取各医学词条对应的各医学特征关键词;
对各医学词条及其对应的多个医学特征关键词进行归一化和校验,得到各标准的医学词条和对应的各标准的医学特征关键词;
根据各标准医学词条和对应的各标准医学特征关键词构建医学知识图谱;
其中,所述归一化的结果为各统一的医学词条和对应的各统一的医学特征关键词,所述校验包括:对各医学词条及其对应的多个医学特征关键词,以及各统一的医学词条和对应的各统一的医学特征关键词进行校验。
2.根据权利要求1所述的方法,其特征在于,对各医学词条及其对应的多个医学特征关键词进行归一化和校验,得到各标准医学词条和对应的各标准医学特征关键词,包括:
将各医学词条及其对应的多个医学特征关键词转换为词向量;
将所述词向量输入至神经网络模型中,输出各统一的医学词条和对应的各统一的医学特征关键词;
对各医学词条及其对应的多个医学特征关键词,以及各统一的医学词条和对应的各统一的医学特征关键词进行校验,得到各标准的医学词条和对应的各标准的医学特征关键词。
3.根据权利要求1所述的方法,其特征在于,还包括:
将各医学词条及其对应的医学描述,各医学词条对应的各医学特征关键词,以及各标准的医学词条和对应的各标准的医学特征关键词收录至数据发布库中。
4.根据权利要求3所述的方法,其特征在于,还包括:
将重复的医学词条,及其对应的医学描述和医学特征关键词删除。
5.根据权利要求3所述的方法,其特征在于,还包括:
计算每个医学特征关键词出现的次数与所有医学特征关键词出现的次数的比值,得到第一概率;
计算每个医学特征关键词在与其对应的医学词条中出现的次数与医学词条出现的次数的比值,得到第二概率;
将所述第一概率与所述第二概率相乘,得到每个医学特征关键词在与其对应的医学词条中的第三概率。
6.一种医学知识图谱构建装置,其特征在于,包括:
医学数据获取模块,用于从多个订阅源分别获取医学数据;
特征提取模块,用于根据各订阅源的医学数据中的各医学词条及其对应的医学描述,提取各医学词条对应的各医学特征关键词;
归一化校验模块,用于对各医学词条及其对应的多个医学特征关键词进行归一化和校验,得到各标准的医学词条和对应的各标准的医学特征关键词;
医学知识图谱构建模块,用于根据各标准医学词条和对应的各标准医学特征关键词构建医学知识图谱;
其中,所述归一化的结果为各统一的医学词条和对应的各统一的医学特征关键词,所述校验包括:对各医学词条及其对应的多个医学特征关键词,以及各统一的医学词条和对应的各统一的医学特征关键词进行校验。
7.根据权利要求6所述的装置,其特征在于,所述归一化校验模块包括:
词向量转换单元,用于将各医学词条及其对应的多个医学特征关键词转换为词向量;
归一化单元,用于将所述词向量输入至神经网络模型中,输出各统一的医学词条和对应的各统一的医学特征关键词;
校验单元,用于对各医学词条及其对应的多个医学特征关键词,以及各统一的医学词条和对应的各统一的医学特征关键词进行校验,得到各标准的医学词条和对应的各标准的医学特征关键词。
8.根据权利要求6所述的装置,其特征在于,还包括:
数据收录模块,用于将各医学词条及其对应的医学描述,各医学词条对应的各医学特征关键词,以及各标准的医学词条和对应的各标准的医学特征关键词收录至数据发布库中。
9.根据权利要求8所述的装置,其特征在于,还包括:
重复删除模块,用于将重复的医学词条,及其对应的医学描述和医学特征关键词删除。
10.根据权利要求8所述的装置,其特征在于,还包括:
特征概率计算模块,用于计算每个医学特征关键词出现的次数与所有医学特征关键词出现的次数的比值,得到第一概率;计算每个医学特征关键词在与其对应的医学词条中出现的次数与医学词条出现的次数的比值,得到第二概率;将所述第一概率与所述第二概率相乘,得到每个医学特征关键词在与其对应的医学词条中的第三概率。
11.一种医学知识图谱构建终端,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至5中任一项所述方法。
12.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5中任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910537781.0A CN110245242B (zh) | 2019-06-20 | 2019-06-20 | 医学知识图谱构建方法、装置以及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910537781.0A CN110245242B (zh) | 2019-06-20 | 2019-06-20 | 医学知识图谱构建方法、装置以及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110245242A CN110245242A (zh) | 2019-09-17 |
CN110245242B true CN110245242B (zh) | 2022-01-18 |
Family
ID=67888416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910537781.0A Active CN110245242B (zh) | 2019-06-20 | 2019-06-20 | 医学知识图谱构建方法、装置以及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110245242B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609910B (zh) * | 2019-09-18 | 2023-01-31 | 金色熊猫有限公司 | 医学知识图谱构建方法及装置、存储介质和电子设备 |
CN112735556A (zh) * | 2019-10-28 | 2021-04-30 | 北京中医药大学 | 一种用于诊治失眠病症的中医古籍数据处理方法 |
CN115658925B (zh) * | 2022-11-21 | 2023-04-25 | 阿里健康科技(杭州)有限公司 | 医学知识组的生成方法、装置、计算机设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574098A (zh) * | 2015-12-11 | 2016-05-11 | 百度在线网络技术(北京)有限公司 | 知识图谱的生成方法及装置、实体对比方法及装置 |
CN106777331A (zh) * | 2017-01-11 | 2017-05-31 | 北京航空航天大学 | 知识图谱生成方法及装置 |
CN107203511A (zh) * | 2017-05-27 | 2017-09-26 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN109255031A (zh) * | 2018-09-20 | 2019-01-22 | 苏州友教习亦教育科技有限公司 | 基于知识图谱的数据处理方法 |
CN109271530A (zh) * | 2018-10-17 | 2019-01-25 | 长沙瀚云信息科技有限公司 | 一种疾病知识图谱构建方法和平台系统、设备、存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016070028A1 (en) * | 2014-10-31 | 2016-05-06 | Informite Inc. | Systems and methods for keyword research and analysis for paid search |
CN106021281A (zh) * | 2016-04-29 | 2016-10-12 | 京东方科技集团股份有限公司 | 医学知识图谱的构建方法、其装置及其查询方法 |
CN106844723B (zh) * | 2017-02-10 | 2019-09-10 | 厦门大学 | 基于问答系统的医学知识库构建方法 |
CN107357924B (zh) * | 2017-07-25 | 2020-04-24 | 为朔医学数据科技(北京)有限公司 | 一种精准医学知识图谱构建方法和装置 |
US10127511B1 (en) * | 2017-09-22 | 2018-11-13 | 1Nteger, Llc | Systems and methods for investigating and evaluating financial crime and sanctions-related risks |
CN108305175A (zh) * | 2017-12-30 | 2018-07-20 | 上海栈略数据技术有限公司 | 基于智能医学知识图谱的保险理赔风控辅助审核系统 |
CN108182262B (zh) * | 2018-01-04 | 2022-03-04 | 华侨大学 | 基于深度学习和知识图谱的智能问答系统构建方法和系统 |
CN108389614B (zh) * | 2018-03-02 | 2021-01-19 | 西安交通大学 | 基于图像分割与卷积神经网络构建医学影像图谱的方法 |
CN109766445B (zh) * | 2018-12-13 | 2024-03-26 | 平安科技(深圳)有限公司 | 一种知识图谱构建方法及数据处理装置 |
CN109686443B (zh) * | 2018-12-26 | 2021-05-25 | 孙炜 | 一种临床诊断辅助决策系统和医学知识图谱积累方式 |
-
2019
- 2019-06-20 CN CN201910537781.0A patent/CN110245242B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574098A (zh) * | 2015-12-11 | 2016-05-11 | 百度在线网络技术(北京)有限公司 | 知识图谱的生成方法及装置、实体对比方法及装置 |
CN106777331A (zh) * | 2017-01-11 | 2017-05-31 | 北京航空航天大学 | 知识图谱生成方法及装置 |
CN107203511A (zh) * | 2017-05-27 | 2017-09-26 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN109255031A (zh) * | 2018-09-20 | 2019-01-22 | 苏州友教习亦教育科技有限公司 | 基于知识图谱的数据处理方法 |
CN109271530A (zh) * | 2018-10-17 | 2019-01-25 | 长沙瀚云信息科技有限公司 | 一种疾病知识图谱构建方法和平台系统、设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110245242A (zh) | 2019-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Automatic ICD-10 coding algorithm using an improved longest common subsequence based on semantic similarity | |
US10755804B2 (en) | Health information system for searching, analyzing and annotating patient data | |
CN107833603B (zh) | 电子病历文档分类方法、装置、电子设备及存储介质 | |
US20210019665A1 (en) | Machine Learning Model Repository Management and Search Engine | |
US11481411B2 (en) | Systems and methods for automated generation classifiers | |
EP2191399A1 (en) | System and method for analyzing electronic data records | |
US9922026B2 (en) | System and method for processing a natural language textual report | |
US20180011974A1 (en) | Systems and methods for improved optical character recognition of health records | |
CN110245242B (zh) | 医学知识图谱构建方法、装置以及终端 | |
US20150227714A1 (en) | Medical information analysis apparatus and medical information analysis method | |
US8229765B2 (en) | Automatically assessing drug interactions while protecting patient privacy | |
CN116721778B (zh) | 一种医学术语标准化方法、系统、设备及介质 | |
US20210202111A1 (en) | Method of classifying medical records | |
CN110471941B (zh) | 自动定位判断依据的方法、装置及电子设备 | |
Ren et al. | Validation of CORE-MD PMS support tool: a novel strategy for aggregating information from notices of failures to support medical devices’ post-market surveillance | |
CN109299238B (zh) | 一种数据查询方法和装置 | |
CN111755090A (zh) | 病历查找方法、病历查找装置、存储介质与电子设备 | |
US20160180028A1 (en) | Information retrieval processing device and method | |
US20190095427A1 (en) | Assisted free form decision definition using rules vocabulary | |
US10956411B2 (en) | Document management system for a medical task | |
US20230077056A1 (en) | Systems and methods for automated generation of classifiers | |
CN115579118A (zh) | 一种基于数据融合的医疗数据管理方法、系统及存储介质 | |
US11663215B2 (en) | Selectively targeting content section for cognitive analytics and search | |
Tran et al. | Scaling out and evaluation of obsecan, an automated section annotator for semi-structured clinical documents, on a large VA clinical corpus | |
US11269937B2 (en) | System and method of presenting information related to search query |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |