CN116737924A - 一种医疗文本数据处理方法及装置 - Google Patents
一种医疗文本数据处理方法及装置 Download PDFInfo
- Publication number
- CN116737924A CN116737924A CN202310478699.1A CN202310478699A CN116737924A CN 116737924 A CN116737924 A CN 116737924A CN 202310478699 A CN202310478699 A CN 202310478699A CN 116737924 A CN116737924 A CN 116737924A
- Authority
- CN
- China
- Prior art keywords
- entity
- medical
- text
- type
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 28
- 239000011159 matrix material Substances 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 21
- 230000004927 fusion Effects 0.000 claims abstract description 6
- 230000011218 segmentation Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 33
- 238000000605 extraction Methods 0.000 claims description 26
- 201000010099 disease Diseases 0.000 claims description 16
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 16
- 208000024891 symptom Diseases 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 239000012634 fragment Substances 0.000 claims description 6
- 238000013508 migration Methods 0.000 claims description 5
- 230000005012 migration Effects 0.000 claims description 5
- 230000008447 perception Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000011161 development Methods 0.000 claims description 4
- 230000018109 developmental process Effects 0.000 claims description 4
- 230000000638 stimulation Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000011160 research Methods 0.000 abstract description 4
- 239000000284 extract Substances 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract 1
- 238000013473 artificial intelligence Methods 0.000 description 12
- 210000004072 lung Anatomy 0.000 description 8
- 206010056342 Pulmonary mass Diseases 0.000 description 5
- 230000003902 lesion Effects 0.000 description 5
- 238000012546 transfer Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Mathematical Physics (AREA)
- Epidemiology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及一种医疗文本数据处理的方法及装置,所述方法包括:根据搜集到的公开医学信息抽取数据集微调中文医疗预训练模型MC‑BERT,以得到较为鲁棒的语言模型;通过基于字粒度的分词方式将输入文本分为长度为N的词元合集并构建N*N的token span矩阵,根据该矩阵预测医学实体的头尾位置,识别出实体所对应的文本范围;将存在医学关系的实体对送入融合距离感知的多关系分类器,最终确定医学实体关系,输出结构化结果。本发明利用基于深度学习的自然语言理解技术,通过机器读取理解医疗文本,并自动提取出的大量专业医学实体及关系,可以显著的提升医学临床科研的效率及质量,对医院专科数据库建设也有重要意义。
Description
技术领域
本发明属于信息处理技术领域,特别涉及一种使用人工智能技术对医疗文本进行处理的方法及装置。
背景技术
人工智能(Artificial Intelligence,Al)指由人制造出来的机器所表现出来的智能。通常人工智能是指通过普通电脑实现的智能。人工智能包括弱人工智能和强人工智能。一般认为,弱人工智能(也称狭义人工智能)指的是专注于解决某个特定领域问题的人工智能技术,也可以认为是应用于该领域的技术工具。
自然语言处理技术是狭义人工智能的一个重要分支,注重于对自然语言的处理和运用,在人机交互中已经得到了广泛的应用。自然语言处理的范畴包括信息检索、信息抽取、机器翻译、文本朗读、分词、词性标注、自动摘要等领域。
在健康医疗大数据领域的实际应用中,使用自然语言处理技术中的分词、标注,可以对于医生使用自然语言描述的病历进行分析,从中提取病人的症状、诊疗信息和事件等信息。这些信息的获得和标准化对于医生的临床科研研究以及人工智能辅助诊疗系统等应用的搭建都起到重要的作用。
医疗文本数据中蕴含了丰富的医学信息,医疗文本的结构化是将以电子病历、检验报告为代表的不规则医疗文本进行结构化分析,结合临床医学实体概念,让机器自动地从语言文本中提取出来用户想要的关键信息。这些信息有助于支撑临床学术研究、医学知识图谱构建、临床辅助决策等应用场景。然而海量的医疗文本对机器而言不可理解、不可计算,且此类数据由于本身的复杂性及专业性,需要医学科研工作者花费大量精力人为的将有效信息从文本中提取出来。为了更加高效的利用这些数据,精准的对医疗文本进行信息提取,目前迫切需要一种针对医疗文本结构化的技术。
目前已有的方案中,主要使用实体关系联合抽取模型进行医疗文本的实体及关系识别,一般将实体识别任务及实体关系抽取任务联合建模,通过共用编码器实现模型的参数共享直接得到存在关系的实体三元组。这类方案通常采用BiLSTM或中文预训练BERT对文本编码编码,忽略了预训练模型使用医学文本做域迁移(Domain Transfer)的重要性,基于大量医学语料微调得到的语言模型含有丰富的医学先验知识,在特征表达能力要好于基于通用语料训练得到的预训练模型。其次此类方案往往忽略了医学实体嵌套情形,例如“右肺占位”代表病变类型,“右肺占位”中的“右肺”则代表身体部位,两种不同类型的实体存在着嵌套关系,导致已有方案在嵌套实体情况下失效。至于在医学关系识别中,已有方案灵活性差,不能根据不同的关系模式快速定制关系分类器,这制约了模型的可拓展性。
发明内容
针对现有技术存在的上述问题,本发明提供了一种医疗文本结构化方法及装置,通过利用自然语言理解技术,结合医学预训练模型以及基于距离感知的关系分类器,实现了从医疗文本中精准的提取关键信息,形成结构化数据。
为了达到上述目的,本发明提供了一种医疗文本结构化方法,含有以下步骤:
根据获取到的公开医学信息抽取数据构建训练集,微调中文医疗预训练模型MC-BERT,完成参数的域迁移(Domain Transfer);
基于微调后的MC-BERT将临床医疗文本分词后得到长度为N的词元集合并构造N*N的span矩阵,其中N为自然数,将分词后医学文本送入MC-BERT获得编码向量,利用矩阵的起止位置判别出医学实体所对应的文本范围,抽取医学实体;
基于全连接层的多分类器,对存在医学关系的实体对进行关系判别,抽取医学实体关系。
将提取到的医学实体和医学实体关系进行结果融合。
作为优选,所述公开医学信息抽取数据集为CHIP2020中文医学文本命名实体识别、中文医学实体关系抽取数据集,CCKS2020医疗命名实体识别、医疗实体及属性抽取数据集。
作为优选,所述微调中文医疗预训练模型的方法为:基于BIOES编码方式对所有公开医学信息抽取数据集进行序列标注,其中B-Type代表实体的起始,I-Type代表实体的中间,O代表非实体部分,E-Type代表实体的尾部,S-Type代表单字实体,Type代表所对应的医学实体类型。对某类型医学实体Type-a中嵌套其它类型实体Type-b情况时,采用合并标签层的方式,将存在嵌套关系的两种实体类别两两组合,产生新的实体类型标签Type-a|Type-b。通过统一序列标注后的数据以命名实体识别任务为学习目标微调MC-BERT,得到领域迁移后的新语言模型。
作为优选,对临床医疗文本数据预处理,清洗并切分长文本;采用BERT模型自带的字典文件进行分词,得到的长度为N的token集合并构造N*N的词元矩阵span用于编码实体标签,矩阵的下标值span[start][end]=C,其中[start][end]代表医学实体所对应文本的起止范围,C代表实体类别,C=0时则表示非实体文本;通过微调后的MC-Bert作为embedding,得到span[start][end]所对应文本片段的实体类型逻辑得分,得分大于阈值α视为有效实体。
作为优选,所述标注出的有效实体通过以下公式进行实体间关系的确定:
式中,M代表实体关系类别总数,pi表示第i个实体对所代表的上下文向量表示,di表示第i个实体对间的相对距离特征向量,字符°表示向量级联操作。
作为优选,所述实体对所代表的上下文向量为:
式中,与/>代表第i个实体对中头实体的首尾特征向量,/>与/>代表第i个实体对中尾实体的首尾特征向量,上述特征向量均从token集合编码向量XN中获取。该方法还包括:通过构建正负样本指导模型学习医学实体对间的隐含关系,保证模型仅可以判别存在事实医学关系的实体对。
作为优选,所述实体对间的相对距离特征向量为:
di=Linear(|si2-ei1|) (3)
式中,si2、ei1分别代表第i个实体对中尾实体与头实体在BERT位置编码(positionembedding)中的特征向量,二者向量经相减取绝对值后表示实体对中两个医学实体的相对位置关系,Linear(·)函数表示通过全连接层对实体对的位置向量做进一步非线性映射。
作为优选,对所述提取到的医学实体和医学实体关系进行遍历,去除文本过长的医学实体,将存在医学关系的实体对以{头部实体-医学关系,尾部实体}格式可视化并保存,将独立存在的医学实体以{实体类型,实体值}格式可视化并保存。
本发明还提供了一种医疗文本结构化装置,包括:
数据预处理模块,用于清洗处理输入的医疗文本;
医学实体抽取模块,将所述清洗处理后的医学文本输入至微调后的自然语言识别模型,抽取出医学实体所对应的文本片段;
医学实体关系抽取模块,利用距离感知的关系分类器抽取出医学实体对间的事实关系;
双阶段结果融合模块,用于将所述医学实体和医学实体关系进行结果融合并予以展示;
与现有技术相比,本发明的优点和积极效果在于:
本发明提供医疗文本结构化方法,注重预训练语言模型对文本的特征提取能力,针对医疗文本结构化任务特点,采用医学信息抽取数据集以命名实体识别为切入点微调中文医疗预训练模型,实现了语言模型的领域适配。得到微调后的预训练模型后,基于tokenspan矩阵的方式编码实体标签,确保了嵌套实体的可识别;基于距离感知的实体关系分类器,学习了实体间的上下文关系,通过构建正负样本保证模型仅可以判别存在事实医学关系的实体对;通过二阶段的结果融合输出结构化内容,提升了临床医学文本的数据利用效率。
附图说明
图1为本发明实施例的医疗文本结构化方法流程图;
图2为本发明实施例的医疗文本结构化方法装置的结构框图;
图3为本发明实施例的BIOES编码方式示意图;
图4为本发明实施例的词元矩阵实体标签示意图;
具体实施方式
下面,结合附图和具体实施方式对本发明的各个方面进行详细描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例子。在没有进一步叙述的情况下,一个实施方式中的元件、结构和特征也可以有益地结合到其他实施方式中。
本发明实施例的一种医疗文本结构化方法,如图1所示,包括以下步骤:
步骤S1、将收集到的公开医学信息抽取数据集以命名实体识别任务微调中文医疗预训练模型mcBERT,得到域适应的预训练语言模型;具体的,在“微调中文医疗预训练模型mcBERT”之前,包括:
所述公开医学信息抽取数据集为CHIP2020中文医学文本命名实体识别、中文医学实体关系抽取数据集,CCKS2020医疗命名实体识别、医疗实体及属性抽取数据集。
基于BIOES编码方式对所有收集到的公开医学信息抽取数据集进行序列标注,其中B-Type代表实体的起始,I-Type代表实体的中间,O代表非实体部分,E-Type代表实体的尾部,S-Type代表单字实体,Type代表所对应的医学实体类型。标注实体类型标签主要有:患处的具体部位(Body part)、有无明显的病患指标(Symptom)、生长发育指标(BMI)、患处具体的位置(direction)、疾病名称(Disease)、是否有采样数据(Sample)、疾病的进展情况(Change)、属性特征(Feature)、刺激要素(Incentive)、时间(Time)、疾病所处阶段(Degree),其中症状的标注实体类型前面可以加–号,以表示该患者不具有该症状或体征,实体之间的关系采用有序对的方式来表示。使用BIOES获取症状和属性的方法步骤如下:
采用收集的公开医学信息的命名实体识别和关系抽取技术,提取出医学信息的实体,标记出否定症状;
以患处的具体部位、有无明显的病患指标、生长发育指标、采样数据作为实体,确定该实体对应的属性;
基于有无明显的病患指标,提取患处具体的位置和属性特征;
基于有无明显的病患指标,提取时间、采样数据、疾病所处阶段、疾病的进展情况及刺激要素;
基于有无明显的病患指标,提取疾病的进展情况及刺激要素;
基于是否有采样数据,提取属性特征及刺激要素;
对于提取的实体及属性,进行合并和去重处理。
具体在实际的标注过程中,对某类型医学实体Type-a中嵌套其它类型实体Type-b情况时,采用合并标签层的方式,将存在嵌套关系的两种实体类别两两组合,产生新的实体类型标签Type-a|Type-b。例如,图3中示,文本“患者双肺小结节”中“双肺小结节”代表病变实体类型,“双肺”代表部位实体类型,因此对“双肺”标注时,合并其标签为“B-部位|B-病变,E-部位|I-病变”。
MC-BERT是自然语言理解模型BERT在中文医疗问答、中文医疗百科和中文电子病历等大规模中文医学语料上训练得来,诸多医疗知识已经被显式地注入到模型中。再通过统一序列标注后的数据以命名实体识别任务为学习目标微调MC-BERT,可以得到领域迁移后的新语言模型,使得模型更适应于信息抽取任务。
步骤S2、对临床医疗文本数据预处理,清洗并切分长文本;采用BERT模型自带的vocabulary字典进行分词,得到的长度为N的词元集合并构造N*N的span矩阵用于编码实体标签;使用微调后的MC-Bert作为embedding方式,得到span矩阵所对应文本片段的实体类型逻辑得分,得分大于阈值α视为有效实体。
具体的,对临床医疗文本数据预处理,去除非法乱码字符,若文本长度大于BERT支持的上限512,则以512为长度切割长文本,得到多个数据段落;基于BERT自带的名为vocab.txt文件,对医疗文本中出现的中文字符采用字粒度的方式逐字切分,对医学英文字符及数字按照sub-word方式切分,分词后得到的长度为N的词元集合用于构造N*N的span矩阵,span矩阵涵盖了输入文本所有情况的片段排列,保证实体嵌套的情况不再出现。例如,图4所示的文本“右肺占位”经分词后构造了4*4的token span矩阵,span[0][1]=bod中[0][1]代表矩阵所对应文本的起止范围,即“右肺”,其实体类型为“body”;span[0][3]=dis中[0][3]代表矩阵所对应文本的起止范围,即“右肺占位”,其实体类型为“dis”,其它非实体部分设为0。使用微调后的MC-Bert作为embedding方式,得到词元集合编码向量XN,经非线性变换后得到和/>二者的内积作为span矩阵的logits值以评价span[start][end]所对应文本片段的实体类型得分,得分大于阈值α视为有效实体,这里α基于经验设置为0.5。
步骤S3、基于全连接层的多分类器,对存在医学关系的实体对进行关系判别,抽取医学实体关系。
具体的,将标注的医学实体以pair对的方式构造训练集,存在事实医学关系的实体对定义为正样本,对不存在医学关系的实体对进行随机采样后定义为负样本,保证模型仅判别存在事实医学关系的实体对。所述实体对通过以下公式进行实体间的关系确定:
式中,M代表实体关系类别总数,pi表示第i个实体对所代表的上下文向量表示,di表示第i个实体对间的相对距离特征向量,字符°表示向量级联操作。
所述实体对所代表的上下文向量为:
式中,与/>代表第i个实体对中头实体的首尾特征向量,/>与/>代表第i个实体对中尾实体的首尾特征向量,上述特征向量均从token集合编码向量XN中获取。
所述实体对间的相对距离特征向量为:
di=Linear(|si2-ei1|) (3)
式中,si2、ei1分别代表第i个实体对中尾实体与头实体在BERT位置编码(positionembedding)中的特征向量,二者向量经相减取绝对值后表示实体对中两个医学实体的相对位置关系,Linear(·)函数表示通过全连接层对实体对的位置向量做进一步非线性映射。映射后的位置向量与实体对向量保持维度一致,以级联的方式完成特征融合。
步骤S4、提取到的医学实体和医学实体关系进行遍历,去除文本过长的医学实体,将存在医学关系的实体对以{头实体-医学关系,尾部实体}格式可视化并保存,将独立存在的医学实体以{实体类型,实体值}格式可视化并保存。如“患者于2020年1月行CT检查示双肺结节”文本经步骤S2、S3后将提取(日期,2020年1月),(检查手段,CT),(病变,双肺结节),其中“日期”与“检查手段”间存在“检查日期”这种关系,将其格式化为:{CT-检查日期,2020年1月};其中“病变”这一实体独立存在,不与其它实体存在医学关系,将其格式化为:{病变,双肺结节}。
综上所述,本发明提供一种医疗文本结构化方法,可将输入的医疗文本自动地进行结构化提取,获得大量专业医学实体及关系,显著提升医学临床科研的效率及质量。
实施例2:参见图2,本实施例提供了一种医疗文本结构化装置。各功能模型详细说明如下:
数据预处理模块,用于清洗处理输入的医疗文本;
医学实体抽取模块,将所述清洗处理后的医学文本输入至微调后的自然语言识别模型,抽取出医学实体所对应的文本片段;
具体的,所述医学实体抽取模块,使用域迁移后的医疗预训练模型MC-BERT作embedding,通过对token span矩阵下标所对应文本范围判别是否为预定义医学实体;
医学实体关系抽取模块,利用距离感知的关系分类器抽取出医学实体对间的事实关系;
具体的,所述医学实体关系抽取模块,构造的正负样本对进行模型的训练,学习过程中融入实体位置特征向量,使用多分类器进行实体之间的关系识别。
双阶段结果融合模块,用于将所述医学实体和医学实体关系进行结果融合并予以展示;
进一步地,所述医疗文本结构化装置还包括:标注模块,对临床医疗文本数据进行实体及关系标注。
上述实施例用来解释本发明,而非对其进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都应包含再本发明的保护范围之内。
Claims (10)
1.一种医疗文本数据处理方法,其特征在于,所述方法包括:
根据获取到的公开医学信息抽取数据集构建训练集,微调中文医疗预训练模型MC-BERT,完成参数的域迁移;
基于微调后的MC-BERT将临床医疗文本分词后得到长度为N的词元(token)合集并构造N*N的矩阵,其中N为自然数,随后将分词后的医学文本送入MC-BERT获得编码向量,利用矩阵的位置坐标反推出医学实体所对应的文本范围,抽取医学实体;
基于全连接层的多分类器,对存在医学关系的实体对进行关系判别,抽取医学实体关系;
将提取到的医学实体和医学实体关系进行结果融合。
2.根据权利要求1所述的一种医疗文本数据处理方法,其特征在于,所述公开医学信息抽取数据集为CHIP2020中文医学文本命名实体识别、中文医学实体关系抽取数据集,CCKS2020医疗命名实体识别、医疗实体及属性抽取数据集。
3.根据权利要求1所述的一种医疗文本数据处理方法,其特征在于,所述微调中文医疗预训练模型的方法为:基于BIOES编码方式对所有收集到的公开医学信息抽取数据集进行序列标注,其中B-Type代表实体的起始,I-Type代表实体的中间,O代表非实体部分,E-Type代表实体的尾部,S-Type代表单字实体,Type代表所对应的医学实体类型。对某类型医学实体Type-a中嵌套其它类型实体Type-b情况时,采用合并标签层的方式,将存在嵌套关系的两种实体类别两两组合,产生新的实体类型标签Type-a|Type-b。通过统一序列标注后的数据以命名实体识别任务为学习目标微调MC-BERT,得到领域迁移后的新语言模型。
4.根据权利要求1所述的一种医疗文本数据处理方法,其特征在于,所述抽取医学实体具体步骤为:对临床医疗文本数据预处理,清洗并切分长文本;采用BERT模型自带的字典文件进行分词,得到的长度为N的词元集合并构造N*N的span矩阵用于编码实体标签,矩阵的下标值span[start][end]=C,其中[start][end]代表医学实体所对应文本的起止范围,C代表实体类别,C=0时则表示非实体文本;通过微调后的MC-Bert作为embedding,得到span[start][end]所对应文本片段的实体类型逻辑得分,得分大于阈值α视为有效实体。
5.根据权利要求3所述的一种医疗文本数据处理方法,其特征在于,所述将标注出的有效实体通过以下公式进行实体间关系的确定:
式中,M代表实体关系类别总数,pi表示第i个实体对所代表的上下文向量表示,di表示第i个实体对间的相对距离特征向量,字符°表示向量级联操作。
6.根据权利要求5所述的一种医疗文本数据处理方法,其中标注实体类型标签主要有:患处的具体部位(Body part)、有无明显的病患指标(Symptom)、生长发育指标(BMI)、患处具体的位置(direction)、疾病名称(Disease)、是否有采样数据(Sample)、疾病的进展情况(Change)、属性特征(Feature)、刺激要素(Incentive)、时间(Time)、疾病所处阶段(Degree),其中症状的标注实体类型前面可以加–号,以表示该患者不具有该症状或体征,实体之间的关系采用有序对的方式来表示,具体标注方法步骤如下:
采用收集的公开医学信息的命名实体识别和关系抽取技术,提取出医学信息的实体,标记出否定症状;
以患处的具体部位、有无明显的病患指标、生长发育指标、采样数据作为实体,确定该实体对应的属性;
基于有无明显的病患指标,提取患处具体的位置和属性特征;
基于有无明显的病患指标,提取时间、采样数据、疾病所处阶段、疾病的进展情况及刺激要素;
基于有无明显的病患指标,提取疾病的进展情况及刺激要素;
基于是否有采样数据,提取属性特征及刺激要素;
对于提取的实体及属性,进行合并和去重处理。
7.据权利要求4所述的一种医疗文本数据处理方法,其特征在于,所述实体对所代表的上下文向量为:
式中,与/>代表第i个实体对中头实体的首尾特征向量,/>与/>代表第i个实体对中尾实体的首尾特征向量,上述特征向量均从token集合编码向量XN中获取,通过构建正负样本指导模型学习医学实体对间的隐含关系,保证模型仅可以判别存在事实医学关系的实体对。
8.根据权利要求4所述的一种医疗文本数据处理方法,其特征在于,所述实体对间的相对距离特征向量为:
di=Linear(|si2-ei1|) (3)
式中,si2、ei1分别代表第i个实体对中尾实体与头实体在BERT位置编码(positionembedding)中的特征向量,二者向量经相减取绝对值后表示实体对中两个医学实体的相对位置关系,Linear(·)函数表示通过全连接层对实体对的位置向量做进一步非线性映射。
9.根据权利要求1所述的一种医疗文本数据处理方法,其特征在于,对所述提取到的医学实体和医学实体关系进行遍历,去除文本过长的医学实体,将存在医学关系的实体对以{头部实体-医学关系,尾部实体}格式可视化并保存,将独立存在的医学实体以{实体类型,实体值}格式可视化并保存。
10.一种医学文本数据处理装置,其特征在于,包括:
数据预处理模块,用于清洗处理输入的医疗文本;
医学实体抽取模块,将所述清洗处理后的医学文本输入至微调后的自然语言识别模型,抽取出医学实体所对应的文本片段;
医学实体关系抽取模块,利用距离感知的关系分类器抽取出医学实体对间的事实关系;
双阶段结果融合模块,用于将所述医学实体和医学实体关系进行结果融合并予以展示;
该装置执行并实现如权利要求1至9任一所述的医疗文本数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310478699.1A CN116737924B (zh) | 2023-04-27 | 2023-04-27 | 一种医疗文本数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310478699.1A CN116737924B (zh) | 2023-04-27 | 2023-04-27 | 一种医疗文本数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116737924A true CN116737924A (zh) | 2023-09-12 |
CN116737924B CN116737924B (zh) | 2024-06-25 |
Family
ID=87912216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310478699.1A Active CN116737924B (zh) | 2023-04-27 | 2023-04-27 | 一种医疗文本数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116737924B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117240916A (zh) * | 2023-11-14 | 2023-12-15 | 阿里健康科技(中国)有限公司 | 结构化医学数据的发送方法、存储方法及相关装置 |
CN118297069A (zh) * | 2024-06-06 | 2024-07-05 | 北方健康医疗大数据科技有限公司 | 基于自然语言处理的数据治理系统、方法、设备及介质 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090119274A1 (en) * | 2005-06-15 | 2009-05-07 | Panasonic Corporation | Named entity extracting apparatus, method, and program |
US20090249182A1 (en) * | 2008-03-31 | 2009-10-01 | Iti Scotland Limited | Named entity recognition methods and apparatus |
US20160275073A1 (en) * | 2015-03-20 | 2016-09-22 | Microsoft Technology Licensing, Llc | Semantic parsing for complex knowledge extraction |
US20170364503A1 (en) * | 2016-06-17 | 2017-12-21 | Abbyy Infopoisk Llc | Multi-stage recognition of named entities in natural language text based on morphological and semantic features |
US20180025121A1 (en) * | 2016-07-20 | 2018-01-25 | Baidu Usa Llc | Systems and methods for finer-grained medical entity extraction |
US20190006027A1 (en) * | 2017-06-30 | 2019-01-03 | Accenture Global Solutions Limited | Automatic identification and extraction of medical conditions and evidences from electronic health records |
US20190073355A1 (en) * | 2016-10-21 | 2019-03-07 | Boe Technology Group Co., Ltd. | Information extraction apparatus and method |
CN112818676A (zh) * | 2021-02-02 | 2021-05-18 | 东北大学 | 一种医学实体关系联合抽取方法 |
CN112989835A (zh) * | 2021-04-21 | 2021-06-18 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种复杂医疗实体抽取方法 |
AU2021106425A4 (en) * | 2021-08-22 | 2021-11-04 | Honghai Feng | Method, system and apparatus for extracting entity words of diseases and their corresponding laboratory indicators from Chinese medical texts |
US20210375488A1 (en) * | 2020-05-29 | 2021-12-02 | Medius Health | System and methods for automatic medical knowledge curation |
CN114036934A (zh) * | 2021-10-15 | 2022-02-11 | 浙江工业大学 | 一种中文医学实体关系联合抽取方法和系统 |
CN114637852A (zh) * | 2022-04-24 | 2022-06-17 | 四川医枢科技有限责任公司 | 医学文本的实体关系抽取方法、装置、设备及存储介质 |
CN114692636A (zh) * | 2022-03-09 | 2022-07-01 | 南京海泰医疗信息系统有限公司 | 一种基于关系分类与序列标注的嵌套命名实体识别方法 |
CN115510242A (zh) * | 2022-10-04 | 2022-12-23 | 河南科技大学 | 一种中医文本实体关系联合抽取方法 |
CN115879473A (zh) * | 2022-12-26 | 2023-03-31 | 淮阴工学院 | 基于改进图注意力网络的中文医疗命名实体识别方法 |
-
2023
- 2023-04-27 CN CN202310478699.1A patent/CN116737924B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090119274A1 (en) * | 2005-06-15 | 2009-05-07 | Panasonic Corporation | Named entity extracting apparatus, method, and program |
US20090249182A1 (en) * | 2008-03-31 | 2009-10-01 | Iti Scotland Limited | Named entity recognition methods and apparatus |
US20160275073A1 (en) * | 2015-03-20 | 2016-09-22 | Microsoft Technology Licensing, Llc | Semantic parsing for complex knowledge extraction |
US20170364503A1 (en) * | 2016-06-17 | 2017-12-21 | Abbyy Infopoisk Llc | Multi-stage recognition of named entities in natural language text based on morphological and semantic features |
US20180025121A1 (en) * | 2016-07-20 | 2018-01-25 | Baidu Usa Llc | Systems and methods for finer-grained medical entity extraction |
US20190073355A1 (en) * | 2016-10-21 | 2019-03-07 | Boe Technology Group Co., Ltd. | Information extraction apparatus and method |
US20190006027A1 (en) * | 2017-06-30 | 2019-01-03 | Accenture Global Solutions Limited | Automatic identification and extraction of medical conditions and evidences from electronic health records |
US20210375488A1 (en) * | 2020-05-29 | 2021-12-02 | Medius Health | System and methods for automatic medical knowledge curation |
CN112818676A (zh) * | 2021-02-02 | 2021-05-18 | 东北大学 | 一种医学实体关系联合抽取方法 |
CN112989835A (zh) * | 2021-04-21 | 2021-06-18 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种复杂医疗实体抽取方法 |
AU2021106425A4 (en) * | 2021-08-22 | 2021-11-04 | Honghai Feng | Method, system and apparatus for extracting entity words of diseases and their corresponding laboratory indicators from Chinese medical texts |
CN114036934A (zh) * | 2021-10-15 | 2022-02-11 | 浙江工业大学 | 一种中文医学实体关系联合抽取方法和系统 |
CN114692636A (zh) * | 2022-03-09 | 2022-07-01 | 南京海泰医疗信息系统有限公司 | 一种基于关系分类与序列标注的嵌套命名实体识别方法 |
CN114637852A (zh) * | 2022-04-24 | 2022-06-17 | 四川医枢科技有限责任公司 | 医学文本的实体关系抽取方法、装置、设备及存储介质 |
CN115510242A (zh) * | 2022-10-04 | 2022-12-23 | 河南科技大学 | 一种中医文本实体关系联合抽取方法 |
CN115879473A (zh) * | 2022-12-26 | 2023-03-31 | 淮阴工学院 | 基于改进图注意力网络的中文医疗命名实体识别方法 |
Non-Patent Citations (1)
Title |
---|
李灵芳;杨佳琦;李宝山;杜永兴;胡伟健;: "基于BERT的中文电子病历命名实体识别", 内蒙古科技大学学报, no. 01, 15 March 2020 (2020-03-15) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117240916A (zh) * | 2023-11-14 | 2023-12-15 | 阿里健康科技(中国)有限公司 | 结构化医学数据的发送方法、存储方法及相关装置 |
CN117240916B (zh) * | 2023-11-14 | 2024-02-13 | 阿里健康科技(中国)有限公司 | 结构化医学数据的发送方法、存储方法及相关装置 |
CN118297069A (zh) * | 2024-06-06 | 2024-07-05 | 北方健康医疗大数据科技有限公司 | 基于自然语言处理的数据治理系统、方法、设备及介质 |
CN118297069B (zh) * | 2024-06-06 | 2024-08-30 | 北方健康医疗大数据科技有限公司 | 基于自然语言处理的数据治理系统、方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116737924B (zh) | 2024-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108831559B (zh) | 一种中文电子病历文本分析方法与系统 | |
CN111540468B (zh) | 一种诊断原因可视化的icd自动编码方法与系统 | |
CN116737924B (zh) | 一种医疗文本数据处理方法及装置 | |
CN111078875B (zh) | 一种基于机器学习的从半结构化文档中提取问答对的方法 | |
CN112002411A (zh) | 一种基于电子病历的心脑血管病知识图谱问答方法 | |
CN111949759A (zh) | 病历文本相似度的检索方法、系统及计算机设备 | |
CN112542223A (zh) | 一种从中文电子病历构建医疗知识图谱的半监督学习方法 | |
CN109508459B (zh) | 一种从新闻中提取主题和关键信息的方法 | |
CN111538845A (zh) | 一种构建肾病专科医学知识图谱的方法、模型及系统 | |
CN112800766A (zh) | 基于主动学习的中文医疗实体识别标注方法及系统 | |
CN112241457A (zh) | 一种融合扩展特征的事理知识图谱事件检测方法 | |
CN113903422A (zh) | 医疗影像诊断报告实体提取方法、装置及设备 | |
CN117787282B (zh) | 基于大语言模型的医患文本智能提取方法 | |
CN115083599A (zh) | 一种基于知识图谱的病状初步诊断及治疗方法 | |
CN113435200A (zh) | 实体识别模型训练、电子病历处理方法、系统及设备 | |
CN112749277A (zh) | 医学数据的处理方法、装置及存储介质 | |
CN113130025A (zh) | 一种实体关系抽取方法、终端设备及计算机可读存储介质 | |
CN113343680B (zh) | 一种基于多类型病历文本的结构化信息提取方法 | |
CN117854715B (zh) | 基于问诊分析的智能助诊系统 | |
CN113111660A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN118016224A (zh) | 一种基于医疗大数据平台的智能病例分析辅助系统 | |
CN116719840A (zh) | 一种基于病历后结构化处理的医疗信息推送方法 | |
CN116069946A (zh) | 一种基于深度学习的生物医学知识图谱构建方法 | |
CN114218954A (zh) | 病历文本中疾病实体和症状实体阴阳性的判别方法及装置 | |
CN114841168A (zh) | 影像学报告文本的结构化信息处理方法、肺部疾病监测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |