CN114360729A - 一种基于深度神经网络的医疗文本信息自动化抽取方法 - Google Patents
一种基于深度神经网络的医疗文本信息自动化抽取方法 Download PDFInfo
- Publication number
- CN114360729A CN114360729A CN202111413366.8A CN202111413366A CN114360729A CN 114360729 A CN114360729 A CN 114360729A CN 202111413366 A CN202111413366 A CN 202111413366A CN 114360729 A CN114360729 A CN 114360729A
- Authority
- CN
- China
- Prior art keywords
- data
- word
- model
- training
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims description 32
- 238000013528 artificial neural network Methods 0.000 title claims description 17
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000003062 neural network model Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 47
- 238000012549 training Methods 0.000 claims description 33
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000002360 preparation method Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 4
- 210000004072 lung Anatomy 0.000 description 10
- 210000001165 lymph node Anatomy 0.000 description 6
- 238000012550 audit Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000002685 pulmonary effect Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 210000000621 bronchi Anatomy 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 210000001685 thyroid gland Anatomy 0.000 description 3
- 206010014561 Emphysema Diseases 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 201000009030 Carcinoma Diseases 0.000 description 1
- 206010011878 Deafness Diseases 0.000 description 1
- 208000003164 Diplopia Diseases 0.000 description 1
- 206010013554 Diverticulum Diseases 0.000 description 1
- 206010019233 Headaches Diseases 0.000 description 1
- 208000004044 Hypesthesia Diseases 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 206010028748 Nasal obstruction Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000031481 Pathologic Constriction Diseases 0.000 description 1
- 206010067511 Tracheal diverticulum Diseases 0.000 description 1
- 206010044302 Tracheitis Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 210000000709 aorta Anatomy 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 206010006451 bronchitis Diseases 0.000 description 1
- 230000002308 calcification Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 210000004351 coronary vessel Anatomy 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 208000029444 double vision Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 208000029509 elastofibroma dorsi Diseases 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010370 hearing loss Effects 0.000 description 1
- 231100000888 hearing loss Toxicity 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 208000034783 hypoesthesia Diseases 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 210000001370 mediastinum Anatomy 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 231100000862 numbness Toxicity 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000004872 soft tissue Anatomy 0.000 description 1
- 230000036262 stenosis Effects 0.000 description 1
- 208000037804 stenosis Diseases 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 210000000115 thoracic cavity Anatomy 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 210000003437 trachea Anatomy 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
Images
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及到一种医疗文本信息自动化抽取的方法,该方法以历史累计抽取数据作为标注数据集,搭建深度神经网络模型,实现输入医保非结构化文本数据,输出特定医保审核人员设定的实体信息及关系。本发明的方法实现了输入医保非结构化文本数据,输出特定医保审核人员设定的实体信息及关系,从而解决审计过程中审计人员需要人为整理或核实的关键医保信息所产生的低效率和低准确率的问题。
Description
技术领域
本发明涉及到人工智能领域,特别涉及到一种医疗文本信息自动化抽取的方法及基于该方法的系统。
背景技术
保审计在考虑医保全量数据模式下,采用基于知识图谱的大数据方法进行审计。在知识图谱的构建过程中,最核心的步骤为信息自动化抽取,然而医保审计数据源很多,数据采集对象包括医保部门、卫生部门、集中采集机构、定点医疗机构和外部数据,数据的内容也各不相同,比如职工医疗保险、基金财务、药品和材料等。
面对如此庞大且繁杂的数据量,如何实现信息自动化抽取是技术关键,信息抽取又包含实体、实体关系和实体属性的抽取,具体可描述为三元组S-P-O(Subject-Predicate-Object)形式。
在现有技术中,审计构建知识图谱时信息抽取的方法主要有:①.人为从海量数据集中抽取整理有用信息②依赖于被审计单位上传的结构化数据③采用规则或业务逻辑进行匹配。以上方法不仅数据真实性和全面性有待核实,而且需要大量人力和时间成本,且依赖业务熟悉程度,面对审计要求时间紧,任务重的特点,现有方法难以满足审计需求。
发明内容
本发明的目的在于克服上述现有技术存在的不足,提供一种新的基于DGCNN+Attention的医疗文本信息自动化抽取方法及抽取系统。本发明的方法和系统从不同医保数据源读取数据,从复杂的数据中自动化抽取审计所需的S-P-O实体关系信息,助力搭建医保审计知识图谱,抽取速度快、准确率高。
为了达到上述发明目的,本发明专利提供的技术方案如下:
一种基于深度神经网络的医疗文本信息自动化抽取方法,其该方法以历史累计抽取数据作为标注数据集,搭建深度神经网络模型,实现输入医保非结构化文本数据,输出特定医保审核人员设定的实体信息及关系,该方法包括训练数据准备阶段、数据预处理阶段、模型训练阶段和数据预测阶段。
在上述基于深度神经网络的医疗文本信息自动化抽取方法中,该方法具体包括如下实施步骤:
在所述的训练数据准备阶段,收集尽量多的已标注语料数据形成数据集,该数据集根据历年医保数据审核所使用到的信息为标准数据,采用多模式匹配算法标注非结构化文本数据集,将标注的数据集按照8:2分为训练集和测试集;
在所述的数据预处理阶段,训练词向量模型,采用包括结巴分词在内的分词器工具对训练集经停用词过滤,再分词,训练Word2Vec词向量模型,遍历输入文本获取字ID,对字ID进行随机初始字向量,结合训练好的词向量,通过矩阵变换得到混合字词向量;
在所述的模型训练阶段,以混合字词向量作为输入,以标注后的关系为输出,根据深度神经网络模型,进行多轮次迭代训练,保存训练模型;
在所述的数据预测阶段,在训练好的模型中输入待抽取的数据文本,输出实体关系,该实体关系为:主语词-谓语词-宾语词。
在上述基于深度神经网络的医疗文本信息自动化抽取方法中,所述的多模式匹配算法为AC自动机。
在上述基于深度神经网络的医疗文本信息自动化抽取方法中,所述的模型训练阶段中,所述的模型训练阶段中,结合位置编码作为模型输入,记为E,以该E输入到12层的深度神经网络模型结构中,经过运算得到新的输出,记为H1,将H1向量传入自注意层,再经过卷积层和全连接层,预测S的首尾位置,以随机采样一个标注S,映射H1对应的子向量,输入到一个双向序列模型中,得到S的编码向量,该S的编码向量是与输入序列等长的编码向量,将H1传入另一个自注意层后,拼接输出的向量,记为H2,将拼接后的H2传入卷积层和全连接层,最终采用双Sigmoid结构作为激活函数来预测O,P位置,存储上述训练模型到本地。
基于上述技术方案,与现有技术相比,本发明一种基于深度神经网络的医疗文本信息自动化抽取的方法及基于该方法的系统取得了如下技术效果:
1.本发明基于深度神经网络的医疗文本信息自动化抽取的方法及基于该方法的系统中模型架构只用到了卷积网络结构和注意力机制,以及较短的LSTM结构,模型速度效率高。
2.本发明基于深度神经网络的医疗文本信息自动化抽取的方法及基于该方法的系统中算法架构为端到端形式,通过一个步骤即可完成关系抽取,实现了端到端模型训练和预测,大大优于现有的两步骤提取方式,即先抽取实体再获得关系。
3.本发明基于深度神经网络的医疗文本信息自动化抽取的方法及基于该方法的系统中采用双Sigmoid函数输出,实现多种关系的S-P-O抽取任务。
附图说明
图1是本发明一种基于深度神经网络的医疗文本信息自动化抽取的方法的实施流程示意图。
具体实施方式
下面我们结合附图和具体的实施例来对本发明医疗文本信息自动化抽取的方法及基于该方法的系统做进一步的详细阐述,以求更为清楚明了地理解其操作流程和处理方式,但不能以此来限制本发明的保护范围。
本发明以历史累计抽取数据作为标注数据集,搭建基于DGCNN+Attention的深度神经网络模型,实现输入医保非结构化文本数据,输出特定医保审核人员设定的实体信息及关系,从而解决审计过程中审计人员需要人为整理或核实的关键医保信息所产生的问题。
一种基于深度神经网络的医疗文本信息自动化抽取方法,该方法包括训练数据准备阶段、数据预处理阶段、模型训练阶段和数据预测阶段。
在上述基于深度神经网络的医疗文本信息自动化抽取方法中,该方法具体包括如下实施步骤:
在所述的训练数据准备阶段,收集尽量多的已标注语料数据形成数据集,该数据集根据历年医保数据审核所使用到的信息为标准数据,采用多模式匹配算法标注非结构化文本数据集,将标注的数据集按照8:2分为训练集和测试集;实施例中多模式匹配算法采用AC自动机,为典型的多模式匹配算法。
在所述的数据预处理阶段,训练词向量模型,采用包括结巴分词在内的分词器工具对训练集经停用词过滤,再分词,训练Word2Vec词向量模型,遍历输入文本获取字ID,对字ID进行随机初始字向量,结合训练好的词向量,通过矩阵变换得到混合字词向量,上述加载字ID序列,经过随机初始化字向量层获取指定维度的字向量。
在所述的模型训练阶段,以混合字词向量作为输入,以标注后的关系为输出,根据深度神经网络模型,进行多轮次迭代训练,保存训练模型。在所述的模型训练阶段中,结合Position Embedding构造公式作为位置编码,进行模型输入,记为E,以该E输入到12层的深度神经网络模型结构,经过运算得到新的输出,记为H1,将H1向量传入自注意(Self-Attention)层,再经过卷积层CNN和全连接层Dense,预测S的首尾位置,以随机采样一个标注S,映射H1对应的子向量,输入到一个双向LSTM序列模型中,得到S的编码向量,该S的编码向量是与输入序列等长的编码向量,将H1传入另一个Self-Attention层后,拼接输出的向量,记为H2,将拼接后的H2传入卷积层CNN和全连接层Dense,最终采用双Sigmoid结构作为激活函数来预测O,P位置,存储上述训练模型到本地。双Sigmoid结构作为常用的激活函数。
在所述的数据预测阶段,在训练好的模型中输入待抽取的数据文本,输出实体关系,该实体关系为:主语词-谓语词-宾语词。
如图1所示,在实践应用中基于深度神经网络的医疗文本信息自动化抽取方法包括如下操作步骤:
第一步,提出医疗文本信息自动化抽取的需求,开始启动抽取流程;
第二步,收集历年医疗数据集;
第三步,标注关系实体,即主语词、谓语词和宾语词;
第四步,进行结巴分词,训练词向量模型;
第五步,得到混合词向量;
第六步,序列神经网络实体关系模型;
第七步,输入文本,预测其中存在的实体关系;
第八步,预测完成,结束医疗文本信息化抽取操作。
实施例1
在模型训练完成以后,我们以如下医疗文本信息输入作为测试:
一、信息输入内容:1、支气管炎、肺气肿;2、左肺上叶肿块考虑周围性肺癌;左肺门淋巴结增大,考虑为转移;3、右肺中叶改变,考虑为发育不全;4、右侧肩胛下内侧弹力纤维瘤;5、气管憩室;6、甲状腺右叶低密度灶;胃窦壁增厚,请结合临床。左肺上叶可见类圆形肿块影,大小约2.0*3.0CM,CT值约32HU,增强CT扫描:三期CT值分别为43HU、53HU、75HU,可见部分支气管分支闭塞、狭窄;右肺中叶体积减小,见片状高密度影,内可见轻度扩张支气管影;两肺透过度增强,两肺野内见多发囊状透光区;两肺纹理稀疏、紊乱。左肺门淋巴结稍大,直径约1.4CM。纵隔内多发小淋巴结。两胸腔无积液征象。主动脉及冠脉钙化。右侧肩胛下内侧见片状软组织密度影,约为2.2CM*5.1CM。气管憩室。甲状腺右叶密度减低,强化程度低于正常甲状腺组织。胃窦壁增厚。
二、抽取实现方式:
1.针对输入经停用词后,采用结巴分词工具对文本进行分词处理。输出为[“支”,“气管炎”,“肺气肿“,“左肺”,……]
2.读取训练好的词向量模型,获取词向量。输出为[[0.001,0.089,-0.201,…],[0.121,-0.012,-0.314,…],[-0.809,0.121,0.214,…],…]
3.遍历文本的每一个字,随机初始化字向量。输出为[[0.121,0.251,-0.129,…],[-0.901,-0.252,-0.124,…],[0.124,0.853,0.982,…],…]
4.根据预处理方法,获取混合字词向量。输出为[[0.321,0.261,-0.156,…],[-0.081,-0.004,-0.094,…],[0.024,-0.813,-0.782,…],…]
5.将混合字词向量输入训练好的神经网络模型,输出为:主语起始位置概率:[0.002,0.208,0.1023,…],主语结束位置概率:[0.001,0.001,0.005,…,0.238,0.001],连接起始概率最大概率和结束最大概率位置,得到主语为左肺上叶。同理,得到谓语和宾语。
6.最终输出为【左肺上叶,左肺门淋巴结,2.0*3.0CM】
三、输出信息抽取结果:
左肺上叶(S肿瘤原发部位)左肺门淋巴结(P左肺门淋巴结)2.0*3.0CM(O原发病灶大小。
实施例2
医疗文本输入:患者张XX于1月余前无明显诱因出现回缩性血涕,无鼻塞、面麻、复视、听力下降、头痛等症状,为求诊治就诊当地XXX医院,完善鼻咽镜并取活检示:未分化型非角化性癌。
输出信息抽取结果:张XX(S患者姓名)就诊(P患者与医院关系)XXX医院(O就诊医院名)
本实施例的抽取实现处理过程参考实施例1。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (4)
1.一种基于深度神经网络的医疗文本信息自动化抽取方法,其特征在于,该方法以历史累计抽取数据作为标注数据集,搭建深度神经网络模型,实现输入医保非结构化文本数据,输出特定医保审核人员设定的实体信息及关系,该方法包括训练数据准备阶段、数据预处理阶段、模型训练阶段和数据预测阶段。
2.根据权利要求1所述的一种基于深度神经网络的医疗文本信息自动化抽取方法,其特征在于,该方法具体包括如下实施步骤:
在所述的训练数据准备阶段,收集尽量多的已标注语料数据形成数据集,该数据集根据历年医保数据审核所使用到的信息为标准数据,采用多模式匹配算法标注非结构化文本数据集,将标注的数据集按照8:2分为训练集和测试集;
在所述的数据预处理阶段,训练词向量模型,采用包括结巴分词在内的分词器工具对训练集经停用词过滤,再分词,训练Word2Vec词向量模型,遍历输入文本获取字ID,对字ID进行随机初始字向量,结合训练好的词向量,通过矩阵变换得到混合字词向量;
在所述的模型训练阶段,以混合字词向量作为输入,以标注后的关系为输出,根据深度神经网络模型,进行多轮次迭代训练,保存训练模型;
在所述的数据预测阶段,在训练好的模型中输入待抽取的数据文本,输出实体关系,该实体关系为:主语词-谓语词-宾语词。
3.根据权利要求2所述的一种基于深度神经网络的医疗文本信息自动化抽取方法,其特征在于,所述的多模式匹配算法采用Aho-Corsick自动机。
4.根据权利要求2所述的一种基于深度神经网络的医疗文本信息自动化抽取方法,其特征在于,所述的模型训练阶段中,结合位置编码作为模型输入,记为E,以该E输入到12层的深度神经网络模型结构中,经过运算得到新的输出,记为H1,将H1向量传入自注意层,再经过卷积层和全连接层,预测S的首尾位置,以随机采样一个标注S,映射H1对应的子向量,输入到一个双向序列模型中,得到S的编码向量,该S的编码向量是与输入序列等长的编码向量,将H1传入另一个自注意层后,拼接输出的向量,记为H2,将拼接后的H2传入卷积层和全连接层,最终采用双S函数结构来预测O,P位置,存储上述训练模型到本地。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111413366.8A CN114360729A (zh) | 2021-11-25 | 2021-11-25 | 一种基于深度神经网络的医疗文本信息自动化抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111413366.8A CN114360729A (zh) | 2021-11-25 | 2021-11-25 | 一种基于深度神经网络的医疗文本信息自动化抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114360729A true CN114360729A (zh) | 2022-04-15 |
Family
ID=81096257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111413366.8A Pending CN114360729A (zh) | 2021-11-25 | 2021-11-25 | 一种基于深度神经网络的医疗文本信息自动化抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114360729A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306589A (zh) * | 2023-05-10 | 2023-06-23 | 之江实验室 | 一种急救场景的医疗文本纠错及智能提取的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666350A (zh) * | 2020-05-28 | 2020-09-15 | 浙江工业大学 | 一种基于bert模型的医疗文本关系抽取的方法 |
WO2020211275A1 (zh) * | 2019-04-18 | 2020-10-22 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN112487807A (zh) * | 2020-12-09 | 2021-03-12 | 重庆邮电大学 | 一种基于膨胀门卷积神经网络的文本关系抽取方法 |
CN113360671A (zh) * | 2021-06-16 | 2021-09-07 | 浙江工业大学 | 一种基于知识图谱的医保医疗单据审核方法及其系统 |
CN113486667A (zh) * | 2021-07-26 | 2021-10-08 | 辽宁工程技术大学 | 一种基于实体类型信息的医疗实体关系联合抽取方法 |
-
2021
- 2021-11-25 CN CN202111413366.8A patent/CN114360729A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020211275A1 (zh) * | 2019-04-18 | 2020-10-22 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN111666350A (zh) * | 2020-05-28 | 2020-09-15 | 浙江工业大学 | 一种基于bert模型的医疗文本关系抽取的方法 |
CN112487807A (zh) * | 2020-12-09 | 2021-03-12 | 重庆邮电大学 | 一种基于膨胀门卷积神经网络的文本关系抽取方法 |
CN113360671A (zh) * | 2021-06-16 | 2021-09-07 | 浙江工业大学 | 一种基于知识图谱的医保医疗单据审核方法及其系统 |
CN113486667A (zh) * | 2021-07-26 | 2021-10-08 | 辽宁工程技术大学 | 一种基于实体类型信息的医疗实体关系联合抽取方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306589A (zh) * | 2023-05-10 | 2023-06-23 | 之江实验室 | 一种急救场景的医疗文本纠错及智能提取的方法及装置 |
CN116306589B (zh) * | 2023-05-10 | 2024-02-09 | 之江实验室 | 一种急救场景的医疗文本纠错及智能提取的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109471895B (zh) | 电子病历表型抽取、表型名称规范化方法及系统 | |
CN109635280A (zh) | 一种基于标注的事件抽取方法 | |
US11972214B2 (en) | Method and apparatus of NER-oriented chinese clinical text data augmentation | |
CN109885824A (zh) | 一种层次的中文命名实体识别方法、装置及可读存储介质 | |
CN112420191B (zh) | 一种中医辅助决策系统及方法 | |
CN111651991B (zh) | 一种利用多模型融合策略的医疗命名实体识别方法 | |
CN108182972A (zh) | 基于分词网络的中文疾病诊断的智能编码方法及系统 | |
CN112069825B (zh) | 面向警情笔录数据的实体关系联合抽取方法 | |
CN114091450B (zh) | 一种基于图卷积网络的司法领域关系抽取方法和系统 | |
CN114547230B (zh) | 一种智能行政执法案例信息抽取和案由认定方法 | |
CN110276396B (zh) | 基于物体显著性和跨模态融合特征的图片描述生成方法 | |
Ye et al. | Synthetic augmentation with large-scale unconditional pre-training | |
CN108920446A (zh) | 一种工程文本的处理方法 | |
CN115510236A (zh) | 基于信息融合和数据增强的篇章级事件检测方法 | |
CN114360729A (zh) | 一种基于深度神经网络的医疗文本信息自动化抽取方法 | |
CN117708339A (zh) | 一种基于预训练语言模型的icd自动编码方法 | |
CN113254602A (zh) | 面向科技政策领域的知识图谱构建方法及系统 | |
CN117235275A (zh) | 一种基于大语言模型推理的医学疾病编码映射方法及装置 | |
CN111798324A (zh) | 一种基于动态就医行为对齐的医保欺诈发现方法 | |
WO2022242074A1 (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN118171653B (zh) | 一种基于深度神经网络的健康体检文本治理方法 | |
CN110516234A (zh) | 基于gru的中医文本分词方法、系统、设备及介质 | |
CN113157255B (zh) | 一种面向语法树解码器的代码生成方法 | |
Yang et al. | Named Entity Recognition in Electronic Medical Records Incorporating Pre-trained and Multi-Head Attention. | |
Zhou et al. | Chinese named entity recognition augmented with lexicon memory |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |