CN111949759A - 病历文本相似度的检索方法、系统及计算机设备 - Google Patents
病历文本相似度的检索方法、系统及计算机设备 Download PDFInfo
- Publication number
- CN111949759A CN111949759A CN201910407594.0A CN201910407594A CN111949759A CN 111949759 A CN111949759 A CN 111949759A CN 201910407594 A CN201910407594 A CN 201910407594A CN 111949759 A CN111949759 A CN 111949759A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- medical record
- words
- long
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 239000013598 vector Substances 0.000 claims abstract description 75
- 230000011218 segmentation Effects 0.000 claims abstract description 68
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000004590 computer program Methods 0.000 claims description 29
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 26
- 201000010099 disease Diseases 0.000 claims description 25
- 238000012216 screening Methods 0.000 claims description 19
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 238000003759 clinical diagnosis Methods 0.000 description 10
- 238000003745 diagnosis Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000968 medical method and process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供了一种病历文本相似度的检索方法、系统及计算机设备,病历文本相似度的检索方法包括:接收文本信息;对文本信息进行分词处理,生成词语;将词语训练成长文本向量;根据长文本向量在数据库中获取与文本信息相似的病历信息。本发明提供的病历文本相似度的检索方法,不需要专家参与,而是通过医疗人工智能的方法自动从数据库中挖掘和学习医疗知识,构建相似病历比较的模型,该模型能综合多种类型自由文本的比较结果,能高效、准确地得到相似的病历推荐,与医生人工比较得到的结果高度相符,能给医生提供具有实用价值的临床路径参考结果,有效地解决了医生消耗大量的时间在查阅历史以往病历上面的问题。
Description
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种病历文本相似度的检索方法、系统及计算机设备。
背景技术
目前,电子病历(Electronic Medical Record,EMR)是患者在医疗机构就诊时产生的医疗记录,是医生诊疗经验和模式的载体,它的核心价值体现在辅助诊断方面,为医生提供决策支持。电子病历数据的主要形式有表格、自由文本、图像这三种,其中自由文本主要以非结构化数据的形式呈现。随着医院信息化的发展,医院已经积累了大量非结构化的电子病历自由文本,其中蕴含了大量宝贵的医学和临床信息。随着医疗信息的标准化的提升,自由文本中覆盖了更标准更完整的患者信息。目前国内外有很多学者、机构以及企业致力于基于EMR(电子病历)的辅助诊断系统的研究,其领域可以涉及完整的医疗过程,在优化工作流程、提高工作效率、降低医疗差错、提高医疗质量等方面具有重要作用。国内基于中文EMR(电子病历)的应用研究一方面是针对EMR(电子病历)系统的研发,另一方是基于EMR(电子病历)的临床路径优化和相似EMR(电子病历)搜索。相关技术中,都用到了相似中文病历文本检索这一核心技术,其方法主要是通过关键词或本体模型进行比较,依赖医学专家的知识,而已有的大规模EMR(电子病历)数据本身所蕴含的信息,却没有很好挖掘利用。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的第一方面提供了一种病历文本相似度的检索方法。
本发明的第二方面提供了一种病历文本相似度的检索系统。
本发明的第三方面提供了一种计算机设备。
本发明的第四方面提供了一种计算机可读存储介质。
有鉴于此,本发明的第一方面提出了一种病历文本相似度的检索方法,包括:接收文本信息;对文本信息进行分词处理,生成词语;将词语训练成长文本向量;根据长文本向量在数据库中获取与文本信息相似的病历信息。
本发明提供的病历文本相似度的检索方法,将接收的文本信息进行分词处理,分词包括词的歧义切分,未登录词的识别,可以将疾病、病症和时间切分,分好的词语用于下一步的训练,精确分词决定下一步的准确率,将生成的词语训练成长文本向量,得到对应的长文本数字标识符,进而根据长文本向量在数据库中获取到与文本信息相似的病历信息。通过这种方法检索病历信息,不需要专家参与,而是通过医疗人工智能的方法自动从数据库中挖掘和学习医疗知识,构建相似病历比较的模型,该模型能综合多种类型自由文本的比较结果,能高效、准确地得到相似的病历推荐,与医生人工比较得到的结果高度相符,能给医生提供具有实用价值的临床路径参考结果,有效地解决了医生消耗大量的时间在查阅历史以往病历上面的问题,同时也能够使用这个方法来协助缺乏医学经验的医生,使患者更好的、及时的得到诊断治疗,进而提高临床就诊效率和临床诊断准确率。
具体地,本方法的主要处理对象为自由文本中的主诉、现病史、既往史、个人史、家族史和一般检查结果,得到对病人完善的辅助诊断。
根据本发明提供的上述的病历文本相似度的检索方法,还可以具有以下附加技术特征:
在上述技术方案中,优选地,病历文本相似度的检索方法还包括:对文本信息进行分词处理,生成词语的步骤之后,还包括:对词语的词性进行标注处理;根据词语的词性的标注对词语进行分类处理。
在该技术方案中,通过命名实体识别应用对文本信息进行预处理,对词语的词性进行标注处理,再根据标注对词语进行分类处理,为句子中的每个词赋予正确的词法标记,为每一个词赋予一个类别。进一步地,命名实体识别应用可以将未登录词准确分割,词性标注主要分为基于规则的和基于统计的方法。具体地,首先使用CRF(条件随机场)算法将长文本切分的词进行词性标注,根据标注好词性的词语作为RNN(循环神经网络)输入,依据词性的类别种类,反馈长文本出现的疾病和病症的词汇分类。
在上述任一技术方案中,优选地,对文本信息进行分词处理,生成词语的步骤,具体包括:根据疾病词典、正则表达式、去除停用词对文本信息进行分词处理,生成词语。
在该技术方案中,根据疾病词典、正则表达式、去除停用词对文本信息进行分词处理,达到了去除干扰词的效果,同时,使用最大匹配法提高了分词的准确率。
在上述任一技术方案中,优选地,将词语训练成长文本向量的步骤,具体包括:将词语训练成词语向量;将词语向量组成长文本向量。
在该技术方案中,首先将分好的词语训练成词语向量,再将每句中的词语向量组合形成长文本向量,进而得到病历长文本的数字符号。
在上述任一技术方案中,优选地,根据长文本向量在数据库中获取与文本信息相似的病历信息步骤,具体包括:在数据库中获取与文本信息相似的多个长文本,并将多个长文本分别切分成词集合,作为筛选集合;在筛选集合中获取与文本信息进行分词处理后的词语集合相匹配的长文本,并作为优先考虑结果;根据长文本向量计算筛选集合中与文本信息不匹配的词集合和文本信息进行分词处理后的词语集合的关联性;判断关联性是否大于预设阈值;若关联性大于预设阈值,则将与文本信息不匹配的长文本按照关联性的大小正序排列。
在该技术方案中,首先使用编辑距离,求解出EMR(电子病历)字面最相似的正序排序,并切分成相应的词集合,使用jaccard(杰卡德)距离在词集合中计算与文本信息完全相匹配的长文本,并将其优先级设置为最高,将不完全匹配的长文本使用余弦距离求得词之间的关联性,设置预设阈值,如果关联性小于预设阈值则关联性为0,可认为无关联,将关联的词距加和正序排序,求解出次优先级长文本匹配。具体地,比如当前长文本分词集合{A,B},与库中的一个集合{C,A},则其经过余弦距离计算之后求得的加权相似距离为:(B·C)/(||B||·||C||)。
本发明的第二方面,提出了一种病历文本相似度的检索系统,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现:接收文本信息;对文本信息进行分词处理,生成词语;将词语训练成长文本向量;根据长文本向量在数据库中获取与文本信息相似的病历信息。
本发明提供的病历文本相似度的检索系统,将接收的文本信息进行分词处理,分词包括词的歧义切分,未登录词的识别,可以将疾病、病症和时间切分,分好的词语用于下一步的训练,精确分词决定下一步的准确率,将生成的词语训练成长文本向量,得到对应的长文本数字标识符,进而根据长文本向量在数据库中获取到与文本信息相似的病历信息。通过这种系统检索病历信息,不需要专家参与,而是通过医疗人工智能的方法自动从数据库中挖掘和学习医疗知识,构建相似病历比较的模型,该模型能综合多种类型自由文本的比较结果,能高效、准确地得到相似的病历推荐,与医生人工比较得到的结果高度相符,能给医生提供具有实用价值的临床路径参考结果,有效地解决了医生消耗大量的时间在查阅历史以往病历上面的问题,同时也能够使用这个系统来协助缺乏医学经验的医生,使患者更好的、及时的得到诊断治疗,进而提高临床就诊效率和临床诊断准确率。
具体地,本系统的主要处理对象为自由文本中的主诉、现病史、既往史、个人史、家族史和一般检查结果,得到对病人完善的辅助诊断。
根据本发明提供的上述的病历文本相似度的检索系统,还可以具有以下附加技术特征:
在上述技术方案中,优选地,所述处理器执行所述计算机程序时还实现:对文本信息进行分词处理,生成词语的步骤之后,还包括:对词语的词性进行标注处理;根据词语的词性的标注对词语进行分类处理。
在该技术方案中,通过命名实体识别应用对文本信息进行预处理,对词语的词性进行标注处理,再根据标注对词语进行分类处理,为句子中的每个词赋予正确的词法标记,为每一个词赋予一个类别。进一步地,命名实体识别应用可以将未登录词准确分割,词性标注主要分为基于规则的和基于统计的方法。具体地,首先使用CRF(条件随机场)算法将长文本切分的词进行词性标注,根据标注好词性的词语作为RNN(循环神经网络)输入,依据词性的类别种类,反馈长文本出现的疾病和病症的词汇分类。
在上述任一技术方案中,优选地,所述处理器执行所述计算机程序时实现对文本信息进行分词处理,生成词语的步骤,具体包括:根据疾病词典、正则表达式、去除停用词对文本信息进行分词处理,生成词语。
在该技术方案中,根据疾病词典、正则表达式、去除停用词对文本信息进行分词处理,达到了去除干扰词的效果,同时,使用最大匹配法提高了分词的准确率。
在上述任一技术方案中,优选地,所述处理器执行所述计算机程序时实现将词语训练成长文本向量的步骤,具体包括:将词语训练成词语向量;将词语向量组成长文本向量。
在该技术方案中,首先将分好的词语训练成词语向量,再将每句中的词语向量组合形成长文本向量,进而得到病历长文本的数字符号。
在上述任一技术方案中,优选地,所述处理器执行所述计算机程序时实现根据长文本向量在数据库中获取与文本信息相似的病历信息步骤,具体包括:在数据库中获取与文本信息相似的多个长文本,并将多个长文本分别切分成词集合,作为筛选集合;在筛选集合中获取与文本信息进行分词处理后的词语集合相匹配的长文本,并作为优先考虑结果;根据长文本向量计算筛选集合中与文本信息不匹配的词集合和文本信息进行分词处理后的词语集合的关联性;判断关联性是否大于预设阈值;若关联性大于预设阈值,则将与文本信息不匹配的长文本按照关联性的大小正序排列。
在该技术方案中,首先使用编辑距离,求解出EMR(电子病历)字面最相似的正序排序,并切分成相应的词集合,使用jaccard(杰卡德)距离在词集合中计算与文本信息完全相匹配的长文本,并将其优先级设置为最高,将不完全匹配的长文本使用余弦距离求得词之间的关联性,设置预设阈值,如果关联性小于预设阈值则关联性为0,可认为无关联,将关联的词距加和正序排序,求解出次优先级长文本匹配。具体地,比如当前长文本分词集合{A,B},与库中的一个集合{C,A},则其经过余弦距离计算之后求得的加权相似距离:(B·C)/(||B||·||C||)。
本发明的第三方面,提出了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一技术方案所述的病历文本相似度的检索方法。
本发明提出的技术方案,因包括第一方面任一技术方案所述的病历文本相似度的检索方法,因此具有所述病历文本相似度的检索方法的全部有益效果。
本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一技术方案所述方法的步骤,因而具备病历文本相似度的检索方法的全部技术效果,在此不再赘述。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本申请一个实施例的病历文本相似度的检索方法的流程示意图;
图2示出了本申请一个实施例的病历文本相似度的检索方法的另一流程示意图;
图3示出了本申请一个实施例的病历文本相似度的检索方法的另一流程示意图;
图4示出了本申请一个实施例的病历文本相似度的检索方法的另一流程示意图;
图5示出了本申请一个实施例的病历文本相似度的检索系统的框图;
图6示出了本申请一个实施例的病历文本相似度的检索系统的另一框图;
图7示出了本申请一个实施例的病历文本相似度的检索系统的另一框图;
图8示出了本申请一个实施例的计算机设备的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面参照图1至图8描述根据本发明一些实施例所述的病历文本相似度的检索方法、系统及计算机设备。
图1示出了本申请一个实施例的病历文本相似度的检索方法的流程示意图。如图1所示,该方法包括:
步骤102,接收文本信息;
步骤104,对文本信息进行分词处理,生成词语;
步骤106,将词语训练成长文本向量;
步骤108,根据长文本向量在数据库中获取与文本信息相似的病历信息。
本发明提供的病历文本相似度的检索方法,将接收的文本信息进行分词处理,分词包括词的歧义切分,未登录词的识别,可以将疾病、病症和时间切分,分好的词语用于下一步的训练,精确分词决定下一步的准确率,将生成的词语训练成长文本向量,得到对应的长文本数字标识符,进而根据长文本向量在数据库中获取到与文本信息相似的病历信息。通过这种方法检索病历信息,不需要专家参与,而是通过医疗人工智能的方法自动从数据库中挖掘和学习医疗知识,构建相似病历比较的模型,该模型能综合多种类型自由文本的比较结果,能高效、准确地得到相似的病历推荐,与医生人工比较得到的结果高度相符,能给医生提供具有实用价值的临床路径参考结果,有效地解决了医生消耗大量的时间在查阅历史以往病历上面的问题,同时也能够使用这个方法来协助缺乏医学经验的医生,使患者更好的、及时的得到诊断治疗,进而提高临床就诊效率和临床诊断准确率。
具体地,本方法的主要处理对象为自由文本中的主诉、现病史、既往史、个人史、家族史和一般检查结果,得到对病人完善的辅助诊断。
在上述实施例中,优选地,对文本信息进行分词处理,生成词语的步骤之后,还包括:对词语的词性进行标注处理;根据词语的词性的标注对词语进行分类处理。
在该实施例中,通过命名实体识别应用对文本信息进行预处理,对词语的词性进行标注处理,再根据标注对词语进行分类处理,为句子中的每个词赋予正确的词法标记,为每一个词赋予一个类别。进一步地,命名实体识别应用可以将未登录词准确分割,词性标注主要分为基于规则的和基于统计的方法。具体地,首先使用CRF(条件随机场)算法将长文本切分的词进行词性标注,根据标注好词性的词语作为RNN(循环神经网络)输入,依据词性的类别种类,反馈长文本出现的疾病和病症的词汇分类。
在上述任一实施例中,优选地,对文本信息进行分词处理,生成词语的步骤,具体包括:根据疾病词典、正则表达式、去除停用词对文本信息进行分词处理,生成词语。
在该实施例中,根据疾病词典、正则表达式、去除停用词对文本信息进行分词处理,达到了去除干扰词的效果,同时,使用最大匹配法提高了分词的准确率。
在上述任一实施例中,优选地,将词语训练成长文本向量的步骤,具体包括:将词语训练成词语向量;将词语向量组成长文本向量。
在该实施例中,首先将分好的词语训练成词语向量,再将每句中的词语向量组合形成长文本向量,进而得到病历长文本的数字符号。
在上述任一实施例中,优选地,根据长文本向量在数据库中获取与文本信息相似的病历信息步骤,具体包括:在数据库中获取与文本信息相似的多个长文本,并将多个长文本分别切分成词集合,作为筛选集合;在筛选集合中获取与文本信息进行分词处理后的词语集合相匹配的长文本,并作为优先考虑结果;根据长文本向量计算筛选集合中与文本信息不匹配的词集合和文本信息进行分词处理后的词语集合的关联性;判断关联性是否大于预设阈值;若关联性大于预设阈值,则将与文本信息不匹配的长文本按照关联性的大小正序排列。
在该实施例中,首先使用编辑距离,求解出EMR(电子病历)字面最相似的正序排序,并切分成相应的词集合,使用jaccard(杰卡德)距离在词集合中计算与文本信息完全相匹配的长文本,并将其优先级设置为最高,将不完全匹配的长文本使用余弦距离求得词之间的关联性,设置预设阈值,如果关联性小于预设阈值则关联性为0,可认为无关联,将关联的词距加和正序排序,求解出次优先级长文本匹配。具体地,比如当前长文本分词集合{A,B},与库中的一个集合{C,A},则其经过余弦距离计算之后求得的加权相似距离:(B·C)/(||B||·||C||)。
图2示出了本申请一个实施例的病历文本相似度的检索方法的另一流程示意图。如图2所示,该方法包括:
步骤202,接收患者病历主诉信息;
步骤204,对患者病历主诉信息进行分词处理,生成词语;
步骤206,将词语训练成长文本向量;
步骤208,根据是否包含疾病名称或特异性状筛选检索范围;
步骤210,根据组合距离算法计算主诉相似度。
在该实施例中,接收的数据对象是患者的主诉数据(文本类型),疾病史(数值型)。首先计算出主诉数据的相似度,如图2所示,根据医生输入的患者主诉,使用CRF(条件随机场)算法、RNN(循环神经网络)和Doc2Vec(情感分析)将主诉训练成长文本向量,根据主诉中是否包含疾病名称或特异性状筛选检索范围,其中使用编辑距离缩小检索范围,降低时间复杂度,达到快速检索的效果,之后再使用jaccard(杰卡德)距离和cos(余弦)距离来组合计算主诉相似度。
图3示出了本申请一个实施例的病历文本相似度的检索方法的另一流程示意图。如图3所示,该方法包括:
步骤302,根据病史统计获取患者病历中的病史信息;
步骤304,将病史自动化编码;
步骤306,对病史进行分词处理,生成词语;
步骤308,将词语训练成长文本向量;
步骤310,根据长文本向量计算病史相似度。
在该实施例中,通过病史统计获取病历中的病史记录,使用one-hot编码将病史编码,之后计算病史之间的相似度,得到病史相似度。
图4示出了本申请一个实施例的病历文本相似度的检索方法的另一流程示意图。如图4所示,该方法包括:
步骤402,接收文本信息;
步骤404,对文本信息进行分词处理,生成词语;
步骤406,将词语训练成长文本向量;
步骤408,计算主诉相似度和病史相似度;
步骤410,将主诉相似度和病史相似度归一化;
步骤412,特征选取;
步骤414,通过特征选取计算各个特征所占的权重比;
步骤416,根据得到的权重比加权求和主诉相似度和病史相似度得到综合相似度。
在该实施例中,得到主诉和病史的相似度之后,计算两者的综合相似度。如图4所示,将主诉相似度和病史相似度进行归一化,标准化输入数据格式;通过特征选取,计算各个特征所占的权重比;根据得到的权重比加权求和主诉相似度和病史相似度得到综合相似度。
本发明的第二方面,提出了一种病历文本相似度的检索系统50,包括:存储器502、处理器504及存储在所述存储器502上并可在所述处理器504上运行的计算机程序,所述处理器504执行所述计算机程序时实现:接收文本信息;对文本信息进行分词处理,生成词语;将词语训练成长文本向量;根据长文本向量在数据库中获取与文本信息相似的病历信息。
如图5所示,本发明提供的病历文本相似度的检索系统50,将接收的文本信息进行分词处理,分词包括词的歧义切分,未登录词的识别,可以将疾病、病症和时间切分,分好的词语用于下一步的训练,精确分词决定下一步的准确率,将生成的词语训练成长文本向量,得到对应的长文本数字标识符,进而根据长文本向量在数据库中获取到与文本信息相似的病历信息。通过这种系统检索病历信息,不需要专家参与,而是通过医疗人工智能的方法自动从数据库中挖掘和学习医疗知识,构建相似病历比较的模型,该模型能综合多种类型自由文本的比较结果,能高效、准确地得到相似的病历推荐,与医生人工比较得到的结果高度相符,能给医生提供具有实用价值的临床路径参考结果,有效地解决了医生消耗大量的时间在查阅历史以往病历上面的问题,同时也能够使用这个系统来协助缺乏医学经验的医生,使患者更好的、及时的得到诊断治疗,进而提高临床就诊效率和临床诊断准确率。
具体地,本系统的主要处理对象为自由文本中的主诉、现病史、既往史、个人史、家族史、和一般检查结果,得到对病人完善的辅助诊断。
在上述实施例中,优选地,所述处理器504执行所述计算机程序时还实现:对文本信息进行分词处理,生成词语的步骤之后,还包括:对词语的词性进行标注处理;根据词语的词性的标注对词语进行分类处理。
在该实施例中,通过命名实体识别应用对文本信息进行预处理,对词语的词性进行标注处理,再根据标注对词语进行分类处理,为句子中的每个词赋予正确的词法标记,为每一个词赋予一个类别。进一步地,命名实体识别应用可以将未登录词准确分割,词性标注主要分为基于规则的和基于统计的方法。具体地,首先使用CRF(条件随机场)算法将长文本切分的词进行词性标注,根据标注好词性的词语作为RNN(循环神经网络)输入,依据词性的类别种类,反馈长文本出现的疾病和病症的词汇分类。
在上述任一实施例中,优选地,所述处理器504执行所述计算机程序时实现对文本信息进行分词处理,生成词语的步骤,具体包括:根据疾病词典、正则表达式、去除停用词对文本信息进行分词处理,生成词语。
在该实施例中,根据疾病词典、正则表达式、去除停用词对文本信息进行分词处理,达到了去除干扰词的效果,同时,使用最大匹配法提高了分词的准确率。
在上述任一实施例中,优选地,所述处理器504执行所述计算机程序时实现将词语训练成长文本向量的步骤,具体包括:将词语训练成词语向量;将词语向量组成长文本向量。
在该实施例中,首先将分好的词语训练成词语向量,再将每句中的词语向量组合形成长文本向量,进而得到病历长文本的数字符号。
在上述任一实施例中,优选地,所述处理器执行所述计算机程序时实现根据长文本向量在数据库中获取与文本信息相似的病历信息步骤,具体包括:在数据库中获取与文本信息相似的多个长文本,并将多个长文本分别切分成词集合,作为筛选集合;在筛选集合中获取与文本信息进行分词处理后的词语集合相匹配的长文本,并作为优先考虑结果;根据长文本向量计算筛选集合中与文本信息不匹配的词集合和文本信息进行分词处理后的词语集合的关联性;判断关联性是否大于预设阈值;若关联性大于预设阈值,则将与文本信息不匹配的长文本按照关联性的大小正序排列。
在该实施例中,首先使用编辑距离,求解出EMR(电子病历)字面最相似的正序排序,并切分成相应的词集合,使用jaccard(杰卡德)距离在词集合中计算与文本信息完全相匹配的长文本,并将其优先级设置为最高,将不完全匹配的长文本使用余弦距离求得词之间的关联性,设置预设阈值,如果关联性小于预设阈值则关联性为0,可认为无关联,将关联的词距加和正序排序,求解出次优先级长文本匹配。具体地,比如当前长文本分词集合{A,B},与库中的一个集合{C,A},则其经过余弦距离计算之后求得的加权相似距离:(B·C)/(||B||·||C||)。
具体地,如图6所示,输入患者病历6,在病历数据库60中获取相似病历62,并将结果返给医生。具体地,患者将病症描述一遍后,医生可以根据经验来检索长文本相似病历,做出相对应的临床诊断,提供一个合适的治疗方案给患者。
具体地,如图7所示,医生根据新患者的输入新患者的病历数据7,将病历数据中的主诉输入数据70、患者疾病史数据72、一般检查数据74分离,根据分离的数据进行主诉相似度计算702、病史相似度计算722、综合相似度计算742,从中文电子病历数据库78中获取相似病历,将检查结果返回76,辅助医生做出临床诊断。
如图8所示,本发明的第三方面,提出了一种计算机设备8,包括存储器80、处理器82及存储在所述存储器80上并可在所述处理器82上运行的计算机程序,所述处理器82执行所述计算机程序时实现如上述任一实施例所述的病历文本相似度的检索方法。
本发明提出的实施例,因包括上述任一实施例所述的病历文本相似度的检索方法,因此具有所述病历文本相似度的检索方法的全部有益效果。
本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一实施例所述方法的步骤,因而具备病历文本相似度的检索方法的全部技术效果,在此不再赘述。
在本发明中,术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种病历文本相似度的检索方法,其特征在于,包括:
接收文本信息;
对所述文本信息进行分词处理,生成词语;
将所述词语训练成长文本向量;
根据所述长文本向量在数据库中获取与所述文本信息相似的病历信息。
2.根据权利要求1所述的病历文本相似度的检索方法,其特征在于,所述对所述文本信息进行分词处理,生成词语的步骤之后,还包括:
对所述词语的词性进行标注处理;
根据所述词语的词性的标注对所述词语进行分类处理。
3.根据权利要求1所述的病历文本相似度的检索方法,其特征在于,所述对所述文本信息进行分词处理,生成词语的步骤,具体包括:
根据疾病词典、正则表达式、去除停用词对所述文本信息进行分词处理,生成词语。
4.根据权利要求2所述的病历文本相似度的检索方法,其特征在于,所述将所述词语训练成长文本向量的步骤,具体包括:
将所述词语训练成词语向量;
将所述词语向量组成所述长文本向量。
5.根据权利要求1至4中任一项所述的病历文本相似度的检索方法,其特征在于,所述根据所述长文本向量在数据库中获取与所述文本信息相似的病历信息步骤,具体包括:
在所述数据库中获取与所述文本信息相似的多个长文本,并将所述多个长文本分别切分成词集合,作为筛选集合;
在所述筛选集合中获取与所述文本信息进行分词处理后的词语集合相匹配的长文本,并作为优先考虑结果;
根据所述长文本向量计算所述筛选集合中与所述文本信息不匹配的词集合和所述文本信息进行分词处理后的词语集合的关联性;
判断所述关联性是否大于预设阈值;
若所述关联性大于所述预设阈值,则将与所述文本信息不匹配的长文本按照关联性的大小正序排列。
6.一种病历文本相似度的检索系统,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现:
接收文本信息;
对所述文本信息进行分词处理,生成词语;
将所述词语训练成长文本向量;
根据所述长文本向量在数据库中获取与所述文本信息相似的病历信息。
7.根据权利要求6所述的病历文本相似度的检索系统,其特征在于,所述处理器执行所述计算机程序时实现所述对所述文本信息进行分词处理,生成词语的步骤之后,还包括:
对所述词语的词性进行标注处理;
根据所述词语的词性的标注对所述词语进行分类处理。
8.根据权利要求6所述的病历文本相似度的检索系统,其特征在于,所述处理器执行所述计算机程序时实现所述对所述文本信息进行分词处理,生成词语的步骤,具体包括:
根据疾病词典、正则表达式、去除停用词对所述文本信息进行分词处理,生成词语。
9.根据权利要求7所述的病历文本相似度的检索系统,其特征在于,所述处理器执行所述计算机程序时实现所述将所述词语训练成长文本向量的步骤,具体包括:
将所述词语训练成词语向量;
将所述词语向量组成所述长文本向量。
10.根据权利要求6至9中任一项所述的病历文本相似度的检索系统,其特征在于,所述处理器执行所述计算机程序时实现所述根据所述长文本向量在数据库中获取与所述文本信息相似的病历信息步骤,具体包括:
在所述数据库中获取与所述文本信息相似的多个长文本,并将所述多个长文本分别切分成词集合,作为筛选集合;
在所述筛选集合中获取与所述文本信息进行分词处理后的词语集合相匹配的长文本,并作为优先考虑结果;
根据所述长文本向量计算所述筛选集合中与所述文本信息不匹配的词集合和所述文本信息进行分词处理后的词语集合的关联性;
判断所述关联性是否大于预设阈值;
若所述关联性大于所述预设阈值,则将与所述文本信息不匹配的长文本按照关联性的大小正序排列。
11.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的病历文本相似度的检索方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的病历文本相似度的检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910407594.0A CN111949759A (zh) | 2019-05-16 | 2019-05-16 | 病历文本相似度的检索方法、系统及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910407594.0A CN111949759A (zh) | 2019-05-16 | 2019-05-16 | 病历文本相似度的检索方法、系统及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111949759A true CN111949759A (zh) | 2020-11-17 |
Family
ID=73336902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910407594.0A Pending CN111949759A (zh) | 2019-05-16 | 2019-05-16 | 病历文本相似度的检索方法、系统及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111949759A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329461A (zh) * | 2020-11-24 | 2021-02-05 | 汤学民 | 相似病历确定方法、计算机设备及计算机存储介质 |
CN112466472A (zh) * | 2021-02-03 | 2021-03-09 | 北京伯仲叔季科技有限公司 | 病例文本信息检索系统 |
CN112579750A (zh) * | 2020-11-30 | 2021-03-30 | 百度健康(北京)科技有限公司 | 相似病案的检索方法、装置、设备及存储介质 |
CN113254658A (zh) * | 2021-07-07 | 2021-08-13 | 明品云(北京)数据科技有限公司 | 文本信息处理方法、系统、介质和设备 |
CN113610112A (zh) * | 2021-07-09 | 2021-11-05 | 中国商用飞机有限责任公司上海飞机设计研究院 | 飞机装配质量缺陷辅助决策方法 |
CN113689924A (zh) * | 2021-08-24 | 2021-11-23 | 平安国际智慧城市科技股份有限公司 | 相似病历检索方法、装置、电子设备及可读存储介质 |
CN114020874A (zh) * | 2021-11-11 | 2022-02-08 | 万里云医疗信息科技(北京)有限公司 | 一种病历检索系统、方法、设备和计算机可读存储介质 |
CN114218955A (zh) * | 2021-12-28 | 2022-03-22 | 上海柯林布瑞信息技术有限公司 | 基于医疗知识图谱的辅助参考信息的确定方法及系统 |
CN114300083A (zh) * | 2021-11-16 | 2022-04-08 | 北京左医科技有限公司 | 病历构建方法及系统 |
CN115083550A (zh) * | 2022-06-29 | 2022-09-20 | 西安理工大学 | 基于多源信息的病人相似度分类方法 |
CN115269613A (zh) * | 2022-09-27 | 2022-11-01 | 四川互慧软件有限公司 | 一种患者主索引构建方法、系统、设备及存储介质 |
CN115662607A (zh) * | 2022-12-13 | 2023-01-31 | 四川大学 | 一种基于大数据分析的互联网线上问诊推荐方法及服务器 |
CN115983233A (zh) * | 2023-01-04 | 2023-04-18 | 重庆邮电大学 | 一种基于数据流匹配的电子病历查重率估计方法 |
CN116631614A (zh) * | 2023-07-24 | 2023-08-22 | 北京惠每云科技有限公司 | 治疗方案生成方法、装置、电子设备及存储介质 |
CN116682526A (zh) * | 2023-08-03 | 2023-09-01 | 中国中医科学院中国医史文献研究所 | 基于古籍知识单元处理的中医知识推荐系统 |
CN117690545A (zh) * | 2023-12-12 | 2024-03-12 | 北京健康有益科技有限公司 | 一种基于大模型的治疗方案生成方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105843818A (zh) * | 2015-01-15 | 2016-08-10 | 富士通株式会社 | 训练设备和训练方法、判断设备、以及推荐设备 |
CN109299469A (zh) * | 2018-10-29 | 2019-02-01 | 复旦大学 | 一种在长文本中识别复杂住址的方法 |
CN109657062A (zh) * | 2018-12-24 | 2019-04-19 | 万达信息股份有限公司 | 一种基于大数据技术的电子病历文本解析闭环方法 |
-
2019
- 2019-05-16 CN CN201910407594.0A patent/CN111949759A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105843818A (zh) * | 2015-01-15 | 2016-08-10 | 富士通株式会社 | 训练设备和训练方法、判断设备、以及推荐设备 |
CN109299469A (zh) * | 2018-10-29 | 2019-02-01 | 复旦大学 | 一种在长文本中识别复杂住址的方法 |
CN109657062A (zh) * | 2018-12-24 | 2019-04-19 | 万达信息股份有限公司 | 一种基于大数据技术的电子病历文本解析闭环方法 |
Non-Patent Citations (1)
Title |
---|
段旭磊: "微博文本处理及话题分析方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, 15 December 2017 (2017-12-15), pages 3 - 4 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329461A (zh) * | 2020-11-24 | 2021-02-05 | 汤学民 | 相似病历确定方法、计算机设备及计算机存储介质 |
CN112579750A (zh) * | 2020-11-30 | 2021-03-30 | 百度健康(北京)科技有限公司 | 相似病案的检索方法、装置、设备及存储介质 |
CN112466472A (zh) * | 2021-02-03 | 2021-03-09 | 北京伯仲叔季科技有限公司 | 病例文本信息检索系统 |
CN113254658A (zh) * | 2021-07-07 | 2021-08-13 | 明品云(北京)数据科技有限公司 | 文本信息处理方法、系统、介质和设备 |
CN113254658B (zh) * | 2021-07-07 | 2021-12-21 | 明品云(北京)数据科技有限公司 | 文本信息处理方法、系统、介质和设备 |
CN113610112A (zh) * | 2021-07-09 | 2021-11-05 | 中国商用飞机有限责任公司上海飞机设计研究院 | 飞机装配质量缺陷辅助决策方法 |
CN113610112B (zh) * | 2021-07-09 | 2024-04-16 | 中国商用飞机有限责任公司上海飞机设计研究院 | 飞机装配质量缺陷辅助决策方法 |
CN113689924B (zh) * | 2021-08-24 | 2024-04-05 | 深圳平安智慧医健科技有限公司 | 相似病历检索方法、装置、电子设备及可读存储介质 |
CN113689924A (zh) * | 2021-08-24 | 2021-11-23 | 平安国际智慧城市科技股份有限公司 | 相似病历检索方法、装置、电子设备及可读存储介质 |
CN114020874A (zh) * | 2021-11-11 | 2022-02-08 | 万里云医疗信息科技(北京)有限公司 | 一种病历检索系统、方法、设备和计算机可读存储介质 |
CN114300083A (zh) * | 2021-11-16 | 2022-04-08 | 北京左医科技有限公司 | 病历构建方法及系统 |
CN114218955A (zh) * | 2021-12-28 | 2022-03-22 | 上海柯林布瑞信息技术有限公司 | 基于医疗知识图谱的辅助参考信息的确定方法及系统 |
CN115083550A (zh) * | 2022-06-29 | 2022-09-20 | 西安理工大学 | 基于多源信息的病人相似度分类方法 |
CN115083550B (zh) * | 2022-06-29 | 2023-08-08 | 西安理工大学 | 基于多源信息的病人相似度分类方法 |
CN115269613A (zh) * | 2022-09-27 | 2022-11-01 | 四川互慧软件有限公司 | 一种患者主索引构建方法、系统、设备及存储介质 |
CN115662607B (zh) * | 2022-12-13 | 2023-04-07 | 四川大学 | 一种基于大数据分析的互联网线上问诊推荐方法及服务器 |
CN115662607A (zh) * | 2022-12-13 | 2023-01-31 | 四川大学 | 一种基于大数据分析的互联网线上问诊推荐方法及服务器 |
CN115983233A (zh) * | 2023-01-04 | 2023-04-18 | 重庆邮电大学 | 一种基于数据流匹配的电子病历查重率估计方法 |
CN116631614A (zh) * | 2023-07-24 | 2023-08-22 | 北京惠每云科技有限公司 | 治疗方案生成方法、装置、电子设备及存储介质 |
CN116682526A (zh) * | 2023-08-03 | 2023-09-01 | 中国中医科学院中国医史文献研究所 | 基于古籍知识单元处理的中医知识推荐系统 |
CN116682526B (zh) * | 2023-08-03 | 2023-10-24 | 中国中医科学院中国医史文献研究所 | 基于古籍知识单元处理的中医知识推荐系统 |
CN117690545A (zh) * | 2023-12-12 | 2024-03-12 | 北京健康有益科技有限公司 | 一种基于大模型的治疗方案生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111949759A (zh) | 病历文本相似度的检索方法、系统及计算机设备 | |
CN111540468B (zh) | 一种诊断原因可视化的icd自动编码方法与系统 | |
CN111274806B (zh) | 分词和词性识别方法、装置及电子病历的分析方法、装置 | |
CN112002411A (zh) | 一种基于电子病历的心脑血管病知识图谱问答方法 | |
CN106874643B (zh) | 基于词向量自动构建知识库实现辅助诊疗的方法和系统 | |
CN109344250B (zh) | 基于医保数据的单病种诊断信息快速结构化方法 | |
CN110364234B (zh) | 电子病历智能存储分析检索系统及方法 | |
CN112786194A (zh) | 基于人工智能的医学影像导诊导检系统、方法及设备 | |
CN110675944A (zh) | 分诊方法及装置、计算机设备及介质 | |
CN110879831A (zh) | 基于实体识别技术的中医药语句分词方法 | |
CN112241457A (zh) | 一种融合扩展特征的事理知识图谱事件检测方法 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN112183104B (zh) | 编码推荐方法、系统及相应设备和存储介质 | |
CN110534185A (zh) | 标注数据获取方法、分诊方法、装置、存储介质及设备 | |
Peng et al. | A self-attention based deep learning method for lesion attribute detection from CT reports | |
CN111145903A (zh) | 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统 | |
CN112037909A (zh) | 诊断信息复核系统 | |
CN116881336A (zh) | 一种用于医学大数据的高效多模态对比深度哈希检索方法 | |
CN116737924A (zh) | 一种医疗文本数据处理方法及装置 | |
CN113722507B (zh) | 基于知识图谱的住院费用预测方法、装置及计算机设备 | |
CN113130025A (zh) | 一种实体关系抽取方法、终端设备及计算机可读存储介质 | |
CN118171653B (zh) | 一种基于深度神经网络的健康体检文本治理方法 | |
Althari et al. | Exploring transformer-based learning for negation detection in biomedical texts | |
CN117422074A (zh) | 一种临床信息文本标准化的方法、装置、设备及介质 | |
CN116719840A (zh) | 一种基于病历后结构化处理的医疗信息推送方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |