CN115983233B

CN115983233B - 一种基于数据流匹配的电子病历查重率估计方法

Info

Publication number: CN115983233B
Application number: CN202310018531.2A
Authority: CN
Inventors: 韩欣宇; 余海燕; 陈波; 艾奡; 余江
Original assignee: Guangzhou Dayu Chuangfu Technology Co ltd
Current assignee: Guangzhou Dayu Chuangfu Technology Co ltd
Priority date: 2023-01-04
Filing date: 2023-01-04
Publication date: 2024-09-20
Anticipated expiration: 2043-01-04
Also published as: CN115983233A

Abstract

本发明属于数据处理技术领域，具体涉及一种基于数据流匹配的电子病历查重率估计方法，包括：获取历史病历数据，根据历史病历数据构建关键词词典和词频统计表；获取用户的病历数据信息，并采用对病历数据信息中的中文文字进行编码；根据关键词词典和词频统计表提取待查重病历数据信息中的特征词；采用领域词系统对提取出的特征词进行标准化处理，得到统一的特征词；对编码后的数据流，计算统一特征词和目标特征词的相似度；根据相似度计算结果对病历数据信息进行综合判别，得到电子病历查重率估计结果；本发明通过综合采用CRF与SVM模型，抽取电子病历实体与实体关系，提高了实体的检测准确度。

Description

一种基于数据流匹配的电子病历查重率估计方法

技术领域

本发明属于数据处理技术领域，具体涉及一种基于数据流匹配的电子病历查重率估计方法。

背景技术

文本查重是一种对文本信息进行处理的常用方法，根据查重的信息，能够快速的提取出文本中的信息，并根据文本中的信息做出相应的处理。目前文本查重领域主流的方法有基于词频统计的SCAM算法、采用singles过滤策略的DSC算法、改进的DSC-SS算法、DSC算法进行改进的I-Match算法、对文档集合进行比较的方法、tf-idf算法、以网页关键词作为特征项的查重算法、基于特征串的网页查重算法以及基于特征句抽取的网页去重法等。采用上述方法在一个数据集中自动检测出重复的内容，便于用户尽快通过检索找到需要的内容，从而减少转载和避免记录重复的无用信息。对于电子病历文本分析，多集中在英文电子病历分析，而中文电子病历查重率评估的技术和方法还不多。

对于中文文本，常利用语义、语法、句法等多种方法进行分词。但手多种因素影响，中文电子病历文本分析容易产生歧义，使得很多常用的查重算法应用于中文文本中时，其查重的准确率低。在医学电子病历查重领域中，由于电子病历中存在大量的医学专有名词与医学术语，同时由于许多病人的临床表现相似，在病历记录中容易出现重复情况。并且，大量的重复记录，使得临床医生容易错过或忽视患者个体的重要病情信息。现有的查重方法误判率较高，而使得查重过程的准确率不高。为此，本发明将先进的数据流匹配查重算法应用于中文医学文本识别中，提升中文电子病历查重率推理的准确率及效率。这一方面对中文电子病历记录过程中的文本复制进行识别，从而避免出现因观测数据重复或档案记录复制而忽略患者重要病情信息的不良问题或安全隐患。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种基于数据流匹配的电子病历查重率估计方法，该方法包括：获取历史病历数据，根据历史病历数据构建关键词词典和词频统计表；获取用户的病历数据信息，该信息包括病历主诉、关键词、病历摘要、所属医疗机构以及医护信息；根据关键词词典和词频统计表提取待查重病历数据信息中的特征词；采用领域词系统对提取出的特征词进行标准化处理，得到统一的特征词；计算统一特征词和目标特征词的相似度；根据相似度计算结果对病历数据信息进行综合判别，得到电子病历查重率估计结果。

优选的，建关键词词典和词频统计表的过程包括：历史病历数据信息包括医疗问题、客观体征、评估和诊断结果以及诊疗计划；采用文本排序TextRank算法提取病历数据信息中的特征词；统计关键词在语料库中的词频-逆向文件频率值，并将该值作为权重，到特征词向量；将所有的特征向量进行集合，得到关键词词典；统计关键词词典中每个关键词的个数，将所有的关键词个数进行集合，得到词频统计表。

优选的，采用文本排序TextRank算法提取病历数据信息中的特征词的过程包括：将文本T按照完整句子进行分割，对分割后的每个句子进行分词和词性标注处理；对经过词性标注的句子过滤除名词、动词、形容词词性之外的其他词；构建关键词图，其中关键词图中的节点为保留词，共现关系为两点之间的边，两个节点之间仅当它们对应的词汇在长度为K的窗口中共现则存在边，K表示窗口大小即最多共现K个词汇；计算各节点TextRank收敛值；选择TextRank值最高的Top K个词汇作为最终关键词；将最终关键词作为候选关键词；将候选关键词在原始文本中进行标记。

本发明的有益效果：

本发明通过综合采用CRF与SVM模型，抽取电子病历实体与实体关系，结合TD-IDF算法与TextRank算法构建特征词向量，使用Knuth-Morris-Pratt(KMP)算法对字符串进行匹配，最终对文本的相似度进行综合判断，从而有效地避免医生在对病人的病历记录过程中，复制上一病人的病历，因而无法对病人的诊疗情况等准确地记录；或应用在电子病历文本中重复内容较多,并且出现信息不一致和不及时的问题场景，降低这一方面对病人的后续治疗的影响。

附图说明

图1为本发明的电子病历实体与实体关系图；

图2为本发明的系统框架结构图；

图3为本发明的KMP匹配算法流程图；

图4为本发明的TFIDF算法流程图；

图5为本发明的有效匹配与无效匹配示意图；

图6为本发明的本排序TextRank算法提取病历数据信息的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于数据流匹配的电子病历查重率估计方法，该方法包括获取历史病历数据，根据历史病历数据构建关键词词典和词频统计表；获取用户的病历数据信息，该信息包括病历主诉、关键词、病历摘要等；根据关键词词典和词频统计表提取待查重病历数据信息中的特征词；采用领域词系统对提取出的特征词进行标准化处理，得到统一的特征词；计算统一特征词和目标特征词的相似度；根据相似度计算结果对病历数据信息进行综合判别，得到电子病历查重率估计结果。

一种基于数据流匹配的电子病历查重率估计方法的系统具体实施方式，如图2所示，该系统包括输入模块、输出模块、特征抽取模块、领域词系统模块、数据管理模块以及相似度判别模块；其中输入输出模块负责将用户的输入信息提交到服务器端，提交的信息包括病历主诉、关键词、病历摘要、所属医疗机构和医师等；并将病历查重结果展示给用户；特征词抽取模块负责从输入的标题和摘要文本中取出特征词，在抽取过程中会用到关键词词典和词频统计文件，该模块中运用基于序列标注的方法，采用CRF模型对病例的命名实体进行识别，之后采用机器学习和规则相结合的方法，使用SVM模块对疾病和症状的修饰识别；最后采用SVM最大熵等分类模型对病历实体关系抽取，得出文本中的特征词；领域词系统模块负责将一义多词的特征词标准化为统一的特征词。数据管理模块负责病历大数据的存储、管理和调度，负责为特征词抽取模块提供关键词词典和词频统计表，为相似度判别模块提供海量电子病历的特征词向量；相似度判别模块负责计算待查电子病历与海量存档电子病历的相似度，并利用Hadoop和Spark框架对相似度判别算法进行的分布式处理，以提升电子病历查重的速度；相似度判别首先计算电子病历内容方面的相似度，然后综合考虑所属医疗机构和医师的因素，对电子病历的相似度进行综合判别，得到最终的判别结果。

采用整合多来源电子健康档案信息描述电子病历内容的数据模型，利用医疗问题、客观体征、评估和诊断以及诊疗计划等的文本信息中抽取关键词并构建特征向量，从不同维度描述电子病历的实体内容。以医疗问题为例，如图1所示，采集的数据中包含电子病历的病人主诉，既往病史，主观症状等字段信息，利用改进的TextRank算法获取能表征病人状况的特征词。通过大量语料信息计算成词概率以反映短语结合的紧密程度，排除短语中不相关的成分，从而保证所抽取特征词的准确性和语义表达能力。此外，利用构建的领域词系统，解决一义多词的问题，将抽取的关键词进行标准化处理。如图4所示，统计关键词在语料库中的TFIDF值作为其权重，最终得到特征词向量，其表达式为

V₁＝{(K_i,W_i)|i＝1,2,…,N}

其中，K_i表示第i个特征词，W_i表示第i个特征词的权重，N表示所采用特征词的个数。

根据上述方法求出客观体征(V₁)、评估信息(V₂)和诊断信息(V₃)和诊疗计划(V₄)的特征词向量。电子病历查重模型可表示为：

V＝{V₁，w₁，V₂，w₂，V₃，w₃，V₄，w₄}

其中，{w_i|i∈[1，4]}表示不同来源信息的权重，用于反映来源信息对描述电子病历内容的重要程度。考虑到不同形式的电子病历之间关联的紧密程度存在差异性，评估诊断和诊疗计划是对患者诊断与治疗的规划和总结，将其设置为较高的权重；医疗问题和客观体征只是对患者治疗的部分参考，将其设置为较低的权重。

如图6所示，利用改进的TextRank算法获取能表征病人状况的特征词的具体过程包括：

步骤1：把给定的文本T按照完整句子进行分割。

步骤2：对于每个句子，进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，如名词、动词、形容词。

步骤3：构建候选关键词图G＝(V,E)，其中V为节点集，由步骤2生成的候选关键词组成，然后采用共现关系(Co-Occurrence)构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小，即最多共现K个单词。

步骤4：根据TextRank的公式，迭代传播各节点的权重，直至收敛。

步骤5：对节点权重进行倒序排序，从而得到最重要的T个单词，作为候选关键词。

步骤6：由步骤5得到最重要的T个单词，在原始文本中进行标记，若形成相邻词组，则组合成多词关键词。

由于特征词抽取算法的准确性、特征词长度标准不一致和抽取的关键词数量限制等因素，从文本转化为特征词的过程中存在信息丢失问题，从而导致电子病历查重的准确性降低。本发明不对语料库中的文本进行特征词抽取的预处理，而是在去掉非中文字符和停用词后将其拆分成长度为2～8字的短语，短语之间用符号“/”分隔。在实际计算电子病历相似度时，根据输入的待查询的特征词向量，从预处理的文件中构建与查询向量维度匹配的特征词向量，并计算两者之间的相似度。该方法提升电子病历档案查重准确性，但产生了较高的计算复杂度。

采用KMP字符串匹配算法计算相似的过程包括：在字符串匹配过程中，首先使用GB18030-2022标准，将中文文字依次转化为其GB 18030编码，对于编码不足四位的字符，在其前方补零。之后对形成的字符串语段进行切片，以四个字符为单位，作为后文中的“一个字符”。

表1基于字符串编码转化的中文电子病历预处理

针对一个字符串P(模式串)，计算出一个《部分匹配表》(Partial Match Table)。其中，“前缀”指除了最后一个字符以外，一个字符串的全部头部组合；“后缀”指除了第一个字符以外，一个字符串的全部尾部组合，如图3所示，“部分匹配值”就是“前缀”和“后缀”的最长的共有元素的长度。

将一个字符串S的第一个字符与字符串P(模式串)的第一个字符，进行比较若两字符串第一个字符不匹配，所以搜索词后移一位，以此类推字符串S的第二个，第三个字符直到字符串有一个字符，与搜索词的第一个字符相同为止。接着比较字符串和搜索词的下一个字符，若相同，则继续匹配字符串S与字符串P的下一个字符，直到字符串有一个字符，与搜索词对应的字符不相同为止。利用前n个字符已经匹配相同的信息，不要把"搜索位置"移回已经比较过的位置，继续把它向后移，这样可以提高计算效率。已知S中与P中两个字符不匹配时，前面n个字符是匹配的。查询部分匹配表表可知，最后一个匹配字符对应的"部分匹配值"为m，因此按照下面的公式算出向后移动的位数：移动位数＝已匹配的字符数-对应的部分匹配值。

“部分匹配”的实质是，字符串头部和尾部在一些情景下会出现重复。比如，“电子病历档案”之中有两个“电子“，那么它的“部分匹配值”就是2(“电子”的长度)。搜索词移动的时候，第一个“电子”向后移动4位(字符串长度-部分匹配值)，就可以来到第二个“电子”的位置。

若移动搜索此后，P字符串中第k个字符仍不匹配，则继续以上方法，改变已匹配字符数与部分匹配值，继续将P字符串向后移动，逐位比较，直至搜索词的最后一位，发现完全匹配，此时搜索完成。如果还要继续搜索(即找出全部匹配)，移动位数＝“P字符串长度”-0，再将搜索词向后移动“P字符串长度”位。字符匹配结果如图5所示。

考虑到重复性电子病历通常具有相同的负责人或者承担单位，引入两个校正因子用于体现上述因素的影响。对于四个信息来源，即客观体征(V₁)、评估信息(V₂)和诊断信息(V₃)和诊疗计划(V₄)，定义电子病历的相似度为

SIM(I,V)＝max{Sim(I,V_i)×w_i|i∈[1，4]}+Δ_p+Δ_o

其中，Sim(·)表示相似度函数，I为从输入的检索信息中抽取的描述病历内容的特征向量，V为待判定病历内容的描述向量，max(·)为最大值函数，表示从四个信息来源中选取相似度的最大值，Δ_p表示因相同医师而引入的校正因子，Δ_o表示因相同医疗机构而引入的校正因子，w_i指四个信息来源的权重。

由于医疗问题、客观体征、评估和诊断、诊疗计划等信息可能存在缺失的情况，因此分别按照四类资源分别计算相似度，并取相似度最高的结果作为电子病历内容相似度的判别结果。通过引入校正因子，可以保证在电子病历内容相似度一致的情况下，优先筛选出具有相同医师或者相同医疗机构的电子病历。经上述计算后，可得到待查重的电子病历与全部已有电子病历的相似度，选取超出阈值的电子病历作为疑似重复电子病历的候选集，由专家做出最终的判定结果。

在另一个实施例中，首先对出院病人电子病历资源进行检索，筛选较为规范的的病历信息。其次，利用上述资源信息分别构建了病历命名实体与实体关系的关键词词典、词频统计文件和领域词系统。前两个文件主要用于增强特征词抽取的准确性，而领域词系统用于处理病历内异名同义词语之间的关系，将其标准化为领域内的统一词语。

为验证关键词抽取算法的有效性，使用若干份属于同一医疗机构的病历信息构建测试样本集，采用准确率、召回率和F值作为算法的评价指标。其中，随机选取若干份病历摘要作为测试用例，已标注的关键词作为正例样本；剩余的作为语料，用于计算候选特征词的成词概率。本文选定词语共现窗口大小和成词概率阈值都表现良好，与TFIDF算法和TextRank算法的抽取结果进行对比实验，本文算法在准确率、召回率和F值均优于传统的TextRank算法和TFIDF算法，验证了关键词抽取算法在从病历摘要短文本抽取特征词的有效性。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于数据流匹配的电子病历查重率估计方法，其特征在于，包括：获取历史病历数据，根据历史病历数据构建关键词词典和词频统计表；获取用户的病历数据信息，该信息包括病历主诉、关键词、病历摘要、所属医疗机构以及医护信息；根据关键词词典和词频统计表提取待查重病历数据信息中的特征词；采用领域词系统对提取出的特征词进行标准化处理，得到统一的特征词；计算统一特征词和目标特征词的相似度；根据相似度计算结果对病历数据信息进行综合判别，得到电子病历查重率估计结果；

构建关键词词典和词频统计表的过程包括：历史病历数据信息包括医疗问题、客观体征、评估和诊断结果以及诊疗计划；采用文本排序TextRank算法提取病历数据信息中的特征词；统计关键词在语料库中的词频-逆向文件频率值，并将该值作为权重，到特征词向量；将所有的特征向量进行集合，得到关键词词典；统计关键词词典中每个关键词的个数，将所有的关键词个数进行集合，得到词频统计表；其中采用文本排序TextRank算法提取病历数据信息中的特征词的过程包括：将文本T按照完整句子进行分割，对分割后的每个句子进行分词和词性标注处理；对经过词性标注的句子过滤除名词、动词、形容词词性之外的其他词；构建关键词图，其中关键词图中的节点为保留词，共现关系为两点之间的边，两个节点之间仅当它们对应的词汇在长度为K的窗口中共现则存在边，K表示窗口大小即最多共现K个词汇；计算各节点TextRank收敛值；选择TextRank值最高的Top K个词汇作为最终关键词；将最终关键词作为候选关键词；将候选关键词在原始文本中进行标记；

采用Knuth-Morris-Pratt算法计算统一特征词和目标特征词的相似度；包括：将特征词中的中文字转换为中文编码字符集，其中编码不足四位的字符在编码前端补0；对形成的字符串语段进行切片，以四个字符为单位，得到一个字符组；针对一个字符串P，计算P的部分匹配值，其中部分匹配值为字符串前缀和字符串后缀的最长共有元素的长度；将一个字符串S的第一个字符与字符串P的第一个字符进行比较，若两字符串第一个字符不匹配，则搜索词后移一位，以此类推字符串S的第二个、第三个字符，直到字符串有一个字符与搜索词的第一个字符相同为止；比较字符串和搜索词的下一个字符，若相同，则继续匹配字符串S与字符串P的下一个字符，直到字符串有一个字符与搜索词对应的字符不相同为止；查询部分匹配表，获取最后一个匹配字符对应的部分匹配值，根据部分匹配值计算字符向后移动的位数；若移动搜索此后，P字符串中第k个字符仍不匹配，则继续以上方法，改变已匹配字符数与部分匹配值，继续将P字符串向后移动，逐位比较，直至搜索词的最后一位，发现完全匹配，此时搜索完成；电子病历相似度为：

SIM(I,V)＝max{Sim(I,V_i)×w_i|i∈[1，4]}+Δ_p+Δ_o

其中，Sim(·)表示相似度函数，I为从输入的检索信息中抽取的描述病历内容的特征向量，V为待判定病历内容的描述向量，max(·)为最大值函数，Δ_p表示因相同医师而引入的校正因子，Δ_o表示因相同医疗机构而引入的校正因子，w_i指四个信息来源的权重。

2.根据权利要求1所述的一种基于数据流匹配的电子病历查重率估计方法，其特征在于，提取待查重病历数据信息中的特征词的过程包括：采用基于序列标准的方法对病历数据进行标注；根据关键词词典和词频统计表，采用条件随机场模型对标注后的病历命名实体进行识别；采用支持向量机SVM模型对电子病历实体进行关系抽取，得到文本中的特征词。

3.根据权利要求2所述的一种基于数据流匹配的电子病历查重率估计方法，其特征在于，采用支持向量机SVM模型的病历实体关系抽取过程包括：第一阶段用标注数据训练若干分类器；第二阶段是抽取过程，使用学习得到的分类器抽取中文实体名和它们的关系，最后应用最近邻kNN和SVM分类方法从文档中识别实体关系。

4.根据权利要求1所述的一种基于数据流匹配的电子病历查重率估计方法，其特征在于，采用领域词系统对提取出的特征词进行标准化处理的过程包括：找出并处理领域内异名同义词语之间的关系，将其标准化为领域内的统一词语。