CN118398155B

CN118398155B - 医学报告的生成方法、模型训练方法、系统、设备及介质

Info

Publication number: CN118398155B
Application number: CN202410842743.7A
Authority: CN
Inventors: 黄莉莉; 刘欣颐; 孙登第; 汤进; 赵海峰
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2024-06-27
Filing date: 2024-06-27
Publication date: 2024-10-11
Anticipated expiration: 2044-06-27
Also published as: CN118398155A

Abstract

本发明提供一种医学报告的生成方法、模型训练方法、系统、设备及介质。训练方法包括：获取综合医学影像集和对应的医学报告集及医学概念集；将综合医学影像集输入特征提取网络，提取空域视觉特征集和频域视觉特征集；将空域视觉特征集和空域平均视觉特征、频域视觉特征集和频域平均视觉特征输入增强融合网络，获得空频域结合特征集；将空频域结合特征集输入概念预测网络，生成预测医学概念集；将预测医学概念集和空频域结合特征集输入报告预测网络，生成预测医学报告集；根据预测医学报告集和医学报告集的差异度、预测医学概念集和医学概念集的差异度，更新医学报告生成模型的参数，得到训练好的医学报告生成模型。提升了生成的医学报告的质量。

Description

医学报告的生成方法、模型训练方法、系统、设备及介质

技术领域

本发明涉及医学影像辅助诊断领域，特别涉及一种医学报告的生成方法、模型训练方法、系统、设备及介质。

背景技术

医学影像目前被广泛用于诊断和发现潜在疾病，因此在分析医学影像的基础上撰写大量报告已成为放射科医生日常工作中的一项重要任务。由于写医学报告是一项需要大量的专业知识且耗时的工作，许多放射科医生承担着过重的工作量。这让放射科医生在工作中很容易疲劳，影响了诊断的准确性。由于放射科医生的缺乏，因此自动生成医学报告的方法被用于辅助诊断，以降低放射科医生的劳动强度，加快临床工作流程。

当下主流的方法大致有以下几个步骤：在训练模型时，首先预处理用于生成医学报告的医学影像；然后将预处理后的医学影像输入卷积神经网络模型提取影像的空域视觉特征；接着将影像的视觉特征和对应的医学报告输入语言生成模型，训练模型学习如何生成正确的医学报告；最后通过计算模型生成的医学报告和影像对应的真实医学报告之间的差距更新模型参数，不断重复这个过程直到模型完成训练。模型训练完成后即可辅助诊断，将待诊的医学影像输入模型，模型可以快速地生成一份医学报告。

但现在的主流方法忽略了医学影像中细微特征的挖掘，无法正确地描述对应医学影像的情况，使得最终生成的医学报告准确度不佳。因此，需要提供一种医学报告的生成方法、模型训练方法、系统、设备及介质。

发明内容

本发明提供一种医学报告生成模型训练方法。以解决现有技术由于无法挖掘影像中细粒度特征导致生成的报告准确度不高的问题。

本发明提供的一种医学报告生成模型训练方法，包括：获取综合医学影像集和与之对应的医学报告集以及医学概念集；将所述综合医学影像集输入至医学报告生成模型的特征提取网络，提取空域视觉特征集和频域视觉特征集；将空域视觉特征集和预设的空域平均视觉特征、频域视觉特征集和预设的频域平均视觉特征输入至所述医学报告生成模型的增强融合网络，获得空频域结合特征集；将空频域结合特征集输入至所述医学报告生成模型的概念预测网络，生成预测医学概念集；将预测医学概念集和空频域结合特征集输入至所述医学报告生成模型的报告预测网络，生成预测医学报告集；根据预测医学报告集和医学报告集的差异度、预测医学概念集和医学概念集的差异度，更新所述医学报告生成模型的参数，得到训练好的医学报告生成模型。

于本发明一实施例中，所述增强融合网络包括第一对比单元、第二对比单元、第一增强单元、第二增强单元和融合单元，所述将空域视觉特征集和预设的空域平均视觉特征、频域视觉特征集和预设的频域平均视觉特征输入至所述医学报告生成模型的增强融合网络，获得空频域结合特征集，包括：将空域视觉特征集和所述空域平均视觉特征输入至所述第一对比单元，基于投影矩阵的加权相似度，提取空域视觉特征集和空域平均视觉特征之间的空域视觉对比特征集；将空域视觉对比特征集和空域视觉特征集输入至所述第一增强单元，使用空域视觉对比特征集增强空域视觉特征集，得到增强后空域视觉特征集；将频域视觉特征集和频域平均视觉特征输入至所述第二对比单元，基于投影矩阵的加权相似度，提取频域视觉特征集和频域平均视觉特征之间的频域视觉对比特征集；将频域视觉对比特征集和频域视觉特征集输入至所述第二增强单元，使用频域视觉对比特征集增强频域视觉特征集，得到增强后频域视觉特征集；将增强后空域视觉特征集和增强后频域视觉特征集输入至所述融合单元，将两者进行特征融合，获得空频域结合特征集。

于本发明一实施例中，所述将空域视觉特征集和空域平均视觉特征输入至所述第一对比单元，基于投影矩阵的加权相似度，提取空域视觉特征集和空域平均视觉特征之间的空域视觉对比特征集，包括：基于投影矩阵对空域视觉特征集和空域平均视觉特征进行加权处理，获得空域共有视觉特征集；依据空域视觉特征集和空域共有视觉特征集之间的差异，获得空域视觉对比特征集。

于本发明一实施例中，所述报告预测网络包括医学概念引导单元和报告生成单元，所述将预测医学概念集和空频域结合特征集输入至所述医学报告生成模型的报告预测网络，生成预测医学报告集，包括：将空频域结合特征集和预测医学概念集输入至所述医学概念引导单元，基于多头注意力机制捕获与医学概念关联的视觉特征，得到以医学概念引导的综合空频域结合特征集；将综合空频域结合特征集输入至所述报告生成单元，将综合空频域结合特征集解码为文本序列集，并基于解码的文本序列集生成预测医学报告集；其中，所述报告生成单元为Transformer模型。

于本发明一实施例中，预测医学报告和医学报告的差异度；其中，为预设的所有被生成出来的字或词的总数量，为预设的医学报告的长度，为医学报告第i个位置上第j个字或词的置信度，为预测的医学报告第i个位置上第j个字或词的置信度。

于本发明一实施例中，预测医学概念和医学概念的差异度；其中，为第个医学概念在医学影像上真实存在的状态，为医学影像中第个医学概念存在的预测值，为医学概念的总数。

于本发明一实施例中，还提供一种医学报告的生成方法，所述方法包括：获取待识别的医学影像；将预设的空域平均视觉特征、频域平均视觉特征和所述医学影像输入至上述任一项所述的医学报告生成模型训练方法得到的训练好的医学报告生成模型，生成医学报告。

于本发明一实施例中，还提供了一种医学报告生成模型训练系统，所述系统包括：数据获取模块，用于获取综合医学影像集和与之对应的医学报告集以及医学概念集；特征提取模块，用于将所述综合医学影像集输入至所述医学报告生成模型的特征提取网络，提取空域视觉特征集和频域视觉特征集；融合模块，用于将空域视觉特征集和预设的空域平均视觉特征、频域视觉特征集和预设的频域平均视觉特征输入至所述医学报告生成模型的增强融合网络，获得空频域结合特征集；医学概念预测模块，用于将空频域结合特征集输入至所述医学报告生成模型的概念预测网络，生成预测医学概念集；报告预测模块，用于将预测医学概念集和空频域结合特征集输入至所述医学报告生成模型的报告预测网络，生成预测医学报告集；参数更新模块，用于根据预测医学报告集和医学报告集的差异度、预测医学概念集和医学概念集的差异度，更新所述医学报告生成模型的参数，得到训练好的医学报告生成模型。

于本发明一实施例中，还提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现上述任一项所述的医学报告生成模型训练或医学报告的生成方法。

于本发明一实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被计算机的处理器执行时，使计算机执行上述任一项所述的医学报告生成模型训练或医学报告的生成方法。

本发明提出的一种医学报告的生成方法、模型训练方法、系统、设备及介质。通过将空域和频域视觉特征进行整合，使得模型不仅能够捕获细微的视觉差异，还可以捕捉到影像之间复杂的关联，从而为医学影像的分析提供了更加全面和多维的信息。此外，通过增强融合网络，结合预设的平均视觉特征，能够使影像中的关键信息进一步强化，从而提升了生成的医学报告的质量。这种方法提升了医学报告生成的准确度和效率，极大减轻了医疗专业人员的负担。

附图说明

图1为本发明实施例提供的医学报告生成模型训练方法的一个流程示意图；

图2显示为本发明一实施例中医学报告生成模型的架构图；

图3显示为本发明一实施例提供的医学报告生成模型训练系统的结构框图；

图4显示为本发明一实施例电子设备的一结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

在下文描述中，探讨了大量细节，以提供对本发明实施例的更透彻的解释，然而，对本领域技术人员来说，可以在没有这些具体细节的情况下实施本发明的实施例是显而易见的，在其他实施例中，以方框图的形式而不是以细节的形式来示出公知的结构和设备，以避免使本发明的实施例难以理解。

现有的自动医学报告生成方法同最初相比已经取得了长足的进步，但仍然存在一些问题：第一是忽略了医学影像中细微特征的挖掘，和自然图像不同，不同医学影像在整体内容上存在着很小的差别但对应的医学报告之间差异巨大是很常见的，现有方法往往无法挖掘这些细微的特征，导致生成的报告之间没有显著的差异，更无法正确地描述对应医学影像的情况。第二是生成的报告的临床准确性不高，现有的方法往往更关注自动生成的报告的流畅性，致力于让生成的报告更像人类所写而非机器生成，但低临床准确性的报告往往会导致漏诊和误诊，带来很高的医疗风险。少数方法考虑了通过知识图谱提高自动生成的报告的临床准确性，但构建知识图谱的过程自动化程度很低，本身就需要放射科医生投入大量时间和精力，和自动医学报告生成的目的背道而驰，而且知识图谱的质量无法保证，低质量的知识图谱反而可能导致自动生成的报告的临床准确性进一步降低。

本发明提供一种基于医学概念引导的空频域结合表征的医学报告生成模型训练方法，通过空域和频域的特征提取，利用频域特征增强空域特征，并通过比较当前医学影像与标准正常影像的特征差异来获取对比信息。这种对比信息用于增强视觉特征，以揭示细微的视觉差异，而这些差异在传统方法中难以捕捉。此外，通过将医学概念与相应的视觉区域对齐，建立了医学概念和视觉特征间的相关性，从而在视觉特征中融入潜在的医学知识，增强了自动生成报告的临床准确性。

请参见图1，医学报告生成模型训练方法包括如下步骤：

S1、获取综合医学影像集和与之对应的医学报告集以及医学概念集。

综合医学影像集包括多张医学影像，每张医学影像在医学报告集中都有对应的医学报告，在医学概念集中有对应的医学概念序列表。其中，医学影像既包括异常的医学影像也包括无异常的医学影像，医学影像的类型包括但不限于X射线、磁共振成像（MagneticResonance Imaging，MRI）或计算机断层扫描（Computed Tomography，CT）等，本领域技术人员可基于实际需要适应性选择对应的医学影像类型，在此不做限定。每张医学影像具有对应的文本形式的医学报告，该医学报告中记载有对应医学影像的内容和医生的诊断结果。使用分词工具（如使用工具包spaCy等）对于每个医学报告均进行分词处理，得到该医学报告中出现的各分词，并统计各分词的词频，将词频小于预设阈值的分词删除。从剩余的分词中由专业的放射科医生选取出含有医学知识的分词，组成医学概念序列表，其中，是医学概念序列表中的第个分词，是医学概念序列表中分词的总量。由于每张医学影像对应一个医学报告，经过上述处理后，每张医学影像对应有一个医学概念序列表。

S2、将所述综合医学影像集输入至医学报告生成模型的特征提取网络，提取空域视觉特征集和频域视觉特征集。

将综合医学影像集输入至医学报告生成模型的特征提取网络，分别在空域和频域进行特征提取，获得综合医学影像集的空域视觉特征集和频域视觉特征集。具体地，特征提取网络包括空域特征提取单元和频域特征提取单元，将综合医学影像集中的每张医学影像在空域上进行预处理，获得多张预处理后空域标准医学影像，其中，空域预处理的过程包括但不限于降采样以将影像尺寸降低至统一的尺度，以及对医学影像进行旋转、翻转等随机变换。将各预处理后空域标准医学影像输入至空域特征提取单元，通过捕获医学影像中的空间细节，生成空域视觉特征集。同样地，综合医学影像集在频域上也会进行预处理，获得多张预处理后频域标准医学影像，其中，频域预处理的过程包括但不限于降采样以将影像尺寸降低至统一的尺度，以及对每个降采样后的影像进行离散余弦变换。将各预处理后频域标准医学影像输入至频域特征提取单元，通过识别影像中的频域特征，生成频域视觉特征集。空域特征提取单元和频域特征提取单元可为任意一种卷积神经网络，示例性地，空域特征提取单元和频域特征提取单元为删除有分类层的ResNet网络。

S3、将空域视觉特征集和预设的空域平均视觉特征、频域视觉特征集和预设的频域平均视觉特征输入至所述医学报告生成模型的增强融合网络，获得空频域结合特征集。

将空域视觉特征集和预设的空域平均视觉特征、频域视觉特征集和预设的频域平均视觉特征输入至医学报告生成模型的增强融合网络，用空域平均视觉特征增强空域视觉特征集，用频域平均视觉特征增强频域视觉特征集，并将增强后的两种特征进行融合，获得空频域结合特征集。其中，空域平均视觉特征和频域平均视觉特征是通过对一系列正常（即无异常）医学影像进行特征提取获得。具体地，将这些正常医学影像经过S2所述的频域和空域的预处理步骤，生成频域标准医学影像和空域标准医学影像，对这些标准医学影像进行特征提取，分别生成频域平均视觉特征和空域平均视觉特征。具体地，这些空域标准医学影像通过预设的空域特征提取网络进行处理后，形成视觉特征集合，其中，是第张空域标准医学影像的视觉特征，是空域标准医学影像的总量。依据公式（1）计算其空域平均视觉特征：

（1）

同样地方式，将各频域标准医学影像输入至预设的频域特征提取网络，得到频域平均视觉特征。可以理解的是，空域特征提取网络和频域特征提取网络可为任意的卷积网络，作为一种示例，空域特征提取网络和频域特征提取网络为去除分类层的ResNet网络。

将空域视觉特征集和空域平均视觉特征、频域视觉特征集和频域平均视觉特征输入至增强融合网络，以使空域视觉特征集和频域视觉特征集与各自的平均视觉特征进行特征增强和融合，最终获得的空频域结合特征集能更加全面的捕捉医学影像的关键信息，从而提升后续医学报告生成的准确度。

在本发明一实施例中，所述增强融合网络包括第一对比单元、第二对比单元、第一增强单元、第二增强单元和融合单元，所述将空域视觉特征集和预设的空域平均视觉特征、频域视觉特征集和预设的频域平均视觉特征输入至所述医学报告生成模型的增强融合网络，获得空频域结合特征集，包括：

将空域视觉特征集和所述空域平均视觉特征输入至所述第一对比单元，基于投影矩阵的加权相似度，提取空域视觉特征集和空域平均视觉特征之间的空域视觉对比特征集；

将空域视觉对比特征集和空域视觉特征集输入至所述第一增强单元，使用空域视觉对比特征集增强空域视觉特征集，得到增强后空域视觉特征集；

将频域视觉特征集和频域平均视觉特征输入至所述第二对比单元，基于投影矩阵的加权相似度，提取频域视觉特征集和频域平均视觉特征之间的频域视觉对比特征集；

将频域视觉对比特征集和频域视觉特征集输入至所述第二增强单元，使用频域视觉对比特征集增强频域视觉特征集，得到增强后频域视觉特征集；

将增强后空域视觉特征集和增强后频域视觉特征集输入至所述融合单元，将两者进行特征融合，获得空频域结合特征集。

具体地，在本发明一实施例中，所述将空域视觉特征集和空域平均视觉特征输入至所述第一对比单元，基于投影矩阵的加权相似度，提取空域视觉特征集和空域平均视觉特征之间的空域视觉对比特征集，包括：

基于投影矩阵对空域视觉特征集和空域平均视觉特征进行加权处理，获得空域共有视觉特征集；

依据空域视觉特征集和空域共有视觉特征集之间的差异，获得空域视觉对比特征集。

如公式（2）所示，利用投影矩阵加权计算空域视觉特征集和空域平均视觉特征之间的空域共有视觉特征集：

（2）

其中，为函数，为预设的缩放因子，为空域视觉特征集，为空域平均视觉特征，、和为可学习的投影矩阵。通过公式（3）计算空域视觉对比特征集：

（3）

空域视觉对比特征集表示空域视觉特征集中独有的特征，这些特征能够捕捉到病理变化的视觉特征，从而提升后续诊断的精确度。

在第一增强单元，使用空域视觉对比特征集增强空域视觉特征集，按照公式（4）进行特征增强，得到增强后空域视觉特征集：

（4）

其中，为可学习的投影矩阵，为将空域视觉特征集和空域视觉对比特征集进行连接。通过特征增强，能够强化医学影像中与病变相关的视觉信息，从而提升模型的鲁棒性。

同样地，将频域视觉对比特征集和频域视觉特征集输入至第二对比单元，如公式（5）所示，首先依据投影矩阵加权处理得到频域视觉共有特征集：

（5）

其中，、和为可学习的投影矩阵，为频域视觉特征集，为频域平均视觉特征。然后可通过公式（6）得到频域视觉对比特征集：

（6）

再将频域视觉对比特征集和频域视觉特征集输入至第二增强单元，如公式（7）所示利用频域视觉对比特征集增强频域视觉特征集，得到增强后频域视觉特征集：

（7）

其中，为可学习的投影矩阵，表示将频域视觉特征集和频域视觉对比特征集连接处理。通过对频域进行上述特征增强，使得模型更易识别出纹理、边缘等细微的变化，以提升生成的医学报告的准确度。进一步地，将增强后空域视觉特征集和增强后频域视觉特征集通过融合单元，按照公式（8）进行特征融合，得到空频域结合特征集V：

（8）

生成的空频域结合特征集能够兼顾空间和频域两个维度的信息，从而为后续分析提供了一个更加全面的视觉表征，以使模型更加鲁棒和有效。

S4、将空频域结合特征集输入至所述医学报告生成模型的概念预测网络，生成预测医学概念集。

将空频域结合特征集输入至概念预测网络，通过捕捉特征集中的特征和医学概念之间的关系，预测出医学影像中存在的一系列医学概念。可以理解的是，概念预测网络可为任何能够进行分类的网络结构，示例性地，概念预测网络为全连接层和层。具体地，全连接层产生N1个负无穷到正无穷之间的自然数作为输出，每个输出对应一个医学概念，将这N1个输出结果输入至层，通过将每个输出转换为0至1之间的值，得到该医学概念在对应医学影像中存在的概率，从而形成该医学影像包含的医学概念集合。

S5、将预测医学概念集和空频域结合特征集输入至所述医学报告生成模型的报告预测网络，生成预测医学报告集。

将上述生成的预测医学概念集和空频域结合特征集输入至报告预测网络，综合分析医学概念和视觉特征，由于空频域结合特征集中具有医学影像的空域、频域的关键特征信息，这些特征信息准确反映了影像的细节内容，结合医学概念，可以使生成的医学报告更为准确。

在本发明一实施例中，所述报告预测网络包括医学概念引导单元和报告生成单元，所述将预测医学概念集和空频域结合特征集输入至所述医学报告生成模型的报告预测网络，生成预测医学报告集，包括：

将空频域结合特征集和预测医学概念集输入至所述医学概念引导单元，基于多头注意力机制捕获与医学概念关联的视觉特征，得到以医学概念引导的综合空频域结合特征集；

将综合空频域结合特征集输入至所述报告生成单元，将综合空频域结合特征集解码为文本序列集，并基于解码的文本序列集生成预测医学报告集；其中，所述报告生成单元为Transformer模型。

将空频域结合特征集和预测医学概念集输入至医学概念引导单元，采用多头注意力机制可将预测医学概念集定位至空频域结合特征集上。具体地，将空频域结合特征集作为查询向量，将预测医学概念集作为键向量和值向量，通过多头注意力机制，得到以医学概念引导的综合空频域结合特征集，其中，MHA为一个多头注意力网络。通过这种机制，模型能将空频域结合特征集中与预测医学概念集相关的部分分配更高的权重，从而使得生成的综合空频域结合特征集中，与医学概念关联度较高的视觉特征更为突出，极大提升了特征的指向性。

进一步地，以医学概念引导的综合空频域结合特征集输入至报告生成单元，通过多头自注意力机制融合医学影像的关键视觉特征以及医学概念，生成文本序列，将文本序列中出现的各词汇依序排列即可构成一份医学报告。其中，文本序列是由一系列词汇，按照先后顺序等语法顺序排列组成。

S6、根据预测医学报告集和医学报告集的差异度、预测医学概念集和医学概念集的差异度，更新所述医学报告生成模型的参数，得到训练好的医学报告生成模型。

具体地，在本发明一实施例中，预测医学报告集和医学报告集的差异度是通过预测医学报告和医学报告的差异度获得，预测医学报告和医学报告的差异度；其中，为预设的所有被生成出来的字或词的总数量，为预设的医学报告的长度，为医学报告第i个位置上第j个字或词的置信度，为预测的医学报告第i个位置上第j个字或词的置信度。通过比较预测医学报告和实际医学报告中每个词出现的概率，以量化两者之间的误差。在模型训练过程中，使得预测的医学报告不断趋近实际的医学报告，提升医学报告生成的准确度。此外，在本发明一实施例中，预测医学概念集和医学概念集的差异度是通过预测医学概念和医学概念的差异度获得，预测医学概念和医学概念的差异度；其中，为第个医学概念在医学影像上真实存在的状态，为医学影像中第个医学概念存在的预测值，为医学概念的总数。通过计算预测医学概念和实际医学概念之间的交叉熵损失，以衡量模型对于医学概念预测的准确度。

通过将上述两种损失进行加权处理，得到医学报告生成模型的总损失，其中，和为平衡两个损失函数的超参数，通过调整和，可以灵活调节模型对于医学概念准确度和生成医学报告生成质量两者之间的重视程度，合理的设置这两个超参数可以避免医学报告生成模型过分专注于某一方面而忽视另一方面，以降低过拟合的风险，提升模型的表现力。训练阶段，依据梯度下降法将总损失L在医学报告生成模型中逐层反向传播，以更新模型参数，迭代训练直至总损失收敛，则模型训练完成。其中，总损失收敛是指模型重复迭代预设次数（如5次）后总损失不再下降。

在本发明一实施例中，还提供一种医学报告的生成方法，生成方法包括：

获取待识别的医学影像；

将预设的空域平均视觉特征、频域平均视觉特征和所述医学影像输入至上述任一项所述的医学报告生成模型训练方法得到的训练好的医学报告生成模型，生成医学报告。

医学报告生成模型训练完毕后，将待识别的医学影像、通过正常医学影像提取的空域平均视觉特征、频域平均视觉特征输入至训练好的医学报告生成模型，模型结合训练中学到的知识，即可自动生成该影像的医学报告。

请参见图2，本发明中，根据待识别的医学影像生成医学报告的具体过程为：将待识别的医学影像输入至医学报告生成模型的特征提取网络，分别提取医学影像的空域视觉特征和频域视觉特征，特征提取网络可为去除分类层的ResNet网络。在增强融合网络中，将空域视觉特征、频域视觉特征分别和对应平均视觉特征进行增强融合，其中，平均视觉特征是通过正常医学影像进行空域和频域特征提取得到。具体地，在增强融合网络中，首先通过第一对比单元将空域视觉特征和空域平均视觉特征进行空域对比，根据投影矩阵的加权相似度获得空域视觉对比特征。然后通过第一增强单元利用空域视觉对比特征增强空域视觉特征，得到增强后空域视觉特征。通过第二对比单元将空域视觉特征和空域平均视觉特征进行频域对比，根据投影矩阵的加权相似度获得频域视觉对比特征。然后通过第二增强单元利用频域视觉对比特征增强频域视觉特征，得到增强后频域视觉特征。通过融合单元，将空域和频域增强后的特征进行融合，得到空频域结合特征V。将空频域结合特征V输入至预测网络，预测出该医学影像中可能存在的医学概念，构成预测医学概念。将预测医学概念和空频域结合特征V输入至报告预测网络的医学概念引导单元，以将预测医学概念定位至空频域结合特征V上，得到以医学概念引导的综合空频域结合特征。将综合空频域结合特征输入至报告预测网络的报告生成单元，自动生成该影像的医学报告R。

请参见图3，该医学报告生成模型训练系统100包括：数据获取模块110、特征提取模块120、融合模块130、医学概念预测模块140、报告预测模块150和参数更新模块160。其中，上述数据获取模块110用于获取综合医学影像集和与之对应的医学报告集以及医学概念集。特征提取模块120用于将所述综合医学影像集输入至所述医学报告生成模型的特征提取网络，提取空域视觉特征集和频域视觉特征集。融合模块130用于将空域视觉特征集和预设的空域平均视觉特征、频域视觉特征集和预设的频域平均视觉特征输入至所述医学报告生成模型的增强融合网络，获得空频域结合特征集。医学概念预测模块140用于将空频域结合特征集输入至所述医学报告生成模型的概念预测网络，生成预测医学概念集。报告预测模块150用于将预测医学概念集和空频域结合特征集输入至所述医学报告生成模型的报告预测网络，生成预测医学报告集。参数更新模块160用于根据预测医学报告集和医学报告集的差异度、预测医学概念集和医学概念集的差异度，更新所述医学报告生成模型的参数，得到训练好的医学报告生成模型。

关于医学报告生成模型训练系统的具体限定可以参见上文中对于医学报告生成模型训练方法的限定，在此不再赘述。上述医学报告生成模型训练系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件格式内嵌于或独立于计算机设备中的处理器中，也可以以软件格式存储于计算机设备中的存储器中，以便于处理器调用以上各个模块对应的操作。

需要说明的是，为了突出本发明的创新部分，本实施例中并没有将与解决本发明所提出的技术问题关系不太密切的模块引入，但这并不表明本实施例中不存在其它的模块。

请参见图4，所述电子设备1可以包括存储器12、处理器13和总线，还可以包括存储在所述存储器12中并可在所述处理器13上运行的计算机程序，例如医学报告生成模型训练程序。

其中，存储器12至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器（例如：SD或DX存储器等）、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。存储器12在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡（Smart Media Card, SMC）、安全数字（Secure Digital, SD）卡、闪存卡（Flash Card）等。进一步地，存储器12还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器12不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如医学报告生成模型训练或医学报告的生成代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器13在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器（Central Processing unit，CPU）、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器13是所述电子设备1的控制核心（Control Unit），利用各种接口和线路连接整个电子设备1的各个部件，通过运行或执行存储在所述存储器12内的程序或者模块（例如医学报告生成模型训练或医学报告的生成程序等），以及调用存储在所述存储器12内的数据，以执行电子设备1的各种功能和处理数据。

所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述医学报告生成模型训练或医学报告的生成方法中的步骤。

示例性的，所述计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器12中，并由所述处理器13执行，以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述电子设备1中的执行过程。例如，所述计算机程序可以被分割成数据获取模块110、特征提取模块120、融合模块130、医学概念预测模块140、报告预测模块150和参数更新模块160。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中，所述计算机可读存储介质可以是非易失性，也可以是易失性。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、计算机设备，或者网络设备等）或处理器（processor）执行本申请各个实施例所述医学报告生成模型训练或医学报告的生成方法的部分功能。

综上所述，本发明公开的一种医学报告的生成方法、模型训练方法、系统、设备及介质，通过将空域和频域视觉特征进行整合，使得模型不仅能够捕获细微的视觉差异，还可以捕捉到影像之间复杂的关联，从而为医学影像的分析提供了更加全面和多维的信息。此外，通过增强融合网络，结合预设的平均视觉特征，能够使影像中的关键信息进一步强化，从而提升了生产的医学报告的质量。这种方法提升了医学报告生成的准确度和效率，极大减轻了医疗专业人员的负担。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种医学报告生成模型训练方法，其特征在于，所述方法包括：

获取综合医学影像集和与之对应的医学报告集以及医学概念集；

将所述综合医学影像集输入至医学报告生成模型的特征提取网络，提取空域视觉特征集和频域视觉特征集；

将空域视觉特征集和预设的空域平均视觉特征、频域视觉特征集和预设的频域平均视觉特征输入至所述医学报告生成模型的增强融合网络，获得空频域结合特征集；

将空频域结合特征集输入至所述医学报告生成模型的概念预测网络，生成预测医学概念集；

将预测医学概念集和空频域结合特征集输入至所述医学报告生成模型的报告预测网络，生成预测医学报告集；

根据预测医学报告集和医学报告集的差异度、预测医学概念集和医学概念集的差异度，更新所述医学报告生成模型的参数，得到训练好的医学报告生成模型；

所述增强融合网络包括第一对比单元、第二对比单元、第一增强单元、第二增强单元和融合单元，所述将空域视觉特征集和预设的空域平均视觉特征、频域视觉特征集和预设的频域平均视觉特征输入至所述医学报告生成模型的增强融合网络，获得空频域结合特征集，包括：

将空域视觉特征集和空域平均视觉特征输入至所述第一对比单元，基于投影矩阵的加权相似度，提取空域视觉特征集和空域平均视觉特征之间的空域视觉对比特征集；

2.根据权利要求1所述的医学报告生成模型训练方法，其特征在于，所述将空域视觉特征集和空域平均视觉特征输入至所述第一对比单元，基于投影矩阵的加权相似度，提取空域视觉特征集和空域平均视觉特征之间的空域视觉对比特征集，包括：

3.根据权利要求1所述的医学报告生成模型训练方法，其特征在于，所述报告预测网络包括医学概念引导单元和报告生成单元，所述将预测医学概念集和空频域结合特征集输入至所述医学报告生成模型的报告预测网络，生成预测医学报告集，包括：

4.根据权利要求1所述的医学报告生成模型训练方法，其特征在于，预测医学报告集和医学报告集的差异度是通过预测医学报告和医学报告的差异度获得，预测医学报告和医学报告的差异度；其中，为预设的所有被生成出来的字或词的总数量，为预设的医学报告的长度，为医学报告第i个位置上第j个字或词的置信度，为预测的医学报告第i个位置上第j个字或词的置信度。

5.根据权利要求1所述的医学报告生成模型训练方法，其特征在于，预测医学概念集和医学概念集的差异度是通过预测医学概念和医学概念的差异度获得，预测医学概念和医学概念的差异度；其中，为第个医学概念在医学影像上真实存在的状态，为医学影像中第个医学概念存在的预测值，为医学概念的总数。

6.一种医学报告的生成方法，其特征在于，所述方法包括：

获取待识别的医学影像；

将预设的空域平均视觉特征、频域平均视觉特征和所述医学影像输入至权利要求1-5任一项所述的医学报告生成模型训练方法得到的训练好的医学报告生成模型，生成医学报告。

7.一种医学报告生成模型训练系统，其特征在于，所述系统包括：

数据获取模块，用于获取综合医学影像集和与之对应的医学报告集以及医学概念集；

特征提取模块，用于将所述综合医学影像集输入至医学报告生成模型的特征提取网络，提取空域视觉特征集和频域视觉特征集；

融合模块，用于将空域视觉特征集和预设的空域平均视觉特征、频域视觉特征集和预设的频域平均视觉特征输入至所述医学报告生成模型的增强融合网络，获得空频域结合特征集；

医学概念预测模块，用于将空频域结合特征集输入至所述医学报告生成模型的概念预测网络，生成预测医学概念集；

报告预测模块，用于将预测医学概念集和空频域结合特征集输入至所述医学报告生成模型的报告预测网络，生成预测医学报告集；

参数更新模块，用于根据预测医学报告集和医学报告集的差异度、预测医学概念集和医学概念集的差异度，更新所述医学报告生成模型的参数，得到训练好的医学报告生成模型；

8.一种电子设备，其特征在于：所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1至5中任一项所述的医学报告生成模型训练方法或权利要求6所述的医学报告的生成方法。

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序被计算机的处理器执行时，使计算机执行权利要求1至5中任一项所述的医学报告生成模型训练方法或权利要求6所述的医学报告的生成方法。