CN113705733A

CN113705733A - 医疗票据图像处理方法及装置、电子设备、存储介质

Info

Publication number: CN113705733A
Application number: CN202111148275.6A
Authority: CN
Inventors: 杨紫崴
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2021-11-26

Abstract

本发明涉及涉及人工智能与智慧医疗领域，公开了一种医疗票据图像处理方法及装置、电子设备、存储介质，包括：获取目标医疗票据图片中文本的文本位置信息和文本内容信息；将所述目标医疗票据图片、所述文本内容信息和所述文本位置信息输入自注意力机制模型进行特征学习，得到所述目标医疗票据图片中的至少一结构化文本字段以及每个结构化文本字段对应的字段类型；其中，所述自注意力机制模型为利用包含多种版面的医疗票据图片样本集训练基于自注意力机制的机器翻译模型和文档理解预训练模型得到。通过本发明，解决了相关技术中因医疗票据因版面种类复杂导致现有的提取医疗票据中信息的方案存在效率低、准确率低等技术问题。

Description

医疗票据图像处理方法及装置、电子设备、存储介质

技术领域

本发明涉及人工智能与智慧医疗领域，具体而言，涉及一种医疗票据图像处理方法及装置、电子设备、存储介质。

背景技术

随着科技的发展与进步，人工智能技术的日趋完善，商保理赔以及医保报销中医疗发票的自动化识别成为业界主流方向，医疗票据的自动化识别有效地节省人力成本投入，提升服务效率。

目前的医疗发票识别系统中，基于深度学习实现的文本检测与文本识别之后，需要根据不同地区的不同版面进行数据结构化的定制化开发，不同版面都需要配备一套不同的数据后处理方法。由于目前定制化数据结构化的方式在数据数量、研发人力投入、标注人力投入、研发周期等多个方面都显示出极大的弊端。比如，在缺乏数据的情况下，难以实现匹配全国版面的系统的研发；为了覆盖各地区实时推出的各种版式的医疗票据，投入了大量研发人力，产生了较大的成本；另外，传统的医疗发票识别方案在遇到版面中文本位置不稳定或图片质量等问题时，数据结构化的准确率低。

针对相关技术中存在的上述问题，目前尚未发现有效的解决方案。

发明内容

本发明实施例提供了一种医疗票据图像处理方法及装置、电子设备、存储介质，以至少解决了相关技术中因医疗票据因版面种类复杂导致现有的提取医疗票据中信息的方案存在效率低、准确率低等技术问题。

根据本发明的一个实施例，提供了一种医疗票据图像处理方法，该方法包括：获取目标医疗票据图片中文本的文本位置信息和文本内容信息；将所述目标医疗票据图片、所述文本内容信息和所述文本位置信息输入自注意力机制模型进行特征学习，得到所述目标医疗票据图片中的至少一结构化文本字段以及每个结构化文本字段对应的字段类型；其中，所述自注意力机制模型为利用包含多种版面的医疗票据图片样本集训练基于自注意力机制的机器翻译模型和文档理解预训练模型得到。

可选的，所述获取目标医疗票据图片中文本的文本位置信息和文本内容信息包括：将所述目标医疗票据图片输入预先训练的文本检测模型进行文本框检测，确定所述目标医疗票据图片中包含文本的至少一文本框，并在所述目标医疗票据图片中标记所述文本框；将标记后的目标医疗票据图片输入预先训练的文本识别模型进行文本识别，得到所述文本框对应的文本位置信息和文本内容信息。

可选的，所述文本识别模型包括卷积神经网络、长短期记忆模型和基于神经网络的时序类分类模型；所述将标记后的目标医疗票据图片输入预先训练的文本识别模型进行特征学习，得到所述文本框对应的文本位置信息和文本内容信息包括：将所述标记后的目标医疗票据图片输入所述卷积神经网络进行特征提取，得到所述标记后的目标医疗票据图片对应的图像卷积特征；将所述图像卷积特征输入所述长短期记忆模型进行特征提取，得到所述图像卷积特征对应的序列特征；将所述序列特征输入所述基于神经网络的时序类分类模型进行文本对齐，得到所述文本框中的文本内容信息以及每个文本内容对应的文本位置信息。

可选的，在将所述目标医疗票据图片、所述文本内容信息和所述文本位置信息输入自注意力机制模型进行特征学习，得到所述目标医疗票据图片中的至少一结构化文本字段以及每个结构化文本字段对应的字段类型之前，所述方法还包括：采集所述包含多种版面的医疗票据图片样本集；将所述医疗票据图片样本集依次输入到预先训练的文本检测模型和预先训练的文本识别模型，提取所述医疗票据图片样本集中每个医疗票据图片中文本的文本位置信息和文本内容信息；将所述医疗票据图片样本集以及每个医疗票据图片中文本的文本位置信息和文本内容信息输入基于自注意力机制的预训练模型进行训练，得到所述自注意力机制模型；其中，所述基于自注意力机制的预训练模型由预设的机器翻译模型和预设的文档理解预训练模型顺次相连得到。

可选的，所述将所述目标医疗票据图片、所述文本内容信息和所述文本位置信息输入自注意力机制模型进行特征学习，得到所述目标医疗票据图片中的至少一结构化文本字段以及每个结构化文本字段对应的字段类型包括：将所述目标医疗票据图片、所述文本内容信息和所述文本位置信息输入所述自注意力机制模型；利用所述基于自注意力机制的机器翻译模型对所述目标医疗票据图片、所述文本内容信息以及所述文本位置信息进行特征提取，生成所述目标医疗票据图片对应的特征组合向量；利用所述文档理解预训练模型对所述特征组合向量进行预训练任务，得到所述目标医疗票据图片中的至少一结构化文本字段以及每个结构化文本字段对应的字段类型。

可选的，所述利用所述基于自注意力机制的机器翻译模型对所述目标医疗票据图片、所述文本内容信息以及所述文本位置信息进行特征提取，生成所述目标医疗票据图片对应的特征组合向量包括：利用全局平均池化原理和线性投影原理提取所述目标医疗票据图片对应的图特征向量；利用文本拆分原理提取所述文本内容信息对应的文本内容特征向量；以及，通过构建所述文本位置信息对应的文本框的坐标系提取所述文本位置信息对应的文本位置特征向量以及不同文本之间的相对位置特征向量；将所述图特征向量、所述文本内容特征向量、所述文本位置特征向量以及所述相对位置特征向量进行特征组合，得到所述特征组合向量。

可选的，所述利用所述文档理解预训练模型对所述特征组合向量进行预训练任务，得到所述目标医疗票据图片中的至少一结构化文本字段以及每个结构化文本字段对应的字段类型包括：将所述特征组合向量输入所述文档理解预训练模型；通过判断所述文本内容信息与所述目标医疗票据图片是否匹配，得到所述文本内容信息与所述目标医疗票据图片的匹配信息；和/或，通过判断所述文本内容信息是否被涂黑，得到文本涂黑判断信息；和/或，通过判断所述文本内容信息是否被遮挡，得到文本遮挡判断信息；将所述匹配信息、所述文本涂黑判断信息及所述文本遮挡判断信息中至少之一的信息与所述特征组合向量进行特征融合，得到特征融合向量；通过对所述目标医疗票据图片的上下文和所述特征融合向量进行学习，得到所述至少一结构化文本字段和所述至少一结构化文本字段的字段类型之间的模态对齐关系；输出所述至少一结构化文本字段以及每个结构化文本字段对应的字段类型。

根据本发明的一个实施例，提供了一种医疗票据图像处理装置，包括：获取模块，用于获取目标医疗票据图片中文本的文本位置信息和文本内容信息；学习模块，用于将所述目标医疗票据图片、所述文本内容信息和所述文本位置信息输入自注意力机制模型进行特征学习，得到所述目标医疗票据图片中的至少一结构化文本字段以及每个结构化文本字段对应的字段类型；其中，所述自注意力机制模型为利用包含多种版面的医疗票据图片样本集训练基于自注意力机制的机器翻译模型和文档理解预训练模型得到。

可选的，所述获取模块包括：确定单元，用于将所述目标医疗票据图片输入预先训练的文本检测模型进行文本框检测，确定所述目标医疗票据图片中包含文本的至少一文本框，并在所述目标医疗票据图片中标记所述文本框；第一学习单元，用于将标记后的目标医疗票据图片输入预先训练的文本识别模型进行文本识别，得到所述文本框对应的文本位置信息和文本内容信息。

可选的，所述文本识别模型包括卷积神经网络、长短期记忆模型和基于神经网络的时序类分类模型；所述第一学习单元包括：第一提取子单元，用于将所述标记后的目标医疗票据图片输入所述卷积神经网络进行特征提取，得到所述标记后的目标医疗票据图片对应的图像卷积特征；第二提取子单元，用于将所述图像卷积特征输入所述长短期记忆模型进行特征提取，得到所述图像卷积特征对应的序列特征；处理子单元，用于将所述序列特征输入所述基于神经网络的时序类分类模型进行文本对齐，得到所述文本框中的文本内容信息以及每个文本内容对应的文本位置信息。

可选的，所述装置还包括：采集模块，用于在所述学习模块将所述目标医疗票据图片、所述文本内容信息和所述文本位置信息输入自注意力机制模型进行特征学习，得到所述目标医疗票据图片中的至少一结构化文本字段以及每个结构化文本字段对应的字段类型之前，采集所述包含多种版面的医疗票据图片样本集；提取模块，用于将所述医疗票据图片样本集依次输入到预先训练的文本检测模型和预先训练的文本识别模型，提取所述医疗票据图片样本集中每个医疗票据图片中文本的文本位置信息和文本内容信息；训练模块，用于将所述医疗票据图片样本集以及每个医疗票据图片中文本的文本位置信息和文本内容信息输入基于自注意力机制的预训练模型进行训练，得到所述自注意力机制模型；其中，所述基于自注意力机制的预训练模型由预设的机器翻译模型和预设的文档理解预训练模型顺次相连得到。

可选的，所述学习模块包括：输入单元，用于将所述目标医疗票据图片、所述文本内容信息和所述文本位置信息输入所述自注意力机制模型；生成单元，用于利用所述基于自注意力机制的机器翻译模型对所述目标医疗票据图片、所述文本内容信息以及所述文本位置信息进行特征提取，生成所述目标医疗票据图片对应的特征组合向量；执行单元，用于利用所述文档理解预训练模型对所述特征组合向量进行预训练任务，得到所述目标医疗票据图片中的至少一结构化文本字段以及每个结构化文本字段对应的字段类型。

可选的，所述生成单元包括：第三提取子单元，用于利用全局平均池化原理和线性投影原理提取所述目标医疗票据图片对应的图特征向量；利用文本拆分原理提取所述文本内容信息对应的文本内容特征向量；以及，通过构建所述文本位置信息对应的文本框的坐标系提取所述文本位置信息对应的文本位置特征向量以及不同文本之间的相对位置特征向量；特征组合子单元，用于将所述图特征向量、所述文本内容特征向量、所述文本位置特征向量以及所述相对位置特征向量进行特征组合，得到所述特征组合向量。

可选的，所述执行单元包括：输入子单元，用于将所述特征组合向量输入所述文档理解预训练模型；判断子单元，用于通过判断所述文本内容信息与所述目标医疗票据图片是否匹配，得到所述文本内容信息与所述目标医疗票据图片的匹配信息；和/或，通过判断所述文本内容信息是否被涂黑，得到文本涂黑判断信息；和/或，通过判断所述文本内容信息是否被遮挡，得到文本遮挡判断信息；特征融合子单元，用于将所述匹配信息、所述文本涂黑判断信息及所述文本遮挡判断信息中至少之一的信息与所述特征组合向量进行特征融合，得到特征融合向量；学习子单元，用于通过对所述目标医疗票据图片的上下文和所述特征融合向量进行学习，得到所述至少一结构化文本字段和所述至少一结构化文本字段的字段类型之间的模态对齐关系；输出子单元，用于输出所述至少一结构化文本字段以及每个结构化文本字段对应的字段类型。

根据本发明的又一个实施例，还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项装置实施例中的步骤。

通过本发明，利用多种版面的医疗票据对基于自注意力机制的机器翻译模型和文档理解预训练模型进行训练，生成自注意力机制模型；将待识别的医疗票据图片以及图片中的文本内容信息和文本位置信息输入自注意力机制模型进行特征学习，得到至少一结构化文本字段以及每个结构化文本字段对应的字段类型，能够精确地将各种版面的非结构化医疗票据图片转换为结构化的文本字段，无须考虑对不同版面的医疗票据进行数据结构化的定制化开发；另外，自注意力机制由于高度可并行化的计算能力，能够减少模型的训练时间，大大提高了数据结构化的处理效率，解决了现有技术相关技术中因医疗票据因版面种类复杂导致现有的提取医疗票据中信息的方案存在效率低、准确率低等技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例提供的一种医疗票据图像处理方法应用于计算机终端的硬件结构框图；

图2是根据本发明实施例提供的一种医疗票据图像处理方法的流程图；

图3是根据本发明实施例提供的一种医疗票据图像处理装置的结构框图；

图4是根据本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例所提供的方法实施例可以在移动终端、服务器、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本发明实施例提供的一种医疗票据图像处理方法应用于计算机终端的硬件结构框图。如图1所示，计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的医疗票据图像处理方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器，也可以包括易失性存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

图2是根据本发明实施例提供的一种医疗票据图像处理方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取目标医疗票据图片中文本的文本位置信息和文本内容信息；

其中，医疗票据指的是非营利性医疗卫生机构为门诊、急诊、急救、住院、体检等患者提供医疗服务并取得医疗收入时开具的收款凭证，也称为“医疗收费票据”。不同地区的医疗票据的版面类型不同，医疗票据主要包括门诊收费票据和住院收费票据；例如，住院收费票据基本内容包括票据名称、票据编码、业务流水号、医院类型、开票时间、姓名、性别、医保类型、医保付费方式、社会保障号码、项目、金额、合计、预缴金额、补缴金额、退费金额、医保统筹支付、个人账户支付、其他医保支付、自费、收款单位、收款人等信息。

在本案的一个可选方案中，将目标医疗票据图片输入预先训练的文本检测模型进行文本框检测，确定目标医疗票据图片中包含文本的至少一文本框，并在目标医疗票据图片中标记文本框；再将标记后的目标医疗票据图片输入预先训练的文本识别模型进行文本识别，得到文本框对应的文本位置信息和文本内容信息。

优选地，上述文本检测模型使用DBnet算法(全称为DifferentiableBinarization(DB)，可微分二值化算法)。具体地，利用DBnet算法对目标医疗票据图片进行文本检测包括：将目标医疗票据图片输入特征金字塔backbone进行特征提取；金字塔特征上采样到同一尺寸F，基于特征图F预测概率图P和阈值图T，利用特征图F和阈值图T计算近似二值图；在训练阶段，对概率图、阈值图和近似二值图进行监督，其中，概率图和近似二值图公用一个监督；在推理过程中，通过box(盒)公式化模块，从近似二值图或概率图中得到文本包围框，从而准确地定位出医疗票据中包含文本的文本框。

优选地，上述文本识别模型包括卷积神经网络、长短期记忆模型和基于神经网络的时序类分类模型。具体地，将标记后的目标医疗票据图片输入卷积神经网络进行特征提取，得到标记后的目标医疗票据图片对应的图像卷积特征；将图像卷积特征输入长短期记忆模型进行特征提取，得到图像卷积特征对应的序列特征；将序列特征输入基于神经网络的时序类分类模型进行文本对齐，得到文本框中的文本内容信息以及每个文本内容对应的文本位置信息。

在上述实施例的一个可选示例中，上述文本识别模型使用CRNN+CTC算法，即CNN(全称为Convolutional Neural Networks，即卷积神经网络)+RNN(全称为recurrentneural network，即循环神经网络)+CTC(全称为Connectionist temporalclassification，即基于神经网络的时序类分类模型)。

首先，确定输入的标记有文本框的医疗票据图片大小(比如32,100,3)，(height，width，channel)形式，即(高，宽，通道)；

接着，利用过卷积层(convlutional layers)提取输入图片的convlutionalfeature maps(卷积特征映射)，将图片大小(32,100,3)转换为(1,25,512)大小的卷积特征矩阵；进一步地，让图像在固定长宽比的情况下缩放到[32*W*3]大小([W]代表任意宽度)；然后经过CNN后变为[1*(W/4)*512]；针对LSTM设置[T＝(W/4)]，即可将特征输入LSTM；

进一步地，利用Recurrent layers(循环网络层)在卷积特征基础上提取文字序列特征；其中，Recurrent layers是一个深层双向LSTM网络。

然后，利用Transcription layers(转录层)将文字序列特征输出。

另外，本发明实施例引入CTC代替常见的Softmax Loss，训练样本无需对齐；通过引入空白blank字符，即可解决有些位置没有字符的问题。

根据上述示例，基于上述CNN+RNN+CTC算法输出文本框中的文本内容信息和文本位置信息。

在本发明的另一个可选的实施例中，可以基于人工智能技术对上述文本内容和文本位置的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

步骤S204，将目标医疗票据图片、文本内容信息和文本位置信息输入自注意力机制模型进行特征学习，得到目标医疗票据图片中的至少一结构化文本字段以及每个结构化文本字段对应的字段类型；

其中，自注意力机制模型为利用包含多种版面的医疗票据图片样本集训练基于自注意力机制的机器翻译模型和文档理解预训练模型得到。

在本实施例中，文档理解预训练模型优选LayoutLM2模型，LayoutLM2为新一代多模态文档理解预训练模型，通过在输入阶段直接引入图像信息，利用多模态预训练框架对文本、图片和文本位置进行进行联合学习，可以学习到不同文档模板类型的局部不变性信息，当模型需要迁移到另一种模板类型时，通过标注少量的样本就可以对模板中的文本进行数据结构化，从而提取出医疗票据中的结构化文本字段以及结构化文本字段的字段类型。

在本案的一个可选实施例中，在得到目标医疗票据图片中的至少一结构化文本字段以及每个结构化文本字段对应的字段类型之前，采集包含多种版面的医疗票据图片样本集；将医疗票据图片样本集依次输入到预先训练的文本检测模型和预先训练的文本识别模型，提取医疗票据图片样本集中每个医疗票据图片中文本的文本位置信息和文本内容信息；将医疗票据图片样本集以及每个医疗票据图片中文本的文本位置信息和文本内容信息输入基于自注意力机制的预训练模型进行训练，得到自注意力机制模型；其中，基于自注意力机制的预训练模型由预设的机器翻译模型和预设的文档理解预训练模型顺次相连得到。

通过本发明实施例，利用多种版面的医疗票据对基于自注意力机制的机器翻译模型和文档理解预训练模型进行训练，生成自注意力机制模型；将待识别的医疗票据图片以及图片中的文本内容信息和文本位置信息输入自注意力机制模型进行特征学习，得到至少一结构化文本字段以及每个结构化文本字段对应的字段类型，能够精确地将各种版面的非结构化医疗票据图片转换为结构化的文本字段，无须考虑对不同版面的医疗票据进行数据结构化的定制化开发；另外，自注意力机制由于高度可并行化的计算能力，能够减少模型的训练时间，大大提高了数据结构化的处理效率，解决了现有技术相关技术中因医疗票据因版面种类复杂导致现有的提取医疗票据中信息的方案存在效率低、准确率低等技术问题。

在本案的一个可选的实施例中，上述步骤S204具体包括：将目标医疗票据图片、文本内容信息和文本位置信息输入自注意力机制模型；利用基于自注意力机制的机器翻译模型对目标医疗票据图片、文本内容信息以及文本位置信息进行特征提取，生成目标医疗票据图片对应的特征融合向量；利用文档理解预训练模型对特征组合向量进行预训练任务，得到目标医疗票据图片中的至少一结构化文本字段以及每个结构化文本字段对应的字段类型。

在本实施例中，是将文本内容信息、文本位置信息和目标医疗票据图片输入自注意力机制模型进行特征提取，自注意力机制模型可选用基于自注意力机制的机器翻译模型和文档理解预训练模型训练得到。在本实施例中，机器翻译模型transformer模型基于自注意力机制构建，将序列中的任意两个位置之间的距离缩小为一个常量；将transformer模型应用于医疗票据图片自动识别的后处理过程中，并经过训练得到了数据结构化模型(即上述自注意力机制模型)，从而通过数据结构化模型对文本检测和文本识别出的结果进行结构化处理，最终得到结构化医疗票据数据；利用文档理解预训练模型学习不同版面票据中的局部不变性信息，输出标记有字段类型的结构化文本字段，从而将票据图片中的非结构化信息转换为结构化信息。

进一步地，在本发明实施例的一个可选的方案中，利用全局平均池化原理和线性投影原理提取目标医疗票据图片对应的图特征向量；利用文本拆分原理提取文本内容信息对应的文本内容特征向量；以及，通过构建文本位置信息对应的文本框的坐标系提取文本位置信息对应的文本位置特征向量以及不同文本之间的相对位置特征向量；将图特征向量、文本内容特征向量、文本位置特征向量以及相对位置特征向量进行特征组合，得到特征组合向量。

在本实施例中，利用transformer模型对文本内容信息、文本位置信息(布局)、医疗票据图片进行特征提取，转换成对应的文本内容特征向量、文本位置特征向量、图特征向量以及相对位置特征向量(即图片中不同文本块之间的相对位置关系)，并将各个特征向量提交给transformer模型中的编码器网络，以对文本内容特征向量、文本位置特征向量、图特征向量以及相对位置特征向量进行特征向量的拼接，即将图片和文本序列进行拼接，从而得到特征组合向量。

在本案的一种可能的实现方式中，上述文本内容特征向量的提取包括：使用文本切分Wordpiece对文本内容进行切分；使用[CLS]和[SEP]添加标记，并用[PAD]补齐长度得到文本输入序列；基于文本输入序列，将词向量、一维位置向量、分段向量进行组合，得到文本内容特征向量。

在本案的一种可能的实现方式中，上述图特征向量的提取包括：抽取目标医疗票据图片的特征图；对特征图进行平均池化为固定尺寸(W*H)；按行展开平均池化后的特征图；经过线性投影，得到图片对应的图特征序列；将图特征序列、一维位置向量、分段向量相加得到最终的图特征向量。

在本案的一种可能的实现方式中，上述文本位置特征向量的提取包括：构建平行于文本位置信息对应的文本框的坐标系；利用文本框的4个边界坐标值、宽、高来表示文本框的位置以及不同文本块之间的相对位置，最终输出文本的布局信息，即文本位置特征向量和相对位置特征向量。

进一步地，将上述特征组合向量输入编码器网络，编码器网络用于：(1)对图片或文本内容进行编码；(2)对2D二维位置信息进行编码；(3)对1D一维位置信息进行编码；(4)对图片分类进行编码，用于确认该信息段的分类，比如图信息为C，文本内容为A。

在本案的一个可选的实施例中，上述利用文档理解预训练模型对特征组合向量进行预训练任务，得到目标医疗票据图片中的至少一结构化文本字段以及每个结构化文本字段对应的字段类型，具体包括：将特征组合向量输入文档理解预训练模型；通过判断文本内容信息与目标医疗票据图片是否匹配，得到文本内容信息与目标医疗票据图片的匹配信息；和/或，通过判断文本内容信息是否被涂黑，得到文本涂黑判断信息；和/或，通过判断文本内容信息是否被遮挡，得到文本遮挡判断信息；将匹配信息、文本涂黑判断信息及文本遮挡判断信息中至少之一的信息与特征组合向量进行特征融合，得到特征融合向量；通过对目标医疗票据图片的上下文和特征融合向量进行学习，得到至少一结构化文本字段和至少一结构化文本字段的字段类型之间的模态对齐关系；输出至少一结构化文本字段以及每个结构化文本字段对应的字段类型。

在本实施例中，在将图特征向量、文本内容特征向量、文本位置特征向量以及相对位置特征向量进行拼接，得到特征组合向量之后，利用文档理解预训练模型对组合向量进行预训练任务，具体包括：图像与文本信息是否匹配、文本内容是否被涂黑以及该文本内容是否被遮挡，得到融合图像素信息、文本位置、内容信息、文本间相关特征；并将文本信息与图信息的匹配信息、文本涂黑判断信息和遮挡文本预测信息中的至少之一与融合特征向量进行特征融合，得到各样本的特征融合向量；然后基于自监督学习方法利用前面的词序预测下个词的出现概率，来学习上下文相关表示，，并对于遮挡的句子或某个词、被打乱后的词序等，能够重建原始数据，提高文本识别准确率。

例如，在文本-图片对齐的一个示例中，在图像上随机按行遮盖一部分文本，利用模型的文本部分输出，进行词级别二分类，预测每个词是否被覆盖，以对齐文本和图片的位置信息。比如Text1(文本1)这个字段的内容T1，及位置boxT1(盒子)，输出则应该为True(正确)，如果输入为T1,boxT3，输出则应该为False(错误)。

在文本-图像匹配的一个示例中，利用模型的文档级二分类的方式，预测图文是否匹配，以对齐文本和图像的内容信息。

在另一个示例中，为了判断图像素信息和文本内容信息正确，则通过慢慢训练出图像素信息和内容相匹配的特征；图像素信息和匹配的文本信息，transformer之后的权重会就大，反之则小。

进一步地，将特征融合向量输入LayoutLM2，LayoutLM2模型根据票据图片的上下文、特征融合向量及推断被遮挡的词汇，学习文本位置和文本语义(即字段类型)的模态对齐关系，进而得到文本字段与字段类型的模态对齐关系，得到具有字段类型的结构化文本字段(即结构化信息)，比如“2021年4月19日”标注为就诊日期，“0013853632”标注为发票号码等，通过对文本字段的预训练任务可以最终得到每个文本段的分类(即最终的结构化数据)。

本方案还可实现根据预先定义的关键信息实体(比如名称、价格、数量等)从医疗票据图片中抽取名称、价格、数量等结构化文本字段。

现有的医疗发票识别方案需要对每种版面的发票重新设计后处理，即每套发票都需要配备一套后处理算法，这种方法的弊端是必须得清楚该医疗发票版面信息才能进行后续的开发，然后由于存在拿不到某个地区的医疗发票版本等情况，即拿不到训练样本，而在没有训练样本的情况下开发较为困难；通过本方案，使用LayoutLM2模型将传统的后处理部分模型化了，不再区分版面，不需要针对不同版面匹配一套后处理了，一个模型适配所有地区版面，解决掉全国各地版面医疗发票识别问题，节省研发人力了，提升开发时效。

基于上述实施例，本案提出的一种基于自注意力机制的医疗发票识别的方法，用模型化的方法替代了传统的后处理开发部分，用统一的模型适配全国各个版面的医疗发票；更新迭代快，各地区会推广医疗票据新的版本，能够快速适配新的版面，无需另外的研发投入，极大的节省了研发人力，提升了开发时效。

本方案将自然语言处理中transformer算法应用到视觉算法领域，解决OCR后处理文本分类的问题，减少传统后处理方法中因文本位置变更以及图片质量导致的错误，提高数据结构化的准确性。

基于上文各个实施例提供的医疗票据图像处理方法，基于同一发明构思，在本实施例中还提供了一种医疗票据图像处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例提供的一种医疗票据图像处理装置的结构框图，如图3所示，该装置包括：获取模块30，用于获取目标医疗票据图片中文本的文本位置信息和文本内容信息；学习模块，用于将目标医疗票据图片、文本内容信息和文本位置信息输入自注意力机制模型进行特征学习，得到目标医疗票据图片中的至少一结构化文本字段以及每个结构化文本字段对应的字段类型；其中，自注意力机制模型为利用包含多种版面的医疗票据图片样本集训练基于自注意力机制的机器翻译模型和文档理解预训练模型得到。

可选的，获取模块30包括：确定单元，用于将目标医疗票据图片输入预先训练的文本检测模型进行文本框检测，确定目标医疗票据图片中包含文本的至少一文本框，并在目标医疗票据图片中标记文本框；第一学习单元，用于将标记后的目标医疗票据图片输入预先训练的文本识别模型进行文本识别，得到文本框对应的文本位置信息和文本内容信息。

可选的，文本识别模型包括卷积神经网络、长短期记忆模型和基于神经网络的时序类分类模型；第一学习单元包括：第一提取子单元，用于将标记后的目标医疗票据图片输入卷积神经网络进行特征提取，得到标记后的目标医疗票据图片对应的图像卷积特征；第二提取子单元，用于将图像卷积特征输入长短期记忆模型进行特征提取，得到图像卷积特征对应的序列特征；处理子单元，用于将序列特征输入基于神经网络的时序类分类模型进行文本对齐，得到文本框中的文本内容信息以及每个文本内容对应的文本位置信息。

可选的，上述装置还包括：采集模块，用于在学习模块将目标医疗票据图片、文本内容信息和文本位置信息输入自注意力机制模型进行特征学习，得到至少一具有分类标识的文本字段之前，采集包含多种版面的医疗票据图片样本集；提取模块，用于将医疗票据图片样本集依次输入到预先训练的文本检测模型和预先训练的文本识别模型，提取医疗票据图片样本集中每个医疗票据图片中文本的文本位置信息和文本内容信息；训练模块，用于将医疗票据图片样本集以及每个医疗票据图片中文本的文本位置信息和文本内容信息输入基于自注意力机制的预训练模型进行训练，得到自注意力机制模型；其中，基于自注意力机制的预训练模型由预设的机器翻译模型和预设的文档理解预训练模型顺次相连得到。

可选的，学习模块32包括：输入单元，用于将目标医疗票据图片、文本内容信息和文本位置信息输入自注意力机制模型；生成单元，用于利用基于自注意力机制的机器翻译模型对目标医疗票据图片、文本内容信息以及文本位置信息进行特征提取，生成目标医疗票据图片对应的特征组合向量；执行单元，用于利用文档理解预训练模型对特征组合向量进行预训练任务，得到目标医疗票据图片中的至少一结构化文本字段以及每个结构化文本字段对应的字段类型。

可选的，生成单元包括：第三提取子单元，用于利用全局平均池化原理和线性投影原理提取目标医疗票据图片对应的图特征向量；利用文本拆分原理提取文本内容信息对应的文本内容特征向量；以及，通过构建文本位置信息对应的文本框的坐标系提取文本位置信息对应的文本位置特征向量以及不同文本之间的相对位置特征向量；特征组合子单元，用于将图特征向量、文本内容特征向量、文本位置特征向量以及相对位置特征向量进行特征组合，得到特征组合向量。

可选的，执行单元包括：输入子单元，用于将特征组合向量输入文档理解预训练模型；判断子单元，用于通过判断文本内容信息与目标医疗票据图片是否匹配，得到文本内容信息与目标医疗票据图片的匹配信息；和/或，通过判断文本内容信息是否被涂黑，得到文本涂黑判断信息；和/或，通过判断文本内容信息是否被遮挡，得到文本遮挡判断信息；特征融合子单元，用于将匹配信息、文本涂黑判断信息及文本遮挡判断信息中至少之一的信息与特征组合向量进行特征融合，得到特征融合向量；学习子单元，用于通过对目标医疗票据图片的上下文和特征融合向量进行学习，得到至少一结构化文本字段和至少一结构化文本字段的字段类型之间的模态对齐关系；输出子单元，用于输出至少一结构化文本字段以及每个结构化文本字段对应的字段类型。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取目标医疗票据图片中文本的文本位置信息和文本内容信息；

S2，将所述目标医疗票据图片、所述文本内容信息和所述文本位置信息输入自注意力机制模型进行特征学习，得到所述目标医疗票据图片中的至少一结构化文本字段以及每个结构化文本字段对应的字段类型；其中，所述自注意力机制模型为利用包含多种版面的医疗票据图片样本集训练基于自注意力机制的机器翻译模型和文档理解预训练模型得到。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

基于上述图2所示方法和图3所示装置的实施例，为了实现上述目的，本申请实施例还提供了一种电子设备，如图4所示，包括存储器42和处理器41，其中存储器42和处理器41均设置在总线43上存储器42存储有计算机程序，处理器41执行计算机程序时实现图2所示的医疗票据图像处理方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个存储器(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

可选地，该设备还可以连接用户接口、网络接口、摄像头、射频(Radio Frequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的一种电子设备的结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种医疗票据图像处理方法，其特征在于，包括：

获取目标医疗票据图片中文本的文本位置信息和文本内容信息；

将所述目标医疗票据图片、所述文本内容信息和所述文本位置信息输入自注意力机制模型进行特征学习，得到所述目标医疗票据图片中的至少一结构化文本字段以及每个结构化文本字段对应的字段类型；

其中，所述自注意力机制模型为利用包含多种版面的医疗票据图片样本集训练基于自注意力机制的机器翻译模型和文档理解预训练模型得到。

2.根据权利要求1所述的方法，其特征在于，所述获取目标医疗票据图片中文本的文本位置信息和文本内容信息包括：

将所述目标医疗票据图片输入预先训练的文本检测模型进行文本框检测，确定所述目标医疗票据图片中包含文本的至少一文本框，并在所述目标医疗票据图片中标记所述文本框；

将标记后的目标医疗票据图片输入预先训练的文本识别模型进行文本识别，得到所述文本框对应的文本位置信息和文本内容信息。

3.根据权利要求2所述的方法，其特征在于，所述文本识别模型包括卷积神经网络、长短期记忆模型和基于神经网络的时序类分类模型；所述将标记后的目标医疗票据图片输入预先训练的文本识别模型进行特征学习，得到所述文本框对应的文本位置信息和文本内容信息包括：

将所述标记后的目标医疗票据图片输入所述卷积神经网络进行特征提取，得到所述标记后的目标医疗票据图片对应的图像卷积特征；

将所述图像卷积特征输入所述长短期记忆模型进行特征提取，得到所述图像卷积特征对应的序列特征；

将所述序列特征输入所述基于神经网络的时序类分类模型进行文本对齐，得到所述文本框中的文本内容信息以及每个文本内容对应的文本位置信息。

4.根据权利要求1所述的方法，其特征在于，在将所述目标医疗票据图片、所述文本内容信息和所述文本位置信息输入自注意力机制模型进行特征学习，得到所述目标医疗票据图片中的至少一结构化文本字段以及每个结构化文本字段对应的字段类型之前，所述方法还包括：

采集所述包含多种版面的医疗票据图片样本集；

将所述医疗票据图片样本集依次输入到预先训练的文本检测模型和预先训练的文本识别模型，提取所述医疗票据图片样本集中每个医疗票据图片中文本的文本位置信息和文本内容信息；

将所述医疗票据图片样本集以及每个医疗票据图片中文本的文本位置信息和文本内容信息输入基于自注意力机制的预训练模型进行训练，得到所述自注意力机制模型；其中，所述基于自注意力机制的预训练模型由预设的机器翻译模型和预设的文档理解预训练模型顺次相连得到。

5.根据权利要求1所述的方法，其特征在于，所述将所述目标医疗票据图片、所述文本内容信息和所述文本位置信息输入自注意力机制模型进行特征学习，得到所述目标医疗票据图片中的至少一结构化文本字段以及每个结构化文本字段对应的字段类型包括：

将所述目标医疗票据图片、所述文本内容信息和所述文本位置信息输入所述自注意力机制模型；

利用所述基于自注意力机制的机器翻译模型对所述目标医疗票据图片、所述文本内容信息以及所述文本位置信息进行特征提取，生成所述目标医疗票据图片对应的特征组合向量；

利用所述文档理解预训练模型对所述特征组合向量进行预训练任务，得到所述目标医疗票据图片中的至少一结构化文本字段以及每个结构化文本字段对应的字段类型。

6.根据权利要求5所述的方法，其特征在于，所述利用所述基于自注意力机制的机器翻译模型对所述目标医疗票据图片、所述文本内容信息以及所述文本位置信息进行特征提取，生成所述目标医疗票据图片对应的特征组合向量包括：

利用全局平均池化原理和线性投影原理提取所述目标医疗票据图片对应的图特征向量；利用文本拆分原理提取所述文本内容信息对应的文本内容特征向量；以及，通过构建所述文本位置信息对应的文本框的坐标系提取所述文本位置信息对应的文本位置特征向量以及不同文本之间的相对位置特征向量；

将所述图特征向量、所述文本内容特征向量、所述文本位置特征向量以及所述相对位置特征向量进行特征组合，得到所述特征组合向量。

7.根据权利要求5所述的方法，其特征在于，所述利用所述文档理解预训练模型对所述特征组合向量进行预训练任务，得到所述目标医疗票据图片中的至少一结构化文本字段以及每个结构化文本字段对应的字段类型包括：

将所述特征组合向量输入所述文档理解预训练模型；

通过判断所述文本内容信息与所述目标医疗票据图片是否匹配，得到所述文本内容信息与所述目标医疗票据图片的匹配信息；和/或，通过判断所述文本内容信息是否被涂黑，得到文本涂黑判断信息；和/或，通过判断所述文本内容信息是否被遮挡，得到文本遮挡判断信息；

将所述匹配信息、所述文本涂黑判断信息及所述文本遮挡判断信息中至少之一的信息与所述特征组合向量进行特征融合，得到特征融合向量；

通过对所述目标医疗票据图片的上下文和所述特征融合向量进行学习，得到所述至少一结构化文本字段和所述至少一结构化文本字段的字段类型之间的模态对齐关系；

输出所述至少一结构化文本字段以及每个结构化文本字段对应的字段类型。

8.一种医疗票据图像处理装置，其特征在于，包括：

获取模块，用于获取目标医疗票据图片中文本的文本位置信息和文本内容信息；

学习模块，用于将所述目标医疗票据图片、所述文本内容信息和所述文本位置信息输入自注意力机制模型进行特征学习，得到所述目标医疗票据图片中的至少一结构化文本字段以及每个结构化文本字段对应的字段类型；

9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。