CN112800848A

CN112800848A - 票据识别后信息结构化提取方法、装置和设备

Info

Publication number: CN112800848A
Application number: CN202011628351.9A
Authority: CN
Inventors: 刘渊; 张科; 梁扩战
Original assignee: Zhongdian Jinxin Software Co Ltd
Current assignee: Zhongdian Jinxin Software Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-14

Abstract

本申请提供一种票据识别后信息结构化提取方法、装置和设备，该方法包括：获取待识别的票据的影像信息；解析所述影像信息，从上向下，逐行识别所述票据中的至少一个文本信息，以及所述至少一个文本信息中的每一文本信息在所述票据上的位置信息；对所述文本信息进行分类，根据分类结果从预设模板库中选取语义匹配的目标数据模板；根据所述文本信息、所述位置信息和所述目标数据模板提取所述文本信息中的文本数据。本申请通过坐标、语义概念的双重匹配实现模板对齐，实现了在文字行数、字数等动态变化情况下的模板对齐，基于模板确定信息的成份，提升了复杂版面票据的信息结构化提取精度，最终提高了数据识别准确度。

Description

票据识别后信息结构化提取方法、装置和设备

技术领域

本申请涉及数据识别技术领域，具体而言，涉及一种票据识别后信息结构化提取方法、装置和设备。

背景技术

OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。OCR技术被广泛应用在手写识别、打印识别及文本图像识别等相关领域。小到文档识别、银行卡身份证识别，大到广告、海报，极大简化了处理数据的方式。

在票据识别领域，首先将票据图像输入OCR模型，输出的是非结构化数据。在票据识别后，会将非结构化数据转换为结构化数据，一般通过将票据与模板匹配，再根据模板中的数据提取规则从非结构化数据中抽取数据形成结构化数据。

但是，现有技术中通用的方法为光学锚点的对齐，如果文字行数，字数等动态变化，很难根据模板对齐哪个区域是什么内容，因此会导致在文字行数、字数等动态变化情况下的模板对齐鲁棒性较差。

发明内容

本申请实施例的目的在于提供一种票据识别后信息结构化提取方法、装置和设备，通过坐标、语义概念的双重匹配实现模板对齐，实现了在文字行数、字数等动态变化情况下的模板对齐，提高了数据识别准确度。

本申请实施例第一方面提供了一种票据识别方法，包括：获取待识别的票据的影像信息；解析所述影像信息，从上向下，逐行识别所述票据中的至少一个文本信息，以及所述至少一个文本信息中的每一文本信息在所述票据上的位置信息；对所述文本信息进行分类，根据分类结果从预设模板库中选取语义匹配的目标数据模板；根据所述文本信息、所述位置信息和所述目标数据模板提取所述文本信息中的文本数据。

于一实施例中，所述解析所述影像信息，从上向下，逐行识别所述票据中的至少一个文本信息，以及所述至少一个文本信息中的每一文本信息在所述票据上的位置信息，包括：识别所述影像信息，生成所述票据的文本库，所述文本库包括：所述票据的全部文本内容和每个字符在所述票据上的坐标信息；从所述文本库中，选取每个预设字段指向的目标文本内容作为所述预设字段的所述文本信息，所述位置信息为所述目标文本内容所在的目标坐标范围。

于一实施例中，所述对所述文本信息进行分类，根据分类结果从预设模板库中选取语义匹配的目标数据模板，包括：针对所述每个预设字段，识别所述目标文本内容的目标语义信息；基于所述目标语义信息，于所述模板库中，选取模板语义信息与所述目标语义信息的相似度最大的所述目标数据模板。

于一实施例中，所述目标数据模板中包括：多个标记了语义标签和位置标签的标注框；所述根据所述文本信息、所述位置信息和所述目标数据模板提取所述文本信息中的文本数据，包括：针对所述每个预设字段，分别计算所述位置信息与所述目标数据模板中每个标注框的位置标签的重叠率，将所述重叠率大于预设阈值的所述标注框作为候选标注框；于所述候选标注框中，分别计算同一预设字段下的所述文本信息与每个所述候选标注框内的语义标签之间的语义相似度，选取所述语义相似度最大的一个所述候选标注框作为所述预设字段的模板标注框；提取所述模板标注框所标注的文本信息的文本数据。

于一实施例中，所述提取所述模板标注框所标注的文本信息的文本数据，包括：针对每个所述预设字段，调用所述模板标注框对应的数据提取规则，基于所述数据提取规则从所述文本信息中提取出所述文本信息中的所述文本数据。

本申请实施例第二方面提供了一种票据识别装置，包括：获取模块，用于获取待识别的票据的影像信息；解析模块，用于解析所述影像信息，从上向下，逐行识别所述票据中的至少一个文本信息，以及所述至少一个文本信息中的每一文本信息在所述票据上的位置信息；匹配模块，用于对所述文本信息进行分类，根据分类结果从预设模板库中选取语义匹配的目标数据模板；提取模块，用于根据所述文本信息、所述位置信息和所述目标数据模板提取所述文本信息中的文本数据。

于一实施例中，所述解析模块用于：识别所述影像信息，生成所述票据的文本库，所述文本库包括：所述票据的全部文本内容和每个字符在所述票据上的坐标信息；从所述文本库中，选取每个预设字段指向的目标文本内容作为所述预设字段的所述文本信息，所述位置信息为所述目标文本内容所在的目标坐标范围。

于一实施例中，所述匹配模块用于：针对所述每个预设字段，识别所述目标文本内容的目标语义信息；基于所述目标语义信息，于所述模板库中，选取模板语义信息与所述目标语义信息的相似度最大的所述目标数据模板。

于一实施例中，所述目标数据模板中包括：多个标记了语义标签和位置标签的标注框；所述提取模块用于：针对所述每个预设字段，分别计算所述位置信息与所述目标数据模板中每个标注框的位置标签的重叠率，将所述重叠率大于预设阈值的所述标注框作为候选标注框；于所述候选标注框中，分别计算同一预设字段下的所述文本信息与每个所述候选标注框内的语义标签之间的语义相似度，选取所述语义相似度最大的一个所述候选标注框作为所述预设字段的模板标注框；提取所述模板标注框所标注的文本信息的文本数据；

于一实施例中，所述提取所述模板标注框所标注的文本信息的文本数据，包括：针对每个所述预设字段，调用所述模板标注框对应的数据提取规则，基于所述数据提取规则从所述文本信息中提取出所述文本信息中的所述文本数据。本申请实施例第三方面提供了一种电子设备，包括：存储器，用以存储计算机程序；处理器，用以执行本申请实施例第一方面及其任一实施例的方法，以识别票据中的文本数据。

本申请提供的票据识别后信息结构化提取方法、装置和设备，首先获取待识别的票据的影像信息，然后基于影像信息解析得到票据的文本信息以及文本信息在票据上的坐标，最后通过将票据的文本信息与目标数据模板进行坐标、语义概念的双重匹配，实现模板对齐，进而从文本信息中提取票据的文本数据，提高了数据识别准确度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例的电子设备的结构示意图；

图2为本申请一实施例的票据的示意图；

图3为本申请一实施例的票据识别方法的流程示意图；

图4为本申请一实施例的票据识别方法的流程示意图；

图5为本申请一实施例的目标数据模板的示意图；

图6为本申请一实施例的票据识别装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

如图1所示，本实施例提供一种电子设备1，包括：至少一个处理器11和存储器12，图1中以一个处理器为例。处理器11和存储器12通过总线10连接，存储器12存储有可被处理器11执行的指令，指令被处理器11执行，以使电子设备1可执行下述的实施例中方法的全部或部分流程，以识别票据中的文本数据。

于一实施例中，电子设备1可以是手机、笔记本电脑、台式计算机、或者多台计算机组成的运算系统等设备。

请参看图2，其为本申请一实施例的票据2的示意图，其中票据2可以是合同、收据、发票、车票、协议、面单等，票据上会包含票据类型、票据日期、票据编号等各种信息。以合同为例，一份合同上会包含多种信息，在实际合同管理中，为了便于合同数据的管理，一般会有针对性的将合同的特定属性信息进行归档存储，形成结构化的数据，以便于后续查询。比如合同上会包含票据类型“合同”，票据日期“合同日期”，票据编号“合同号”等信息，在对合同进行识别的过程中，需要将上述不同类型的合同信息进行识别并存储。

请参看图3，其为本申请一实施例的票据识别方法，该方法可由图1所示的电子设备1来执行，并可以应用于如图2所示的票据识别场景中，以识别票据中的文本数据。该方法包括如下步骤：

步骤301：获取待识别的票据的影像信息。

在本步骤中，票据可以是合同、收据、发票、车票、协议、面单等，影像信息可以是票据的照片信息或者扫描件。可以通过现场拍照，或者从预设数据库中获取待识别票据的影像信息。

步骤302：解析影像信息，从上向下，逐行识别票据中的至少一个文本信息，以及至少一个文本信息中的每一文本信息在票据上的位置信息。

在本步骤中，票据的文本信息可以是票据中记录的各种文本，一张票据中，每个文本都具有特定的位置信息，位置信息可以采用坐标的形式表示。通过对票据的影像信息进行解析，比如进行图像识别，可以得到票据的文本信息以及文本信息在票据上的位置信息。

步骤303：对文本信息进行分类，根据分类结果从预设模板库中选取语义匹配的目标数据模板。

在本步骤中，预设模板库中预存有各种类型数据模板，每个数据模板配置有数据提取规则，数据模板和提取规则可以基于用户的实际需求进行定制。在对待识别的票据进行识别时，基于票据的文本信息，对文本信息进行分类，根据分类结果从预设模板库中选取语义匹配的目标数据模板。

步骤304：根据文本信息、位置信息和目标数据模板提取文本信息中的文本数据。

在本步骤中，综合考虑文本信息以及文本信息在票据上的位置信息，与目标数据模板进行匹配，进而从文本信息中提取文本数据，此处文本数据可以进行结构化存储，以便于数据管理。

上述票据识别方法，首先获取待识别的票据的影像信息，然后基于影像信息解析得到票据的文本信息以及文本信息在票据上的坐标，最后通过将票据的文本信息与目标数据模板进行坐标、语义概念的双重匹配，实现模板对齐，进而从文本信息中提取票据的文本数据，提高了数据识别准确度。

请参看图4，其为本申请一实施例的票据识别方法，该方法可由图1所示的电子设备1来执行，并可以应用于如图2所示的票据识别场景中，以识别票据中的文本数据。该方法包括如下步骤：

步骤401：获取待识别的票据的影像信息。详细参见上述实施例中对步骤301的描述。

步骤402：识别影像信息，生成票据的文本库，文本库包括：票据的全部文本内容和每个字符在票据上的坐标信息。

在本步骤中，坐标信息可以是坐标范围。可以采用OCR技术对票据的影像信息进行识别，比如，将待识别票据的影像信息输入OCR识别模型中，可以输出得到JSON格式的识别结果，识别结果中包括票据的文本库，该文本库中至少包括票据的文本内容和每块文本内容的每个字符在票据上对应的坐标范围。该坐标范围为真实坐标值。

步骤403：从文本库中，选取每个预设字段指向的目标文本内容作为该预设字段的文本信息，位置信息为目标文本内容所在的目标坐标范围。

在本步骤中，预设字段可以是基于用户需求设定的指定字段，以合同作为待识别票据为例，预设字段可以包括：票据类型为“合同”、合同日期和合同号等等。文本库中包含了合同中所有的文本内容和对应的坐标信息，在具体的实际场景中，为了简化数据处理量，可以选取预设字段对应的目标文本内容作为数据识别的文本信息，位置信息为目标文本内容所在的目标坐标范围。以合同作为待识别票据为例，预设字段JSON格式的文本信息和位置信息可以如下：

步骤404：针对每个预设字段，识别目标文本内容的目标语义信息。

在本步骤中，对每个预设字段的目标文本内容进行语义识别，可以根据预定义概念语料训练的词性标注模型，确定文本内容的本体概念(目标语义信息)。

于一实施例中，可以基于NLP(Natural Language Processing，自然语言处理)技术的词性自动标注与命名实体识别NER(Name Entity Recognition，是指识别文本中具有特定意义的实体，包括人名、地名、机构名、专有名词等)，实现语义识别。以合同为例，可以针对合同的全文识别结果(文本库)，采用分词和词性标注处理，比如采用分词工具jieba对文本库进行分词处理，采用HanLP(Han Language Processing，汉语言处理包)结合预设的概念词汇库，训练得到的词性标注模型，进而采用词性标注模型把文本库中各单词的本体概念性质给标注出来。

步骤405：基于目标语义信息，于模板库中，选取模板语义信息与目标语义信息的相似度最大的目标数据模板。

在本步骤中，模板库中预存了多个数据模板，可以分别计算当前预设字段对应的目标语义信息与每个数据模板的语音相似度，然后选取予以相似度最大的数据模板作为该预设字段对应的目标数据模板。如图5所示，目标数据模板5中预先记录有标注框以及每个标注框的附加信息，附加信息可以包括每个标注框对应的文本概念和标注框的位置信息。标注框可以通过左上、右下的两个百分比坐标进行位置记录。

步骤406：所述目标数据模板中包括：多个标记了语义标签和位置标签的标注框；针对每个预设字段，分别计算位置信息与目标数据模板中每个标注框的位置标签的重叠率，将重叠率大于预设阈值的标注框作为候选标注框。

在本步骤中，所述目标数据模板中包含但不限于：多个标记了语义标签和位置标签的标注框。预设阈值是表示位置标签重叠率的门限值，当重叠率超过预设阈值，说明此时该预设字段的目标文本内容所在的目标坐标范围与目标数据模板中的候选标注框对应在票据上的位置是基本重合的，该预设阈值可以基于实际场景的历史统计数据得到。

步骤407：于候选标注框中，分别计算同一预设字段下的文本信息与每个候选标注框内的语义标签之间的语义相似度，选取语义相似度最大的一个候选标注框作为预设字段的模板标注框。

在本步骤中，步骤406中，每个预设字段的目标文本内容可能存在多个候选标注框，为了进一步确认最准确的标注框，可以进一步分别计算同一预设字段下的文本信息与每个候选标注框内的语义标签之间的语义相似度，选取语义相似度最大的一个候选标注框作为预设字段的模板标注框。如此，实现了将预设字段的文本内容的本体概念和坐标范围，分别与目标数据模板中的标注框的文本概念和坐标范围进行匹配，若目标文本内容的坐标范围与标注框坐标范围的重叠率在预设阈值之内，且目标文本内容的语义概念与标注框对应的语义概念相匹配，则确认该预设字段的目标文本内容与该模板标注框相对应，进而实现模板对齐。

步骤408：针对每个预设字段，调用模板标注框对应的数据提取规则，基于数据提取规则从文本信息中提取出文本信息中的文本数据。

在本步骤中，根据目标数据模板中模板批注框的数据提取规则，从预设字段的目标文本内容中提取对应内容，并形成结构化数据。比如结构化数据可以举例如下：

上述票据识别方法，基于模板确定信息的成份，解决了目前仅基于图像像素相似度的模板匹配准确率低的问题，提升了复杂版面票据的信息结构化提取精度，最终提高了数据识别准确度。

请参看图6，其为本申请一实施例的票据识别装置600，该装置应用于图1所示的电子设备1，并可以应用于如图2所示的票据识别场景中，以识别票据中的文本数据。该装置包括：获取模块601、解析模块602、匹配模块603和提取模块604，各个模块的原理关系如下：

获取模块601，用于获取待识别的票据的影像信息。详细参见上述实施例中对步骤301的描述。

解析模块602，用于解析影像信息，从上向下，逐行识别票据中的至少一个文本信息，以及至少一个文本信息中的每一文本信息在票据上的位置信息。详细参见上述实施例中对步骤302的描述。

匹配模块603，用于对文本信息进行分类，根据分类结果从预设模板库中选取语义匹配的目标数据模板。详细参见上述实施例中对步骤303的描述。

提取模块604，用于根据文本信息、位置信息和目标数据模板提取文本信息中的文本数据。详细参见上述实施例中对步骤304的描述。

于一实施例中，解析模块602用于：识别影像信息，生成票据的文本库，文本库包括：票据的全部文本内容和每个字符在票据上的坐标信息。从文本库中，选取每个预设字段指向的目标文本内容作为预设字段的文本信息，位置信息为目标文本内容所在的目标坐标范围。详细参见上述实施例中对步骤402至步骤403的描述。

于一实施例中，匹配模块603用于：针对每个预设字段，识别目标文本内容的目标语义信息。基于目标语义信息，于模板库中，选取模板语义信息与目标语义信息的相似度最大的目标数据模板。详细参见上述实施例中对步骤404至步骤405的描述。

于一实施例中，所述目标数据模板中包括：多个标记了语义标签和位置标签的标注框；提取模块604用于：针对每个预设字段，分别计算位置信息与目标数据模板中每个标注框的位置标签的重叠率，将重叠率大于预设阈值的标注框作为候选标注框。于候选标注框中，分别计算同一预设字段下的文本信息与每个候选标注框内的语义标签之间的语义相似度，选取语义相似度最大的一个候选标注框作为预设字段的模板标注框。提取所述模板标注框所标注的文本信息的文本数据。详细参见上述实施例中对步骤406至步骤407的描述。

于一实施例中，提取所述模板标注框所标注的文本信息的文本数据，包括：针对每个预设字段，调用模板标注框对应的数据提取规则，基于数据提取规则从文本信息中提取出文本信息中的文本数据。详细参见上述实施例中对步骤408的描述。

上述票据识别装置600的详细描述，请参见上述实施例中相关方法步骤的描述。

本发明实施例还提供了一种非暂态电子设备可读存储介质，包括：程序，当其在电子设备上运行时，使得电子设备可执行上述实施例中方法的全部或部分流程。其中，存储介质可为磁盘、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccess Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等。存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种票据识别方法，其特征在于，包括：

获取待识别的票据的影像信息；

解析所述影像信息，从上向下，逐行识别所述票据中的至少一个文本信息，以及所述至少一个文本信息中的每一文本信息在所述票据上的位置信息；

对所述文本信息进行分类，根据分类结果从预设模板库中选取语义匹配的目标数据模板；

根据所述文本信息、所述位置信息和所述目标数据模板提取所述文本信息中的文本数据。

2.根据权利要求1所述的方法，其特征在于，所述解析所述影像信息，从上向下，逐行识别所述票据中的至少一个文本信息，以及所述至少一个文本信息中的每一文本信息在所述票据上的位置信息，包括：

识别所述影像信息，生成所述票据的文本库，所述文本库包括：所述票据的全部文本内容和每个字符在所述票据上的坐标信息；

从所述文本库中，选取每个预设字段指向的目标文本内容作为所述预设字段的所述文本信息，所述位置信息为所述目标文本内容所在的目标坐标范围。

3.根据权利要求2所述的方法，其特征在于，所述对所述文本信息进行分类，根据分类结果从预设模板库中选取语义匹配的目标数据模板，包括：

针对所述每个预设字段，识别所述目标文本内容的目标语义信息；

基于所述目标语义信息，于所述模板库中，选取模板语义信息与所述目标语义信息的相似度最大的所述目标数据模板。

4.根据权利要求3所述的方法，其特征在于，所述目标数据模板中包括：多个标记了语义标签和位置标签的标注框；所述根据所述文本信息、所述位置信息和所述目标数据模板提取所述文本信息中的文本数据，包括：

针对所述每个预设字段，分别计算所述位置信息与所述目标数据模板中每个标注框的位置标签的重叠率，将所述重叠率大于预设阈值的所述标注框作为候选标注框；

于所述候选标注框中，分别计算同一预设字段下的所述文本信息与每个所述候选标注框内的语义标签之间的语义相似度，选取所述语义相似度最大的一个所述候选标注框作为所述预设字段的模板标注框；

提取所述模板标注框所标注的文本信息的文本数据。

5.根据权利要求4所述的方法，其特征在于，所述提取所述模板标注框所标注的文本信息的文本数据，包括：

针对每个所述预设字段，调用所述模板标注框对应的数据提取规则，基于所述数据提取规则从所述文本信息中提取出所述文本信息中的所述文本数据。

6.一种票据识别装置，其特征在于，包括：

获取模块，用于获取待识别的票据的影像信息；

解析模块，用于解析所述影像信息，从上向下，逐行识别所述票据中的至少一个文本信息，以及所述至少一个文本信息中的每一文本信息在所述票据上的位置信息；

匹配模块，用于对所述文本信息进行分类，根据分类结果从预设模板库中选取语义匹配的目标数据模板；

提取模块，用于根据所述文本信息、所述位置信息和所述目标数据模板提取所述文本信息中的文本数据。

7.根据权利要求6所述的装置，其特征在于，所述解析模块用于：

8.根据权利要求7所述的装置，其特征在于，所述匹配模块用于：

9.根据权利要求8所述的装置，其特征在于，所述目标数据模板中包括：多个标记了语义标签和位置标签的标注框；所述提取模块用于：

提取所述模板标注框所标注的文本信息的文本数据；

所述提取所述模板标注框所标注的文本信息的文本数据，包括：

10.一种电子设备，其特征在于，包括：

存储器，用以存储计算机程序；

处理器，用以执行如权利要求1至5中任一项所述的方法，以识别票据中的文本数据。