CN115565181A - 字符识别的方法、电子设备及计算机可读存储介质 - Google Patents
字符识别的方法、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN115565181A CN115565181A CN202211176278.5A CN202211176278A CN115565181A CN 115565181 A CN115565181 A CN 115565181A CN 202211176278 A CN202211176278 A CN 202211176278A CN 115565181 A CN115565181 A CN 115565181A
- Authority
- CN
- China
- Prior art keywords
- character
- picture
- character recognition
- target
- recognition information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
本申请属于计算机视觉技术领域,公开了字符识别的方法、电子设备及计算机可读存储介质,该方法包括,基于切分长度阈值以及交叠长度预设值,将待识别的目标文本图片进行切分,获得多个文本子图片;采用字符识别模型,对各文本子图片进行字符识别,获得各文本子图片各自对应的字符识别信息;分别针对各字符识别信息中的第一目标字符识别信息和第二目标字符识别信息,将第一目标字符识别信息中的第一个字符与第二目标字符识别信息进行匹配;根据匹配结果,将各字符识别信息进行拼接处理,获得目标文本图片的字符识别信息。这样,可以在对包含较长文本的文本图片进行识别时,提高字符识别准确率。
Description
技术领域
本申请涉及计算机视觉技术领域,具体而言,涉及字符识别的方法、电子设备及计算机可读存储介质。
背景技术
针对文本图像(即包含文本的图片)的字符识别技术是计算机视觉中的一种常用技术,通常应用于文档信息提取、证照识别以及资质审核等场景。
现有技术下,通常采用字符识别模型,对文本图片进行字符识别,获得字符识别信息。
但是,在文本图片的文本长度较长时,字符识别的准确率通常较低。因此,在对包含较长文本的文本图片进行识别时,如何提高字符识别准确率是一个需要解决的问题。
发明内容
本申请实施例的目的在于提供字符识别的方法、电子设备及计算机可读存储介质,用以在对包含较长文本的文本图片进行识别时,提高字符识别准确率。
一方面,提供一种字符识别的方法,包括:
基于切分长度阈值以及交叠长度预设值,将待识别的目标文本图片进行切分,获得多个文本子图片;交叠长度预设值为任意两个相邻文本子图片之间重叠区域的长度;文本子图片的长度大于交叠长度预设值且不大于切分长度阈值;
采用字符识别模型,对各文本子图片进行字符识别,获得各文本子图片各自对应的字符识别信息;
分别针对各字符识别信息中的第一目标字符识别信息和第二目标字符识别信息,将第一目标字符识别信息中的第一个字符与第二目标字符识别信息进行匹配,第一目标字符识别信息和第二目标字符识别信息为各文本子图片中任意相邻的第一目标文本子图片和第二目标文本子图片分别对应的字符识别信息;第一目标文本子图片为第二目标文本子图片的后一个文本子图片;
根据匹配结果,将各字符识别信息进行拼接处理,获得目标文本图片的字符识别信息。
在上述实现过程中,将图片进行切分后识别,并将识别出的字符识别信息进行拼接,可以在对包含较长文本的文本图片进行识别时,提高字符识别准确率。
一种实施方式中,基于切分长度阈值以及交叠长度预设值,将待识别的目标文本图片进行切分,获得多个文本子图片,包括:
基于切分长度阈值以及交叠长度预设值,将目标文本图片进行划分,获得至少一个长度为切分长度阈值的文本子图片,以及至少一个长度大于交叠长度预设值且小于切分长度阈值的文本子图片;
或者,基于切分长度阈值以及交叠长度预设值,将目标文本图片进行等长划分,获得多个长度相同的文本子图片。
在上述实现过程中,可以采用多种方式进行图片切分。
一种实施方式中,在将第一目标字符识别信息中的第一个字符与第二目标字符识别信息进行匹配之前,方法还包括:
分别获取每一字符识别信息中首字符和末端字符分别对应的置信度;置信度是通过字符识别模型进行字符识别还获得的;
从各字符识别信息的首字符和末端字符中,去除置信度小于置信度阈值的字符。
在上述实现过程中,通过字符筛选,可以去除分割出的不完整字符。
一种实施方式中,将第一目标字符识别信息中的第一个字符与第二目标字符识别信息进行匹配,包括:
确定第一目标文本子图片与第二目标文本子图片之间的重叠区域中的重叠字符数n,n为正整数;
将第一个字符与第二目标字符识别信息中的后n个字符分别进行匹配,获得第一个字符匹配的字符。
在上述实现过程中,可以在重叠区域内进行字符匹配,以便后续字符串连接。
一种实施方式中,确定第一目标文本子图片与第二目标文本子图片之间的重叠区域中的重叠字符数n,包括:
确定第一目标文本子图片与第二目标文本子图片之间的重叠区域对应的横坐标范围;
根据目标文本图片中的像素分布,确定断点横坐标;断点横坐标是根据对应的横坐标线上的像素数量不大于像素数量阈值的横坐标确定的,横坐标的方向是根据目标文本图片的长度所在的方向确定的;
统计位于横坐标范围内的断点横坐标的断点数量;
根据断点数量,获得重叠字符数n。
在上述实现过程中,可以通过重叠区域内的断点数量,确定最大的重叠字符数。
一种实施方式中,根据目标文本图片中的像素分布,确定断点横坐标,包括:
将目标文本图片进行二值化处理,获得二值化图片;
分别统计二值化图片中每一横坐标对应的横坐标线上的像素数量;
筛选出像素数量不大于像素数量阈值的横坐标线对应的横坐标;
按照横坐标的连续性,将筛选出的横坐标划分为横坐标区间;
从横坐标区间的横坐标中,选取横坐标区间对应的断点横坐标。
在上述实现过程中,可以根据图片中的像素分布,确定断点横坐标。
一种实施方式中,将第一个字符与第二目标字符识别信息中的后n个字符分别进行匹配,获得第一个字符的匹配字符,包括:
将第一个字符,依次分别与后n个字符中的每一字符进行匹配,直至获得第一个字符匹配的字符;
或者,将第一个字符分别与后n个字符中的每一字符进行匹配,并根据匹配结果,筛选出后n个字符中第一个与第一个字符匹配的字符。
在上述实现过程中,可以采用不同方式,筛选出匹配的字符。
一种实施方式中,根据匹配结果,将各字符识别信息进行拼接处理,获得目标文本图片的字符识别信息,包括:
若根据匹配结果,确定存在第一个字符匹配的字符,则从第二目标字符识别信息中,去除第一个字符匹配的字符及其之后的字符,并将字符去除之后的第二目标字符识别信息与第一目标字符识别信息进行字符串连接;
若根据匹配结果,确定不存在第一个字符匹配的字符,则将第二目标字符识别信息与第一目标字符识别信息进行字符串连接。
在上述实现过程中,可以将筛选字符后的两个字符识别信息进行字符串串接。
一方面,提供一种字符识别的装置,包括:
切分单元,用于基于切分长度阈值以及交叠长度预设值,将待识别的目标文本图片进行切分,获得多个文本子图片;交叠长度预设值为任意两个相邻文本子图片之间重叠区域的长度;文本子图片的长度大于交叠长度预设值且不大于切分长度阈值;
识别单元,用于采用字符识别模型,对各文本子图片进行字符识别,获得各文本子图片各自对应的字符识别信息;
匹配单元,用于分别针对各字符识别信息中的第一目标字符识别信息和第二目标字符识别信息,将第一目标字符识别信息中的第一个字符与第二目标字符识别信息进行匹配,第一目标字符识别信息和第二目标字符识别信息为各文本子图片中任意相邻的第一目标文本子图片和第二目标文本子图片分别对应的字符识别信息;第一目标文本子图片为第二目标文本子图片的后一个文本子图片;
拼接单元,用于根据匹配结果,将各字符识别信息进行拼接处理,获得目标文本图片的字符识别信息。
一种实施方式中,切分单元还用于:
基于切分长度阈值以及交叠长度预设值,将目标文本图片进行划分,获得至少一个长度为切分长度阈值的文本子图片,以及至少一个长度大于交叠长度预设值且小于切分长度阈值的文本子图片;
或者,基于切分长度阈值以及交叠长度预设值,将目标文本图片进行等长划分,获得多个长度相同的文本子图片。
一种实施方式中,在将第一目标字符识别信息中的第一个字符与第二目标字符识别信息进行匹配之前,方法还包括:
分别获取每一字符识别信息中首字符和末端字符分别对应的置信度;置信度是通过字符识别模型进行字符识别还获得的;
从各字符识别信息的首字符和末端字符中,去除置信度小于置信度阈值的字符。
一种实施方式中,将第一目标字符识别信息中的第一个字符与第二目标字符识别信息进行匹配,包括:
确定第一目标文本子图片与第二目标文本子图片之间的重叠区域中的重叠字符数n,n为正整数;
将第一个字符与第二目标字符识别信息中的后n个字符分别进行匹配,获得第一个字符匹配的字符。
一种实施方式中,匹配单元用于:
确定第一目标文本子图片与第二目标文本子图片之间的重叠区域对应的横坐标范围;
根据目标文本图片中的像素分布,确定断点横坐标;断点横坐标是根据对应的横坐标线上的像素数量不大于像素数量阈值的横坐标确定的,横坐标的方向是根据目标文本图片的长度所在的方向确定的;
统计位于横坐标范围内的断点横坐标的断点数量;
根据断点数量,获得重叠字符数n。
一种实施方式中,匹配单元还用于:
将目标文本图片进行二值化处理,获得二值化图片;
分别统计二值化图片中每一横坐标对应的横坐标线上的像素数量;
筛选出像素数量不大于像素数量阈值的横坐标线对应的横坐标;
按照横坐标的连续性,将筛选出的横坐标划分为横坐标区间;
从横坐标区间的横坐标中,选取横坐标区间对应的断点横坐标。
一种实施方式中,将第一个字符与第二目标字符识别信息中的后n个字符分别进行匹配,获得第一个字符的匹配字符,包括:
将第一个字符,依次分别与后n个字符中的每一字符进行匹配,直至获得第一个字符匹配的字符;
或者,将第一个字符分别与后n个字符中的每一字符进行匹配,并根据匹配结果,筛选出后n个字符中第一个与第一个字符匹配的字符。
一种实施方式中,拼接单元用于:
若根据匹配结果,确定存在第一个字符匹配的字符,则从第二目标字符识别信息中,去除第一个字符匹配的字符及其之后的字符,并将字符去除之后的第二目标字符识别信息与第一目标字符识别信息进行字符串连接;
若根据匹配结果,确定不存在第一个字符匹配的字符,则将第二目标字符识别信息与第一目标字符识别信息进行字符串连接。
一方面,提供了一种电子设备,包括处理器以及存储器,存储器存储有计算机可读取指令,当计算机可读取指令由处理器执行时,运行如上述任一种字符识别的各种可选实现方式中提供的方法的步骤。
一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时运行如上述任一种字符识别的各种可选实现方式中提供的方法的步骤。
一方面,提供了一种计算机程序产品,计算机程序产品在计算机上运行时,使得计算机执行如上述任一种字符识别的各种可选实现方式中提供的方法的步骤。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种字符识别的方法的流程图;
图2为本申请实施例提供的一种字符识别示例的方法的流程图;
图3为本申请实施例提供的一种目标文本图片的示例图;
图4为本申请实施例提供的一种文本子图片的示例图;
图5为本申请实施例提供的一种字符识别的装置的结构框图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
光学字符识别(Optical Character Recognition,OCR)技术也即光学文字识别,是指通过图像处理和模式识别技术对光学的字符进行识别。如针对印刷体字符,可以采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并经过识别软件将图像中的文字转换成文本格式,以供文字处理软件进一步编辑加工。
OCR是计算机视觉技术(Computer Vision,CV)研究领域的分支之一,是计算机科学的重要组成部分。其中,CV技术是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。
OCR作为CV中的一种常用技术,被广泛应用于文档信息提取、证照识别以及资质审核等实际项目中,尤其在机器流程自动化(Robotic Process Automation,RPA)项目中有着普遍应用。
其中,RPA技术可以模拟员工在日常工作中通过键盘、鼠标对计算机的操作,可以代替人类执行登录系统、操作软件、读写数据、下载文件、读取邮件等操作。以自动化机器人作为企业的虚拟劳动力,可以将员工从重复、低价值的工作中解放出来,将精力投入到高附加值的工作上,从而可以使企业在数字化智能化转型的同时又做到降低成本、增加效益。
RPA是一种使用软件机器人取代业务流程中的人工任务,并且像人一样与计算机的前端系统进行交互,因此RPA可以看作是一种运行在个人PC机或服务器中的软件型程序机器人,通过模仿用户在电脑上进行的操作来替代人类自动重复这些操作,例如检索邮件、下载附件、登录系统、数据加工分析等活动,快速、准确、可靠。虽然和传统的物理机器人一样都是通过设定的具体规则来解决人类工作中速度和准确度的问题,但是传统的物理机器人是软硬件结合的机器人,需要在特定的硬件支持下配合软件才能执行工作;而RPA机器人是纯软件层面的,只要安装了相应的软件,就可以部署到任意一台PC机和服务器中来完成规定的工作。
也就是说,RPA是一种利用“数字员工”代替人进行业务操作的一种方式及其相关的技术。本质上RPA是通过软件自动化技术,模拟人实现计算机上系统、软件、网页和文档等对象的无人化操作,获取业务信息、执行业务动作,最终实现流程自动化处理、人力成本节约和处理效率提升。从描述可知,在一些RPA应用场景中,可以通过OCR技术识别界面上的文字等信息,并基于识别的文字信息模拟人点击鼠标以及键盘等操作。
首先对本申请实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
终端设备:可以是移动终端、固定终端或便携式终端,例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统设备、个人导航设备、个人数字助理、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。还可预见到的是,终端设备能够支持任意类型的针对用户的接口(例如可穿戴设备)等。
服务器:可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。
传统技术下,通常采用字符识别模型对文本图片进行字符识别,以获得文本图片中包含的字符。但是,实际应用中,字符识别模型通常仅能对一定长度(如,10像素)内的文本进行准确识别,当文本图片中的文本长度超过一定长度时,字符识别的准确率通常较低。
因此,为了在对包含较长文本的文本图片进行识别时,可以提高识别准确率,本申请实施例提供了字符识别的方法、电子设备及计算机可读存储介质。
参阅图1所示,为本申请实施例提供的一种字符识别的方法的流程图,应用于电子设备,电子设备可以为服务器,也可以为终端设备。该方法的具体实施流程如下:
步骤101:基于切分长度阈值以及交叠长度预设值,将待识别的目标文本图片进行切分,获得多个文本子图片。
其中,交叠长度预设值为任意两个相邻文本子图片之间重叠区域的长度;文本子图片的长度大于交叠长度预设值且不大于切分长度阈值。不同文本子图片的长度可以相同,也可以不同。
一种实施方式中,步骤101的实现过程还可以包括:对原始图片进行图片预处理,获得目标文本图片。
一种实施方式中,对原始图片进行图片预处理,获得目标文本图片的具体步骤可以包括:
S101-1:对原始图片进行文本行检测,获得文本行区域。
这样,就可以检测出原始图片中包含文本的区域。
S101-2:从原始图片中划分出包含文本行区域的文本行图片。
这样,可以先从原始图片中划分出仅包含文本行区域的文本行图片。
S101-3:根据文本行图片的高度,以及图片高度预设值,获得缩放比例。
S101-4:按照缩放比例,分别对文本行图片的高度和长度进行缩放,获得目标文本图片。
一种实施方式中,将文本行图片的高度缩放至图片高度预设值,并确定文本行图片的长度与缩放比例之间的比值(即文本行图片缩放后的长度),以及将文本行图片长度缩放至该比值。
作为一个示例,缩放比scale=h1/h2。则缩放后的文本行图片(即目标文本图片)的高度为h2,长度w2=w1/scale。其中,h1为文本行图片的高度,h2为图片高度预设值(如,32像素)。w1为文本行图片的长度。w2为缩放后的文本行图片的长度。
由于字符识别模型仅能准确识别一定高度之内的图片,因此,可以根据字符识别模型的图像识别高度,获得图片高度预设值,并根据图片高度预设值对文本行图片进行尺寸变换(resize),即将文本行图片的高度和长度进行等比例缩放,以保证后续识别的准确率以及结果的可复现。
作为一个示例,切分长度阈值MAX为240像素,交叠长度预设值OVERLAP为18像素。
需要说明的是,若确定目标文本图片不大于切分长度阈值MAX,则直接采用采用字符识别模型对目标文本图片进行识别,获得目标文本图片的字符识别信息。不需要进行图片切分以及字符拼接。
一种实施方式中,步骤101的实现过程可以采用以下任一方式:
方式1:基于切分长度阈值以及交叠长度预设值,将目标文本图片进行划分,获得至少一个长度为切分长度阈值的文本子图片,以及至少一个长度大于交叠长度预设值且小于切分长度阈值的文本子图片。
需要说明的是,长度为切分长度阈值的文本子图片可以为一个,也可以为多个,其它文本子图片(即长度不为切分长度阈值的文本子图片)也可以为一个或多个。实际应用中,其它文本子图片的长度和数量可以根据实际应用场景进行设置,在此不做限制。切分长度阈值可以根据字符识别模型限制的文本最大长度确定。
这样,就可以优先按照切分长度阈值进行图片切分,以减少数据处理量以及切分次数。
方式2:基于切分长度阈值以及交叠长度预设值,将目标文本图片进行等长划分,获得多个长度相同的文本子图片。
其中,切分出的文本子图片的数量t可以采用以下公式确定:
t=向上取整((目标文本图片的长度L-MAX)/(MAX-OVERLAP)+1)。
其中,t为正整数,L、MAX以及OVERLAP均为正实数。
步骤102:采用字符识别模型,对各文本子图片进行字符识别,获得各文本子图片各自对应的字符识别信息。
一种实施方式中,采用字符识别模型分别对每一文本子图片进行字符识别(如,将各文本子图片批量输入字符识别模型),获得各文本子图片各自对应的字符识别信息。进一步的,为便于后续字符拼接,还可以获得各字符识别信息中每一字符的置信度。
可选的,字符识别模型可以采用但不限于以下任一算法:
卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN),以及基于注意力机制的序列到序列文字识别网络(Attentional Seq2seq)。
实际应用中,字符识别模型可以根据实际应用场景进行设置,在此不作限制。
其中,字符识别信息是指识别出的文本子图片中的字符识别信息。置信度即置信水平,是指参数的真实值落在测量结果的概率。本申请实施例中,识别出的字符的置信度为:真实字符为识别出的字符的概率,即字符识别的可信度。
步骤103:分别针对各字符识别信息中的第一目标字符识别信息和第二目标字符识别信息,将第一目标字符识别信息中的第一个字符与第二目标字符识别信息进行匹配。
其中,第一目标字符识别信息和第二目标字符识别信息为各文本子图片中任意相邻的第一目标文本子图片和第二目标文本子图片分别对应的字符识别信息。第一目标文本子图片为第二目标文本子图片的后一个文本子图片。
可选的,在进行字符匹配之前,还可以先对各字符识别信息中的首尾字符(即首字符和末端字符)进行筛选。
一种实施方式中,分别获取每一字符识别信息中首字符和末端字符分别对应的置信度,并从各字符识别信息的首字符和末端字符中,去除置信度小于置信度阈值THRESH的字符。
实际应用中,置信度阈值THRESH可以根据实际应用场景进行设置,如,置信度阈值THRESH为95%,在此不作限制。
其中,置信度是通过字符识别模型进行字符识别还获得的。
这是由于图片切分时,很可能会将图片中的字符切开,因此,可以通过置信度筛选,过滤掉不完整字符,从而获得包含完整字符的字符识别信息,以避免错误的字符识别结果。
一种实施方式中,步骤103的实现过程可以包括:
S1031:确定第一目标文本子图片与第二目标文本子图片之间的重叠区域中的重叠字符数n。n为正整数。
需要说明的是,由于不同重叠区域中的字符可能相同也可能不同,不同字符的大小可能相同也可能不同,因此,不同重叠区域中的重叠字符数可能是相同的,也可能是不同的。
S1032:将第一个字符与第二目标字符识别信息中的后n个字符分别进行匹配,获得第一个字符匹配的字符。
一种实施方式中,S1031的实现过程可以包括以下步骤:
S1031-1:确定第一目标文本子图片与第二目标文本子图片之间的重叠区域对应的横坐标范围。
一种实施方式中,针对目标文本图片建立一个坐标系,可以为仅包含横坐标轴的一维坐标系,也可以为包括横坐标轴和纵坐标轴的二维坐标系。
S1031-2:根据目标文本图片中的像素分布,确定断点横坐标。
其中,所述断点横坐标是根据对应的横坐标线上的像素数量不大于像素数量阈值(如,像素数量阈值为0)的横坐标确定的。断点横坐标通常为相邻字符(或者,同一中文字符的左右偏旁结构)之间的间隙所在的各个坐标点的横坐标。断点横坐标对应的坐标点,可以称为断点。可选的,断点横坐标的数量可以为一个,也可以为多个。横坐标的方向是根据目标文本图片的长度所在的方向确定的。
实际应用中,像素数量阈值可以根据实际应用场景进行设置,在此不作限制。
一种实施方式中,确定目标文本图片中的断点横坐标时,可以采用以下步骤:将目标文本图片进行二值化处理,获得二值化图片;分别统计二值化图片中每一横坐标对应的横坐标线上的像素数量(如,统计横坐标线上像素值为1的像素数量);筛选出像素数量不大于像素数量阈值(如,0)的横坐标线对应的横坐标;按照横坐标的连续性,将筛选出的横坐标划分为横坐标区间;从横坐标区间的横坐标中,选取横坐标区间对应的断点横坐标。
其中,横坐标区间与断点横坐标之间具有一对一的关系。像素数量阈值为自然数,可以根据实际应用场景进行设置。
需要说明的是,由于字符与字符之间的空隙可能比较大,则相邻字符之间可能存在多个筛选出的横坐标,则可以将相邻字符之间空隙所在的各个坐标点的横坐标(即筛选出连续的多个横坐标)划分为同一横坐标区间,并从该横坐标区间中选取一个横坐标(如,可以随机选取一个横坐标,还可以选取指定位置的横坐标,如,中间或首尾末端的横坐标),作为断点横坐标。
作为一个示例,将二值化图片中的各像素投影到横坐标轴上,统计分别投影到每一横坐标的像素数量(即投影到某个横坐标的像素值为1的像素的数量),并筛选出像素数量为0的多个横坐标,并按照坐标连续性,将筛选出的各横坐标划分为多个横坐标区间。
这样,就可以根据目标文本图片中的像素分布,确定断点对应的断点横坐标。
S1031-3:统计位于横坐标范围内的断点横坐标的断点数量。
也就是说,断点数量为位于横坐标范围内的断点横坐标的数量,即重叠区域内断点的数量。
S1031-4:根据断点数量,获得重叠字符数n。
一种实施方式中,重叠字符数n=断点数量N+1。
其中,重叠字符数为预估的重叠区域可能覆盖的最大的字符数量。需要说明的是,由于中文字符可能为左右偏旁结构,因此,同一中文字符可能会被统计为两个字符。
这样,就可以通过断点数量,确定重叠区域中的连通域(即相邻断点横坐标之间的像素组成的区域)的数量,即重叠字符数,从而可以在后续步骤中,通过重叠字符数控制拼接时比对的字符的数量。
一种实施方式中,S1032的实现过程可以采用以下任一方式:
方式1:将第一个字符,依次分别与后n个字符中的每一字符进行匹配,直至获得第一个字符匹配的字符。
方式2:将第一个字符分别与后n个字符中的每一字符进行匹配,并根据匹配结果,筛选出后n个字符中第一个与第一个字符匹配的字符。
步骤104:根据匹配结果,将各字符识别信息进行拼接处理,获得目标文本图片的字符识别信息。
一种实施方式中,步骤104的实现过程可以采用以下任一方式:
方式1:若根据匹配结果,确定存在第一个字符匹配的字符,则从第二目标字符识别信息中,去除第一个字符匹配的字符及其之后的字符,并将字符去除之后的第二目标字符识别信息与第一目标字符识别信息字进行符串连接。
方式2:若根据匹配结果,确定不存在第一个字符匹配的字符,则将第二目标字符识别信息与第一目标字符识别信息进行字符串连接。
下面采用一个具体的应用场景,对上述实施例进行举例说明。图2为一种字符识别示例的方法的流程图。结合图2对图1中的字符识别方法进行示例说明,该方法的具体流程如下:
步骤200:将文本行图片进行等比例缩放,获得目标文本图片。
参阅图3所示,为一种目标文本图片的示例图。作为一个示例,将文本行图片进行等比例缩放,获得图3所示的高度为32像素的目标文本图片。
步骤201:基于切分长度阈值以及交叠长度预设值,将目标文本图片进行划分,获得多个文本子图片。
步骤202:采用字符识别模型,对各文本子图片进行字符识别,获得各文本子图片各自对应的字符识别信息。
图4为一种文本子图片的示例图。作为一个示例,按照切分长度阈值MAX,以及交叠长度预设值OVERLAP,对图3所示的目标文本图片进行划分,获得三个文本子图片,并采用CRNN模型,对三个文本子图片分别进行字符识别,获得图4中的三个文本子图片分别对应的字符识别信息以及每一个字符的置信度。第一个文本子图片的字符识别信息为:弘玑信息技术--发日。第二个文本子图片的字符识别信息为:卡--发明专利技术交。第三个文本子图片的字符识别信息为:术交底书示例。
其中,每两个相邻的文本子图片之间的交叠区域的长度为OVERLAP。前两个文本子图片的长度均为MAX。最后一个文本子图片的长度大于OVERLAP且不大于MAX。
步骤203:从各字符识别信息的首字符和末端字符中,去除置信度小于置信度阈值THRESH的字符。
作为一个示例,图4中,第一个文本子图片中的“日”,以及第二文本子图片种的“卡”的置信度较低。因此,去除上述两个字符,则字符筛选后的各字符识别信息分别为:弘玑信息技术--发、--发明专利技术交,以及术交底书示例。
步骤204:分别确定每两个相邻文本子图片之间的重叠区域中的重叠字符数n。
作为一个示例,采用投影法,确定第一个文本子图片和第二文本子图片之间的重叠区域中的断点数量为4,并将断点数量加一,获得重叠字符数n=5。采用投影法,确定第二个文本子图片和第三文本子图片之间的重叠区域中的断点数量为2,并将断点数量加一,获得重叠字符数n=3。
步骤205:根据各组相邻文本子图片的字符识别信息的重叠字符数n,进行字符匹配,获得字符匹配结果。
步骤206:根据各组相邻文本子图片的字符匹配结果,将各字符识别信息进行拼接处理,获得目标文本图片的字符识别信息。
作为一个示例,图4中第一个文本子图片和第二文本子图片之间的重叠字符数n=5。第二个文本子图片的字符识别信息为:--发明专利技术交,其第一个字符为“-”,第一个文本子图片的字符识别信息为:弘玑信息技术--发,其倒数第五个字符为“技”,则将“技术--发”中的各字符分别与“-”进行比对,获得“技术--发”中的倒数第三个字符“-”比对成功,则将“弘玑信息技术--发”中的最后三个字符“--发”去除,获得“弘玑信息技术”,并将“弘玑信息技术”与“--发明专利技术交”拼接,获得“弘玑信息技术--发明专利技术交”。
图4中第二个文本子图片和第三文本子图片之间的重叠字符数n=3。第三个文本子图片的字符识别信息为:术交底书示例,其第一个字符为“术”,第一个文本子图片和第二个文本子图片拼接后的字符识别信息为:弘玑信息技术--发明专利技术交。其倒数第三个字符为“技”,则将“技术交”中的各字符分别与“术”进行比对,获得“技术交”中的倒数第二个字符“术”比对成功,则将“弘玑信息技术--发明专利技术交”中的最后两个字符“术交”去除,获得“弘玑信息技术--发明专利技”,并将“弘玑信息技术--发明专利技”与“术交底书示例”拼接,获得目标文本图片的字符识别信息为:弘玑信息技术--发明专利技术交底书示例。
实际应用中,执行步骤200-步骤206时,具体步骤参见上述步骤101-步骤104,在此不做赘述。
本申请实施例中,将文本图像进行等比例缩放,从而可以避免不等比缩放导致的识别准确率低的问题,以及,可以根据字符识别模型对字符识别长度的限制,将包含较长字符的图片进行切分,以获得包含较短字符的多个包含重叠区域的子图片,并通过字符识别模型输出的置信度进行字符筛选,以及采用重叠区域字符匹配的方式进行字符串拼接,避免文本过长导致的内存不够以及性能较差的问题,以及避免了同一字符被分割造成字符不完整导致的字符识别错误的问题,适用于对各类语言文字的识别,且可以对包含左右偏旁结构的汉字进行识别,提高了字符识别效果。
基于同一发明构思,本申请实施例中还提供了一种字符识别的装置,由于上述装置及设备解决问题的原理与一种字符识别的方法相似,因此,上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图5所示,其为本申请实施例提供的一种字符识别的装置的结构示意图,包括:
切分单元501,用于基于切分长度阈值以及交叠长度预设值,将待识别的目标文本图片进行切分,获得多个文本子图片;交叠长度预设值为任意两个相邻文本子图片之间重叠区域的长度;文本子图片的长度大于交叠长度预设值且不大于切分长度阈值;
识别单元502,用于采用字符识别模型,对各文本子图片进行字符识别,获得各文本子图片各自对应的字符识别信息;
匹配单元503,用于分别针对各字符识别信息中的第一目标字符识别信息和第二目标字符识别信息,将第一目标字符识别信息中的第一个字符与第二目标字符识别信息进行匹配,第一目标字符识别信息和第二目标字符识别信息为各文本子图片中任意相邻的第一目标文本子图片和第二目标文本子图片分别对应的字符识别信息;第一目标文本子图片为第二目标文本子图片的后一个文本子图片;
拼接单元504,用于根据匹配结果,将各字符识别信息进行拼接处理,获得目标文本图片的字符识别信息。
一种实施方式中,切分单元501还用于:
基于切分长度阈值以及交叠长度预设值,将目标文本图片进行划分,获得至少一个长度为切分长度阈值的文本子图片,以及至少一个长度大于交叠长度预设值且小于切分长度阈值的文本子图片;
或者,基于切分长度阈值以及交叠长度预设值,将目标文本图片进行等长划分,获得多个长度相同的文本子图片。
一种实施方式中,在将第一目标字符识别信息中的第一个字符与第二目标字符识别信息进行匹配之前,方法还包括:
分别获取每一字符识别信息中首字符和末端字符分别对应的置信度;置信度是通过字符识别模型进行字符识别还获得的;
从各字符识别信息的首字符和末端字符中,去除置信度小于置信度阈值的字符。
一种实施方式中,将第一目标字符识别信息中的第一个字符与第二目标字符识别信息进行匹配,包括:
确定第一目标文本子图片与第二目标文本子图片之间的重叠区域中的重叠字符数n,n为正整数;
将第一个字符与第二目标字符识别信息中的后n个字符分别进行匹配,获得第一个字符匹配的字符。
一种实施方式中,匹配单元503用于:
确定第一目标文本子图片与第二目标文本子图片之间的重叠区域对应的横坐标范围;
根据目标文本图片中的像素分布,确定断点横坐标;断点横坐标是根据对应的横坐标线上的像素数量不大于像素数量阈值的横坐标确定的,横坐标的方向是根据目标文本图片的长度所在的方向确定的;
统计位于横坐标范围内的断点横坐标的断点数量;
根据断点数量,获得重叠字符数n。
一种实施方式中,匹配单元503还用于:
将目标文本图片进行二值化处理,获得二值化图片;
分别统计二值化图片中每一横坐标对应的横坐标线上的像素数量;
筛选出像素数量不大于像素数量阈值的横坐标线对应的横坐标;
按照横坐标的连续性,将筛选出的横坐标划分为横坐标区间;
从横坐标区间的横坐标中,选取横坐标区间对应的断点横坐标。
一种实施方式中,将第一个字符与第二目标字符识别信息中的后n个字符分别进行匹配,获得第一个字符的匹配字符,包括:
将第一个字符,依次分别与后n个字符中的每一字符进行匹配,直至获得第一个字符匹配的字符;
或者,将第一个字符分别与后n个字符中的每一字符进行匹配,并根据匹配结果,筛选出后n个字符中第一个与第一个字符匹配的字符。
一种实施方式中,拼接单元504用于:
若根据匹配结果,确定存在第一个字符匹配的字符,则从第二目标字符识别信息中,去除第一个字符匹配的字符及其之后的字符,并将字符去除之后的第二目标字符识别信息与第一目标字符识别信息进行字符串连接;
若根据匹配结果,确定不存在第一个字符匹配的字符,则将第二目标字符识别信息与第一目标字符识别信息进行字符串连接。
本申请实施例提供的字符识别的方法、电子设备及计算机可读存储介质中,基于切分长度阈值以及交叠长度预设值,将待识别的目标文本图片进行切分,获得多个文本子图片;采用字符识别模型,对各文本子图片进行字符识别,获得各文本子图片各自对应的字符识别信息;分别针对各字符识别信息中的第一目标字符识别信息和第二目标字符识别信息,将第一目标字符识别信息中的第一个字符与第二目标字符识别信息进行匹配;根据匹配结果,将各字符识别信息进行拼接处理,获得目标文本图片的字符识别信息。这样,可以在对包含较长文本的文本图片进行识别时,提高字符识别准确率。
图6示出了一种电子设备6000的结构示意图。参阅图6所示,电子设备6000包括:处理器6010以及存储器6020,可选的,还可以包括电源6030、显示单元6040、输入单元6050。
处理器6010是电子设备6000的控制中心,利用各种接口和线路连接各个部件,通过运行或执行存储在存储器6020内的软件程序和/或数据,执行电子设备6000的各种功能,从而对电子设备6000进行整体监控。
本申请实施例中,处理器6010调用存储器6020中存储的计算机程序时执行上述实施例中的各个步骤。
可选的,处理器6010可包括一个或多个处理单元;优选的,处理器6010可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器6010中。在一些实施例中,处理器、存储器、可以在单一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
存储器6020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、各种应用等;存储数据区可存储根据电子设备6000的使用所创建的数据等。此外,存储器6020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。
电子设备6000还包括给各个部件供电的电源6030(比如电池),电源可以通过电源管理系统与处理器6010逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗等功能。
显示单元6040可用于显示由用户输入的信息或提供给用户的信息以及电子设备6000的各种菜单等,本发明实施例中主要用于显示电子设备6000中各应用的显示界面以及显示界面中显示的文本、图片等对象。显示单元6040可以包括显示面板6041。显示面板6041可以采用液晶显示屏(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置。
输入单元6050可用于接收用户输入的数字或字符等信息。输入单元6050可包括触控面板6051以及其他输入设备6052。其中,触控面板6051,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触摸笔等任何适合的物体或附件在触控面板6051上或在触控面板6051附近的操作)。
具体的,触控面板6051可以检测用户的触摸操作,并检测触摸操作带来的信号,将这些信号转换成触点坐标,发送给处理器6010,并接收处理器6010发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板6051。其他输入设备6052可以包括但不限于物理键盘、功能键(比如音量控制按键、开关机按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
当然,触控面板6051可覆盖显示面板6041,当触控面板6051检测到在其上或附近的触摸操作后,传送给处理器6010以确定触摸事件的类型,随后处理器6010根据触摸事件的类型在显示面板6041上提供相应的视觉输出。虽然在图6中,触控面板6051与显示面板6041是作为两个独立的部件来实现电子设备6000的输入和输出功能,但是在某些实施例中,可以将触控面板6051与显示面板6041集成而实现电子设备6000的输入和输出功能。
电子设备6000还可包括一个或多个传感器,例如压力传感器、重力加速度传感器、接近光传感器等。当然,根据具体应用中的需要,上述电子设备6000还可以包括摄像头等其它部件,由于这些部件不是本申请实施例中重点使用的部件,因此,在图6中没有示出,且不再详述。
本领域技术人员可以理解,图6仅仅是电子设备的举例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
本申请实施例中,一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,使得通信设备可以执行上述实施例中的各个步骤。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种字符识别的方法,其特征在于,包括:
基于切分长度阈值以及交叠长度预设值,将待识别的目标文本图片进行切分,获得多个文本子图片;所述交叠长度预设值为任意两个相邻文本子图片之间重叠区域的长度;所述文本子图片的长度大于所述交叠长度预设值且不大于所述切分长度阈值;
采用字符识别模型,对各文本子图片进行字符识别,获得各文本子图片各自对应的字符识别信息;
分别针对各字符识别信息中的第一目标字符识别信息和第二目标字符识别信息,将所述第一目标字符识别信息中的第一个字符与所述第二目标字符识别信息进行匹配,所述第一目标字符识别信息和所述第二目标字符识别信息为各文本子图片中任意相邻的第一目标文本子图片和第二目标文本子图片分别对应的字符识别信息;所述第一目标文本子图片为第二目标文本子图片的后一个文本子图片;
根据匹配结果,将各字符识别信息进行拼接处理,获得所述目标文本图片的字符识别信息。
2.如权利要求1所述的方法,其特征在于,所述基于切分长度阈值以及交叠长度预设值,将待识别的目标文本图片进行切分,获得多个文本子图片,包括:
基于所述切分长度阈值以及所述交叠长度预设值,将所述目标文本图片进行划分,获得至少一个长度为所述切分长度阈值的文本子图片,以及至少一个长度大于所述交叠长度预设值且小于所述切分长度阈值的文本子图片;
或者,基于所述切分长度阈值以及所述交叠长度预设值,将所述目标文本图片进行等长划分,获得多个长度相同的文本子图片。
3.如权利要求1所述的方法,其特征在于,在所述将所述第一目标字符识别信息中的第一个字符与所述第二目标字符识别信息进行匹配之前,所述方法还包括:
分别获取每一字符识别信息中首字符和末端字符分别对应的置信度;所述置信度是通过所述字符识别模型进行字符识别还获得的;
从各字符识别信息的首字符和末端字符中,去除置信度小于置信度阈值的字符。
4.如权利要求1-3任一项所述的方法,其特征在于,所述将所述第一目标字符识别信息中的第一个字符与所述第二目标字符识别信息进行匹配,包括:
确定所述第一目标文本子图片与所述第二目标文本子图片之间的重叠区域中的重叠字符数n,n为正整数;
将所述第一个字符与所述第二目标字符识别信息中的后n个字符分别进行匹配,获得所述第一个字符匹配的字符。
5.如权利要求4所述的方法,其特征在于,所述确定所述第一目标文本子图片与所述第二目标文本子图片之间的重叠区域中的重叠字符数n,包括:
确定所述第一目标文本子图片与所述第二目标文本子图片之间的重叠区域对应的横坐标范围;
根据目标文本图片中的像素分布,确定断点横坐标;所述断点横坐标是根据对应的横坐标线上的像素数量不大于像素数量阈值的横坐标确定的,所述横坐标的方向是根据所述目标文本图片的长度所在的方向确定的;
统计位于所述横坐标范围内的断点横坐标的断点数量;
根据所述断点数量,获得所述重叠字符数n。
6.如权利要求5所述的方法,其特征在于,所述根据目标文本图片中的像素分布,确定断点横坐标,包括:
将所述目标文本图片进行二值化处理,获得二值化图片;
分别统计所述二值化图片中每一横坐标对应的横坐标线上的像素数量;
筛选出像素数量小于所述像素数量阈值的横坐标线对应的横坐标;
按照横坐标的连续性,将筛选出的横坐标划分为横坐标区间;
从所述横坐标区间的横坐标中,选取所述横坐标区间对应的断点横坐标。
7.如权利要求4所述的方法,其特征在于,所述将所述第一个字符与所述第二目标字符识别信息中的后n个字符分别进行匹配,获得所述第一个字符的匹配字符,包括:
将所述第一个字符,依次分别与所述后n个字符中的每一字符进行匹配,直至获得所述第一个字符匹配的字符;
或者,将所述第一个字符分别与所述后n个字符中的每一字符进行匹配,并根据匹配结果,筛选出所述后n个字符中第一个与所述第一个字符匹配的字符。
8.如权利要求4所述的方法,其特征在于,所述根据所述匹配结果,将各字符识别信息进行拼接处理,获得所述目标文本图片的字符识别信息,包括:
若根据所述匹配结果,确定存在所述第一个字符匹配的字符,则从所述第二目标字符识别信息中,去除所述第一个字符匹配的字符及其之后的字符,并将字符去除之后的第二目标字符识别信息与所述第一目标字符识别信息进行字符串连接;
若根据所述匹配结果,确定不存在所述第一个字符匹配的字符,则将所述第二目标字符识别信息与所述第一目标字符识别信息进行字符串连接。
9.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-8任一所述方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时运行如权利要求1-8任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211176278.5A CN115565181A (zh) | 2022-09-26 | 2022-09-26 | 字符识别的方法、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211176278.5A CN115565181A (zh) | 2022-09-26 | 2022-09-26 | 字符识别的方法、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115565181A true CN115565181A (zh) | 2023-01-03 |
Family
ID=84742445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211176278.5A Pending CN115565181A (zh) | 2022-09-26 | 2022-09-26 | 字符识别的方法、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115565181A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118429989A (zh) * | 2024-07-05 | 2024-08-02 | 盛视科技股份有限公司 | 基于字词切分的长条文本行识别方法 |
-
2022
- 2022-09-26 CN CN202211176278.5A patent/CN115565181A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118429989A (zh) * | 2024-07-05 | 2024-08-02 | 盛视科技股份有限公司 | 基于字词切分的长条文本行识别方法 |
CN118429989B (zh) * | 2024-07-05 | 2024-11-01 | 盛视科技股份有限公司 | 基于字词切分的长条文本行识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11321583B2 (en) | Image annotating method and electronic device | |
CN110610510B (zh) | 目标跟踪方法、装置、电子设备及存储介质 | |
WO2022089170A1 (zh) | 字幕区域识别方法、装置、设备及存储介质 | |
CN112699775B (zh) | 基于深度学习的证件识别方法、装置、设备及存储介质 | |
CN108416003A (zh) | 一种图片分类方法和装置、终端、存储介质 | |
CN109726712A (zh) | 文字识别方法、装置及存储介质、服务器 | |
WO2021082885A1 (zh) | 语义分割模型的训练样本的生成方法、装置、存储介质及电子设备 | |
CN112381104A (zh) | 一种图像识别方法、装置、计算机设备及存储介质 | |
CN112329777B (zh) | 基于方向检测的文字识别方法、装置、设备及介质 | |
CN115565181A (zh) | 字符识别的方法、电子设备及计算机可读存储介质 | |
US11348254B2 (en) | Visual search method, computer device, and storage medium | |
CN115497100A (zh) | 字符识别的方法及电子设备 | |
CN111476090B (zh) | 水印识别方法和装置 | |
JP2020534590A (ja) | 視覚的入力の処理 | |
WO2024164979A1 (zh) | 物品识别方法、装置、存储介质及电子设备 | |
CN116361502B (zh) | 一种图像检索方法、装置、计算机设备及存储介质 | |
CN113537186A (zh) | 文本图像的识别方法、装置、电子设备及存储介质 | |
CN112258416A (zh) | 图像处理方法、装置、电子设备 | |
CN112001380B (zh) | 基于人工智能现实场景下的中文意义词组的识别方法和系统 | |
CN116977692A (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
US11574456B2 (en) | Processing irregularly arranged characters | |
CN114036297A (zh) | 一种语句分类方法、装置、终端设备和存储介质 | |
CN114332599A (zh) | 图像识别方法、装置、计算机设备、存储介质和产品 | |
CN111291758A (zh) | 用于识别印章文字的方法和装置 | |
CN110909737A (zh) | 图片文字识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |