CN104978576B

CN104978576B - 一种文字识别方法及装置

Info

Publication number: CN104978576B
Application number: CN201410131536.7A
Authority: CN
Inventors: 杜志军; 张宇
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd
Priority date: 2014-04-02
Filing date: 2014-04-02
Publication date: 2019-01-15
Anticipated expiration: 2034-04-02
Also published as: CN104978576A

Abstract

本申请公开了一种文字识别方法及装置，用以解决现有技术中识别采用便携式设备采集的图像中的文字的精度较低的问题。该方法对图像中的像素点进行二值化处理，确定由前景像素点构成的连通域，并根据各连通域的宽度，对各连通域进行形态学滤波，得到滤波图像，根据滤波图像中的前景像素点进行文字识别。通过上述方法，由于形态学滤波可降低图像中背景像素点对前景像素点的干扰，从而根据滤波图像中的前景像素点进行文字识别，可有效提高对采用便携式设备采集的图像中的文字进行识别的精度。

Description

一种文字识别方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种文字识别方法及装置。

背景技术

目前，为了便于信息的查询和管理，通常都要将信息录入到系统中。而信息的形式是多种多样的，对于数字化信息来说，可简单的将数字化信息从外部系统导入到本系统中，而对于非数字化信息来说，将这些非数字化信息录入系统则通常需要人工录入。

例如，对于交易所产生的纸质单据来说，这些纸质单据中的信息就是非数字化信息，将这些信息录入系统显然不能从外部系统中导入，一般方法是人工将纸质单据中的信息（如：买家信息、买家信息、交易金额、交易时间等）录入系统。

显然，人工录入非数字化信息的效率很低，如何提高非数字化信息的录入效率成为一个亟待解决的问题。

随着计算机技术的发展，文字识别技术应运而生，通过这种技术，设备可以将图像中的文字识别出来，将文字识别技术应用于非数字化信息的录入就可以显著提高非数字化信息的录入效率。一般方法是，采集非数字化信息的图像，再利用文字识别技术识别图像中的文字，以获得信息并录入。显然，采用文字识别技术对非数字化信息进行录入时，文字识别的精度是决定录入信息的准确性的一个重要因素。

在实际应用场景中，对于大型的纸质单据，一般通过扫描仪采集单据的图像，由于通过扫描仪采集到的图像比较清晰，前景和背景区别比较鲜明，因此，采用较为简单的识别方法就可以准确的识别该图像中的文字。

然而，对于小型的纸质单据（如，超市的购物小票等），一般是通过照相机、带摄像头的手机等便携式图像采集设备采集图像，而由于通过便携式设备采集单据的图像时，单据的放置位置通常较为随意（如，放置在手上、报纸上或其他位置）因此相比于通过扫描仪采集的图像而言通过便携式设备采集的小型纸质单据的图像前景和背景的区别并不明显，背景对前景的干扰较大，采用针对扫描仪采集的图像的简单识别方法识别这种小型纸质单据的图像中的文字，就会导致文字识别的精度较低。

发明内容

本申请实施例提供一种文字识别方法及装置，用以解决现有技术中识别采用便携式设备采集的图像中的文字的精度较低的问题。

本申请实施例提供的一种文字识别方法，包括：

对图像中的像素点进行二值化处理，二值化处理后的像素点包括前景像素点和背景像素点；

确定由前景像素点构成的连通域；

对确定的各连通域进行形态学滤波，得到滤波图像，其中，所述形态学滤波包括：针对确定的每个连通域的宽度，将该宽度作为待定宽度，确定所述待定宽度对应的过滤范围，当宽度落入所述过滤范围内的连通域的数量小于设定数量时，将宽度为所述待定宽度的所有连通域中的像素点变更为背景像素点；

根据所述滤波图像中的前景像素点，对所述滤波图像中的文字进行识别。

本申请实施例提供的一种文字识别装置，包括：

二值化处理模块，对图像中的像素点进行二值化处理，二值化处理后的像素点包括前景像素点和背景像素点；

连通域确定模块，确定由前景像素点构成的连通域；

形态学滤波模块，对确定的各连通域进行形态学滤波，得到滤波图像，其中，所述形态学滤波包括：针对确定的每个连通域的宽度，将该宽度作为待定宽度，确定所述待定宽度对应的过滤范围，当宽度落入所述过滤范围内的连通域的数量小于设定数量时，将宽度为所述待定宽度的所有连通域中的像素点变更为背景像素点；

后续处理模块，根据所述滤波图像中的前景像素点，对所述滤波图像中的文字进行识别。

本申请实施例提供一种文字识别方法及装置，该方法对图像中的像素点进行二值化处理，确定由前景像素点构成的连通域，并根据各连通域的宽度，对各连通域进行形态学滤波，得到滤波图像，根据滤波图像中的前景像素点进行文字识别。通过上述方法，由于形态学滤波可降低图像中背景像素点对前景像素点的干扰，从而根据滤波图像中的前景像素点进行文字识别，可有效提高对采用便携式设备采集的图像中的文字进行识别的精度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的文字识别过程；

图2A为本申请实施例提供的采集的购物小票图像示意图；

图2B为本申请实施例提供的对图2A的图像进行二值化处理后得到的图像；

图2C为本申请实施例提供的对图2B所示的图像进行形态学滤波后得到的滤波图像示意图；

图3为本申请实施例提供的从校正图像中提取文字行的过程；

图4A为本申请实施例提供的校正图像示意图；

图4B为本申请实施例提供的根据图4A所示的校正图像得到的水平投影曲线图；

图5A为本申请实施例提供的对校正图像进行膨胀处理的示意图；

图5B为本申请实施例提供的膨胀处理后的图像；

图6为本申请实施例提供的从文字行中提取文字块的过程；

图7A为本申请实施例提供的提取出的文字行示意图；

图7B为本申请实施例提供的根据图7A所示的文字行得到的垂直投影曲线图；

图8为本申请实施例提供的文字识别的详细过程；

图9为本申请实施例提供的文字识别装置结构示意图。

具体实施方式

由于采用便携式设备采集单据的图像时，单据的放置位置通常较为随意，从而，对采集的图像中的文字进行识别时，会由于背景对前景的干扰较大而导致识别精度较低，因此，本申请实施例中通过形态学滤波降低背景对前景的干扰，根据形态学滤波后得到的滤波图像，可有效提高识别采用便携式设备采集的图像中的文字的精度。

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的文字识别过程，具体包括以下步骤：

S101：对图像中的像素点进行二值化处理。

在本申请实施例中，二值化处理后的像素点包括前景像素点和背景像素点，前景像素点的像素值可称为前景像素值，背景像素点的像素值可称为背景像素值。或者说，二值化处理后，图像中的像素点只有两种像素值，一种是前景像素值，另一种是背景像素值。例如，前景像素值可以为255（即纯白色），背景像素值可以为0（即纯黑色）。

由于在实际应用场景中，诸如单据等非数字化信息中的文字一般都是以像素值较小的笔画构成的，而背景的像素值一般较大（如，深蓝色、黑色笔画构成的文字，深色的像素值较小，而背景一般是白纸或颜色较浅，浅色的像素值较大），因此，在进行二值化处理时，可预设一个全局阈值，再针对图像中的每个像素点，判断该像素点的像素值是否小于该全局阈值，若是，则将该像素点的像素值置为前景像素值（如255），否则，将该像素点的像素值置为背景像素值（如0）。这样，即可达到将图像中构成文字的笔画作为前景，将图像中其他部分作为背景，将前景和背景区分开的目的。

S102：确定由前景像素点构成的连通域。

由于对图像中的各像素点进行二值化后，已经明确的区分开图像中的前景和背景，因此，可确定二值化后的图像中由前景像素点构成的各连通域。

需要说明的是，由于在实际应用场景中，采用便携式设备采集单据的图像时，单据的放置位置较为随意，因此，步骤S101中虽然对图像进行了二值化，但是二值化后的前景像素点除了可能确实是笔画所在的像素点以外，还有可能是实际背景中干扰的像素点被误判成了前景像素点。

S103：对确定的各连通域进行形态学滤波，得到滤波图像。

在本申请实施例中，对步骤S102得到的各连通域进行形态学滤波的方法具体可以为：针对确定的每个连通域的宽度，将该宽度作为待定宽度，确定该待定宽度对应的过滤范围，当宽度落入该过滤范围内的连通域的数量小于设定数量时，将宽度为该待定宽度的所有连通域中的像素点变更为背景像素点。其中，假设该待定宽度为W，则该待定宽度对应的过滤范围可以为aW～bW，其中a小于b，a和b均为正数。上述设定数量可以根据需要进行设定，例如设定为4。

这是因为文字的宽度一般是固定的，且图像中宽度相近的文字的数量一般应该较多（一般不少于4个），而干扰的背景中被误判为前景像素点所形成的连通域的宽度则不固定，而且宽度相近、被误判为前景像素点构成的连通域的数量也较少，因此，本申请实施例中将这种宽度相近、但数量较少的连通域作为干扰的背景中被误判为前景像素点所形成的的连通域，将这种连通域中的像素点变更为背景像素点，也即，将这种连通域中的像素点的像素值变更为背景像素值，如图2A所示。

图2A为本申请实施例提供的采集的购物小票图像示意图，图2A所示的是将购物小票放置在桌面上并采集到的图像，桌面的图案为若干个大小不一的圆形，且圆形的颜色较深，“X”表示采集的图像中的文字。则通过步骤S101中的二值化处理，除了将购物小票中的文字的笔画所在的像素点置为前景像素点以外，与背景中的圆形的颜色较深，像素值也较小，因此将背景中的圆形图案所在的像素点也置为了前景像素点。假设前景像素值为255，背景像素值为0，则二值化后的图像如图2B所示。

图2B为本申请实施例提供的对图2A的图像进行二值化处理后得到的图像，由图2B可见，图2B中白色部分即为前景像素点，黑色部分即为背景像素点，二值化处理后被作为前景像素点的部分包括：购物小票中的文字、背景中桌面上的圆形图案、购物小票与桌面的边缘（这是因为购物小票与桌面的边缘颜色也较深，像素值也较小）。

则在步骤S103中，假设图2B中得到的连通域的宽度共有n种，分别为W₁、W₂、……W_n，其中W₁为文字“X”的笔画所形成的连通域，其他宽度的连通域都是桌面上的圆形图案所形成的连通域，则：

针对宽度W₁，将该宽度W₁作为待定宽度，确定该待定宽度W₁对应的过滤范围为0.8W₁～1.2W₁，判断宽度落入0.8W₁～1.2W₁范围内的连通域的数量是否小于设定数量，判断结果为否，因此不处理宽度为该待定宽度W₁的连通域中的像素点；

针对宽度W₂，将该宽度W₂作为待定宽度，确定该待定宽度W₂对应的过滤范围为0.8W₂～1.2W₂，判断宽度落入0.8W₂～1.2W₂范围内的连通域的数量是否小于设定数量，由于W₂是桌面上的圆形图案所形成的连通域的宽度，而与该宽度相近的连通域的数量较少，因此判断结果为是，从而，将宽度为该待定宽度W₂的连通域中的像素点变更为背景像素点；

类似的，针对宽度W₃、……W_n，在将这些宽度作为待定宽度时，也会将宽度为这些待定宽度的连通域中的像素点变更为背景像素点，最终得到滤波图像，得到的滤波图像如图2C所示。

图2C为本申请实施例提供的对图2B所示的图像进行形态学滤波后得到的滤波图像示意图，由图2C可见，图2B中的圆形图案的连通域、购物小票与桌面的边缘形成的连通域中的像素点都被变更为了背景像素点（背景像素点是像素值为0的纯黑色像素点），也就减小了背景对前景的干扰。

S104：根据滤波图像中的前景像素点，对滤波图像中的文字进行识别。

由于通过上述步骤S103得到的滤波图像中已经减小了背景对前景的干扰，因此，可根据滤波图像中的前景像素点，对滤波图像中的文字进行识别。具体的，可提取滤波图像中的文字行，再从文字行中提取出文字块，最后识别文字块中的文字。

通过上述方法，可通过形态学滤波减小背景对前景的干扰，有效提高文字识别的精度，尤其是采用便携式设备采集单据的图像时，单据的放置位置较为随意的应用场景下，可有效避免背景对单据干扰过大而导致文字识别的精度降低的问题。

进一步的，考虑到在实际应用场景中，采用便携式设备采集的图像可能是歪斜的，即文字行的走向并不是水平方向，而是与水平方向有一定夹角，如果步骤S104中得到的滤波图像是歪斜的，也会影响后续文字识别的精度，因此，在图1所示的步骤S104中，对滤波图像中的文字进行识别时，还要根据该滤波图像中的各像素点，对该滤波图像进行倾斜校正，得到校正图像，再根据该校正图像中的前景像素点，对该校正图像中的文字进行识别。

具体的，一般倾斜校正的核心思想是：先确定各待测角度（例如，1度、2度、……180度），确定该滤波图像在各个待测角度上的投影方差，确定的投影方差最大的待测角度即为该滤波图像歪斜的角度。其中，确定该滤波图像在某个待测角度上的投影方差的方法为：根据该待测角度，在该滤波图像上确定若干条平行线，其中，每条平行线与水平线的夹角为该待测角度，确定每条平行线在该滤波图像中所经过的像素点的像素值之和，将确定的各像素值之和的方差作为该滤波图像在该待测角度上的投影方差。

由该倾斜校正的核心思想可以看出，在倾斜校正过程中，确定滤波图像在各个待测角度上的投影方差的过程需要耗费大量的计算量，耗时也最长，因此，本申请实施例中为了节省倾斜校正的计算量，提高倾斜校正的效率，以节省文字识别的计算量，提高文字识别的效率，采用以下两种方法对滤波图像进行倾斜校正：

方法一、减小该滤波图像的分辨率，根据减小分辨率后该滤波图像中的各像素点，对该滤波图像进行倾斜校正。具体的，可采用下采样的方法减小滤波图像的分辨率，由于减小了分辨率相当于减少了像素点的数量，因此，在确定该滤波图像在某个待测角度上的投影方差时，确定每条平行线（每条平行线是指与水平线的夹角为该待测角度的每条平行线）在该滤波图像中所经过的像素点的像素值之和时，所涉及的像素点的数量也就相对减少，从而可节省计算量，提高倾斜校正的效率。

方法二、根据第一设定步进值确定各第一待测角度，其中，将确定的各第一待测角度按从大到小排列后，相邻两个第一待测角度的差值为所述第一设定步进值；针对每个第一待测角度，确定该滤波图像在该第一待测角度上的投影方差；其中，该滤波图像在该第一待测角度上的投影方差的确定方法为：根据该第一待测角度，在该滤波图像上确定若干条平行线，其中，每条平行线与水平线的夹角为该第一待测角度，确定每条平行线在该滤波图像中所经过的像素点的像素值之和，将确定的各像素值之和的方差作为该滤波图像在该第一待测角度上的投影方差；将确定的投影方差最大的第一待测角度确定为备选角度；根据第二设定步进值和该备选角度确定各第二待测角度；其中，第二设定步进值小于第一设定步进值；确定的第二待测角度的数量小于确定的第一待测角度的数量；将确定的各第二待测角度按从大到小排列后，相邻两个第二待测角度的差值为第二设定步进值；确定的各第二待测角度中包括：与备选角度相等的第二待测角度、至少一个大于备选角度的第二待测角度、至少一个小于备选角度的第二待测角度；确定该滤波图像在每个第二待测角度上的投影方差；根据确定的投影方差最大的第二待测角度，对该滤波图像进行倾斜校正。

在上述方法二中，第一步进值可设定的较大，也即，先根据较大的第一步进值，粗略确定滤波图像的歪斜角度。第二步进值可设定的较小，也即，根据粗略确定的歪斜角度，以及较小的第二步进值，再精确确定滤波图像的歪斜角度，以达到减小确定投影方差的次数。

例如，第一步进值可设定为2，即，各第一待测角度为2度、4度、6度、……180度，共90个第一待测角度。针对2度（第一待测角度），确定该滤波图像在2度上的投影方差，类似的，针对4度、6度、……180度这些第一待测角度，分别确定该滤波图像在每个第一待测角度上的投影方差。

假设确定的投影方差最大的第一待测角度为32度，则将32度作为备选角度。假设第二步进值设定为1，则确定的第二待测角度为31度、32度、33度，共3个第二待测角度。分别针对这3个第二待测角度，确定该滤波图像在每个第二待测角度上的投影方差（实际上，该滤波图像在32度上的投影方差已经确定过，此处可不必再次确定该滤波图像在32度上的投影方差），假设确定的投影方差最大的第二待测角度为33度，则可确定该滤波图像歪斜的角度为33度，根据33度对该滤波图像进行倾斜校正即可。

可见，如果针对1度、2度、3度……180度分别确定一次投影方差，则需要确定180次投影方差，而采用上述方法二进行倾斜校正，只需确定90+3=93次投影方差，可有效减小确定投影方差的次数，达到节省倾斜校正的计算量、提高倾斜校正的效率的目的。

需要说明的是，上述方法一和方法二并不冲突，可结合方法一和方法二对滤波图像进行倾斜校正，即，先减少滤波图像的分辨率，再根据方法二，对较少分辨率后的滤波图像进行倾斜校正，用以在减少参与计算的像素点数量的同时，减少确定投影方差的次数。

另外，除上述方法一和方法二以外，还可以预先存储在不同的待测角度下，滤波图像中的每个像素点所在的平行线，例如，对于滤波图像中坐标为（x，y）的像素点，在待测角度为θ时，其所在的平行线为第y-xtanθ条平行线，从而，在确定滤波图像在待测角度θ上的投影方差时，可根据预先存储的在θ滤波图像中的每个像素点所在的平行线，直接确定位于相同平行线上的像素点的像素值之和，再确定每个像素值之和的方差即可。当然，预先存储在不同的待测角度下滤波图像中的每个像素点所在的平行线的方法也可以集合方法一和/或方法二使用。

采用上述方法对滤波图像进行倾斜校正，得到校正图像后，则可从校正图像中提取出文字行，并对提取的文字行中的文字进行识别。具体的提取文字行的方法如图3所示。

图3为本申请实施例提供的从校正图像中提取文字行的过程，具体包括以下步骤：

S301：确定校正图像中每行像素点的水平投影。

其中，一行像素点的水平投影为该行像素点的像素值之和。

S302：在每行像素点中，确定未设置第一标记的、水平投影最大的、水平投影大于第一阈值的一行像素点，作为起点行。

S303：判断是否确定出起点行，若是，则执行步骤S304，否则执行步骤S307。

S304：从起点行开始，按从下到上的顺序查找水平投影不大于αV的一行像素点，将查找到第一行像素点作为上边界。

S305：从起点行开始，按从上到下的顺序查找水平投影不大于αV的一行像素点，将查找到第一行像素点作为下边界。

其中，α的值大于0且小于1，V为该起点行的水平投影。步骤S304和S305的执行顺序不分先后。

S306：提取校正图像中位于该上边界和下边界之间的每行像素点作为一个文字行，并为该文字行中的每行像素点设置第一标记，并返回步骤S302。

S307：对提取的每个文字行中的文字进行识别。

需要说明的是，上述图3所示的文字行提取方法是以前景像素点的像素值大于背景像素点的像素值为前提的（例如，前景像素点的像素值为255，背景像素点的像素值为0）。如果前景像素点的像素值小于背景像素点的像素值，则步骤S302中，确定起点行的方法则为：确定未设置第一标记的、水平投影最小的、水平投影小于第一阈值的一行像素点，作为起点行。步骤S304中确定上边界的方法为：从起点行开始，按从下到上的顺序查找水平投影不小于αV的一行像素点，将查找到第一行像素点作为上边界。步骤S305中确定下边界的方法为：从起点行开始，按从上到下的顺序查找水平投影不小于αV的一行像素点，将查找到第一行像素点作为下边界。其中，α的值可以根据需要进行设定，例如设定为0.3。第一阈值也可根据需要进行设定。

下面以图4A和图4B为例说明上述图3所示的文字行提取方法。

图4A为本申请实施例提供的校正图像示意图，在图4A所示的校正图像中，前景像素点的像素值为255（纯白色），背景像素点的像素值为0（纯黑色），图4A中的“X”表示校正图像中的文字。

显然，由于文字的笔画所在的前景像素点的像素值大于背景像素点的像素值，因此，对于图4A所示的校正图像中的一行像素点来说，如果该行像素点是文字行中的一行像素点，则该行像素点的水平投影较大，反之，如果该行像素点不是文字行中的一行像素点，则该行像素点的水平投影较小。

确定了图4A中每行像素点的水平投影后，可得到如图4B所示的水平投影曲线图。

图4B所示的坐标系中，坐标（x，y）表示图4A所示的校正图像中的第x行像素点的水平投影为y，将如图4A所示的校正图像中每行像素点的水平投影的值放入图4B所示的坐标系中，并按行数从小到大的顺序连接各点，就得到了图4B坐标系中的水平投影曲线。

由图4B所示的水平投影曲线可见，对于一个文字行而言，该文字行中的每行像素点的水平投影所构成的投影曲线类似于高斯曲线，因此，只需针对图4B所示的水平投影曲线，确定出未设置第一标记的、水平投影最大的、且水平投影大于第一阈值的水平投影。假设确定出的水平投影在图4B中的坐标为（L₀，V），表示图4A所示的校正图像中第L₀行像素点的水平投影为V，是未设置第一标记的、水平投影最大的、且大于第一阈值的。则：

在图4A所示的校正图像中，从第L₀行像素点开始，按从下到上的顺序查找水平投影不大于0.3V的第一行像素点，或者说，在图4B所示的水平投影曲线中，从横坐标L₀开始，从右向左查找第一个纵坐标不大于0.3V的点，假设查找到的点的横坐标为L₁，则可确定第L₀行像素点所在的文字行的上边界为图4A所示的校正图像中的第L₁行像素点；

在图4A所示的校正图像中，从第L₀行像素点开始，按从上到下的顺序查找水平投影不大于0.3V的第一行像素点，或者说，在图4B所示的水平投影曲线中，从横坐标L₀开始，从左向右查找第一个纵坐标不大于0.3V的点，假设查找到的点的横坐标为L₂，则可确定第L₀行像素点所在的文字行的上边界为图4A所示的校正图像中的第L₂行像素点。

至此，图4A所示的校正图像中第L₀行像素点所在的文字行的上边界和下边界均已确定，从而，可提取出校正图像中位于上边界和下边界之间的所有像素点，作为一个文字行。

另外，为了避免将单据中普遍存在的横线误判为一个文字行提取出来，在确定了上下边界后，还可判断上边界与下边界的距离是否大于设定距离，若是，则将提取出位于上边界和下边界之间的各行像素点，作为一个文字行，否则，只对该上下边界之间的各行像素点设置第一标记，但不作为文字行提取。

由上述图3所示文字行的提取方法可以看出，本申请实施例提供的文字行提取方法主要是以二值化处理后文字行中的每行像素点的水平投影曲线类似于高斯曲线这个前提的，而对于某些文字而言，可能其笔画并不集中在文字的中间，而是集中在文字的上下边缘，如汉字“工”，如果一个文字行中存在较多这种文字，则采用图3所示的方法，这个文字行的水平投影曲线就会在上下边界处各出现一个峰值，而中间会出现谷值，从而可能会将一个文字行误拆分成上下两个文字行。因此，为了避免将一个文字行误差分成上下两个文字行，以进一步提高文字识别的精度，本申请实施例中在提取校正图像中的文字行之前，还可对该校正图像中的前景像素点进行膨胀处理，再提取经过膨胀处理后的校正图像中的文字行。

具体的，在对校正图像中的前景像素点进行膨胀处理时，可采用一个指定大小的膨胀窗口，遍历校正图像中的所有像素点，只要该膨胀窗口内有一个像素点是前景像素点，就将该膨胀窗口内的像素点全都变更为前景像素点，如图5A所示。

图5A为本申请实施例提供的对校正图像进行膨胀处理的示意图，在图5A中，白色圆点表示前景像素点，黑色圆点表示背景像素点，膨胀窗口是一个长为2R+1，宽为R的矩形窗口，R为整数。

在图5A中，膨胀窗口内包括一个前景像素点，因此，将该膨胀窗口内的所有像素点均变更为前景像素点，得到如图5B所示的图像。可见，在图5B中，膨胀窗口内的所有像素点都变成了前景像素点。

这样，即可加重类似于“工”这样的文字的中间部分（“工”字中间的一竖）的比重，直观上说，经过膨胀处理后，“工”字中间的一竖被加粗了，从而可避免一个文字行误差分成上下两个文字行。由于膨胀处理的方法在现有技术中已经比较成熟，因此这里就不再一一赘述。

在本申请实施例中，采用如图3所示的方法从校正图像中提取出文字行后，在对文字行中的文字进行识别时，具体可先从文字行中提取出文字块，再识别文字块中的文字。具体方法如图6所示。

图6为本申请实施例提供的从文字行中提取文字块的过程，具体包括：

S601：针对每个文字行，确定该文字行中每列像素点的垂直投影。

其中，一列像素点的垂直投影为该列像素点的像素值之和。

S602：根据该文字行的高度，确定第二阈值β×H×F。

其中，β的值大于0且小于1，H为该文字行的高度，F为前景像素点的像素值。

S603：在该文字行中查找未设置第二标记的、垂直投影大于第二阈值的一列像素点，作为起点列。

S604：判断是否查找到起点列，若是，执行步骤S605，否则执行步骤S60

S605：从该起点列开始，按从右到左的顺序查找垂直投影不大于预设的第三阈值的一列像素点，作为左边界。

S606：从该起点列开始，按从左到右的顺序查找垂直投影不大于预设的第三阈值的一列像素点，作为右边界。

其中，步骤S605和S606的执行顺序不分先后。

S607：提取该文字行中位于左边界和右边界之间的每列像素点作为一个文字块，并为该文字块中的每列像素点设置第二标记，返回步骤S603。

S608：对提取的每个文字块中的文字进行识别。

与文字行的提取方法类似的，上述图6所示的从文字行中提取出文字块的方法也是以前景像素点的像素值大于背景像素点的像素值为前提的（例如，前景像素点的像素值为255，背景像素点的像素值为0）。如果前景像素点的像素值小于背景像素点的像素值，则步骤S603中，查找起点列的方法为：查找未设置第二标记的、垂直投影小于第二阈值的一列像素点，作为起点列。S605中确定左边界的方法为：从该起点列开始，按从右到左的顺序查找垂直投影不小于预设的第三阈值的一列像素点，作为左边界。S606中确定右边界的方法为：从该起点列开始，按从左到右的顺序查找垂直投影不小于预设的第三阈值的一列像素点，作为右边界。

由于如果文字行中的一列像素点确实是经过某个文字的像素点，则该列像素点中一般会有超过1/4的像素点是前景像素点，因此，上述β的值可设定为1/4，即，步骤S603中如果某列像素点未设置第二标记，且垂直投影大于，则可将该列像素点作为起点列。

下面以图7A和图7B说明上述图6所示的文字块提取方法。

图7A为本申请实施例提供的提取出的文字行示意图，在图7A中，直观上看，在该文字行中包括三个区域的文字，分别是“电话”、“12345”、“3.14”这些文字，这三个区域的文字相距较远。

显然，由于文字的笔画所在的前景像素点的像素值大于背景像素点的像素值，因此，对于图7A所示的文字行中的一列像素点来说，如果该列像素点是经过文字的一列像素点，则该列像素点的垂直投影较大，反之，如果该列像素点不是经过文字的一列像素点，则该列像素点的垂直投影较小。

确定了图7A中每列像素点的垂直投影后，可得到如图7B所示的垂直投影曲线图。

图7B所示的坐标系中，坐标（x，y）表示图7A所示的文字行中的第x列像素点的垂直投影为y，将如图7A所示的文字行中每列像素点的垂直投影的值放入图7B所示的坐标系中，并按列数从小到大的顺序连接各点，就得到了图7B坐标系中的垂直投影曲线。

针对图7B所示的垂直投影曲线，确定出未设置第二标记的、垂直投影大于的点。假设确定出的点在图7B中的坐标为（I₀，V），表示图7A所示的文字行中第I₀列像素点的垂直投影为V，是未设置第二标记的、垂直投影大于的。假设第三阈值为255，则：

在图7A所示的文字行中，从第I₀列像素点开始，按从右到左的顺序查找垂直投影不大于255的第一列像素点，或者说，在图7B所示的垂直投影曲线中，从横坐标I₀开始，从右向左查找第一个纵坐标不大于255的点，假设查找到的点的横坐标为I₁，则可确定第I₀列像素点所在的文字块的左边界为图7A所示的文字行中的第I₁列像素点；

在图7A所示的文字行中，从第I₀列像素点开始，按从左到右的顺序查找垂直投影不大于255的第一列像素点，或者说，在图7B所示的垂直投影曲线中，从横坐标I₀开始，从左向右查找第一个纵坐标不大于255的点，假设查找到的点的横坐标为I₂，则可确定第I₀列像素点所在的文字块的右边界为图7A所示的文字行中的第I₂列像素点。

至此，图7A所示的文字行中第I₀列像素点所在的文字块的左边界和右边界均已确定，从而，可提取出文字行中位于左边界和右边界之间的所有像素点，作为一个文字块。后续则可识别提取出的文字块中的文字。

进一步的，在从文字行中提取出各文字块后，可确定相邻两个文字块的距离，如果距离小于预设的距离，则可将这两个文字块合并为一个文字块。

例如，图7A中文字“3.14”很有可能被识别为两个文字块，一个文字块是“3.”，另一个文字块是“14”，但这两个文字块的距离很近，因此可将这两个文字块合并为一个文字块。

进一步的，在确定了校正图像中的各文字行后，从文字行中提取文字块之前，还可确定校正图像的左右文字边界，则后续在从一个文字行中提取文字块时，仅从该文字行中位于该校正图像的左右文字边界以内的部分中提取文字块。

具体的，确定校正图像的左文字边界的方法可以为：确定该校正图像中每列像素点的垂直投影，从该校正图像的左边界开始，按从左到右的顺序，查找满足指定条件的连续列区间，其中，所述满足指定条件的连续列区间中的每列像素点的垂直投影均大于预设的第四阈值；确定该连续列区间中所有像素点的像素值之和，作为第一和值；确定该连续列区间中位于文字行内的所有像素点的像素值之和，作为第二和值；判断第二和值除第一和值的商是否大于预设的第五阈值，若是，则将该连续列区间中的列号最小（列号是从左向右依次递增的）的一列像素点确定为该校正图像的左文字边界，否则，继续按从左到右的顺序查找满足指定条件的连续列区间，直至确定出左文字边界为止。

类似的，确定校正图像的右文字边界的方法可以为：确定该校正图像中每列像素点的垂直投影，从该校正图像的右边界开始，按从右到左的顺序，查找满足指定条件的连续列区间，其中，所述满足指定条件的连续列区间中的每列像素点的垂直投影均大于预设的第四阈值；确定该连续列区间中所有像素点的像素值之和，作为第一和值；确定该连续列区间中位于文字行内的所有像素点的像素值之和，作为第二和值；判断第二和值除第一和值的商是否大于预设的第五阈值，若是，则将该连续列区间中的列号最大的一列像素点确定为该校正图像的右文字边界，否则，继续按从右到左的顺序查找满足指定条件的连续列区间，直至确定出右文字边界为止。

图8为本申请实施例提供的文字识别的详细过程，具体包括以下步骤：

S801：对图像中的像素点进行二值化处理，二值化处理后的像素点包括前景像素点和背景像素点。

S802：确定由前景像素点构成的连通域。

S803：对确定的各连通域进行形态学滤波，得到滤波图像。

S804：对滤波图像进行倾斜校正，得到校正图像。

S805：对校正图像中的前景像素点进行膨胀处理。

S806：提取经过膨胀处理后的校正图像中的文字行。

其中，提取文字行的方法可以如图3所示。

S807：针对每个文字行，提取该文字行中的文字块。

其中，提取文字块的方法可以如图6所示。

S808：识别提取出的文字块中的文字。

以上为本申请实施例提供的文字识别的方法，基于同样的发明思路，本申请实施例还提供了相应的文字识别装置，如图9所示。

图9为本申请实施例提供的文字识别装置结构示意图，具体包括：

二值化处理模块901，对图像中的像素点进行二值化处理，二值化处理后的像素点包括前景像素点和背景像素点；

连通域确定模块902，确定由前景像素点构成的连通域；

形态学滤波模块903，对确定的各连通域进行形态学滤波，得到滤波图像，其中，所述形态学滤波包括：针对确定的每个连通域的宽度，将该宽度作为待定宽度，确定所述待定宽度对应的过滤范围，当宽度落入所述过滤范围内的连通域的数量小于设定数量时，将宽度为所述待定宽度的所有连通域中的像素点变更为背景像素点；

后续处理模块904，根据所述滤波图像中的前景像素点，对所述滤波图像中的文字进行识别。

所述后续处理模块904具体包括：

倾斜校正子模块9041，根据所述滤波图像中的各像素点，对所述滤波图像进行倾斜校正，得到校正图像；

识别子模块9042，根据所述校正图像中的前景像素点，对所述校正图像中的文字进行识别。

所述倾斜校正子模块9041具体用于，减小所述滤波图像的分辨率，根据减小分辨率后所述滤波图像中的各像素点，对所述滤波图像进行倾斜校正。

所述倾斜校正子模块9041具体用于，根据第一设定步进值确定各第一待测角度，其中，将确定的各第一待测角度按从大到小排列后，相邻两个第一待测角度的差值为所述第一设定步进值；针对每个第一待测角度，确定所述滤波图像在该第一待测角度上的投影方差；其中，所述滤波图像在该第一待测角度上的投影方差的确定方法为：根据该第一待测角度，在所述滤波图像上确定若干条平行线，其中，每条平行线与水平线的夹角为该第一待测角度，确定每条平行线在所述滤波图像中所经过的像素点的像素值之和，将确定的各像素值之和的方差作为所述滤波图像在该第一待测角度上的投影方差；将确定的投影方差最大的第一待测角度确定为备选角度；根据第二设定步进值和所述备选角度确定各第二待测角度；其中，所述第二设定步进值小于所述第一设定步进值；确定的第二待测角度的数量小于确定的第一待测角度的数量；将确定的各第二待测角度按从大到小排列后，相邻两个第二待测角度的差值为所述第二设定步进值；确定的各第二待测角度中包括：与所述备选角度相等的第二待测角度、至少一个大于所述备选角度的第二待测角度、至少一个小于所述备选角度的第二待测角度；确定所述滤波图像在每个第二待测角度上的投影方差；根据确定的投影方差最大的第二待测角度，对所述滤波图像进行倾斜校正。

所述前景像素点的像素值大于所述背景像素点的像素值；

所述识别子模块9042具体包括：

文字行提取单元90421，确定所述校正图像中每行像素点的水平投影，其中，一行像素点的水平投影为该行像素点的像素值之和；在每行像素点中，确定未设置第一标记的、水平投影最大的、水平投影大于第一阈值的一行像素点，作为起点行；从所述起点行开始，按从下到上的顺序查找水平投影不大于αV的一行像素点，将查找到第一行像素点作为上边界；从所述起点行开始，按从上到下的顺序查找水平投影不大于αV的一行像素点，将查找到第一行像素点作为下边界；其中，α的值大于0且小于1，V为所述起点行的水平投影；提取所述校正图像中位于所述上边界和下边界之间的每行像素点作为一个文字行，并为所述文字行中的每行像素点设置第一标记；重新确定未设置第一标记的、水平投影最大的、水平投影大于第一阈值的一行像素点作为起点行，并根据重新确定的起点行提取文字行，直至确定不出起点行为止；

识别单元90422，对提取的每个文字行中的文字进行识别。

所述识别子模块9042还包括：

膨胀处理单元90423，用于在所述文字行提取单元90421确定所述校正图像中每行像素点的水平投影之前，对所述校正图像中的前景像素点进行膨胀处理。

所述识别单元90422具体用于，针对每个文字行，确定该文字行中每列像素点的垂直投影，其中，一列像素点的垂直投影为该列像素点的像素值之和；根据该文字行的高度，确定第二阈值β×H×F，其中，β的值大于0且小于1，H为该文字行的高度，F为所述前景像素点的像素值；在该文字行中查找未设置第二标记的、垂直投影大于所述第二阈值的一列像素点，作为起点列；从所述起点列开始，按从右到左的顺序查找垂直投影不大于预设的第三阈值的一列像素点，作为左边界；从所述起点列开始，按从左到右的顺序查找垂直投影不大于预设的第三阈值的一列像素点，作为右边界；提取该文字行中位于所述左边界和右边界之间的每列像素点作为一个文字块，并为所述文字块中的每列像素点设置第二标记；重新确定未设置第二标记的、垂直投影大于所述第二阈值的一列像素点作为起点列，并根据重新确定的起点列提取文字块，直至确定不出起点列为止；对提取的每个文字块中的文字进行识别。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种文字识别方法，其特征在于，包括：

对图像中的像素点进行二值化处理，针对图像中的每个像素点，判断该像素点的像素值是否小于预设的全局阈值，二值化处理后的像素点包括前景像素点和背景像素点；

确定由前景像素点构成的连通域；

2.如权利要求1所述的方法，其特征在于，根据所述滤波图像中的前景像素点，对所述滤波图像中的文字进行识别，具体包括：

根据所述滤波图像中的各像素点，对所述滤波图像进行倾斜校正，得到校正图像；

根据所述校正图像中的前景像素点，对所述校正图像中的文字进行识别。

3.如权利要求2所述的方法，其特征在于，根根据所述滤波图像中的各像素点，对所述滤波图像进行倾斜校正，具体包括：

减小所述滤波图像的分辨率；

根据减小分辨率后所述滤波图像中的各像素点，对所述滤波图像进行倾斜校正。

4.如权利要求2或3所述的方法，其特征在于，对所述滤波图像进行倾斜校正，具体包括：

根据第一设定步进值确定各第一待测角度，其中，将确定的各第一待测角度按从大到小排列后，相邻两个第一待测角度的差值为所述第一设定步进值；

针对每个第一待测角度，确定所述滤波图像在该第一待测角度上的投影方差；

其中，所述滤波图像在该第一待测角度上的投影方差的确定方法为：根据该第一待测角度，在所述滤波图像上确定若干条平行线，其中，每条平行线与水平线的夹角为该第一待测角度，确定每条平行线在所述滤波图像中所经过的像素点的像素值之和，将确定的各像素值之和的方差作为所述滤波图像在该第一待测角度上的投影方差；

将确定的投影方差最大的第一待测角度确定为备选角度；

根据第二设定步进值和所述备选角度确定各第二待测角度；

其中，所述第二设定步进值小于所述第一设定步进值；确定的第二待测角度的数量小于确定的第一待测角度的数量；将确定的各第二待测角度按从大到小排列后，相邻两个第二待测角度的差值为所述第二设定步进值；确定的各第二待测角度中包括：与所述备选角度相等的第二待测角度、至少一个大于所述备选角度的第二待测角度、至少一个小于所述备选角度的第二待测角度；

确定所述滤波图像在每个第二待测角度上的投影方差；

根据确定的投影方差最大的第二待测角度，对所述滤波图像进行倾斜校正。

5.如权利要求2所述的方法，其特征在于，所述前景像素点的像素值大于所述背景像素点的像素值；

根据所述校正图像中的前景像素点，对所述校正图像中的文字进行识别，具体包括：

确定所述校正图像中每行像素点的水平投影，其中，一行像素点的水平投影为该行像素点的像素值之和；

在每行像素点中，确定未设置第一标记的、水平投影最大的、水平投影大于第一阈值的一行像素点，作为起点行；

从所述起点行开始，按从下到上的顺序查找水平投影不大于αV的一行像素点，将查找到第一行像素点作为上边界；

从所述起点行开始，按从上到下的顺序查找水平投影不大于αV的一行像素点，将查找到第一行像素点作为下边界；

其中，α的值大于0且小于1，V为所述起点行的水平投影；

提取所述校正图像中位于所述上边界和下边界之间的每行像素点作为一个文字行，并为所述文字行中的每行像素点设置第一标记；

重新确定未设置第一标记的、水平投影最大的、水平投影大于第一阈值的一行像素点作为起点行，并根据重新确定的起点行提取文字行，直至确定不出起点行为止；

对提取的每个文字行中的文字进行识别。

6.如权利要求5所述的方法，其特征在于，确定所述校正图像中每行像素点的水平投影之前，所述方法还包括：

对所述校正图像中的前景像素点进行膨胀处理。

7.如权利要求5所述的方法，其特征在于，对提取的每个文字行中的文字进行识别，具体包括：

针对每个文字行，确定该文字行中每列像素点的垂直投影，其中，一列像素点的垂直投影为该列像素点的像素值之和；

根据该文字行的高度，确定第二阈值β×H×F，其中，β的值大于0且小于1，H为该文字行的高度，F为所述前景像素点的像素值；

在该文字行中查找未设置第二标记的、垂直投影大于所述第二阈值的一列像素点，作为起点列；

从所述起点列开始，按从右到左的顺序查找垂直投影不大于预设的第三阈值的一列像素点，作为左边界；

从所述起点列开始，按从左到右的顺序查找垂直投影不大于预设的第三阈值的一列像素点，作为右边界；

提取该文字行中位于所述左边界和右边界之间的每列像素点作为一个文字块，并为所述文字块中的每列像素点设置第二标记；

重新确定未设置第二标记的、垂直投影大于所述第二阈值的一列像素点作为起点列，并根据重新确定的起点列提取文字块，直至确定不出起点列为止；

对提取的每个文字块中的文字进行识别。

8.一种文字识别装置，其特征在于，包括：

二值化处理模块，对图像中的像素点进行二值化处理，针对图像中的每个像素点，判断该像素点的像素值是否小于预设的全局阈值，二值化处理后的像素点包括前景像素点和背景像素点；

连通域确定模块，确定由前景像素点构成的连通域；

9.如权利要求8所述的装置，其特征在于，所述后续处理模块具体包括：

倾斜校正子模块，根据所述滤波图像中的各像素点，对所述滤波图像进行倾斜校正，得到校正图像；

识别子模块，根据所述校正图像中的前景像素点，对所述校正图像中的文字进行识别。

10.如权利要求9所述的装置，其特征在于，所述倾斜校正子模块具体用于，减小所述滤波图像的分辨率，根据减小分辨率后所述滤波图像中的各像素点，对所述滤波图像进行倾斜校正。

11.如权利要求9或10所述的装置，其特征在于，所述倾斜校正子模块具体用于，根据第一设定步进值确定各第一待测角度，其中，将确定的各第一待测角度按从大到小排列后，相邻两个第一待测角度的差值为所述第一设定步进值；针对每个第一待测角度，确定所述滤波图像在该第一待测角度上的投影方差；其中，所述滤波图像在该第一待测角度上的投影方差的确定方法为：根据该第一待测角度，在所述滤波图像上确定若干条平行线，其中，每条平行线与水平线的夹角为该第一待测角度，确定每条平行线在所述滤波图像中所经过的像素点的像素值之和，将确定的各像素值之和的方差作为所述滤波图像在该第一待测角度上的投影方差；将确定的投影方差最大的第一待测角度确定为备选角度；根据第二设定步进值和所述备选角度确定各第二待测角度；其中，所述第二设定步进值小于所述第一设定步进值；确定的第二待测角度的数量小于确定的第一待测角度的数量；将确定的各第二待测角度按从大到小排列后，相邻两个第二待测角度的差值为所述第二设定步进值；确定的各第二待测角度中包括：与所述备选角度相等的第二待测角度、至少一个大于所述备选角度的第二待测角度、至少一个小于所述备选角度的第二待测角度；确定所述滤波图像在每个第二待测角度上的投影方差；根据确定的投影方差最大的第二待测角度，对所述滤波图像进行倾斜校正。

12.如权利要求9所述的装置，其特征在于，所述前景像素点的像素值大于所述背景像素点的像素值；

所述识别子模块具体包括：

文字行提取单元，确定所述校正图像中每行像素点的水平投影，其中，一行像素点的水平投影为该行像素点的像素值之和；在每行像素点中，确定未设置第一标记的、水平投影最大的、水平投影大于第一阈值的一行像素点，作为起点行；从所述起点行开始，按从下到上的顺序查找水平投影不大于αV的一行像素点，将查找到第一行像素点作为上边界；从所述起点行开始，按从上到下的顺序查找水平投影不大于αV的一行像素点，将查找到第一行像素点作为下边界；其中，α的值大于0且小于1，V为所述起点行的水平投影；提取所述校正图像中位于所述上边界和下边界之间的每行像素点作为一个文字行，并为所述文字行中的每行像素点设置第一标记；重新确定未设置第一标记的、水平投影最大的、水平投影大于第一阈值的一行像素点作为起点行，并根据重新确定的起点行提取文字行，直至确定不出起点行为止；

识别单元，对提取的每个文字行中的文字进行识别。

13.如权利要求12所述的装置，其特征在于，所述识别子模块还包括：

膨胀处理单元，用于在所述文字行提取单元确定所述校正图像中每行像素点的水平投影之前，对所述校正图像中的前景像素点进行膨胀处理。

14.如权利要求12所述的装置，其特征在于，所述识别单元具体用于，针对每个文字行，确定该文字行中每列像素点的垂直投影，其中，一列像素点的垂直投影为该列像素点的像素值之和；根据该文字行的高度，确定第二阈值β×H×F，其中，β的值大于0且小于1，H为该文字行的高度，F为所述前景像素点的像素值；在该文字行中查找未设置第二标记的、垂直投影大于所述第二阈值的一列像素点，作为起点列；从所述起点列开始，按从右到左的顺序查找垂直投影不大于预设的第三阈值的一列像素点，作为左边界；从所述起点列开始，按从左到右的顺序查找垂直投影不大于预设的第三阈值的一列像素点，作为右边界；提取该文字行中位于所述左边界和右边界之间的每列像素点作为一个文字块，并为所述文字块中的每列像素点设置第二标记；重新确定未设置第二标记的、垂直投影大于所述第二阈值的一列像素点作为起点列，并根据重新确定的起点列提取文字块，直至确定不出起点列为止；对提取的每个文字块中的文字进行识别。