CN109492627B

CN109492627B - 一种基于全卷积网络的深度模型的场景文本擦除方法

Info

Publication number: CN109492627B
Application number: CN201910056611.0A
Authority: CN
Inventors: 金连文; 张帅涛; 刘禹良
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2022-11-08
Anticipated expiration: 2039-01-22
Also published as: CN109492627A

Abstract

本发明提出一种基于全卷积网络的深度模型的场景文本擦除方法，包括以下步骤：收集并合成对应的文本与非文本图片、构建一个条件生成对抗全卷积隐藏神经网络模型用于完成自然场景文本自动擦除任务，并进行模型训练和测试网络，输入一张自然场景文本图像，利用全卷积隐藏神经网络模型返回预测结果；本发明通过将文本检测以及图片填补的机制隐式的融入到全卷积隐藏神经网络模型的训练当中，在全卷积隐藏神经网络模型训练阶段利用判别器辅助训练生成器，从而保证全卷积隐藏神经网络模型回归的预测值更加接近于真实，在全卷积隐藏神经网络模型的训练过程中利用对抗式生成网络提高网络的擦除效果，从而可以生成高品质的非文本图片预测。

Description

一种基于全卷积网络的深度模型的场景文本擦除方法

技术领域

本发明涉及模式识别与人工智能领域，尤其涉及一种基于全卷积网络的深度模型的场景文本擦除方法。

背景技术

在我们的日常生活当中，自然场景文字无处不在，文字是人类交流的基本工具，对人类理解信息有着至关重要的作用，与此同时，各种隐私信息，比如身份证号码、手机号码、车牌号码以及家庭住址等也暴露在自然场景文本当中，随着自然场景文本检测与识别技术的发展，如此重要的隐私信息很容易被机器自动收集用于欺诈、营销或其他非法活动，如何隐藏这些暴露于自然场景之中的隐私信息成为了研究的热点。

对于隐藏自然场景文本问题，传统的方法通常对图像做文本检测，然后人工设计一些规则滤除一些负样本，接着将文本区域移除，最后通过图像填补算法来补全移除的文本区域，这种方法一方面高度依赖文本检测的准确性，另一方面对人工设计的规则以及填补算法要求较高，其次单张图片处理的效率与文本区域成反比，只能解决一些干净，清晰，分布规则的简单图像。

目前关于场景文本擦除的研究倾向于图像填补算法上，假设用户提供要移除目标的掩码，而获取对应的掩码也是一个极具挑战的任务，如果我们不能获取非常整齐的掩码，那么填补算法会试图补回目标，会产生相反的效果。因此，本发明提出一种基于全卷积网络的深度模型的场景文本擦除方法，以解决现有技术中的不足之处。

发明内容

针对上述问题，本发明通过将文本检测以及图片填补的机制隐式的融入到全卷积隐藏神经网络模型的训练当中，在全卷积隐藏神经网络模型训练阶段利用判别器辅助训练生成器，从而保证全卷积隐藏神经网络模型回归的预测值更加接近于真实，在全卷积隐藏神经网络模型的训练过程中利用对抗式生成网络提高网络的擦除效果，从而可以生成高品质的非文本图片预测，同时，本发明方法创建的深度全卷积隐藏神经网络模型是灵活的，可以通过不同基本网络结构实现的，实现方法方便简单，具有较强的实用性。

本发明提出一种基于全卷积网络的深度模型的场景文本擦除方法，包括以下步骤：

步骤一：数据采集，收集并合成对应的文本与非文本图片，并人工标注成对的真实自然场景数据；

步骤二：训练网络，首先构建一个条件生成对抗全卷积隐藏神经网络模型用于完成自然场景文本自动擦除任务，然后将成对图片输入到全卷积隐藏神经网络模型，计算相对应的代价函数，再将自然场景文本图片输入到全卷积隐藏神经网络模型中，利用多个重组的回归损失和对抗性损失作为监督信号，以交替训练的优化方式来训练全卷积隐藏神经网络模型直至收敛；

步骤三：测试网络，输入一张自然场景文本图像，利用全卷积隐藏神经网络模型返回预测结果。

进一步改进在于：所述步骤一中合成的一定数量的成对的自然场景文本与非文本图片需要被划分成训练集和测试集，训练集用于训练全卷积隐藏神经网络模型，测试集用于测试全卷积隐藏神经网络模型的性能。

进一步改进在于：所述步骤二中条件生成对抗全卷积隐藏神经网络模型由三个子网络组成，具体为生成器网络、判别器网络和损失网络，所述生成器网络是基于全卷积神经网络的结构进行设计的，它的输入是一张自然场景图片。

进一步改进在于：所述判别器网络是由多个卷积层加正则化层以及激活层组成，将输入图片与预测结果一起送入判别器网络，经过卷积层提取高维特征之后，接入激活函数层，最终输出关于对应感受野图片块真假的预测分数。

进一步改进在于：所述损失网络由VGG网络组成，所述VGG网络由多个卷积层、正则化层、激活函数层以及池化层叠加而成，将对应的预测图片和真实标签图片一起送入损失网络，可以进行优化两张图片在高维特征上的距离。

进一步改进在于：所述步骤二中将成对图片输入到全卷积隐藏神经网络中时，首先由卷积特征抽取支路网络抽取高维特征进行文本与非文本特征的区分，接受由反卷积支路去预测对应的非文本特征。

进一步改进在于：所述步骤二中将成对图片输入到全卷积隐藏神经网络中的过程中，由于特征经过低维到高维再到低维的转换，一些细节信息会被丢失，因此还需要用侧向连接模块将对应大小分别来自于卷积支路和反卷积支路的特征进行融合，对这两个特征向量进行按元素相加之后送入下一个反卷积模块，直到最后输出一个关于非文本的自然场景图片的预测结果。

进一步改进在于：所述步骤二中代价函数由重组损失函数和对抗损失函数组成，具体如公式(1)所示：

其中，λ_e，λ_i，λ_t表示各个损失函数的权重；

重组损失函数的各个分项是基于欧式距离损失函数进行设计的，具体如公式(2)所示：

其中，

为多尺度回归损失，

表示对应第i个反卷积层预测出来的输出，

表示与第i个反卷积层输出大小相同的掩码以及真实的非文本图片，α表示文本与非文本区域之间的权重平衡因子，n代表选择用来做预测的层数；

语义损失

计算公式如公式(3)所示：

其中，

代表将预测的图片分为两个部分，文本区域与非文本区域，文本区域设置成预测出来的特征，非文本区域设置成对应的真实特征，n代表选择用来输出特征的层数，N代表预测的总的层数，

代表对应的真实的非文本图片，

代表对应的预测的非文本图片，

表示经过VGG网络第n个层之后的特征图；

纹理损失

计算公式如公式(4)所示：

其中，HnWnCn代表高维特征图的形状，

代表将预测的图片分为两个部分，文本区域与非文本区域，文本区域设置成预测出来的特征，非文本区域设置成对应的真实特征，

表示经过VGG网络第n个卷积层层之后的特征图，N代表用来输出特征的总的层数；

去噪损失

计算公式如公式(5)所示：

其中，i,j代表预测图片

上的像素点，是通过控制相邻像素之间的差值来进行去噪从而提高图片的品质。

进一步改进在于：所述步骤二中使用反向传播算法对该条件生成对抗全卷积隐藏神经网络模型进行训练的具体过程为：使用反向传播算法，从最后一层计算传递梯度，逐层传递，更新所有的参数权重，达到训练网络的目的，训练采用交替训练的优化方式，首先初始化所有的网络结构，接着固定生成器网络训练判别器网络，然后反过来使用固定判别器网络训练生成器网络和损失网络，接着再次固定生成器网络训练判别器网络，以此类推直至模型收敛。

进一步改进在于：所述步骤三中先将一张自然场景文本图片输入到全卷积隐藏神经网络模型的生成器网络中，生成器网络的输出即为最后的预测结果和全卷积隐藏神经网络模型预测的对应的非文本图片。

本发明的有益效果为：通过将文本检测以及图片填补的机制隐式的融入到全卷积隐藏神经网络模型的训练当中，在全卷积隐藏神经网络模型训练阶段利用判别器辅助训练生成器，从而保证全卷积隐藏神经网络模型回归的预测值更加接近于真实，通过人工标注一定数量的配对的自然场景文本图片与非文本图片数据可以增加全卷积隐藏神经网络模型的泛化性能，在全卷积隐藏神经网络模型的训练过程中利用对抗式生成网络提高网络的擦除效果，从而可以生成高品质的非文本图片预测，同时，本发明方法创建的深度全卷积隐藏神经网络模型是灵活的，可以通过不同基本网络结构实现的，实现方法方便简单，具有较强的实用性。

附图说明

图1为本发明方法流程示意图。

图2为本发明全卷积隐藏神经网络模型示意图。

图3为本发明全卷积隐藏神经网络模型网络优化方式示意图。

具体实施方式

为了使发明实现的技术手段、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

根据图1、2、3示，本实施例提出一种基于全卷积网络的深度模型的场景文本擦除方法，包括以下步骤：

步骤一：数据采集，收集并合成对应的文本与非文本图片，并人工标注成对的真实自然场景数据，合成的一定数量的成对的自然场景文本与非文本图片需要被划分成训练集和测试集，训练集用于训练全卷积隐藏神经网络模型，测试集用于测试全卷积隐藏神经网络模型的性能；

步骤二：训练网络，首先构建一个条件生成对抗全卷积隐藏神经网络模型用于完成自然场景文本自动擦除任务，条件生成对抗全卷积隐藏神经网络模型由三个子网络组成，具体为生成器网络、判别器网络和损失网络，生成器网络是基于全卷积神经网络的结构进行设计的，它的输入是一张自然场景图片；

判别器网络是由多个卷积层加正则化层以及激活层组成，将输入图片与预测结果一起送入判别器网络，经过卷积层提取高维特征之后，接入激活函数层，最终输出关于对应感受野图片块真假的预测分数；

损失网络由VGG网络组成，VGG网络由多个卷积层、正则化层、激活函数层以及池化层叠加而成，将对应的预测图片和真实标签图片一起送入损失网络，可以进行优化两张图片在高维特征上的距离计算相对应的代价函数；

然后将成对图片输入到全卷积隐藏神经网络模型，首先由卷积特征抽取支路网络抽取高维特征进行文本与非文本特征的区分，接受由反卷积支路去预测对应的非文本特征，将成对图片输入到全卷积隐藏神经网络中的过程中，由于特征经过低维到高维再到低维的转换，一些细节信息会被丢失，因此还需要用侧向连接模块将对应大小分别来自于卷积支路和反卷积支路的特征进行融合，对这两个特征向量进行按元素相加之后送入下一个反卷积模块，直到最后输出一个关于非文本的自然场景图片的预测结果，再将自然场景文本图片输入到全卷积隐藏神经网络模型中，代价函数由重组损失函数和对抗损失函数组成，具体如公式(1)所示：

其中，λ_e，λ_i，λ_t表示各个损失函数的权重；

其中，

为多尺度回归损失，

表示对应第i个反卷积层预测出来的输出，

语义损失

计算公式如公式(3)所示：

其中，

代表对应的真实的非文本图片，

代表对应的预测的非文本图片，

表示经过VGG网络第n个层之后的特征图；

纹理损失

计算公式如公式(4)所示：

其中，HnWnCn代表高维特征图的形状，

去噪损失

计算公式如公式(5)所示：

其中，i,j代表预测图片

上的像素点，是通过控制相邻像素之间的差值来进行去噪从而提高图片的品质；

最后利用多个重组的回归损失和对抗性损失作为监督信号，以交替训练的优化方式来训练全卷积隐藏神经网络模型直至收敛，具体过程为：使用反向传播算法，从最后一层计算传递梯度，逐层传递，更新所有的参数权重，达到训练网络的目的，训练采用交替训练的优化方式，首先初始化所有的网络结构，接着固定生成器网络训练判别器网络，然后反过来使用固定判别器网络训练生成器网络和损失网络，接着再次固定生成器网络训练判别器网络，以此类推直至模型收敛；

步骤三：测试网络，先将一张自然场景文本图片输入到全卷积隐藏神经网络模型的生成器网络中，生成器网络的输出即为最后的预测结果和全卷积隐藏神经网络模型预测的对应的非文本图片。

通过将文本检测以及图片填补的机制隐式的融入到全卷积隐藏神经网络模型的训练当中，在全卷积隐藏神经网络模型训练阶段利用判别器辅助训练生成器，从而保证全卷积隐藏神经网络模型回归的预测值更加接近于真实，通过人工标注一定数量的配对的自然场景文本图片与非文本图片数据可以增加全卷积隐藏神经网络模型的泛化性能，在全卷积隐藏神经网络模型的训练过程中利用对抗式生成网络提高网络的擦除效果，从而可以生成高品质的非文本图片预测，同时，本发明方法创建的深度全卷积隐藏神经网络模型是灵活的，可以通过不同基本网络结构实现的，实现方法方便简单，具有较强的实用性。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于全卷积网络的深度模型的场景文本擦除方法，其特征在于，包括以下步骤：

步骤三：测试网络，输入一张自然场景文本图像，利用全卷积隐藏神经网络模型返回预测结果；

所述步骤二中条件生成对抗全卷积隐藏神经网络模型由三个子网络组成，具体为生成器网络、判别器网络和损失网络，所述生成器网络是基于全卷积神经网络的结构进行设计的，它的输入是一张自然场景图片；

所述步骤二中将成对图片输入到全卷积隐藏神经网络中时，首先由卷积特征抽取支路网络抽取高维特征进行文本与非文本特征的区分，接着由反卷积支路去预测对应的非文本特征；由于特征经过低维到高维再到低维的转换，一些细节信息会被丢失，因此还需要用侧向连接模块将对应大小分别来自于卷积特征抽取支路和反卷积支路的特征进行融合，对来自所述卷积特征抽取支路的特征向量和来自所述反卷积支路的特征向量进行按元素相加之后送入下一个反卷积模块，直到最后输出一个关于非文本的自然场景图片的预测结果。

2.根据权利要求1所述的一种基于全卷积网络的深度模型的场景文本擦除方法，其特征在于：所述步骤一中合成的一定数量的成对的自然场景文本与非文本图片需要被划分成训练集和测试集，训练集用于训练全卷积隐藏神经网络模型，测试集用于测试全卷积隐藏神经网络模型的性能。

3.根据权利要求1所述的一种基于全卷积网络的深度模型的场景文本擦除方法，其特征在于：所述判别器网络是由多个卷积层加正则化层以及激活层组成，将输入图片与预测结果一起送入判别器网络，经过卷积层提取高维特征之后，接入激活函数层，最终输出关于对应感受野图片块真假的预测分数。

4.根据权利要求1所述的一种基于全卷积网络的深度模型的场景文本擦除方法，其特征在于：所述损失网络由VGG网络组成，所述VGG网络由多个卷积层、正则化层、激活函数层以及池化层叠加而成，将对应的预测图片和真实标签图片一起送入损失网络，可以进行优化两张图片在高维特征上的距离。

5.根据权利要求1所述的一种基于全卷积网络的深度模型的场景文本擦除方法，其特征在于：所述步骤二中使用反向传播算法对该条件生成对抗全卷积隐藏神经网络模型进行训练的具体过程为：使用反向传播算法，从最后一层计算传递梯度，逐层传递，更新所有的参数权重，达到训练网络的目的，训练采用交替训练的优化方式，首先初始化所有的网络结构，接着固定生成器网络训练判别器网络，然后反过来使用固定判别器网络训练生成器网络和损失网络，接着再次固定生成器网络训练判别器网络，以此类推直至模型收敛。

6.根据权利要求1所述的一种基于全卷积网络的深度模型的场景文本擦除方法，其特征在于：所述步骤三中先将一张自然场景文本图片输入到全卷积隐藏神经网络模型的生成器网络中，生成器网络的输出即为最后的预测结果和全卷积隐藏神经网络模型预测的对应的非文本图片。