CN112926569A - 一种社交网络中的自然场景图像文本检测方法 - Google Patents
一种社交网络中的自然场景图像文本检测方法 Download PDFInfo
- Publication number
- CN112926569A CN112926569A CN202110279656.1A CN202110279656A CN112926569A CN 112926569 A CN112926569 A CN 112926569A CN 202110279656 A CN202110279656 A CN 202110279656A CN 112926569 A CN112926569 A CN 112926569A
- Authority
- CN
- China
- Prior art keywords
- granularity
- loss
- text
- geometric
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000004927 fusion Effects 0.000 claims abstract description 35
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 11
- 239000007787 solid Substances 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 235000019580 granularity Nutrition 0.000 description 37
- 230000006870 function Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 101100247599 Hordeum vulgare RCAB gene Proteins 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000007526 fusion splicing Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明属于社交网络技术领域,具体涉及一种社交网络中的自然场景图像文本检测方法,该方法包括:实时获取社交网络中待检测的自然场景图像数据;对获取的数据进行预处理;将预处理后的数据输入到训练好的多粒度特征融合模型中,得到数据检测结果;本发明不仅可以提高图像中的文本检测准确率,而且减少了复杂模型所需要的时间开销,优化了自然场景下复杂环境对图像中文本检测的影响。
Description
技术领域
本发明属于社交网络技术领域,具体涉及一种社交网络中的自然场景图像文本检测方法。
背景技术
随着互联网的的发展和移动通讯设备的普及,用户不再仅仅在电脑端使用移动社交网络平台所提供的各种服务,而是随时随地在通过各种移动设备进行着个人的网上社交。在信息时代的大环境下,社交网络已成为人们线上沟通交流,传递信息最常用的工具。目前,社交网络中的用户越来越倾向于用图片来分享自己的生活状态和生活轨迹。文本作为人类文明的标志、信息交流的载体,广泛地存在与社交网络中的自然场景图像中,相较于图像中的其它自然场景内容,如:树木、行人、建筑物等各种景观,自然场景中的文字则具有更强的逻辑性与更概括的表达性,能提供更多的高层语义信息,准确地识别图像中的文本将有助于场景内容的分析与理解,有助于获取社交网络用户的生活足迹相关信息,对用户的社交关系分析起着极其重要的作用。
目前,针对自然场景文本处理的研究工作主要使用两大类方法。第一种是传统的自然场景文本检测方法,该方法又分为基于像素连通域分析的方法和基于滑动检测窗口的方法,该方法主要依赖于图像的像素和文本的形状、排列、笔画宽度等特征,首先获得文本候选区域,然后采用手动设计的特征对所获得的候选区域进行验证,以此确定图像中的文本信息区域。另一种是基于深度学习的自然场景文本检测方法,深度学习的方法通过神经网络模型组合低层特征从而形成高层特征来表示属性类别,并设计专用的损失函数让计算机自动并精准学习图像中文字信息的特征。
但是由于目前对深度神经网络模型的鲁棒性要求越来越高,过于复杂以及多方向与形变文本检测的问题,因此需要综合鲁棒性和模型检测精确度,以达到对社交网络中的图像进行有效分析。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种社交网络中的自然场景图像文本检测方法,该方法包括:实时获取社交网络中待检测的自然场景图像数据;对获取的数据进行预处理;将预处理后的数据输入到训练好的多粒度特征融合模型中,得到数据检测结果;
训练多粒度特征融合模型的过程包括:
S1:采集社交网络中的自然场景图像数据集,对图像中的文本信息进行标注;
S2:将获取的数据集划分为训练集和测试集,对训练集中的数据进行预处理;
S3:将预处理后的数据输入到多粒度特征融合模型中进行训练;
S4:将测试集中的数据输入到训练后的多粒度特征融合模型中,得到该图像文本预测和文本几何图矩阵;
S5:根据可视化文本框计算模型的损失函数;当损失函数最小时,完成模型的训练;
S6:将测试集中的数据输入到模型中,输出文本特征向量,对输出的文本特征向量进行消除冗余计算,在检测图像上生成可视化文本框。
优选的,对数据集中的数据进行划分的过程包括:采用交叉验证的方式将已标注的图像数据随机选取2/3的数据作为训练集,其他数据作为验证集;对于训练集中的数据,根据图像标注信息对标注的文本框加入0、1标签,其中人眼难以识别的包含模糊、细小文本的标注框信息标为0,清晰可见具有语义的文本标注框信息标为1。
优选的,将预处理后的数据输入到多粒度特征融合模型中进行训练的过程包括:
S31:提取输入图像的四个粒度信息,将大小为输入图像的1/4的特征向量设置为粒度1,大小为输入图像的1/8的特征向量设置为粒度2,将大小为输入图像的1/16的特征向量设置为粒度3,将大小为输入图像的1/32的特征向量设置为粒度4;
S32:采用ReLU激活函数对提取的四个粒度信息进行激活;
S33:将激活后的四个粒度信息进行特征融合;其中粒度1和粒度2融合,粒度2和粒度3融合,粒度3和粒度4融合,生成三个多粒度特征图;
S34:将三个多粒度特征向量进行融合得到最终的预测特征。
进一步的,在进行多粒度融合过程中,采用通道注意力机制对残差通道注意力网络进行改进;多粒度融合的表达式为:
hj=concat(Unpool(fj-1),fj)
其中,j∈{2,3,4},concat(·)表示向量的拼接操作,Unpool(·)表示双线性插值计算;
采用通道注意力机制对残差通道注意力网络进行改进的公式为:
CAi=σ(Wihi+bi)
其中,i,j∈{1,2,3},h·代表进行粒度融合后的特征向量,Wi,Wj代表可学习的参数,σ(·)代表sigmoid激活函数,CAi和RCAj分别代表生成的通道注意力权重值和残差通道注意力权重值。
进一步的,得到最终的预测特征的表达式为:
Z=σ(Pool(concat(RCA1,RCA2,RCA3)))
其中,concat(·)表示向量的拼接操作,Pool(·)表示最大池化,σ(·)表示ReLU激活函数。
优选的,计算模型的损失函数的过程为:
S51:确定模型的损失函数种类,包括分数图损失和几何图损失;
S52:采用Dice损失函数对分数图进行优化,得到分数图损失Ls;
S53:采用IOU损失函数对几何图进行优化,得到几何图损失Lg;
S54:根据分数图损失Ls和几何图损失Lg得到模型的损失函数。
进一步的,分数图损失Ls的表达式为:
其中,ytrue和ypred分别表示分数图的真实值和预测值。
进一步的,得到几何图损失Lg的过程包括:
S531:采用IOU损失函数对矩形框进行优化,优化后的表达式为:
S533:根据矩形框损失LR和旋转角度损失计算几何图损失Lg,其表达式为:
Lg=LR+λθLθ
其中,λθ表示几何图损失的权重参数。
进一步的,模型的损失函数为:
L=Ls+λgLg
其中,λg表示权重。
优选的,在检测图像上生成可视化文本框的过程包括:
S61:根据模型预测输出的几何特征向量生成对应的几何体,判断生成的几何体是否为有效的几何体,若有效,则保留,否则舍弃;
S62:对生成的几何体依次进行IOU计算,若两个几何体的相交面积大于设置的阈值,则对该两个几何体进行合并,得到合并后的几何体,否则不进行合并;
S63:对和并后的几何体进行集合,根据几何体的权值进行降序排列,将该序列记为List,取List中权值最高的几何体x,依次计算该几何体与其它几何体的IoU值,判断该值与设置的阈值的大小,若大于设置的阈值,则保留x,否则丢弃x并将List中的权值剔除;
S64:依次对List中所有的权值重复步骤S63,直到List中所有的权值王朝迭代筛选;
S65:将完成筛选的几何体映射到图像的对应位置,生成最终的文本预测框。
本发明基于基础特征网络提取出的特征,抽取不同卷积层的粒度特征,利用上采样逐层往上将特征两两融合,依层次进行粒度融合的方式使VGG-16网络提取出来的特征图联系更紧密,让神经网络在训练模型的过程中能够更好地学习到不同粒度之间信息的关系,利于增加网络的性能;本发明在进行粒度特征融合的时候加入基于通道注意力改进的残差通道注意力网络,不仅可以提升网络对文本信息的聚焦,也可以通过残差思想将上下有联系的特征相结合,防止有用特征的丢失。
附图说明
图1为本发明的文本检测流程示意图;
图2为本发明的模型训练结构示意图;
图3为本发明的多粒度特征融合网络结构示意图;
图4为基础特征提取网络VGG16结构示意图;
图5为多粒度特征融合模块结构示意图;
图6为残差通道注意力网络模块结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种社交网络中的自然场景图像文本检测方法,如图1所示,该方法包括:实时获取社交网络中待检测的自然场景图像数据;对获取的数据进行预处理;将预处理后的数据输入到训练好的多粒度特征融合模型中,得到数据检测结果。
如图2所示,训练多粒度特征融合模型的过程包括:
S1:采集社交网络中的自然场景图像数据集,对图像中的文本信息进行标注;
S2:将获取的数据集划分为训练集和测试集,对训练集中的数据进行预处理;
S3:将预处理后的数据输入到多粒度特征融合模型中进行训练;
S4:将测试集中的数据输入到训练后的多粒度特征融合模型中,得到该图像文本预测和文本几何图矩阵;
S5:根据可视化文本框计算模型的损失函数;当损失函数最小时,完成模型的训练;
S6:将测试集中的数据输入到训练过的模型中,输出文本特征向量,对输出的文本特征向量进行消除冗余计算,在检测图像上生成可视化文本框。
如图3所示,多粒度特征融合模型的结构包括基础特征提取网络、多粒度特征融合模块以及残差通道注意力模块。
一种基础特征提取网络的具体结构,如图4所示,本发明的基础特征提取网络为VGG-16结构。首先,图像经过VGG-16网络进行特征提取;然后,将提取特征的网络按粒度分层,提取网络层block2的输出为粒度1,提取网络层block3的输出为粒度2,提取网络层block4的输出为粒度3,提取网络层block5的输出为粒度4。采用多粒度特征融合模块将四个粒度进行拼接融合生成三个多粒度特征图,多粒度特征融合模块的结构如图5所示。图5中的RCAB为残差通道注意力模块,其结构如图6所示,将生成的三个多粒度特征图进行卷积操作,提取特征,将提取的特征输入到下一个卷积层,并将前一个卷积层提取的特征与第二个卷积层提取的特征进行乘积,并将乘积结果与输入的特征图进行融合拼接,生成最后的输出特征图。
对数据集中的数据进行划分的过程包括:采用交叉验证的方式将已标注的图像数据随机选取2/3的数据作为训练集,其他数据作为验证集;对于训练集中的数据,根据图像标注信息对标注的文本框加入0、1标签,其中人眼难以识别的包含模糊、细小文本的标注框信息标为0,清晰可见具有语义的文本标注框信息标为1。
将预处理后的数据输入到多粒度特征融合模型中进行训练的过程包括:
S31:提取输入图像的四个粒度信息,将大小为输入图像的1/4的特征向量设置为粒度1,大小为输入图像的1/8的特征向量设置为粒度2,将大小为输入图像的1/16的特征向量设置为粒度3,将大小为输入图像的1/32的特征向量设置为粒度4;
S32:采用ReLU激活函数对提取的四个粒度信息进行激活;激活的公式为:
fi=σ(Conv(fi))
其中,i∈{1,2,3,4},fi为粒度信息,σ(·)为ReLU激活函数,Conv(·)表示卷积操作。
S33:将激活后的四个粒度信息进行特征融合;其中粒度1和粒度2融合,粒度2和粒度3融合,粒度3和粒度4融合,生成三个多粒度特征图;融合的表达式为:
hj=concat(Unpool(fj-1),fj)
其中,j∈{2,3,4},concat(·)表示向量的拼接操作,Unpool(·)表示双线性插值计算;
在进行多粒度融合过程中,采用通道注意力机制对残差通道注意力网络进行改进;其公式为:
CAi=σ(Wihi+bi)
其中,i,j∈{1,2,3},h·代表进行粒度融合后的特征向量,Wi,Wj代表可学习的参数,σ(·)代表sigmoid激活函数,CAi和RCAj分别代表生成的通道注意力权重值和残差通道注意力权重值。
S34:将三个多粒度特征向量进行融合得到最终的预测特征。预测特征的表达式为:
Z=σ(Pool(concat(RCA1,RCA2,RCA3)))
其中,concat(·)表示向量的拼接操作,Pool(·)表示最大池化,σ(·)表示ReLU激活函数。
计算模型的损失函数的过程为:
S51:确定模型的损失函数种类,包括分数图损失和几何图损失;将模型的输出分为两部分,一是模型对自然场景图像中的文字像素点的预测分数图,二是模型对文字框的几何特征预测。
S52:采用Dice损失函数对分数图进行优化,得到分数图损失Ls;分数图损失Ls的表达式为:
其中,ytrue和ypred分别表示分数图的真实值和预测值。
S53:采用IOU损失函数对几何图进行优化,得到几何图损失Lg;
S531:对于自然场景图像,文本的排列往往不是水平排列,对于文本框的几何特征预测,采用IOU损失函数对矩形框进行优化,优化后的表达式为:
其中,d1、d2、d3、d4分别表示特征图中像素到对应矩形的上、右、下、和左边界的距离。
联合区的表达式为:
旋转角度损失的表达式为:
S533:根据矩形框损失LR和旋转角度损失计算几何图损失Lg,其表达式为:
Lg=LR+λθLθ
其中,λθ表示几何图的损失权重参数。
优选的,λθ的值设置为10。
S54:根据分数图损失Ls和几何图损失Lg得到模型的损失函数。模型的损失函数的表达式为:
L=Ls+λgLg
其中,λg表示权重。
优选的,λg的值设置为1。
在检测图像上生成可视化文本框的过程包括:
S61:根据模型预测输出的几何特征向量生成对应的几何体,判断生成的几何体是否为有效的几何体,若有效,则保留,否则舍弃。
根据几何特征向量生成对应的几何体的过程包括根据模型预测输出的得分图和几何图计算生成的几何文本狂;从得分图中可以判断图像中的像素点是否属于文本框;从几何图中的可以判断像素点离文本框的四个距离和倾斜的角度;根据像素点是否属于文本框、素点离文本框的距离以及倾斜角度判断文本框的对角线是否相交,若相交,则为有效几何体,否则为无效几何体。
S62:对生成的几何体依次进行IoU计算,若两个几何体的相交面积大于设置的阈值,则对该两个几何体进行合并,得到合并后的几何体,否则不进行合并。
S63:对和并后的几何体进行集合,根据几何体的权值进行降序排列,将该序列记为List,取List中权值最高的几何体x,依次计算该几何体与其它几何体的IoU值,判断该值与设置的阈值的大小,若大于设置的阈值,则保留x,否则丢弃x并将List中的权值剔除;
S64:依次对List中所有的权值重复步骤S63,直到List中所有的权值王朝迭代筛选;
S65:将完成筛选的几何体映射到图像的对应位置,生成最终的文本预测框。
优选的,设置的阈值为0.3。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种社交网络中的自然场景图像文本检测方法,其特征在于,包括:实时获取社交网络中待检测的自然场景图像数据;对获取的数据进行预处理;将预处理后的数据输入到训练好的多粒度特征融合模型中,得到数据检测结果;
训练多粒度特征融合模型的过程包括:
S1:采集社交网络中的自然场景图像数据集,对图像中的文本信息进行标注;
S2:将获取的数据集划分为训练集和测试集,对训练集中的数据进行预处理;
S3:将预处理后的数据输入到多粒度特征融合模型中进行训练;
S4:将测试集中的数据输入到训练后的多粒度特征融合模型中,得到该图像文本预测和文本几何图矩阵;
S5:根据可视化文本框计算模型的损失函数;当损失函数最小时,完成模型的训练;
S6:将测试集中的数据输入到模型中,输出文本特征向量,对输出的文本特征向量进行消除冗余计算,在检测图像上生成可视化文本框。
2.根据权利要求1所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,对数据集中的数据进行划分的过程包括:采用交叉验证的方式将已标注的图像数据随机选取2/3的数据作为训练集,其他数据作为验证集;对于训练集中的数据,根据图像标注信息对标注的文本框加入0、1标签,其中人眼难以识别的包含模糊、细小文本的标注框信息标为0,清晰可见具有语义的文本标注框信息标为1。
3.根据权利要求1所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,将预处理后的数据输入到多粒度特征融合模型中进行训练的过程包括:
S31:提取输入图像的四个粒度信息,将大小为输入图像的1/4的特征向量设置为粒度1,大小为输入图像的1/8的特征向量设置为粒度2,将大小为输入图像的1/16的特征向量设置为粒度3,将大小为输入图像的1/32的特征向量设置为粒度4;
S32:采用ReLU激活函数对提取的四个粒度信息进行激活;
S33:将激活后的四个粒度信息进行特征融合;其中粒度1和粒度2融合,粒度2和粒度3融合,粒度3和粒度4融合,生成三个多粒度特征图;
S34:将三个多粒度特征向量进行融合得到最终的预测特征。
4.根据权利要求3所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,在进行多粒度融合过程中,采用通道注意力机制对残差通道注意力网络进行改进;多粒度融合的表达式为:
hj=concat(Unpool(fj-1),fj)
其中,j∈{2,3,4},concat(·)表示向量的拼接操作,Unpool(·)表示双线性插值计算;采用通道注意力机制对残差通道注意力网络进行改进的公式为:
CAi=σ(Wihi+bi)
其中,i,j∈{1,2,3},h·代表进行粒度融合后的特征向量,Wi,Wj代表可学习的参数,σ(·)代表sigmoid激活函数,CAi和RCAj分别代表生成的通道注意力权重值和残差通道注意力权重值。
5.根据权利要求3所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,得到最终的预测特征的表达式为:
Z=σ(Pool(concat(RCA1,RCA2,RCA3)))
其中,concat(·)表示向量的拼接操作,Pool(·)表示最大池化,σ(·)表示ReLU激活函数。
6.根据权利要求1所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,计算模型的损失函数的过程为:
S51:确定模型的损失函数种类,包括分数图损失和几何图损失;
S52:采用Dice损失函数对分数图进行优化,得到分数图损失Ls;
S53:采用IOU损失函数对几何图进行优化,得到几何图损失Lg;
S54:根据分数图损失Ls和几何图损失Lg得到模型的损失函数。
9.根据权利要求6所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,模型的损失函数为:
L=Ls+λgLg
其中,λg表示权重。
10.根据权利要求1所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,在检测图像上生成可视化文本框的过程包括:
S61:根据模型预测输出的几何特征向量生成对应的几何体,判断生成的几何体是否为有效的几何体,若有效,则保留,否则舍弃;
S62:对生成的几何体依次进行IOU计算,若两个几何体的相交面积大于设置的阈值,则对该两个几何体进行合并,得到合并后的几何体,否则不进行合并;
S63:对和并后的几何体进行集合,根据几何体的权值进行降序排列,将该序列记为List,取List中权值最高的几何体x,依次计算该几何体与其它几何体的IoU值,判断该值与设置的阈值的大小,若大于设置的阈值,则保留x,否则丢弃x并将List中的权值剔除;
S64:依次对List中所有的权值重复步骤S63,直到List中所有的权值王朝迭代筛选;
S65:将完成筛选的几何体映射到图像的对应位置,生成最终的文本预测框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110279656.1A CN112926569B (zh) | 2021-03-16 | 2021-03-16 | 一种社交网络中的自然场景图像文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110279656.1A CN112926569B (zh) | 2021-03-16 | 2021-03-16 | 一种社交网络中的自然场景图像文本检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112926569A true CN112926569A (zh) | 2021-06-08 |
CN112926569B CN112926569B (zh) | 2022-10-18 |
Family
ID=76175214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110279656.1A Active CN112926569B (zh) | 2021-03-16 | 2021-03-16 | 一种社交网络中的自然场景图像文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926569B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114362988A (zh) * | 2021-09-29 | 2022-04-15 | 中国科学院计算机网络信息中心 | 网络流量的识别方法及装置 |
Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140281847A1 (en) * | 2013-03-15 | 2014-09-18 | Facebook, Inc. | Overlaying Photographs With Text On A Social Networking System |
US20140270404A1 (en) * | 2013-03-15 | 2014-09-18 | Eyelock, Inc. | Efficient prevention of fraud |
CN105302428A (zh) * | 2014-07-29 | 2016-02-03 | 腾讯科技(深圳)有限公司 | 基于社交网络的动态信息展示方法和装置 |
CN105528618A (zh) * | 2015-12-09 | 2016-04-27 | 微梦创科网络科技(中国)有限公司 | 一种基于社交网络的短图片文本识别方法及装置 |
US20170004374A1 (en) * | 2015-06-30 | 2017-01-05 | Yahoo! Inc. | Methods and systems for detecting and recognizing text from images |
CN107357889A (zh) * | 2017-07-11 | 2017-11-17 | 北京工业大学 | 一种基于内容或情感相似性的跨社交平台图片推荐算法 |
US20180373751A1 (en) * | 2017-06-21 | 2018-12-27 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for recognizing a low-quality news resource, computer device and readable medium |
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
CN109919106A (zh) * | 2019-03-11 | 2019-06-21 | 同济大学 | 渐进式目标精细识别与描述方法 |
CN110084734A (zh) * | 2019-04-25 | 2019-08-02 | 南京信息工程大学 | 一种基于物体局部生成对抗网络的大数据权属保护方法 |
CN110210413A (zh) * | 2019-06-04 | 2019-09-06 | 哈尔滨工业大学 | 一种基于深度学习的多学科试卷内容检测与识别系统及方法 |
CN111079444A (zh) * | 2019-12-25 | 2020-04-28 | 北京中科研究院 | 一种基于多模态关系的网络谣言检测方法 |
CN111104339A (zh) * | 2019-12-31 | 2020-05-05 | 上海艺赛旗软件股份有限公司 | 基于多粒度学习的软件界面元素检测方法、系统、计算机设备和存储介质 |
CN111160452A (zh) * | 2019-12-25 | 2020-05-15 | 北京中科研究院 | 一种基于预训练语言模型的多模态网络谣言检测方法 |
CN111178133A (zh) * | 2019-12-03 | 2020-05-19 | 哈尔滨工程大学 | 一种基于剪枝深度模型用于自然场景图像文本识别方法 |
CN111177447A (zh) * | 2019-12-26 | 2020-05-19 | 南京大学 | 一种基于深度网络模型的行人图像识别方法 |
CN111223483A (zh) * | 2019-12-10 | 2020-06-02 | 浙江大学 | 一种基于多粒度知识蒸馏的唇语识别方法 |
CN111488739A (zh) * | 2020-03-17 | 2020-08-04 | 天津大学 | 基于多粒度生成图像增强表示的隐式篇章关系识别方法 |
CN111582119A (zh) * | 2020-04-29 | 2020-08-25 | 上海海事大学 | 一种文档图像处理方法以及二值化模型的训练方法 |
CN112085090A (zh) * | 2020-09-07 | 2020-12-15 | 百度在线网络技术(北京)有限公司 | 翻译方法、装置以及电子设备 |
CN112241481A (zh) * | 2020-10-09 | 2021-01-19 | 中国人民解放军国防科技大学 | 基于图神经网络的跨模态新闻事件分类方法及系统 |
WO2021022521A1 (zh) * | 2019-08-07 | 2021-02-11 | 华为技术有限公司 | 数据处理的方法、训练神经网络模型的方法及设备 |
CN112418216A (zh) * | 2020-11-18 | 2021-02-26 | 湖南师范大学 | 一种复杂自然场景图像中的文字检测方法 |
-
2021
- 2021-03-16 CN CN202110279656.1A patent/CN112926569B/zh active Active
Patent Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140281847A1 (en) * | 2013-03-15 | 2014-09-18 | Facebook, Inc. | Overlaying Photographs With Text On A Social Networking System |
US20140270404A1 (en) * | 2013-03-15 | 2014-09-18 | Eyelock, Inc. | Efficient prevention of fraud |
CN105302428A (zh) * | 2014-07-29 | 2016-02-03 | 腾讯科技(深圳)有限公司 | 基于社交网络的动态信息展示方法和装置 |
US20170004374A1 (en) * | 2015-06-30 | 2017-01-05 | Yahoo! Inc. | Methods and systems for detecting and recognizing text from images |
CN105528618A (zh) * | 2015-12-09 | 2016-04-27 | 微梦创科网络科技(中国)有限公司 | 一种基于社交网络的短图片文本识别方法及装置 |
US20180373751A1 (en) * | 2017-06-21 | 2018-12-27 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for recognizing a low-quality news resource, computer device and readable medium |
CN107357889A (zh) * | 2017-07-11 | 2017-11-17 | 北京工业大学 | 一种基于内容或情感相似性的跨社交平台图片推荐算法 |
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
CN109919106A (zh) * | 2019-03-11 | 2019-06-21 | 同济大学 | 渐进式目标精细识别与描述方法 |
CN110084734A (zh) * | 2019-04-25 | 2019-08-02 | 南京信息工程大学 | 一种基于物体局部生成对抗网络的大数据权属保护方法 |
CN110210413A (zh) * | 2019-06-04 | 2019-09-06 | 哈尔滨工业大学 | 一种基于深度学习的多学科试卷内容检测与识别系统及方法 |
WO2021022521A1 (zh) * | 2019-08-07 | 2021-02-11 | 华为技术有限公司 | 数据处理的方法、训练神经网络模型的方法及设备 |
CN111178133A (zh) * | 2019-12-03 | 2020-05-19 | 哈尔滨工程大学 | 一种基于剪枝深度模型用于自然场景图像文本识别方法 |
CN111223483A (zh) * | 2019-12-10 | 2020-06-02 | 浙江大学 | 一种基于多粒度知识蒸馏的唇语识别方法 |
CN111079444A (zh) * | 2019-12-25 | 2020-04-28 | 北京中科研究院 | 一种基于多模态关系的网络谣言检测方法 |
CN111160452A (zh) * | 2019-12-25 | 2020-05-15 | 北京中科研究院 | 一种基于预训练语言模型的多模态网络谣言检测方法 |
CN111177447A (zh) * | 2019-12-26 | 2020-05-19 | 南京大学 | 一种基于深度网络模型的行人图像识别方法 |
CN111104339A (zh) * | 2019-12-31 | 2020-05-05 | 上海艺赛旗软件股份有限公司 | 基于多粒度学习的软件界面元素检测方法、系统、计算机设备和存储介质 |
CN111488739A (zh) * | 2020-03-17 | 2020-08-04 | 天津大学 | 基于多粒度生成图像增强表示的隐式篇章关系识别方法 |
CN111582119A (zh) * | 2020-04-29 | 2020-08-25 | 上海海事大学 | 一种文档图像处理方法以及二值化模型的训练方法 |
CN112085090A (zh) * | 2020-09-07 | 2020-12-15 | 百度在线网络技术(北京)有限公司 | 翻译方法、装置以及电子设备 |
CN112241481A (zh) * | 2020-10-09 | 2021-01-19 | 中国人民解放军国防科技大学 | 基于图神经网络的跨模态新闻事件分类方法及系统 |
CN112418216A (zh) * | 2020-11-18 | 2021-02-26 | 湖南师范大学 | 一种复杂自然场景图像中的文字检测方法 |
Non-Patent Citations (4)
Title |
---|
YINING MENG ET AL.: "MULTI-LAYER CONVOLUTIONAL NEURAL NETWORK MODEL BASED ON PRIOR KNOWLEDGE OF KNOWLEDGE GRAPH FO TEXT CLASSIFICATION", 《2019 IEEE 4TH INTERNATIONAL CONFERENCE ON CLOUD COMPUTINGAND BIG DATA ANALYSIS》 * |
江伟忠等: "基于特征点相关性的行人重识别方法", 《集成技术》 * |
王林等: "卷积深度置信网络的场景文本检测", 《计算机系统应用》 * |
袁韶祖等: "基于多粒度视频信息和注意力机制的视频场景识别", 《计算机系统应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114362988A (zh) * | 2021-09-29 | 2022-04-15 | 中国科学院计算机网络信息中心 | 网络流量的识别方法及装置 |
CN114362988B (zh) * | 2021-09-29 | 2023-06-20 | 中国科学院计算机网络信息中心 | 网络流量的识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112926569B (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084331B (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN110287960A (zh) | 自然场景图像中曲线文字的检测识别方法 | |
CN108564097B (zh) | 一种基于深度卷积神经网络的多尺度目标检测方法 | |
US20210012198A1 (en) | Method for training deep neural network and apparatus | |
CN110738207A (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN109726718B (zh) | 一种基于关系正则化的视觉场景图生成系统及方法 | |
CN111241989A (zh) | 图像识别方法及装置、电子设备 | |
CN111488873B (zh) | 一种基于弱监督学习的字符级场景文字检测方法和装置 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN111598183A (zh) | 一种多特征融合图像描述方法 | |
CN114049512A (zh) | 模型蒸馏方法、目标检测方法、装置及电子设备 | |
JP2023527615A (ja) | 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム | |
CN112070040A (zh) | 一种用于视频字幕的文本行检测方法 | |
CN111666937A (zh) | 一种图像中的文本识别方法及系统 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN112037239B (zh) | 基于多层次显式关系选择的文本指导图像分割方法 | |
CN117423134A (zh) | 一种人体目标检测和解析的多任务协同网络及其训练方法 | |
CN114332288B (zh) | 基于短语驱动生成对抗网络的文本生成图像的方法及网络 | |
CN112926569B (zh) | 一种社交网络中的自然场景图像文本检测方法 | |
Dong et al. | Intelligent pixel-level pavement marking detection using 2D laser pavement images | |
CN114359917A (zh) | 一种手写汉字检测识别及字形评估方法 | |
Wang et al. | Self-attention deep saliency network for fabric defect detection | |
CN113688864B (zh) | 一种基于分裂注意力的人-物交互关系分类方法 | |
CN117829243A (zh) | 模型训练方法、目标检测方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |