[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN106919951A - 一种基于点击与视觉融合的弱监督双线性深度学习方法 - Google Patents

一种基于点击与视觉融合的弱监督双线性深度学习方法 Download PDF

Info

Publication number
CN106919951A
CN106919951A CN201710059373.XA CN201710059373A CN106919951A CN 106919951 A CN106919951 A CN 106919951A CN 201710059373 A CN201710059373 A CN 201710059373A CN 106919951 A CN106919951 A CN 106919951A
Authority
CN
China
Prior art keywords
click
sample
visual
formula
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710059373.XA
Other languages
English (en)
Other versions
CN106919951B (zh
Inventor
俞俊
谭敏
郑光剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201710059373.XA priority Critical patent/CN106919951B/zh
Publication of CN106919951A publication Critical patent/CN106919951A/zh
Application granted granted Critical
Publication of CN106919951B publication Critical patent/CN106919951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于点击与视觉融合的弱监督双线性深度学习方法。本发明包括如下步骤:1、从点击数据集中提取每幅图像的文本构成的点击特征,并通过合并语义相近的文本,在合并后的文本空间下构建新的低维紧凑的点击特征;2、点击与视觉特征融合的深度模型构建;3、BP学习网络模型参数;4、计算每一个训练样本的模型预测损失,并构造样本集的相似度矩阵,同时利用样本损失和相似度矩阵学习样本可靠性,利用可靠性给样本加权;5、重复步骤3和4,迭代地优化神经网络模型和样本权重,从而训练整个网络模型直到收敛。本发明融合了点击数据和视觉特征从而构造了新的双线性卷积神经网络框架,能用来更好的对细粒度图像进行识别。

Description

一种基于点击与视觉融合的弱监督双线性深度学习方法
技术领域
本发明涉及细粒度图像分类方法,尤其涉及一种基于点击与视觉融合的弱监督双线性深度学习方法。
背景技术
细粒度分类(Fine-Grained Visual Categorization,FGVC)作为一个研究方向,是目标识别的一个子问题。它是对同一类型的物体中不同的子类进行区别,所涉及的目标从大体外观上而言都是极其相似的,需要有一定的相关先验知识才能对其区分,对于没有经验的人来说,做到这一点实属不易,而让计算机能够自动进行分类就更是充满挑战性。
在对于细粒度图像识别的研究任务中,马萨诸塞大学Tsung-Yu Lin等人提出了一种双线性卷积神经网络模型(Bilinear Convolution neutral networks,BCNN),通过将其应用于对细粒度图像识别的任务中,发现取得了非常好的效果。这种模型是基于近年来颇为热门的深度学习的内容,由两个不同的CNN网络框架组成,通过对一副图像进行不同的卷积得到两个不同表达性质的特征,并用外积相结合得到一个更具有表征能力的特征向量,从而实现了更好的针对细粒度图像的识别效果。
尽管从目前的现有技术来看,BCNN被证明了是在细粒度图像识别方面非常有效的一个模型,但是它在对利用图像的语义信息方面仍然有所不足。因此,设计出一种有效的语义特征就十分迫切。许多研究者希望能通过人工标注属性的方法来弥补这一点,然而这种手段由于人工成本过大而显得缺乏前景。为了解决这一问题,微软发布了一种新的大规模点击数据集Clickture。这个由微软发布的点击数据集来自于商业搜索引擎的记录,它由三部分组成:查询文本、被点击图片、相应的点击量。这三者共同表达了用户对于查询文本和图片之间相关关系,且点击量量化了相应的图片 和文本之间的关联程度。有了这个点击数据的帮助,图像就可以用每个查询文本作为属性,得到跟语义信息相关的特征,而点击量则表示特征对应每一维度(即属性)的值。
点击数据集作为从网上搜集来的数据,数据量大、人工成本小,且具有较好的表达语义信息的能力。由BCNN提取的视觉特征为主体搭配上点击数据带来的语义特征,对促进细粒度图像分类的效果具有一定的可行性,是值得研究的。此外,点击数据作为目前科研的热门方向,合理的使用也使得本发明具有一定的前沿性和创新性。
发明内容
本发明提供了一种基于点击与视觉融合的弱监督双线性深度学习方法,该方法融合了点击数据和视觉特征从而构造了新的双线性卷积神经网络框架,能用来更好的对细粒度图像进行识别。
一种基于点击与视觉融合的弱监督双线性深度学习方法,其步骤如下:
步骤(1)、点击数据预处理:
从点击数据集中提取每幅图像的文本构成的点击特征,并通过合并语义相近的文本,在合并后的文本空间下构建新的低维紧凑的点击特征;
步骤(2)、点击与视觉特征融合的深度模型构建:
对样本基于可靠性加权,构建一个带权重的三通道深度神经网络模型,其中两个通道提取图像视觉特征,第三通道处理步骤1的点击特征。将视觉与点击特征通过特征连接层进行融合;
步骤(3)、BP学习网络模型参数:
通过反向传播算法对步骤(2)中神经网络的网络模型参数进行训练,直至整个网络模型收敛。
步骤(4)、学习样本可靠性:
根据步骤(2)的神经网络模型,计算每一个训练样本的模型预测损失,并构造样本集的相似度矩阵,同时利用样本损失和相似度矩阵学习样本可 靠性,利用可靠性给样本加权;
步骤(5)、模型训练:
重复步骤3和4,迭代地优化神经网络模型和样本权重,从而训练整个网络模型直到收敛。
步骤(1)所述的从点击数据集中提取出图像对应的点击特征并将其按语义聚类合并,具体如下:
1-1.从点击数据集中提取出图像i对应的文本构成点击特征其具体公式如下:
其中ci,j是图像i和文本j对应的点击量。
1-2.为了得到短而紧凑的特征向量,对点击特征降维从而减小计算量并解决文本语义重复等问题,利用了K均值聚类的方法间接的对文本进行聚类,从而得到了一个文本聚类的索引并将同一类的文本的点击量相加,得到新的点击特征ui,具体如公式2所示:
其中表示第j个文本类。
步骤(2)所述的构建一个点击与视觉特征融合的深度模型,将视觉特征和点击特征连接在一起,具体如下:
2-1.构建一个三通道的网络框架结构W-C-BCNN,其中前两通道采用双线性卷积神经网络提取图像的视觉特征zi,第三通道提取步骤(1)中得到的对应图像的点击特征ui;然后将提取的视觉特征和点击特征通过连接层拼接起来,输出一个同时具有视觉和语义表达能力的特征oi,具体如公式3所示:
oi=(zi,μui)=(zi,1,zi,2,…,μui,1,μui,2,…)(公式3)
其中μ表示权重参数。
2-2.给定n个训练数据其中yi∈[1,2,...,N]表示每个数据的类别标签,通过解决弱监督双线性深度学习问题得到网络模型参数θ和样本可 靠性变量w*,从而训练整个网络模型直至收敛,具体如公式4所示:
其中,权重w*表示优化后得到训练样本可靠性,w表示优化前的权重,特别地,当权重始终为1时,我们称该网络框架为C-BCNN,由于权重是在不断迭代优化中学习得到的,所以我们称之为弱监督学习问题;P(w)为权重先验项,是基于点击数据的点击量来建模估计的,具体如公式5所示:
其中是归一化后的点击向量;T(·)是一种尺度变换的目标函数,控制wc尺度范围的对数变换函数,用于处理图片的点击数不平衡的情况;S(G,w)为平滑项,是根据图像视觉的一致性的假设(即视觉特征接近则权重接近),从而对图像进行正则化处理,具体如公式6所示:
其中gi,j表示样本相似度矩阵G中的值,该图是利用深度视觉特征z的相似度来计算和构建的。
步骤(3)所述的利用反向传播算法训练网络模型参数直至收敛,具体如下:
3-1利用反向传播算法训练得到模型参数θ,让作为损失函数对输入的梯度,则根据链式法则可以得到关于两个深度网络A和B的反向传播公式,具体如公式7所示:
其中,
步骤(4)所述的利用样本损失和相似度矩阵学习样本的可靠性变量w*,具体如下:
4-1.通过将数据输入到基于步骤(2)构建的网络中计算,提取其中任意一个训练样本i的softmax损失值
4-2.通过固定θ,将公式4转化为求解如下二次规划的最优化问题,学习得到样本可靠性参数,其具体如公式8所示:
其中I表示单位向量,E表示单位矩阵,Llap表示G的拉普拉斯矩阵,具体定义如公式9所示:
步骤(5)所述的迭代地优化模型参数和样本权重直至收敛,其具体过程如下:
5-1.依据弱监督学习问题,通过控制变量的方式分两步迭代地优化步骤3和4,从而训练整个网络模型直至收敛:1)固定每个权重wi,通过解决W-C-BCNN的问题学习得到网络模型参数θ;2)固定每个θ,将公式4转化为二次规划,学习得到样本可靠性变量w*
本发明有益效果:
本发明融合了点击数据和视觉特征从而构造了双线性卷积神经网络框架,改善了以往单一视觉特征用于识别图像的缺陷,不仅能通过同时捕捉图像的视觉和语义信息得到更具有表征能力的特征,还能基于数据样本的可靠性自动的对训练数据加权,改善了细粒度图像识别的效果;此外,点击数据作为目前的研究热点,合理的使用也使得本发明更具有科研前沿性和创新性。
附图说明
图1是本发明方法的具体流程示意图。
图2是本发明方法中构造的网络框架示意图。
图3是本发明方法的网络模型训练示意图。
具体实施方式
下面结合附图对本发明做进一步具体说明。
如图1所示,一种基于点击与视觉融合的弱监督双线性深度学习方法,具体包括如下步骤:
步骤(1)所述的从点击数据集中提取出图像对应的点击特征并将其按语义聚类合并,具体如下:
1-1.为了满足实验需求,我们从微软提供的点击数据集Clickture中单独提出所有和狗相关的样本,组成一个新的数据集Clickture-Dog。该数据集有344类狗的图片,我们过滤图片数少于5张的种类,最后得到283组图片。然后,对该数据集以5∶3∶2的形式分割成训练、验证、测试。为了改善训练时每类图片数量的不平衡,我们将选择大于300张的类,从中随机选取仅300张用来训练。
1-2.从点击数据集Clickture-Dog中提取出图像i对应的文本构成点击特征具体如公式1所示,其长度为48万维。
1-3.为了得到短而紧凑的特征向量,对点击特征降维从而减小计算量并解决文本语义重复等问题,利用了K均值聚类的方法间接的对文本进行聚类,从而得到了一个文本聚类的索引并将同一类的文本的点击量相加,得到新的点击特征,其具体如公式2所示,最后得到点击特征长度为4318维。
步骤(2)所述的构建一个点击与视觉特征融合的深度模型,将视觉特征和点击特征连接在一起,具体如下:
2-1.构建一个三通道的网络框架结构W-C-BCNN,如图2所示,其中前两通道采用双线性卷积神经网络提取图像的视觉特征zi,两条通道分别采 用了VGG-M和VGG-16,得到的视觉特征长度为512*512维,第三通道提取步骤(1)中得到的对应图像的点击特征ui;然后将提取的视觉特征和点击特征通过连接层拼接起来,具体如公式3所示;其中针对公式中的μ设为1,在网络特征连接层之后再增加一层dropout层,其参数值设为0.1,即保留0.1的值。
2-2.针对给定的n个训练数据其中yi∈[1,2,...,N]表示每个数据的类别标签,通过解决弱监督学习问题得到网络模型参数θ和样本可靠性变量w*,具体如公式4。当权重w*始终设为1时,我们实验得到C-BCNN的网络效果;当权重w*初始设为1,随着迭代优化不断学习得到时,我们实验得到W-C-BCNN的网络效果。
2-3.针对公式4中的α和β,我们选取了一系列具体的参数值,其中α∈(0.01,0.1,1,10)、β∈(0.001,0.01,0.1,1,10),实验得知效果最好的一组是α=0.1、β=1。
2-4.针对公式6中的相似度矩阵G,是根据深度视觉特征z的相似度来计算和构建的,该深度视觉特征有VGG网络提取得到。
步骤(3)所述的利用反向传播算法训练网络模型参数直至收敛,具体如下:
3-1.如图3所示,利用反向传播算法训练得到模型参数θ,让作为损失函数对输入的梯度,则根据链式法则可以得到关于两个深度网络A和B的反向传播公式,具体如公式6所示。
步骤(4)所述的利用样本损失和相似度矩阵学习样本的可靠性变量w*,具体如下:
4-1.通过将数据输入到基于步骤(2)构建的网络中计算,提取其中任意一个训练样本i的softmax损失值
4-2.通过固定θ,将公式4转化为求解二次规划的最优化问题,学习得到样本可靠性参数,其具体如公式8所示,针对公式9中G可以由公式6计算得到。
步骤(5)所述的迭代地优化模型参数和样本权重直至收敛,其具体过程如下:
5-1.依据弱监督学习问题,通过控制变量的方式分两步迭代地优化步骤3和4,从而训练整个网络模型直至收敛:1)固定每个权重wi,通过解决W-C-BCNN的问题学习得到网络模型参数θ;2)固定每个θ,将公式3转化为二次规划,学习得到样本可靠性变量w*
5-2.测试网络模型:针对学到的权重向量,为了控制其范围,对学习得到的权重设定一个阈值(实验中设为2),将权重超过阈值的部分平均分配给对应的项。我们对通过这种方法实现的效果和其他方法进行了对比,得到的结果如表2所示。另外为了提高计算效益,我们采用了maxpooling的方法缩短视觉特征的维度到4096维,然后统一在此标准下进行了识别准确度的比较。
表1是C-BCNN与BCNN的识别准确度比较,以及改善的比例。
表2是C-BCNN与W-C-BCNN之间的识别准确度比较,展示了在对权重的不同处理下的效果,其中W-C-BCNN(T)是控制了权重向量范围的方法,W-C-BCNN是不控制范围的方法。

Claims (6)

1.一种基于点击与视觉融合的弱监督双线性深度学习方法,其特征在于包括如下步骤:
步骤(1)、点击数据预处理:
从点击数据集中提取每幅图像的文本构成的点击特征,并通过合并语义相近的文本,在合并后的文本空间下构建新的低维紧凑的点击特征;
步骤(2)、点击与视觉特征融合的深度模型构建:
对样本基于可靠性加权,构建一个带权重的三通道深度神经网络模型,其中两个通道提取图像视觉特征,第三通道处理步骤1的点击特征;将视觉与点击特征通过特征连接层进行融合;
步骤(3)、BP学习模型参数:
通过反向传播算法对步骤(2)中神经网络的网络模型参数进行训练,直至整个网络模型收敛;
步骤(4)、学习样本可靠性:
根据步骤(2)的神经网络模型,计算每一个训练样本的模型预测损失,并构造样本集的相似度矩阵,同时利用样本损失和相似度矩阵学习样本可靠性,利用可靠性给样本加权;
步骤(5)、模型训练:
重复步骤3和4,迭代地优化神经网络模型和样本权重,从而训练整个网络模型直到收敛。
2.根据权利要求1所述的一种基于点击与视觉融合的弱监督双线性深度学习方法,其特征在于步骤(1)所述的从点击数据集中提取出图像对应的点击特征并将其按语义聚类合并,具体如下:
1-1.从点击数据集中提取出图像i对应的文本构成点击特征其具体公式如下:
其中ci,j是图像i和文本j对应的点击量;
1-2.为了得到短而紧凑的特征向量,对点击特征降维从而减小计算量并解决文本语义重复等问题,利用了K均值聚类的方法间接的对文本进行聚类,从而得到了一个文本聚类的索引并将同一类的文本的点击量相加,得到新的点击特征ui,具体如公式2所示:
其中表示第j个文本类。
3.根据权利要求1所述的一种基于点击与视觉融合的弱监督双线性深度学习方法,其特征在于步骤(2)所述的构建一个点击与视觉特征融合的深度模型,将视觉特征和点击特征连接在一起,具体如下:
2-1.构建一个三通道的网络框架结构W-C-BCNN,其中前两通道采用双线性卷积神经网络提取图像的视觉特征zi,第三通道提取步骤(1)中得到的对应图像的点击特征ui;然后将提取的视觉特征和点击特征通过连接层拼接起来,输出一个同时具有视觉和语义表达能力的特征oi,具体如公式3所示:
oi=(zi,μui)=(zi,1,zi,2,…,μui,1,μui,2,…) (公式3)
其中μ表示权重参数;
2-2.给定n个训练数据其中yi∈[1,2,...,N]表示每个数据的类别标签,通过解决弱监督双线性深度学习问题得到网络模型参数θ和样本可靠性变量w*,从而训练整个网络模型直至收敛,具体如公式4所示:
其中,权重w*表示优化后得到训练样本可靠性,w表示优化前的权重,特别地,当权重始终为1时,我们称该网络框架为C-BCNN,由于权重是在不断迭代优化中学习得到的,所以我们称之为弱监督学习问题;P(w)为权 重先验项,是基于点击数据的点击量来建模估计的,具体如公式5所示:
其中是归一化后的点击向量;T(·)是一种尺度变换的目标函数,控制wc尺度范围的对数变换函数,用于处理图片的点击数不平衡的情况;S(G,w)为平滑项,是根据图像视觉的一致性的假设(即视觉特征接近则权重接近),从而对图像进行正则化处理,具体如公式6所示:
其中gi,j表示样本相似度矩阵G中的值,该图是利用深度视觉特征z的相似度来计算和构建的。
4.根据权利要求1所述的一种基于点击与视觉融合的弱监督双线性深度学习方法,其特征在于步骤(3)所述的利用反向传播算法训练网络模型参数直至收敛,具体如下:
3-1利用反向传播算法训练得到模型参数θ,让作为损失函数对输入的梯度,则根据链式法则可以得到关于两个深度网络A和B的反向传播公式,具体如公式7所示:
其中,
5.根据权利要求1所述的一种基于点击与视觉融合的弱监督双线性深度学习方法,其特征在于步骤(4)所述的利用样本损失和相似度矩阵学习样本的可靠性变量w*,具体如下:
4-1.通过将数据输入到基于步骤(2)构建的网络中计算,提取其中任意一个训练样本i的softmax损失值
4-2.通过固定θ,将公式4转化为求解如下二次规划的最优化问题,学习得到样本可靠性参数,其具体如公式8所示:
其中I表示单位向量,E表示单位矩阵,Llap表示G的拉普拉斯矩阵,具体定义如公式9所示:
6.根据权利要求1所述的一种基于点击与视觉融合的弱监督双线性深度学习方法,其特征在于步骤(5)所述的迭代地优化模型参数和样本权重直至收敛,其具体过程如下:
5-1.依据弱监督学习问题,通过控制变量的方式分两步迭代地优化步骤3和4,从而训练整个网络模型直至收敛:1)固定每个权重wi,通过解决W-C-BCNN的问题学习得到网络模型参数θ;2)固定每个θ,将公式4转化为二次规划,学习得到样本可靠性变量w*
CN201710059373.XA 2017-01-24 2017-01-24 一种基于点击与视觉融合的弱监督双线性深度学习方法 Active CN106919951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710059373.XA CN106919951B (zh) 2017-01-24 2017-01-24 一种基于点击与视觉融合的弱监督双线性深度学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710059373.XA CN106919951B (zh) 2017-01-24 2017-01-24 一种基于点击与视觉融合的弱监督双线性深度学习方法

Publications (2)

Publication Number Publication Date
CN106919951A true CN106919951A (zh) 2017-07-04
CN106919951B CN106919951B (zh) 2020-04-21

Family

ID=59453478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710059373.XA Active CN106919951B (zh) 2017-01-24 2017-01-24 一种基于点击与视觉融合的弱监督双线性深度学习方法

Country Status (1)

Country Link
CN (1) CN106919951B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506426A (zh) * 2017-08-18 2017-12-22 四川长虹电器股份有限公司 一种智能电视自动智能应答机器人的实现方法
CN107766794A (zh) * 2017-09-22 2018-03-06 天津大学 一种特征融合系数可学习的图像语义分割方法
CN108197561A (zh) * 2017-12-29 2018-06-22 北京智慧眼科技股份有限公司 人脸识别模型优化控制方法、装置、设备及存储介质
CN108647691A (zh) * 2018-03-12 2018-10-12 杭州电子科技大学 一种基于点击特征预测的图像分类方法
CN109002845A (zh) * 2018-06-29 2018-12-14 西安交通大学 基于深度卷积神经网络的细粒度图像分类方法
CN109086753A (zh) * 2018-10-08 2018-12-25 新疆大学 基于双通道卷积神经网络的交通标志识别方法、装置
CN109447098A (zh) * 2018-08-27 2019-03-08 西北大学 一种基于深度语义嵌入的图像聚类算法
CN109583507A (zh) * 2018-12-07 2019-04-05 浙江工商大学 一种基于深度卷积神经网络的猪体识别方法
CN109582782A (zh) * 2018-10-26 2019-04-05 杭州电子科技大学 一种基于用弱监督深度学习的文本聚类方法
CN109685115A (zh) * 2018-11-30 2019-04-26 西北大学 一种双线性特征融合的细粒度概念模型及学习方法
CN109815973A (zh) * 2018-12-07 2019-05-28 天津大学 一种适用于鱼类细粒度识别的深度学习方法
CN109886345A (zh) * 2019-02-27 2019-06-14 清华大学 基于关系推理的自监督学习模型训练方法和装置
CN109933788A (zh) * 2019-02-14 2019-06-25 北京百度网讯科技有限公司 类型确定方法、装置、设备和介质
CN110490202A (zh) * 2019-06-18 2019-11-22 腾讯科技(深圳)有限公司 检测模型训练方法、装置、计算机设备和存储介质
CN111598155A (zh) * 2020-05-13 2020-08-28 北京工业大学 一种基于深度学习的细粒度图像弱监督目标定位方法
CN113096023A (zh) * 2020-01-08 2021-07-09 字节跳动有限公司 神经网络的训练方法、图像处理方法及装置、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002007854A (ja) * 2000-06-21 2002-01-11 Nippon Telegr & Teleph Corp <Ntt> 広告表示方法及び広告システム
CN102880729A (zh) * 2012-11-02 2013-01-16 深圳市宜搜科技发展有限公司 基于人脸检测与识别的人物图片索引方法及装置
CN104317827A (zh) * 2014-10-09 2015-01-28 深圳码隆科技有限公司 一种商品的图片导航方法
CN105653701A (zh) * 2015-12-31 2016-06-08 百度在线网络技术(北京)有限公司 模型生成方法及装置、词语赋权方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002007854A (ja) * 2000-06-21 2002-01-11 Nippon Telegr & Teleph Corp <Ntt> 広告表示方法及び広告システム
CN102880729A (zh) * 2012-11-02 2013-01-16 深圳市宜搜科技发展有限公司 基于人脸检测与识别的人物图片索引方法及装置
CN104317827A (zh) * 2014-10-09 2015-01-28 深圳码隆科技有限公司 一种商品的图片导航方法
CN105653701A (zh) * 2015-12-31 2016-06-08 百度在线网络技术(北京)有限公司 模型生成方法及装置、词语赋权方法及装置

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506426A (zh) * 2017-08-18 2017-12-22 四川长虹电器股份有限公司 一种智能电视自动智能应答机器人的实现方法
CN107766794A (zh) * 2017-09-22 2018-03-06 天津大学 一种特征融合系数可学习的图像语义分割方法
CN107766794B (zh) * 2017-09-22 2021-05-14 天津大学 一种特征融合系数可学习的图像语义分割方法
CN108197561A (zh) * 2017-12-29 2018-06-22 北京智慧眼科技股份有限公司 人脸识别模型优化控制方法、装置、设备及存储介质
CN108197561B (zh) * 2017-12-29 2020-11-03 智慧眼科技股份有限公司 人脸识别模型优化控制方法、装置、设备及存储介质
CN108647691B (zh) * 2018-03-12 2020-07-17 杭州电子科技大学 一种基于点击特征预测的图像分类方法
CN108647691A (zh) * 2018-03-12 2018-10-12 杭州电子科技大学 一种基于点击特征预测的图像分类方法
CN109002845A (zh) * 2018-06-29 2018-12-14 西安交通大学 基于深度卷积神经网络的细粒度图像分类方法
CN109002845B (zh) * 2018-06-29 2021-04-20 西安交通大学 基于深度卷积神经网络的细粒度图像分类方法
CN109447098A (zh) * 2018-08-27 2019-03-08 西北大学 一种基于深度语义嵌入的图像聚类算法
CN109086753B (zh) * 2018-10-08 2022-05-10 新疆大学 基于双通道卷积神经网络的交通标志识别方法、装置
CN109086753A (zh) * 2018-10-08 2018-12-25 新疆大学 基于双通道卷积神经网络的交通标志识别方法、装置
CN109582782A (zh) * 2018-10-26 2019-04-05 杭州电子科技大学 一种基于用弱监督深度学习的文本聚类方法
CN109685115A (zh) * 2018-11-30 2019-04-26 西北大学 一种双线性特征融合的细粒度概念模型及学习方法
CN109685115B (zh) * 2018-11-30 2022-10-14 西北大学 一种双线性特征融合的细粒度概念模型及学习方法
CN109815973A (zh) * 2018-12-07 2019-05-28 天津大学 一种适用于鱼类细粒度识别的深度学习方法
CN109583507A (zh) * 2018-12-07 2019-04-05 浙江工商大学 一种基于深度卷积神经网络的猪体识别方法
CN109933788A (zh) * 2019-02-14 2019-06-25 北京百度网讯科技有限公司 类型确定方法、装置、设备和介质
CN109933788B (zh) * 2019-02-14 2023-05-23 北京百度网讯科技有限公司 类型确定方法、装置、设备和介质
CN109886345A (zh) * 2019-02-27 2019-06-14 清华大学 基于关系推理的自监督学习模型训练方法和装置
CN110490202A (zh) * 2019-06-18 2019-11-22 腾讯科技(深圳)有限公司 检测模型训练方法、装置、计算机设备和存储介质
CN113096023A (zh) * 2020-01-08 2021-07-09 字节跳动有限公司 神经网络的训练方法、图像处理方法及装置、存储介质
CN113096023B (zh) * 2020-01-08 2023-10-27 字节跳动有限公司 神经网络的训练方法、图像处理方法及装置、存储介质
CN111598155A (zh) * 2020-05-13 2020-08-28 北京工业大学 一种基于深度学习的细粒度图像弱监督目标定位方法

Also Published As

Publication number Publication date
CN106919951B (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN106919951B (zh) 一种基于点击与视觉融合的弱监督双线性深度学习方法
Chen et al. A deep learning framework for time series classification using Relative Position Matrix and Convolutional Neural Network
Cetinic et al. A deep learning perspective on beauty, sentiment, and remembrance of art
Wen et al. Ensemble of deep neural networks with probability-based fusion for facial expression recognition
Mittal et al. Image sentiment analysis using deep learning
Ahmed et al. A comparative study on convolutional neural network based face recognition
Tian et al. Diagnosis of typical apple diseases: a deep learning method based on multi-scale dense classification network
CN110363253A (zh) 一种基于卷积神经网络的热轧带钢表面缺陷分类方法
Bianco et al. Predicting image aesthetics with deep learning
Verma et al. Hybrid-deep learning model for emotion recognition using facial expressions
Liang et al. Comparison detector for cervical cell/clumps detection in the limited data scenario
Ma et al. Lightweight attention convolutional neural network through network slimming for robust facial expression recognition
CN110826639B (zh) 一种利用全量数据训练零样本图像分类方法
CN110263174B (zh) —基于焦点关注的主题类别分析方法
Zhang et al. Structured weak semantic space construction for visual categorization
Jin et al. A discriminative deep association learning for facial expression recognition
CN109815920A (zh) 基于卷积神经网络和对抗卷积神经网络的手势识别方法
CN110837865A (zh) 一种基于表示学习和迁移学习的领域适配方法
CN110110724A (zh) 基于指数型挤压函数驱动胶囊神经网络的文本验证码识别方法
CN107491782A (zh) 利用语义空间信息的针对少量训练数据的图像分类方法
Menaka et al. Chromenet: A CNN architecture with comparison of optimizers for classification of human chromosome images
Alamsyah et al. Object detection using convolutional neural network to identify popular fashion product
Xu et al. Weakly supervised facial expression recognition via transferred DAL-CNN and active incremental learning
Zhong et al. An emotion classification algorithm based on SPT-CapsNet
Chen et al. Bottom-up improved multistage temporal convolutional network for action segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant