CN111340082B - 数据处理方法及装置、处理器、电子设备、存储介质 - Google Patents
数据处理方法及装置、处理器、电子设备、存储介质 Download PDFInfo
- Publication number
- CN111340082B CN111340082B CN202010102367.XA CN202010102367A CN111340082B CN 111340082 B CN111340082 B CN 111340082B CN 202010102367 A CN202010102367 A CN 202010102367A CN 111340082 B CN111340082 B CN 111340082B
- Authority
- CN
- China
- Prior art keywords
- node
- similarity
- nodes
- clustered
- alternative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims description 89
- 230000000875 corresponding effect Effects 0.000 claims description 50
- 238000013507 mapping Methods 0.000 claims description 24
- 230000002596 correlated effect Effects 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 description 16
- 238000002372 labelling Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 4
- 241000220324 Pyrus Species 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 244000144730 Amygdalus persica Species 0.000 description 2
- 244000241235 Citrullus lanatus Species 0.000 description 2
- 235000012828 Citrullus lanatus var citroides Nutrition 0.000 description 2
- 241000220225 Malus Species 0.000 description 2
- 235000011430 Malus pumila Nutrition 0.000 description 2
- 235000015103 Malus silvestris Nutrition 0.000 description 2
- 240000008790 Musa x paradisiaca Species 0.000 description 2
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 2
- 235000006040 Prunus persica var persica Nutrition 0.000 description 2
- 235000014443 Pyrus communis Nutrition 0.000 description 2
- 244000255368 Queen Annes pocket melon Species 0.000 description 2
- 235000005832 Queen Annes pocket melon Nutrition 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 235000021017 pears Nutrition 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据处理方法及装置、处理器、电子设备、存储介质。该方法包括:获取n个节点,所述n为大于或等于2的整数,所述节点用于表示待聚类对象;确定所述n个节点中与第一节点之间的相似度大于或等于参考阈值的节点,作为第一备选节点,所述第一节点属于所述n个节点;将所述第一节点与所述第一备选节点连接,得到邻接图,其中,所述邻接图用于对所述n个节点所表示的待聚类对象聚类。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法及装置、处理器、电子设备、存储介质。
背景技术
聚类是数据挖掘和机器学习等领域的关键技术之一。聚类指通过将相似的待聚类对象划分至同一类簇,将不相似的待聚类对象划分至不同的类簇。利用待聚类对象集中待聚类对象的信息以及不同待聚类对象之间的关联信息,可实现对待聚类对象集的聚类。
依据待聚类对象集中不同待聚类对象之间的关联,可得到待聚类对象集的邻接图。邻接图包含至少两个节点,每个节点对应一个待聚类对象。邻接图包含与节点对应的待聚类对象的信息,以及不同待聚类对象之间的关联信息。传统聚类方法通过对邻接图进行处理,可利用待聚类对象的信息以及不同待聚类对象之间的信息,实现对待聚类对象集的聚类。但通过传统方法得到的邻接图包含的信息的准确度低。
发明内容
本申请提供一种数据处理方法及装置、处理器、电子设备、存储介质。
第一方面,提供了一种数据处理方法,所述方法包括:
获取n个节点,所述n为大于或等于2的整数,所述节点用于表示待聚类对象;
确定所述n个节点中与第一节点之间的相似度大于或等于参考阈值的节点,作为第一备选节点,所述第一节点属于所述n个节点;
将所述第一节点与所述第一备选节点连接,得到邻接图,其中,所述邻接图用于对所述n个节点所表示的待聚类对象聚类。
在该方面中,通过将参考相似度阈值,作为确定第一节点的第一备选节点的依据,可减少第一备选节点中第一节点的噪声关联节点的数量。从而可提高邻接图的质量。
结合本申请任一实施方式,在所述确定所述n个节点中与第一节点之间的相似度大于或等于参考阈值的节点,作为第一备选节点之前,所述方法还包括:
确定所述n个节点与所述第一节点之间的相似度,得到第一相似度集;
将第一相似度集中最大的k个相似度所对应的节点,作为第二备选节点;
所述确定所述n个节点中与所述第一节点之间的相似度大于或等于参考阈值的节点,作为第一备选节点,包括:
确定所述第二备选节点中相似度大于或等于所述参考阈值的节点,作为所述第一备选节点。
在该种实施方式中,选取与第一节点相似度最大的k个节点,作为第二备选节点。后续再依据第二备选节点确定与第一备选节点时,可将第一备选节点的数量限制在k以内。这样,在减少第一备选节点中的第一节点的噪声关联节点的数量的同时,限制第一备选节点的数量。从而实现在提高邻接图的质量的同时,减小构建邻接图的数据处理量。
结合本申请任一实施方式,所述将所述第一节点与所述第一备选节点连接,得到邻接图,包括:
依据所述第一备选节点与所述第一节点之间的相似度,确定所述第一备选节点与所述第一节点之间的邻接关系;
将所述第一节点与所述第一备选节点连接,使所述第一节点与所述第一备选节点满足所述邻接关系,得到所述邻接图。
在该种实施方式中,依据节点之间的相似度,确定节点之间的邻接关系。通过使邻接图满足该邻接关系,可提高邻接图中信息的准确度,进而提高邻接图的质量。
结合本申请任一实施方式,所述邻接关系包括所述第一备选节点与所述第一节点之间的距离;
所述依据所述第一备选节点与所述第一节点之间的相似度,确定所述第一备选节点与所述第一节点之间的邻接关系,包括:
依据所述第一备选节点与所述第一节点之间的相似度,确定所述第一备选节点与所述第一节点之间的距离,所述距离与所述相似度呈正相关。
在该种实施方式中,邻接关系包括第一备选节点与第一节点之间的距离。依据第一备选节点与第一节点之间的相似度,确定第一备选节点与第一节点之间的距离。使节点与节点之间的距离包含节点与节点之间的相似度信息,从而提高邻接图的质量。
结合本申请任一实施方式,所述依据所述第一备选节点与所述第一节点之间的相似度,确定所述第一备选节点与所述第一节点之间的距离,包括:
将所述第一备选节点与所述第一节点之间的相似度作为备选相似度集,确定所述备选相似度集中的最小值,作为参考相似度;
依据第一相似度与所述参考相似度之间的差,以及第二相似度与所述参考相似度之间的差,得到第一权值和第二权值,所述第一相似度和所述第二相似度均属于所述备选相似度集;
依据所述第一权值和所述第二权值,确定所述第一节点与所述第二节点之间的距离,以及所述第一节点与第三节点之间的距离,所述第二节点为与所述第一相似度对应的节点,所述第三节点为与所述第二相似度对应的节点。
在该种实施方式中,依据第一相似度与参考相似度之间的差,以及第二相似度与参考相似度之间的差,得到第一权值和第二权值。依据第一权值和所述第二权值,确定第一节点与第二节点之间的距离,以及第一节点与第三节点之间的距离。由于节点与节点之间的距离包含节点与节点之间的相似度信息,依据权值(包括第一权值和第二权值)确定节点与节点之间的距离(包括第一节点与第二节点之间的距离,以及第一节点与第三节点之间的距离),可为不同节点之间的相似度信息赋予不同的权重,有利于对邻接图进行处理时利用节点之间的信息进行聚类。由此可见,该种实施方式可提高邻接图的质量。
结合本申请任一实施方式,在确定所述第二备选节点中相似度大于或等于所述参考阈值的节点,作为所述第一备选节点之前,所述方法还包括:
对所述n个待聚类对象中的第一待聚类对象进行特征提取处理,得到第一特征数据;
依据所述第一特征数据确定所述第一待聚类对象的数据类型,所述数据类型包括图像、语音、语句;
依据所述第一待聚类对象的数据类型和参考映射关系,得到所述参考阈值,所述参考映射关系为数据类型与相似度阈值之间的映射关系。
在该种实施方式中,依据n个待聚类对象中的第一待聚类对象的数据类型,以及参考映射关系确定参考阈值,可实现为不同数据类型的数据设置不同的参考阈值。依据参考阈值确定第一节点的第一备选节点,可减少第一备选节点中的噪声关联节点,进而可减少邻接图中的噪声关联,提升邻接图的质量。
结合本申请任一实施方式,在所述将第一相似度集中最大的k个相似度所对应的节点,作为第二备选节点之前,所述方法还包括:
获取参考时长和/或参考存储容量;
依据所述参考时长和/或所述参考存储容量,得到所述k。
在该种实施方式中,依据参考时长和/或参考存储容量确定k,可更好的满足用户需求。例如,用户期望缩短构建邻接图的时长,可将参考时长调小。数据处理装置依据参考时长,可确定在使构建邻接图的时长小于或等于参考时长的前提下,使k的取值最大。从而达到在满足用户需求(使构建邻接图的时长小于或等于参考时长)的前提下,提高得到的邻接图的质量。
结合本申请任一实施方式,所述方法还包括:
获取聚类网络;
使用所述聚类网络对所述邻接图进行处理,得到所述n个节点所表示的待聚类对象的聚类结果。
在该种实施方式中,通过对基于本申请提供的技术方案得到的邻接图进行处理,得到n个待聚类对象的聚类结果,可提升聚类结果的准确度。
结合本申请任一实施方式,所述确定所述n个节点与所述第一节点之间的相似度,得到第一相似度集,包括:
分别确定所述第一节点所表示的待聚类对象与所述n个节点中每个节点所表示的待聚类对象之间的相似度,得到所述第一相似度集。
第二方面,提供了一种数据处理装置,所述装置包括:
获取单元,用于获取n个节点,所述n为大于或等于2的整数,所述节点用于表示待聚类对象;
第一确定单元,用于确定所述n个节点中与第一节点之间的相似度大于或等于参考阈值的节点,作为第一备选节点,所述第一节点属于所述n个节点;
连接单元,用于将所述第一节点与所述第一备选节点连接,得到邻接图,其中,所述邻接图用于对所述n个节点所表示的待聚类对象聚类。
结合本申请任一实施方式,所述装置还包括:
第二确定单元,用于在所述确定所述n个节点中与所述第一节点之间的相似度大于或等于参考阈值的节点,作为第一备选节点之前,确定所述n个节点与所述第一节点之间的相似度,得到第一相似度集;
所述第二确定单元,还用于将第一相似度集中最大的k个相似度所对应的节点,作为第二备选节点;
所述第一确定单元,用于:
确定所述第二备选节点中相似度大于或等于所述参考阈值的节点,作为所述第一备选节点。
结合本申请任一实施方式,所述连接单元,用于:
依据所述第一备选节点与所述第一节点之间的相似度,确定所述第一备选节点与所述第一节点之间的邻接关系;
将所述第一节点与所述第一备选节点连接,使所述第一节点与所述第一备选节点满足所述邻接关系,得到所述邻接图。
结合本申请任一实施方式,所述邻接关系包括所述第一备选节点与所述第一节点之间的距离;
所述连接单元,用于:
依据所述第一备选节点与所述第一节点之间的相似度,确定所述第一备选节点与所述第一节点之间的距离,所述距离与所述相似度呈正相关。
结合本申请任一实施方式,所述连接单元,用于:
将所述第一备选节点与所述第一节点之间的相似度作为备选相似度集,确定所述备选相似度集中的最小值,作为参考相似度;
依据第一相似度与所述参考相似度之间的差,以及第二相似度与所述参考相似度之间的差,得到第一权值和第二权值,所述第一相似度和所述第二相似度均属于所述备选相似度集;
依据所述第一权值和所述第二权值,确定所述第一节点与所述第二节点之间的距离,以及所述第一节点与第三节点之间的距离,所述第二节点为与所述第一相似度对应的节点,所述第三节点为与所述第二相似度对应的节点。
结合本申请任一实施方式,所述装置还包括:
特征提取处理单元,用于在确定所述第二备选节点中相似度大于或等于所述参考阈值的节点,作为所述第一备选节点之前,对所述待聚类对象进行特征提取处理,得到第一特征数据;
第三确定单元,用于依据所述第一特征数据确定所述待聚类对象的数据类型,所述数据类型包括图像、语音、语句;
第一处理单元,用于依据所述待聚类对象的数据类型和参考映射关系,得到所述参考阈值,所述参考映射关系为数据类型与相似度阈值之间的映射关系。
结合本申请任一实施方式,
所述获取单元,用于在所述将第一相似度集中最大的k个相似度所对应的节点,作为第二备选节点之前,获取参考时长和/或参考存储容量;
所述装置还包括:
第二处理单元,用于依据所述参考时长和/或所述参考存储容量,得到所述k。
结合本申请任一实施方式,所述获取单元,还用于获取聚类网络;
所述装置还包括:
第三处理单元,用于使用所述聚类网络对所述邻接图进行处理,得到所述n个节点所表示的待聚类对象的聚类结果。
结合本申请任一实施方式,所述第二确定单元,用于:
分别确定所述第一节点所表示的待聚类对象与所述n个节点中每个节点所表示的待聚类对象之间的相似度,得到所述第一相似度集。
第三方面,提供了一种处理器,所述处理器用于执行如上述第一方面及其任意一种可能实现的方式的方法。
第四方面,提供了一种电子设备,包括:处理器、发送装置、输入装置、输出装置和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。
第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行如上述第一方面及其任意一种可能实现的方式的方法。
第六方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或指令,在所述计算机程序或指令在计算机上运行的情况下,使得所述计算机执行上述第一方面及其任一种可能的实现方式的方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1为本申请实施例提供的一种邻接图示意图;
图2为本申请实施例提供的一种数据处理方法的流程示意图;
图3为本申请实施例提供的另一种数据处理方法的流程示意图;
图4为本申请实施例提供的一种参考坐标系及方位角的示意图;
图5为本申请实施例提供的另一种邻接图示意图;
图6为本申请实施例提供的另一种邻接图示意图;
图7为本申请实施例提供的另一种邻接图示意图;
图8为本申请实施例提供的一种数据处理装置的结构示意图;
图9为本申请实施例提供的一种数据处理装置的硬件结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例的执行主体为数据处理装置,数据处理装置可以是以下任意一种:手机、计算机、服务器、平板电脑。
邻接图包括至少两个节点,每个节点分别与一个待聚类对象对应。每两个节点之间的邻接关系可用于表征与节点对应的待聚类对象之间的相似度信息。例如,在邻接图中,两个节点相连表征两个节点的相似度高,或表征与这两个节点对应的两个待聚类对象的类别相同的概率高。
举例来说,在图1所示的邻接图中共有6个节点(图中一个圆圈表示一个节点)。其中,1号节点对应待处理图像a,2号节点对应待处理图像b,3号节点对应待处理图像c,4号节点对应待处理图像d,5号节点对应待处理图像e,6号节点对应待处理图像f。从图1中可以看出,2号节点与1号节点之间的距离比4号节点与1号节点之间的距离近,相应的,b和a之间的相似度比d和a之间的相似度大。同理,c和a之间的相似度比c和e之间的相似度大,d和f之间的相似度比d和a之间的相似度大。
由于邻接图中包含节点的类别信息,以及节点与节点之间的相似度信息。通过对邻接图进行处理,利用节点的类别信息以及节点与节点之间的相似度信息,可实现对节点的聚类,得到与邻接图中的节点对应的待聚类对象集的聚类结果。上述节点的类别信息即为与节点对应的待聚类对象的类别信息。例如,待聚类对象a与节点A对应,待聚类对象a的类别为苹果,则节点A的类别为苹果。又例如,待聚类对象集包括待聚类对象A和待聚类对象B,待聚类对象A的信息包括待聚类对象的类别为a,待聚类对象A与待聚类对象B之间的关联信息包括待聚类对象A与待聚类对象B之间的相似度为80%。依据待聚类对象A的信息,以及,待聚类对象A与待聚类对象B之间的关联信息,得到待聚类对象B的类别为a的概率为80%,进而可确定待聚类对象B的类别,实现对待聚类对象集的聚类。
若邻接图中包含的节点与节点之间的相似度信息不准确,将导致基于邻接图得到的聚类结果不准确。例如(例1),节点A与图像a对应,节点B与图像b对应。假设判断两张图像类别相同的依据为:两张图像的相似度大于或等于预设阈值。图像a与图像b之间的相似度小于预设阈值。若在邻接图中,节点A与节点B相连,将导致误将图像a的类别与图像b的类别判断为相同。
本申请实施例中,若两个待聚类对象的类别不同,将与这个两个待聚类对象对应的两个节点之间的连接称为噪声关联(例如,在例1中,节点A与节点B之间的连接即为噪声关联)。若两个待聚类对象的类别相同,将与这个两个待聚类对象对应的两个节点之间的连接称为有效关联。若节点1与节点2之间的连接为噪声关联,则将节点2称为节点1的噪声关联节点。同理,可将节点1称为节点2的噪声关联节点。例如,在例1中,节点A为节点B的噪声关联节点,节点B为节点A的噪声关联节点。若节点1与节点2之间的连接为有效关联,则将节点2称为节点1的有效关联节点。同理,可将节点1称为节点2的有效关联节点。
在进行接下来的阐述之前,首先对邻接图的质量进行定义。本申请实施例中,邻接图的质量指邻接图中的信息的准确度,该信息包括节点的信息以及节点与节点之间的相似度信息。邻接图的质量越高,邻接图中的信息的准确度越高。
显然,邻接图中的噪声关联越多,邻接图中的信息(此处的信息包括节点与节点之间的相似度信息)越不准确,邻接图的质量也就越低。为减少邻接图中的噪声关联,提升邻接图的质量,本申请实施例提供了一种构建邻接图的技术方案。下面结合本申请实施例中的附图对本申请实施例进行描述。
请参阅图2,图2是本申请实施例提供的一种数据处理方法的流程示意图。
201、获取n个节点待聚类对象。
本申请实施例中待聚类对象,n为大于或等于2的整数。n节点中的每个节点均可表示用于待聚类对象。待聚类对象待聚类对象可以是:图像、语音、语句等等。例如,在待聚类对象为待处理图像时,上述n个节点分别与n张图像一一对应。又例如,在待聚类对象为语句时,上述n个节点分别与n条语句一一对应。
获取n个节点的方式可以是接收用户通过输入组件输入的n个节点,其中,输入组件包括:键盘、鼠标、触控屏、触控板和音频输入器等。获取n个节点的方式也可以是接收终端发送的n个节点,其中,终端包括手机、计算机、服务器、平板电脑等。获取n个节点的方式还可以是数据处理装置在获取n个待聚类对象后,依据n个待聚类对象生成n个节点。本申请对获取n个节点的方式不做限定。
可选的,获取n个待聚类对象的方式可以是接收用户通过输入组件输入的n个待聚类对象,其中,输入组件包括:键盘、鼠标、触控屏、触控板和音频输入器等。获取n个待聚类对象的方式也可以是接收终端发送的n个待聚类对象,其中,终端包括手机、计算机、服务器、平板电脑等。本申请对获取n个待聚类对象的方式不做限定。
202、确定上述n个节点中与第一节点之间的相似度大于或等于参考阈值的节点,作为第一备选节点。
本申请实施例中,两个节点之间的相似度即为与这两个节点对应的两个待聚类对象之间的相似度。例如,节点A与待聚类对象a对应,节点B与待聚类对象b对应。待聚类对象a与待聚类对象b之间的相似度为c,则节点A与节点B之间的相似度为c。上述相似度可以是以下任意一种:余弦相似度、瓦瑟斯坦距离(wasserstein metric)、欧式距离(euclidean)、JS散度(jensen–shannon divergence)。本申请对相似度的具体形式不做限定。
上述参考阈值为大于或等于0且小于或等于1的数。可选的,参考阈值为70%。在两个节点之间的相似度大于或等于参考阈值的情况下,表征与两个节点对应的两个待聚类对象属于同一类别的概率高。例如,假设参考阈值为75%。节点A与待聚类对象a对应,节点B与待聚类对象b对应。节点A与节点B之间的相似度为80%,由于80%大于75%,表征待聚类对象a与待聚类对象b属于同一类别的概率高(如,待聚类对象a的类别为苹果,待聚类对象b的类别为苹果的概率高)。
第一节点可以是n个节点中的任意一个节点。分别计算第一节点与n个节点中的每个节点之间的相似度,将相似度大于或等于参考阈值的节点作为第一节点的第一备选节点。例如,n个节点包括:节点A、节点B、节点C、节点D,其中,节点A为第一节点。参考阈值为70%。节点A与节点B之间的相似度为80%,节点A与节点C之间的相似度为60%,节点A与节点D之间的相似度为70%。由于80%大于70%,节点B为第一备选节点。由于60%小于70%,节点C非第一备选节点。由于节点A与节点D之间的相似度等于70%,节点D为第一备选节点。
可选的,可分别确定n个节点中的每个节点的第一备选节点。例如,n个节点包括:节点A、节点B、节点C。参考阈值为75%。节点A与节点B之间的相似度(下文将称为相似度a)为60%,节点A与节点C之间的相似度(下文将称为相似度b)为75%,节点B与节点C之间的相似度(下文将称为相似度c)为80%。由于相似度a小于参考阈值,节点A不是节点B的第一备选节点,且节点B不是节点A的第一备选节点。由于相似度b等于参考阈值,节点A是节点C的第一备选节点,且节点C是节点A的第一备选节点。由于相似度c大于参考阈值,节点B是节点C的第一备选节点,节点C是节点B的第一备选节点。
203、将上述第一节点与上述第一备选节点连接,得到邻接图。
由于第一备选节点的类别与第一节点的类别相同的概率高,可将第一节点与第一备选节点连接得到邻接图。这样可减少邻接图中的噪声连接,进而提高邻接图中的信息的准确度。在通过对邻接图进行处理,实现对n个节点的所表示的待聚类对象的聚类时,可提高得到的聚类结果的准确率。
本申请实施例中,邻接图可以是邻接矩阵,邻接图也可以是邻接表,本申请对邻接图的具体形式不做限定。
本实施通过将参考相似度阈值,作为确定第一节点的第一备选节点的依据,可减少第一备选节点中第一节点的噪声关联节点的数量,从而可提高邻接图的质量。
可选的,在执行步骤203之前,还可执行以下步骤:
21、确定上述n个节点与上述第一节点之间的相似度,得到第一相似度集。
n个节点中除第一节点之外还有n-1个节点,分别计算第一节点与n-1个节点中的每个节点之间的相似度,得到n-1个相似度,作为第一相似度集。例如(例2),n个节点包括:第一节点、节点A、节点B。第一节点与节点A之间的相似度为相似度a,第一节点与节点B之间的相似度为相似度b,则第一节点的第一相似度集包括相似度a和相似度b。
可选的,可分别确定n个节点中的每个节点的第一相似度集。例如,n个节点包括:节点A、节点B、节点C。节点A与节点B之间的相似度为相似度a,节点A与节点C之间的相似度为相似度b,节点B与节点C之间的相似度为相似度c。节点A的第一相似度集包括相似度a和相似度b。节点B的第一相似度集包括相似度a和相似度c。节点C的第一相似度集包括相似度b和相似度c。
22、将第一相似度集中最大的k个相似度所对应的节点,作为第二备选节点。
从第一节点的第一相似度集中选取最大的k个相似度所对应的节点,得到第一节点的第二备选节点。
举例来说,n个节点包括:第一节点、节点A、节点B、节点C。第一节点与节点A之间的相似度为相似度a,第一节点与节点B之间的相似度为相似度b,第一节点与节点C之间的相似度为相似度c。第一节点的第一相似度集包括相似度a、相似度b和相似度c。假设k=2,相似度a大于相似度b,相似度b大于相似度c。第一相似度集中最大的2个相似度为:相似度a和相似度b。相似度a所对应的节点为节点A,相似度b所对应的节点为节点B,第一节点的第二备选节点包括节点A和节点B。
可选的,可分别确定n个节点中的每个节点的第二备选节点。例如,n个节点包括:节点A、节点B、节点C。节点A与节点B之间的相似度为相似度a,节点A与节点C之间的相似度为相似度b,节点B与节点C之间的相似度为相似度c。节点A的第一相似度集包括相似度a和相似度b。节点B的第一相似度集包括相似度a和相似度c。节点C的第一相似度集包括相似度b和相似度c。假设k=1,相似度a大于相似度b,相似度b大于相似度c。节点A的第一相似度集中最大的1个相似度为:相似度a。相似度a所对应的节点为节点B,节点A的第二备选节点包括节点B。节点B的第一相似度集中最大的1个相似度为:相似度a。相似度a所对应的节点为节点A,节点B的第二备选节点包括节点A。节点C的第一相似度集中最大的1个相似度为:相似度b。相似度b所对应的节点为节点B,节点C的第二备选节点包括节点B。
在本步骤中,选取与第一节点相似度最大的k个节点,作为第二备选节点。后续再依据第二备选节点确定与第一备选节点时,可将第一备选节点的数量限制在k以内。这样,可在减少第一备选节点中的第一节点的噪声关联节点的数量的同时,限制第一备选节点的数量。从而实现在提高邻接图的质量的同时,减小构建邻接图的数据处理量。作为一种可选的实施方式,步骤103的具体实施方式可以为:
13、确定上述第二备选节点中相似度大于或等于上述参考阈值的节点,作为第一备选节点。
本步骤中的参考阈值与步骤203中的参考阈值相同。如步骤202所述,在两个节点之间的相似度大于或等于参考阈值的情况下,表征与两个节点对应的两个待聚类对象属于同一类别的概率高。通过将相似度大于或等于参考阈值作为依据,可从第二备选节点中筛选出有效关联的节点。具体的,将第二备选节点中相似度大于或等于参考阈值的节点,作为第一备选节点。
本申请实施例中,k为正整数,在实施本申请实施例提供的技术方案的过程中,可根据用户需求确定k的大小。k的不同取值,具有不同的影响,具体包括以下几点:
1、k的取值可影响从n个节点中确定第一节点的第二备选节点的速度,进而影响构建邻接图的速度。例如,在n=100000,k=8000的情况下,为n个节点中的每个节点确定第二备选节点所需的时长为t1。在n=100000,k=500的情况下,为n个节点中的每个节点确定第二备选节点所需的时长为t2。显然,t1大于t2。也就是说,k与构建邻接图的速度呈负相关。
2、k的取值可影响从n个节点中确定第一节点的第二备选节点所需的数据处理量。具体的,k的取值与数据处理量呈正相关。而执行本申请实施例提供的技术方案的数据处理装置是否能够支持该数据处理量的一个重要指标为:数据处理装置的存储容量。显然,存储容量与内存成本呈正相关,即存储容量与数据处理装置的成本呈正相关。进一步讲,数据处理量与数据处理装置的成本呈正相关。再进一步讲,k与数据处理装置的成本呈正相关。
3、k的取值可影响基于第二备选节点确定的第一备选节点中有效关联节点的数量,进而影响邻接图中有效关联节点的数量。显然,k的取值越大,第一节点的第一备选节点中包含第一节点的所有有效关联节点的概率也越大。例如,假设在n个节点中第一节点的关联节点的数量为1000。在k=800的情况下,第一备选节点是无法包含所有有效关联节点的。在k=1200的情况下,第一备选节点可以包含所有有效关联节点。也就是说,k与邻接图的质量呈正相关。
综合考虑以上三点影响确定k的取值,可提高得到的邻接图的质量。
在一种可能实现的方式中,数据处理装置获取参考时长和/或参考存储容量。依据参考时长和/或参考存储容量,得到k。本申请实施例中,参考时长可以是构建邻接图的期望时长。例如,用户期望在10分钟内完成基于n个待聚类对象构建得到邻接图的处理,则参考时长为10分钟。参考存储容量可以是数据处理装置的存储容量。数据处理装置获取参考时长的方式可以是接收用户通过输入组件输入的参考时长。数据处理装置获取参考时长的方式也可以是接收终端发送的参考时长。数据处理装置获取参考存储容量的方式可以是接收用户通过输入组件输入的参考存储容量。数据处理装置获取参考存储容量的方式也可以是接收终端发送的参考存储容量。在数据处理装置获取参考时长的情况下,可依据参考时长得到k。在数据处理装置获取参考存储容量的情况下,可依据参考存储容量得到k。在数据处理装置获取参考时长和参考存储容量的情况下,可依据参考时长和参考存储容量得到k。
在一种依据参考时长得到k的实现方式中,假设参考时长为tr,则参考时长和k满足下式:
其中,n为待聚类对象的数量,a和b均为正数。可选的,a=100000,b=2。在公式(1)中,tr的单位为秒。例如,a=100000,n=5000,tr=1.8秒,b=5。依据公式(1)可确定k=41。需要理解的是,若依据公式(1)得到的结果非整数,可对该结果进行四舍五入得到k。例如,依据公式(1)得到的结果为80.3,对80.3四舍五入得到的结果为80,即为k的取值。
在另一种依据参考时长得到k的实现方式中,假设参考时长为tr,则参考时长和k满足下式:
其中,n为待聚类对象的数量,a为正数。可选的,a=10000000。在公式(2)中,tr的单位为秒。例如,a=10000000,n=1000,tr=1秒。依据公式(2)可确定k=10。需要理解的是,若依据公式(2)得到的结果非整数,可对该结果进行四舍五入得到k。例如,依据公式(2)得到的结果为100.6,对100.6四舍五入得到的结果为101,即为k的取值。
在一种依据参考存储容量得到k的实现方式中,假设参考存储容量为cr,则参考存储容量为cr和k满足下式:
其中,n为待聚类对象的数量,a为正数。可选的,a=1000。在公式(3)中,cr的单位为字节。例如,a=1000,n=50000,cr=10240字节。依据公式(3)得到的结果为19.3。对14.3四舍五入可确定k=14。
在另一种依据参考存储容量得到k的实现方式中,假设参考存储容量为cr,则参考存储容量为cr和k满足下式:
其中,n为待聚类对象的数量,a和b均为正数。可选的,a=1000,b=5。在公式(4)中,cr的单位为字节。例如,a=1000,n=50000,cr=10240字节,b=5。依据公式(4)得到的结果为19.3。对19.3四舍五入可确定k=19。
在一种依据参考时长和参考存储容量得到k的实现方式中,假设参考时长为tr,参考存储容量为cr,则参考时长、参考存储容量和k满足下式:
其中,n为待聚类对象的数量,a和b均为正数。可选的,a=100,b=10000。在公式(5)中,tr的单位为秒,cr的单位为字节。例如,a=100,b=10000,n=50000,tr=1.5秒,cr=25600字节。依据公式(5)得到的结果为81.2。对81.2四舍五入可确定k=81。
在另一种依据参考时长和参考存储容量得到k的实现方式中,假设参考时长为tr,参考时长为cr,则参考时长、参考存储容量和k满足下式:
其中,n为待聚类对象的数量,a、b、c均为正数。可选的,a=100,b=10000,c=5。在公式(6)中,tr的单位为秒,cr的单位为字节。例如,a=100,b=10000,c=5,n=50000,tr=1.5秒,cr=25600字节。依据公式(6)得到的结果为86.2。对86.2四舍五入可确定k=86。
依据参考时长和/或参考存储容量确定k,可综合考虑上述三方面,为k确定合适的取值。依据参考时长和/或参考存储容量确定k,可综合考虑上述三方面,为k确定合适的取值。例如,用户期望缩短对至少两个待处理簇对进行聚类处理所耗费的时间,可将参考时长调小。数据处理装置依据参考时长,可在使对至少两个待处理簇对进行聚类处理所耗费的时间小于或等于参考时长的前提下,使k的取值最大,从而确定k的取值。从而达到在满足用户需求(使数据处理装置构建邻接图的时长小于或等于参考时长)的前提下,提高邻接图的质量。又例如,用户期望使用存储容量小的数据处理装置,对至少两个待处理簇对进行聚类处理,可将参考存储容量调小。数据处理装置依据参考存储容量,在使数据处理装置能完成对至少两个待处理簇对的聚类处理的前提下,使k的取值最大,从而确定k的取值。从而达到在满足用户需求(通过存储容量小的数据处理装置完成对至少两个待处理簇对的聚类处理)的前提下,提高邻接图的质量。再例如,用户期望使用存储容量小的数据处理装置,对至少两个待处理簇对进行聚类处理,并缩短数据处理装置对至少两个待处理簇对进行聚类处理所耗费的时间,可在将参考存储容量调小的同时,将参考时长调小。数据处理装置依据参考存储容量和参考时长,在使数据处理装置能完成对至少两个待处理簇对的聚类处理,且使数据处理装置对至少两个待处理簇对进行聚类处理所耗费的时间小于或等于参考时长的前提下,使k的取值最大,从而确定k的取值。从而达到在满足用户需求(通过存储容量小的数据处理装置完成对至少两个待处理簇对的聚类处理,且使数据处理装置构建邻接图的时长小于或等于参考时长)的前提下,提高邻接图的质量。
请参阅图3,图3是本申请实施例提供的另一种数据处理方法的流程示意图。
301、依据上述第一备选节点与上述第一节点之间的相似度,确定上述第一备选节点与上述第一节点之间的邻接关系。
本申请实施例中,邻接关系包括以下至少一种:第一备选节点与第一节点之间的距离、第一备选节点与第一节点之间的方位角。
第一备选节点与第一节点之间的方位角包括第一备选节点相对于第一节点的方位角和第一节点相对于第一备选节点的方位角。
本申请实施例中,n个节点属于同一个平面。将包含n个节点的平面称为参考平面。如图4所示,参考平面中包括参考坐标系xoy。假设第一备选节点指向第一节点的向量为第一向量,第一节点指向第一备选节点的向量为第二向量。第一备选节点相对于第一节点的方位角包括第一向量与x轴之间的夹角以及第一向量与y轴之间的夹角,第一节点相对于第一备选节点的方位角包括第二向量与x轴之间的夹角以及第二向量与y轴之间的夹角。下文将向量(包括第一向量与第二向量)与x轴之间的夹角称为x方位角,将向量(包括第一向量与第二向量)与y轴之间的夹角称为y方位角,则方位角包括x方位角和y方位角。如图4所示,第一节点(即图4中的节点A)的第一备选节点包括:节点B和节点C。为第一向量,为第二向量。与x轴之间的夹角为β,与y轴之间的夹角为λ,与x轴之间的夹角为η,与y轴之间的夹角为θ。节点B相对于节点A的方位角包括β和λ,节点A相对于节点C的方位角包括η和θ。
将第一备选节点与第一节点之间的相似度称为目标相似度,上述邻接关系可表征目标相似度的大小。在一种可能实现的方式中,邻接关系包括第一备选节点与第一节点之间的距离(下文将称为参考距离)。依据目标相似度可确定参考距离,其中,参考距离与目标相似度呈正相关。例如,第一备选节点包括节点A和节点B,节点A与第一节点之间的距离为参考距离a,节点B与第一节点之间的距离为参考距离b,节点A与第一节点之间的相似度为目标相似度a,节点B与第一节点之间的相似度为目标相似度b。假设目标相似度a大于目标相似度b,可使参考距离a大于参考距离b。可选的,可使其中,t为正数。
为表述方便,下文将用[a,b]表示大于或等于a且小于或等于b的取值区间,用(c,d]表示大于c且小于或等于d的取值区间,用[e,f)表示大于或等于e且小于f的取值区间。
在另一种可能实现的方式中,邻接关系包括第一备选节点与第一节点之间的方位角。在x方位角处于(0,90°]内,且y方位角处于(0,90°]内的情况下,目标相似度处于第一预设区间内,且x方位角与相似度呈正相关。在x方位角处于(90°,180°]内,且y方位角处于(0,90°]内的情况下,目标相似度处于第二预设区间内,且x方位角与相似度呈负相关。在x方位角处于(90°,180°]内,且y方位角处于(90°,180°]内的情况下,目标相似度处于第一预设区间内,且x方位角与相似度呈正相关。在x方位角处于(0,90°]内,且y方位角处于(90°,180°]内的情况下,目标相似度处于第二预设区间内,且x方位角与相似度呈负相关。上述第一预设区间内的取值均大于第二预设区间内的取值。
举例来说,假设第一预设区间为(0.5,1],第二预设区间为[0,0.5)。在x方位角等于60°,且y方位角等于60°的情况下,目标相似度处于(0.5,1]内,且目标相似度与x方位角呈正相关。在x方位角等于80°,且y方位角等于60°的情况下,目标相似度处于[0,0.5)内,且目标相似度与x方位角呈负相关。在x方位角等于80°,且y方位角等于80°的情况下,目标相似度处于(0.5,1]内,且目标相似度与x方位角呈正相关。在x方位角等于60°,且y方位角等于80°的情况下,目标相似度处于[0,0.5)内,且目标相似度与x方位角呈负相关。
在一种可能实现的方式中,邻接关系包括节点与节点之间的距离。依据上述第一备选节点与上述第一节点之间的相似度,确定上述第一备选节点与上述第一节点之间的邻接关系,可包括以下步骤:
将第一备选节点与第一节点之间的相似度作为备选相似度集,确定备选相似度集中的最小值,作为参考相似度。
依据第一相似度与参考相似度之间的差,以及第二相似度与参考相似度之间的差,得到第一权值和第二权值,其中,第一相似度和第二相似度均属于备选相似度集。
依据第一权值和第二权值,确定第一节点与第二节点之间的距离,以及第一节点与第三节点之间的距离,其中,第二节点为与第一相似度对应的节点,第三节点为与第二相似度对应的节点。
例如,第一节点的第一备选节点包括:节点A和节点B。第一节点与节点A之间的相似度(下文将称为相似度1)为0.6,第一节点与节点B之间的相似度(下文将称为相似度2)为0.8。第一节点的备选相似度集包括:0.6、0.8,其中,0.6为参考相似度。计算相似度1与参考相似度之间的差(下文将称为第一差值)为0,计算相似度2与参考相似度之间的差(下文将称为第二差值)为0.2。依据第一差值和第二差值,可确定第一权值和第二权值。依据第一权值和第二权值,可确定第一节点与节点A之间的距离,以及第一节点与节点B之间的距离。
在一种依据第一相似度与参考相似度之间的差,以及第二相似度与参考相似度之间的差,得到第一权值和第二权值的实现方式中,假设第一差值为c1,第二差值为c2,第一权值为w1,第二权值为w2,则c1、c2、w1满足下式:
c1、c2、w2满足下式:
在该种可能实现的方式中,通过分别对第一差值和第二差值进行归一化处理,可得到大小在0至1之间的第一权值和第二权值,且可使第一权值和第二权值的和等于1。这样,后续在对邻接图进行处理时,可依据第一权值和第二权值确定第二节点的信息和第三节点的信息的融合权重。例如,使用图卷积网络对图5所示的邻接图进行卷积处理以确定1号节点的类别时,将分别提取出2号节点的类别信息(A)和3号节点的类别信息(B),并通过加权求和的方式确定2号节点和3号节点传播至1号节点的类别信息。如,A*d1+B*d2=C,其中,C为传播至1号节点的类别信息。d1为2号节点的权值,d2为2号节点的权值。
在另一种依据第一相似度与参考相似度之间的差,以及第二相似度与参考相似度之间的差,得到第一权值和第二权值的实现方式中,假设第一差值为c1,第二差值为c2,第一权值为w1,第二权值为w2,则c1、c2、w1满足下式:
c1、c2、w2满足下式:
在一种依据第一权值和第二权值,确定第一节点与第二节点之间的距离(下文将称为第一距离),以及第一节点与第三节点之间的距离(下文将称为第二距离)的实现方式中,假设第一权值为w1,第二权值为w2,第一距离为D1,第二距离为D2,则w1、w2、D1、D2满足下式:
其中,t为正数。
本申请实施例中,依据第一节点与第一备选节点之间的相似度,确定第一备选节点与第一节点之间的距离,使节点之间的距离与节点之间相似度呈正相关。这样,在后续对邻接图进行处理时,可依据节点之间的距离确定不同节点的信息的权重,有利于提高邻接图中信息的准确度,即邻接图的质量。
在另一种依据第一权值和第二权值,确定第一距离以及第二距离的实现方式中,假设第一权值为w1,第二权值为w2,第一距离为D1,第二距离为D2,则w1、w2、D1、D2满足下式:
其中,t为正数。
302、将上述第一节点与上述第一备选节点连接,使上述第一节点与上述第一备选节点满足上述邻接关系,得到上述邻接图。
将第一节点与第一备选节点连接,使第一节点与第一备选节点满足上述邻接关系,得到的邻接图中包含第一备选节点与第一节点之间的相似度信息。
例如,在图6所示的邻接图中,第一备选节点包括节点A和节点B,第一节点(即图6中的节点C)与节点A之间的距离为d1,第一节点与节点B之间的距离为d2。若d1/d2=3/4,表征:节点A与节点C之间的相似度/节点B与节点C之间的相似度为3/4。可选的,在后续对邻接图进行处理,利用节点与节点之间的距离确定节点与节点之间的信息的权重。例如,在图6所示的邻接图中,若需要利用节点A的类别信息与节点B的类别信息,确定节点C的类别,可通过加权求和的方式确定节点A和节点B传播至节点C的类别信息,如:Am×w1+Bm×w2=Cm,其中,Am为节点A的类别信息,Bm为节点B的类别信息,Cm为传播至节点C的类别信息。w1和w2分别为常数,且
本实施依据节点之间的相似度,确定节点之间的邻接关系。通过使邻接图满足该邻接关系,可提高邻接图中信息的准确度,进而提高邻接图的质量。
显然,对于不同类型的数据,参考阈值的取值应该不同,若以固定取值的参考阈值为依据判断是否将n个节点中的某个节点作为第一节点的第一备选节点,这是不合理的。这也将导致后续构建的邻接图中的噪声关联较多。
举例来说,假设第一节点(下文将称为节点A)对应的数据和与节点B对应的数据均为图像,与第一节点(下文将称为节点C)对应的数据和与节点D对应的数据均为语音数据。若判断两张图像是否属于同一类别的相似度阈值比判断两个语音数据属于同一类别的相似度阈值大。例如,在两张图像之间的相似度大于或等于90%时,确定两张图像属于同一类别。在两个语音数据之间的相似度大于或等于80%时,确定两个语音数据属于同一类别。显然,使用语音数据的相似度阈值判断节点B是否为节点A的第一备选节点是不合理的,使用图像的相似度阈值判断节点D是否为节点C的第一备选节点也是不合理的。也就是说,使用相同的参考阈值判断节点B是否为节点A的第一备选节点,以及判断节点D是否为节点C的第一备选节点是不合理的。
考虑到参考阈值相当于判断与两个节点对应的数据是否属于同一类别的依据,因此可依据待聚类对象的数据类型确定待聚类对象的参考阈值。在一种可能实现的方式中,对n个待聚类对象中的任意一个待聚类对象进行特征提取处理,得到第一特征数据。依据第一特征数据确定待聚类对象的数据类型,其中,数据类型包括图像、语音、语句。依据待聚类对象的数据类型和参考映射关系,得到参考阈值,其中,参考映射关系为数据类型与相似度阈值之间的映射关系。可选的,参考映射关系可参见表1。
数据类型 | 相似度阈值 |
图像 | 0.9 |
语音 | 0.88 |
语句 | 0.85 |
表1
例如,依据第一特征数据确定待聚类对象的数据类型为语音。依据表1所示的参考映射关系可确定参考阈值为0.88。再例如,依据第一特征数据确定待聚类对象的数据类型为语句,依据表1所示的参考映射关系可确定参考阈值为0.85。
可选的,可分别对n个待聚类对象中的至少两个待聚类对象进行特征提取处理,得到至少两个特征数据。依据至少两个特征数据确定至少两个待聚类对象的数据类型的置信度。依据至少两个待聚类对象的数据类型的置信度,确定至少两个待聚类对象的数据类型。依据至少两个待聚类对象的数据类型和参考映射关系,得到参考阈值。
举例来说,n个待聚类对象包括第一待聚类对象和第二待聚类对象。对第一待聚类对象进行特征提取处理,得到第一特征数据。对第二待聚类对象进行特征提取处理,得到第二特征数据。依据第一特征数据,确定第一待聚类对象的数据类型为图像的置信度为0.8。依据第二特征数据,确定第二待聚类对象的数据类型为语句的置信度为0.6。由于0.8大于0.6,可确定第一待聚类对象的数据类型为图像。由于n个待聚类对象的数据类型通常相同,在确定第一待聚类对象的数据类型为图像的情况下,可确定第一待聚类对象的数据类型和第二待聚类对象的数据类型均为图像(即n个待聚类对象的数据类型均为图像)。
再举例来说,n个待聚类对象包括第一待聚类对象、第二待聚类对象和第三待聚类对象。对第一待聚类对象进行特征提取处理,得到第一特征数据。对第二待聚类对象进行特征提取处理,得到第二特征数据。对第三待聚类对象进行特征提取处理,得到第三特征数据。依据第一特征数据,确定第一待聚类对象的数据类型为图像的置信度为0.8。依据第二特征数据,确定第二待聚类对象的数据类型为语句的置信度为0.9。依据第一特征数据,确定第一待聚类对象的数据类型为图像的置信度为0.78。依据第一待聚类对象的数据类型为图像的置信度为0.8,可确定第一待聚类对象的数据类型为图像。依据第二待聚类对象的数据类型为语句的置信度为0.9,可确定第一待聚类对象的数据类型为语句。依据第三待聚类对象的数据类型为图像的置信度为0.78,可确定第三待聚类对象的数据类型为图像。由于数据类型为图像的待聚类对象的数量为2,数据类型为语句的待聚类对象的数量为1,依据“少数服从多数”的原则,可确定第一待聚类对象的数据类型、第二待聚类对象的数据类型和第三待聚类对象的数据类型均为图像(即n个待聚类对象的数据类型均为图像)。
本实施例依据n个待聚类对象中的第一待聚类对象的数据类型,以及参考映射关系确定参考阈值,可实现为不同数据类型的数据设置不同的参考阈值。依据参考阈值确定第一节点的第一备选节点,可减少第一备选节点中的噪声关联节点,进而可减少邻接图中的噪声关联,提升邻接图的质量。
基于本申请实施例提供的技术方案,本申请实施例还提供了几种可能的应用场景。
在数据量急剧扩增的时代,通过对数据进行聚类可分析得到数据之间隐藏的关联和信息。因此,如何高效、准确的对数据聚类具有非常重要的意义。
依据数据集中数据之间的相似度,可构建与数据集对应的邻接图。使用聚类网络对邻接图进行处理,可得到数据集的聚类结果。因此,邻接图中信息的准确度将影响数据集的聚类结果的准确度,其中,邻接图中信息的准确度包括有效关联节点的数量。可选的,上述聚类网络可以是图卷积网络(graph convolutional networks,GCN)。
依据本申请实施例提供的技术方案可减少n个待聚类对象的邻接图中的噪声关联,提高有效关联节点的数量。从而可提升n个待聚类对象的聚类结果的准确度。
场景A:得益于强大的性能,近几年神经网络被广泛应用于各种任务(如图像识别、语句识别)。神经网络在这些领域中的表现效果很大程度取决于对神经网络的训练效果,而神经网络的训练效果又主要取决于训练神经网络的训练数据的数量,即训练数据的数量越多,神经网络的训练效果越好,进而应用训练后的神经网络执行相应的任务(如图像识别、语句识别)的效果也就越好。
训练数据指有标注信息图像或语句,例如,需要执行的任务为对图像中包含的内容进行聚类,判断图像中包含的内容是苹果、香蕉、梨子、桃子、橙子、西瓜中的哪一种,那么上述标注信息包括苹果、香蕉、梨子、桃子、橙子、西瓜。又例如,需要执行的任务为对语句描述的内容进行聚类,判断语句描述的内容是否是描述汽车故障的语句,那么上述标注信息包括是描述汽车故障的语句和不是描述汽车故障的语句。
训练数据的标注信息越准确,神经网络的训练效果越好,因此,训练数据的标注数据与训练数据的真实内容的匹配度越高,训练效果就越好。例如,如果将包含梨子的图像标注为苹果就不正确。又例如,将“晚上去哪儿吃饭?”标注为是描述汽车故障的语句也不正确。而标注信息不正确的训练数据会使训练效果变差,因此传统方法大多通过人工标注的方式完成对训练数据的标注。但是在训练数据的数量很大时,人工标注的方式效率低,人工成本高。
应用本申请实施例提供的技术方案构建待标注数据集的邻接图。使用GCN对该邻接图进行处理,可得到待标注数据集的聚类结果。依据聚类结果确定待标注数据的标注信息。由于本申请实施例提供的技术方案构建的邻接图中信息的准确度高,进而可提高基于该邻接图得到的聚类结果的准确率。从而提高待标注数据的标注信息的准确率。
场景B:随着互联网技术的高速发展,社交网络也越来越普及,人们可通过在社交网络上建立好友关系,进行交流等操作。如果将社交网络上的每个用户视为一个节点,那么整个社交网络也可视为一张待处理邻接图,其中,待处理邻接图中节点之间的连接关系可通过用户之间的好友关系确定。将用户的属性(如:年龄、性别、爱好、归属地、教育背景等)之间的相似度,作为节点之间的相似度,并依据本申请实施例提供的技术方案构建社交网络邻接图。使用GCN对社交网络邻接图进行处理,可确定节点的属性,即用户的属性。
举例来说,在图7所示的社交邻接图中,1号节点对应的用户是张三,2号节点对应的用户是李四,3号节点对应的用户是王五。构建该社交邻接图的依据为用户的教育背景。即将用户的教育背景之间的相似度作为对应的节点之间的相似度,再依据本申请实施例提供的技术方案构建得到该社交邻接图。社交邻接图中两个节点相连,表征对应的用户具有好友关系。其中,张三、李四、王五彼此之间均为好友关系。若张三和李四的爱好都是打篮球,而王五的属性中未包含爱好信息。通过GCN对该社交邻接图进行处理,可确定3号节点的爱好信息,如3号节点的爱好为打篮球的概率为90%,即王五的爱好为打篮球的概率较高。进一步的,在确定王五非常有可能喜欢打篮球后,可向王五的账户推送与篮球相关的信息。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
上述详细阐述了本申请实施例的方法,下面提供了本申请实施例的装置。
请参阅图8,图8为本申请实施例提供的一种数据处理装置的结构示意图,该装置1包括:获取单元11、第一确定单元12、连接单元13、第二确定单元14、特征提取处理单元15、第三确定单元16、第一处理单元17、第二处理单元18,其中:
获取单元11,用于获取n个节点,所述n为大于或等于2的整数,所述节点用于表示待聚类对象;
第一确定单元12,用于确定所述n个节点中与第一节点之间的相似度大于或等于参考阈值的节点,作为第一备选节点,所述第一节点属于所述n个节点;
连接单元13,用于将所述第一节点与所述第一备选节点连接,得到邻接图,其中,所述邻接图用于对所述n个节点所表示的待聚类对象聚类。
结合本申请任一实施方式,所述装置1还包括:
第二确定单元14,用于在所述确定所述n个节点中与所述第一节点之间的相似度大于或等于参考阈值的节点,作为第一备选节点之前,确定所述n个节点与所述第一节点之间的相似度,得到第一相似度集;
所述第二确定单元14,还用于将第一相似度集中最大的k个相似度所对应的节点,作为第二备选节点;
所述第一确定单元12,用于:
确定所述第二备选节点中相似度大于或等于所述参考阈值的节点,作为所述第一备选节点。
结合本申请任一实施方式,所述连接单元13,用于:
依据所述第一备选节点与所述第一节点之间的相似度,确定所述第一备选节点与所述第一节点之间的邻接关系;
将所述第一节点与所述第一备选节点连接,使所述第一节点与所述第一备选节点满足所述邻接关系,得到所述邻接图。
结合本申请任一实施方式,所述邻接关系包括所述第一备选节点与所述第一节点之间的距离;
所述连接单元13,用于:
依据所述第一备选节点与所述第一节点之间的相似度,确定所述第一备选节点与所述第一节点之间的距离,所述距离与所述相似度呈正相关。
结合本申请任一实施方式,所述连接单元13,用于:
将所述第一备选节点与所述第一节点之间的相似度作为备选相似度集,确定所述备选相似度集中的最小值,作为参考相似度;
依据第一相似度与所述参考相似度之间的差,以及第二相似度与所述参考相似度之间的差,得到第一权值和第二权值,所述第一相似度和所述第二相似度均属于所述备选相似度集;
依据所述第一权值和所述第二权值,确定所述第一节点与所述第二节点之间的距离,以及所述第一节点与第三节点之间的距离,所述第二节点为与所述第一相似度对应的节点,所述第三节点为与所述第二相似度对应的节点。
结合本申请任一实施方式,所述装置1还包括:
特征提取处理单元15,用于在确定所述第二备选节点中相似度大于或等于所述参考阈值的节点,作为所述第一备选节点之前,对所述待聚类对象进行特征提取处理,得到第一特征数据;
第三确定单元16,用于依据所述第一特征数据确定所述待聚类对象的数据类型,所述数据类型包括图像、语音、语句;
第一处理单元17,用于依据所述待聚类对象的数据类型和参考映射关系,得到所述参考阈值,所述参考映射关系为数据类型与相似度阈值之间的映射关系。
结合本申请任一实施方式,
所述获取单元11,用于在所述将第一相似度集中最大的k个相似度所对应的节点,作为第二备选节点之前,获取参考时长和/或参考存储容量;
所述装置还包括:
第二处理单元18,用于依据所述参考时长和/或所述参考存储容量,得到所述k。
结合本申请任一实施方式,所述获取单元11,还用于获取聚类网络;
所述装置1还包括:
第三处理单元16,用于使用所述聚类网络对所述邻接图进行处理,得到所述n个所表示的待聚类对象的聚类结果。
所述第二确定单元14,用于:
分别确定所述第一节点所表示的待聚类对象与所述n个节点中每个节点所表示的待聚类对象之间的相似度,得到所述第一相似度集。
本实施通过将参考相似度阈值,作为确定第一节点的第一备选节点的依据,可减少第一备选节点中第一节点的噪声关联节点的数量。从而可提高邻接图的质量。
在一些实施例中,本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
图9为本申请实施例提供的一种数据处理装置的硬件结构示意图。该数据处理装置2包括处理器21,存储器22,输入装置23,输出装置24。该处理器21、存储器22、输入装置23和输出装置24通过连接器相耦合,该连接器包括各类接口、传输线或总线等等,本申请实施例对此不作限定。应当理解,本申请的各个实施例中,耦合是指通过特定方式的相互联系,包括直接相连或者通过其他设备间接相连,例如可以通过各类接口、传输线、总线等相连。
处理器21可以是一个或多个图形处理器(graphics processing unit,GPU),在处理器21是一个GPU的情况下,该GPU可以是单核GPU,也可以是多核GPU。可选的,处理器21可以是多个GPU构成的处理器组,多个处理器之间通过一个或多个总线彼此耦合。可选的,该处理器还可以为其他类型的处理器等等,本申请实施例不作限定。
存储器22可用于存储计算机程序指令,以及用于执行本申请方案的程序代码在内的各类计算机程序代码。可选地,存储器包括但不限于是随机存储记忆体(random accessmemory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasableprogrammable read only memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器用于相关指令及数据。
输入装置23用于输入数据和/或信号,以及输出装置24用于输出数据和/或信号。输入装置23和输出装置24可以是独立的器件,也可以是一个整体的器件。
可理解,本申请实施例中,存储器22不仅可用于存储相关指令,还可用于存储相关数据,如该存储器22可用于存储通过输入装置23获取的待聚类对象,又或者该存储器22还可用于存储通过处理器21得到的邻接图等等,本申请实施例对于该存储器中具体所存储的数据不作限定。
可以理解的是,图9仅仅示出了数据处理装置的简化设计。在实际应用中,数据处理装置还可以分别包含必要的其他元件,包含但不限于任意数量的输入/输出装置、处理器、存储器等,而所有可以实现本申请实施例的数据处理装置都在本申请的保护范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。所属领域的技术人员还可以清楚地了解到,本申请各个实施例描述各有侧重,为描述的方便和简洁,相同或类似的部分在不同实施例中可能没有赘述,因此,在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字通用光盘(digital versatiledisc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:只读存储器(read-only memory,ROM)或随机存储存储器(random access memory,RAM)、磁碟或者光盘等各种可存储程序代码的介质。
Claims (7)
1.一种数据处理方法,其特征在于,所述方法包括:
获取n个节点,所述n为大于或等于2的整数,所述节点用于表示待聚类对象,所述待聚类对象包括图像、语音或语句;
确定所述n个节点与第一节点之间的相似度,得到第一相似度集,所述第一节点属于所述n个节点;
获取参考时长和/或参考存储容量;
依据所述参考时长和/或所述参考存储容量,得到k;
将第一相似度集中最大的k个相似度所对应的节点,作为第二备选节点;
对所述待聚类对象进行特征提取处理,得到第一特征数据;
依据所述第一特征数据确定所述待聚类对象的数据类型,所述数据类型包括图像、语音、语句;
依据所述待聚类对象的数据类型和参考映射关系,得到参考阈值,所述参考映射关系为数据类型与相似度阈值之间的映射关系;
确定所述第二备选节点中相似度大于或等于所述参考阈值的节点,作为第一备选节点;
将所述第一节点与所述第一备选节点连接,得到邻接图,其中,所述邻接图用于对所述n个节点所表示的待聚类对象聚类;所述将所述第一节点与所述第一备选节点连接,得到邻接图,包括:依据所述第一备选节点与所述第一节点之间的相似度,确定所述第一备选节点与所述第一节点之间的邻接关系,所述邻接关系包括所述第一备选节点与所述第一节点之间的方位角,所述方位角与所述相似度呈正相关;将所述第一节点与所述第一备选节点连接,使所述第一节点与所述第一备选节点满足所述邻接关系,得到所述邻接图;
所述依据所述第一备选节点与所述第一节点之间的相似度,确定所述第一备选节点与所述第一节点之间的邻接关系,包括:将所述第一备选节点与所述第一节点之间的相似度作为备选相似度集,确定所述备选相似度集中的最小值,作为参考相似度;依据第一相似度与所述参考相似度之间的差,以及第二相似度与所述参考相似度之间的差,得到第一权值和第二权值,所述第一相似度和所述第二相似度均属于所述备选相似度集;依据所述第一权值和所述第二权值,确定所述第一节点与第二节点之间的距离,以及所述第一节点与第三节点之间的距离,所述第二节点为与所述第一相似度对应的节点,所述第三节点为与所述第二相似度对应的节点。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取聚类网络;
使用所述聚类网络对所述邻接图进行处理,得到所述n个节点所表示的待聚类对象的聚类结果。
3.根据权利要求1所述的方法,其特征在于,所述确定所述n个节点与所述第一节点之间的相似度,得到第一相似度集,包括:
分别确定所述第一节点所表示的待聚类对象与所述n个节点中每个节点所表示的待聚类对象之间的相似度,得到所述第一相似度集。
4.一种数据处理装置,其特征在于,所述装置包括:
获取单元,用于获取n个节点待聚类对象,所述n为大于或等于2的整数,所述节点用于表示待聚类对象,所述待聚类对象包括图像、语音或语句;
第二确定单元,用于确定所述n个节点与第一节点之间的相似度,得到第一相似度集,所述第一节点属于所述n个节点;
获取参考时长和/或参考存储容量;
依据所述参考时长和/或所述参考存储容量,得到k;
所述第二确定单元,用于将第一相似度集中最大的k个相似度所对应的节点,作为第二备选节点;
对所述待聚类对象进行特征提取处理,得到第一特征数据;
依据所述第一特征数据确定所述待聚类对象的数据类型,所述数据类型包括图像、语音、语句;
依据所述待聚类对象的数据类型和参考映射关系,得到参考阈值,所述参考映射关系为数据类型与相似度阈值之间的映射关系;
第一确定单元,用于确定所述第二备选节点中相似度大于或等于所述参考阈值的节点,作为第一备选节点;
连接单元,用于将所述第一节点与所述第一备选节点连接,得到邻接图,其中,所述邻接图用于对所述n个节点所表示的待聚类对象聚类;
所述连接单元,具体用于:依据所述第一备选节点与所述第一节点之间的相似度,确定所述第一备选节点与所述第一节点之间的邻接关系,所述邻接关系包括所述第一备选节点与所述第一节点之间的方位角,所述方位角与所述相似度呈正相关;将所述第一节点与所述第一备选节点连接,使所述第一节点与所述第一备选节点满足所述邻接关系,得到所述邻接图;
所述连接单元,具体用于:将所述第一备选节点与所述第一节点之间的相似度作为备选相似度集,确定所述备选相似度集中的最小值,作为参考相似度;依据第一相似度与所述参考相似度之间的差,以及第二相似度与所述参考相似度之间的差,得到第一权值和第二权值,所述第一相似度和所述第二相似度均属于所述备选相似度集;依据所述第一权值和所述第二权值,确定所述第一节点与第二节点之间的距离,以及所述第一节点与第三节点之间的距离,所述第二节点为与所述第一相似度对应的节点,所述第三节点为与所述第二相似度对应的节点。
5.一种处理器,其特征在于,所述处理器用于执行如权利要求1至3中任意一项所述的方法。
6.一种电子设备,其特征在于,包括:处理器、发送装置、输入装置、输出装置和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如权利要求1至3中任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行权利要求1至3中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010102367.XA CN111340082B (zh) | 2020-02-19 | 2020-02-19 | 数据处理方法及装置、处理器、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010102367.XA CN111340082B (zh) | 2020-02-19 | 2020-02-19 | 数据处理方法及装置、处理器、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111340082A CN111340082A (zh) | 2020-06-26 |
CN111340082B true CN111340082B (zh) | 2024-08-13 |
Family
ID=71183979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010102367.XA Active CN111340082B (zh) | 2020-02-19 | 2020-02-19 | 数据处理方法及装置、处理器、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111340082B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291760A (zh) * | 2016-04-05 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 无监督的特征选择方法、装置 |
CN109614510A (zh) * | 2018-11-23 | 2019-04-12 | 腾讯科技(深圳)有限公司 | 一种图像检索方法、装置、图形处理器和存储介质 |
CN110705629A (zh) * | 2019-09-27 | 2020-01-17 | 北京市商汤科技开发有限公司 | 数据处理方法及相关装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10289802B2 (en) * | 2010-12-27 | 2019-05-14 | The Board Of Trustees Of The Leland Stanford Junior University | Spanning-tree progression analysis of density-normalized events (SPADE) |
CN110781957B (zh) * | 2019-10-24 | 2023-05-30 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
-
2020
- 2020-02-19 CN CN202010102367.XA patent/CN111340082B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291760A (zh) * | 2016-04-05 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 无监督的特征选择方法、装置 |
CN109614510A (zh) * | 2018-11-23 | 2019-04-12 | 腾讯科技(深圳)有限公司 | 一种图像检索方法、装置、图形处理器和存储介质 |
CN110705629A (zh) * | 2019-09-27 | 2020-01-17 | 北京市商汤科技开发有限公司 | 数据处理方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111340082A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11227118B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
CN106897428B (zh) | 文本分类特征提取方法、文本分类方法及装置 | |
CN111339443B (zh) | 用户标签确定方法、装置、计算机设备及存储介质 | |
CN108509407B (zh) | 文本语义相似度计算方法、装置及用户终端 | |
US20210216854A1 (en) | Neural network searching method, device and storage medium | |
CN112633420B (zh) | 图像相似度确定及模型训练方法、装置、设备和介质 | |
WO2023020214A1 (zh) | 检索模型的训练和检索方法、装置、设备及介质 | |
CN111310834B (zh) | 数据处理方法及装置、处理器、电子设备、存储介质 | |
CN111683274A (zh) | 弹幕广告展示方法、装置、设备及计算机可读存储介质 | |
CN110895656A (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
CN114494709A (zh) | 特征提取模型的生成方法、图像特征提取方法和装置 | |
CN115982323A (zh) | 应用于云端在线服务的大数据分析方法及人工智能系统 | |
CN110705629A (zh) | 数据处理方法及相关装置 | |
CN111340082B (zh) | 数据处理方法及装置、处理器、电子设备、存储介质 | |
CN111091198A (zh) | 一种数据处理方法及装置 | |
CN111368205A (zh) | 数据推荐方法、装置、计算机设备及存储介质 | |
CN111428767B (zh) | 数据处理方法及装置、处理器、电子设备及存储介质 | |
CN111160468B (zh) | 数据处理方法及装置、处理器、电子设备、存储介质 | |
WO2022143505A1 (zh) | 群组类型识别方法、装置、计算机设备及介质 | |
CN110688508B (zh) | 图文数据扩充方法、装置及电子设备 | |
CN113157582B (zh) | 测试脚本执行序列确定方法及装置 | |
CN115544379A (zh) | 基于四元数图卷积神经网络的推荐方法和装置 | |
CN111340084B (zh) | 数据处理方法及装置、处理器、电子设备、存储介质 | |
CN111507428B (zh) | 数据处理方法及装置、处理器、电子设备、存储介质 | |
CN114461822A (zh) | 资源处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |