CN108764348A - 基于多个数据源的数据采集方法及系统 - Google Patents
基于多个数据源的数据采集方法及系统 Download PDFInfo
- Publication number
- CN108764348A CN108764348A CN201810539389.5A CN201810539389A CN108764348A CN 108764348 A CN108764348 A CN 108764348A CN 201810539389 A CN201810539389 A CN 201810539389A CN 108764348 A CN108764348 A CN 108764348A
- Authority
- CN
- China
- Prior art keywords
- data
- grouping
- shops
- feature
- acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多个数据源的数据采集方法及系统,涉及电子信息领域,该方法包括:分别获取多个数据源在本次数据采集过程中针对采集对象的数据特征采集到的多个数据特征值;将多个数据特征值划分为至少一个分组,分别根据每个分组对应的数据源针对采集对象的特征权重值确定该分组的分组得分;根据各个分组的分组得分,确定采集对象的数据特征在本次数据采集过程中的采集结果,并对各个数据源针对采集对象的特征权重值进行修正,以便在下一次数据采集过程中使用各个数据源针对采集对象的修正后的特征权重值。根据该方法,能够更准确地获取各个分组对应的数据源针对采集对象的特征权重值以及采集对象的数据特征在数据采集过程中的采集结果。
Description
技术领域
本发明涉及电子信息领域,具体涉及一种基于多个数据源的数据采集方法及系统。
背景技术
随着科学技术的发展,多传感器信息融合的目标识别技术普遍应用于军事、计算机视觉、遥感图像等领域,具有广泛的实际应用的意义。基于特征级融合的目标识别技术能够在各种复杂、不确定的情况下,融合多种传感器提供的特征信息,缩减数据量带宽,提高识别的精度和效率。其中,统计特征是统计学的基本概念之一,在用数理统计方法研究总体时,人们所关心的实际上并非组成总体的各个个体本身。统计特征有数量特征和属性特征之分,其中数量特征又有计量特征和计数特征之分,数量特征可以直接用数值来表示,例如,元件的大小尺寸、小麦的株高等均是计量特征。
目前常用的特征级融合方法大致分为五大类:概率论统计方法、逻辑推理方法、神经网络方法、基于特征抽取的融合方法和基于搜索的融合方法。下面简单地介绍概率论统计方法中的几种算法。其中,(1)加权平均法:假设有n个传感器,用同一种方法特征提取后,将某一维度的特征值x的加权平均值作为该维度融合后的特征值,其中,权重可看成不同传感器准确性的度量。(2)贝叶斯估计法:Bayes(贝叶斯)估计方法在用于多传感器信息融合时,是将多传感器提供的各种不确定信息表示为概率,并利用概率论中Bayes条件概率公式对他们进行处理的一种方法。在先验概率已知的情况下,贝叶斯准则是最佳的融合准则,可给出精确的融合结果。(3)卡尔曼滤波法是一个“最优化自回归数据处理方法”,卡尔曼滤波适用于实时融合动态的低层次冗余传感器信息。该方法用测量模型的统计特性,来递推出决定统计意义下的最优的估计融合数据。如果系统具有线性动力学模型,且系统噪声和传感器噪声都是高斯分布的白噪声模型,此方法为数据融合提供唯一的溶剂意义下的最优估计,卡尔曼的递推特性使系统处理不需要大量的数据存储和计算。
但是发明人在实现本发明的过程中发现:加权平均法虽然简单直观,但是必须事先对各个传感器进行详细的分析,获取它的权重。并且每个传感器的准确性在不同特征维度上都不一样,所以权重的获取成为主要难点。另外,关于贝叶斯估计法,对于在实际应用中,各个传感器很难获得所需的先验概率,这一点大大限制了贝叶斯准则的应用。关于卡尔曼滤波法,对于许多非线性系统,还没有一套严格的滤波公式。由此可见,现有技术中缺少一种简单实用,且能够较准确地获取多个传感器在数据采集过程针对某个采集对象的特征权重值以及采集到的多个数据特征值融合后的特征值的数据采集方法。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于多个数据源的数据采集方法及系统。
根据本发明的一个方面,提供了一种基于多个数据源的数据采集方法,包括:分别获取多个数据源在本次数据采集过程中针对采集对象的数据特征采集到的多个数据特征值;将多个数据特征值划分为至少一个分组,分别根据每个分组对应的数据源针对采集对象的特征权重值确定该分组的分组得分;根据各个分组的分组得分,确定采集对象的数据特征在本次数据采集过程中的采集结果,并对各个数据源针对采集对象的特征权重值进行修正,以便在下一次数据采集过程中使用各个数据源针对采集对象的修正后的特征权重值。
可选地,其中,所述将所述多个数据特征值划分为至少一个分组的步骤具体包括:
按照预设聚类规则对所述多个数据特征值进行聚类处理,根据聚类处理结果将所述多个数据特征值划分为至少一个分组。
可选地,其中,所述分别根据每个分组对应的数据源针对所述采集对象的特征权重值确定该分组的分组得分的步骤具体包括:
针对每个分组,分别确定该分组对应的各个数据源针对所述采集对象的各个特征权重值,按照预设运算规则对所述各个数据源针对所述采集对象的各个特征权重值进行运算,根据运算结果得到该分组的分组得分。
可选地,其中,所述对各个数据源针对所述采集对象的特征权重值进行修正的步骤具体包括:
若数据源对应的分组的分组得分高于第一预设阈值,则增加该数据源针对所述采集对象的特征权重值;
若数据源对应的分组的分组得分低于第二预设阈值,则降低该数据源针对所述采集对象的特征权重值。
可选地,其中,所述分别获取多个数据源在本次数据采集过程中针对采集对象的数据特征采集到的多个数据特征值的步骤具体包括:分别获取多个数据源在第n+1次数据采集过程中针对采集对象的数据特征采集到的多个数据特征值;其中,n为不小于0的正整数;
且所述分别根据每个分组对应的数据源针对所述采集对象的特征权重值确定该分组的分组得分的步骤具体包括:分别根据每个分组对应的数据源在第n次数据采集过程中针对所述采集对象的数据特征的特征权重值确定该分组的分组得分;
则所述对各个数据源针对所述采集对象的特征权重值进行修正的步骤具体包括:根据以下公式确定各个数据源在第n+1次数据采集过程中针对所述采集对象的数据特征的特征权重值;
Wn+1=(Wn+m)/(n+1);其中,Wn+1为该数据源在第n+1次数据采集过程中所述采集对象的数据特征的特征权重值,Wn为该数据源在第n次数据采集过程中针对所述采集对象的数据特征的特征权重值,m的取值根据该数据源对应的分组的分组得分确定。
可选地,其中,所述方法执行之前,进一步包括:
预先设置各个数据源针对所述采集对象的初始特征权重值,将所述初始特征权重值作为数据源在第0次数据采集过程中针对所述采集对象的数据特征的特征权重值。
可选地,其中,当所述采集对象的数据特征包括多个维度时,每个数据源针对所述采集对象的特征权重值包括:多个分别对应于所述采集对象的不同维度的特征权重值;
则所述分别获取多个数据源在本次数据采集过程中针对采集对象的数据特征采集到的多个数据特征值的步骤具体包括:分别获取多个数据源在本次数据采集过程中针对采集对象的预设维度的数据特征采集到的多个数据特征值;
所述分别根据每个分组对应的数据源针对所述采集对象的特征权重值确定该分组的分组得分的步骤具体包括:分别根据每个分组对应的数据源针对所述采集对象的预设维度的特征权重值确定该分组的分组得分;
则所述确定所述采集对象的数据特征在本次数据采集过程中的采集结果,并对各个数据源针对所述采集对象的特征权重值进行修正的步骤具体包括:
确定所述采集对象的预设维度的数据特征在本次数据采集过程中的采集结果,并对各个数据源针对所述采集对象的预设维度的特征权重值进行修正。
可选地,其中,所述采集对象包括:温度、湿度、心跳、和/或实体;所述数据源包括:摄像头传感器、和/或声控传感器。
根据本发明的另一个方面,提供了一种基于多个数据源的数据采集方法,包括:分别获取多个数据源在本次数据采集过程中针对门店的门店特征采集到的多个门店特征值;
将所述多个门店特征值划分为至少一个分组,分别根据每个分组对应的数据源针对所述门店的特征权重值确定该分组的分组得分;
根据各个分组的分组得分,确定所述门店的门店特征在本次数据采集过程中的采集结果,并对各个数据源针对所述门店的特征权重值进行修正,以便在下一次数据采集过程中使用各个数据源针对所述门店的修正后的特征权重值。
可选地,其中,所述将所述多个门店特征值划分为至少一个分组的步骤具体包括:
按照预设聚类规则对所述多个门店特征值进行聚类处理,根据聚类处理结果将所述多个门店特征值划分为至少一个分组。
可选地,其中,所述分别根据每个分组对应的数据源针对所述门店的特征权重值确定该分组的分组得分的步骤具体包括:
针对每个分组,分别确定该分组对应的各个数据源针对所述门店的各个特征权重值,按照预设运算规则对所述各个数据源针对所述门店的各个特征权重值进行运算,根据运算结果得到该分组的分组得分。
可选地,其中,所述对各个数据源针对所述门店的特征权重值进行修正的步骤具体包括:
若数据源对应的分组的分组得分高于第一预设阈值,则增加该数据源针对所述门店的特征权重值;
若数据源对应的分组的分组得分低于第二预设阈值,则降低该数据源针对所述门店的特征权重值。
可选地,其中,所述分别获取多个数据源在本次数据采集过程中针对门店的门店特征采集到的多个门店特征值采集对象门店特征门店特征的步骤具体包括:分别获取多个数据源在第n+1次数据采集过程中针对门店的门店特征采集到的多个门店特征值;其中,n为不小于0的正整数;
且所述分别根据每个分组对应的数据源针对所述门店的特征权重值确定该分组的分组得分的步骤具体包括:分别根据每个分组对应的数据源在第n次数据采集过程中针对所述门店的门店特征的特征权重值确定该分组的分组得分;
则所述对各个数据源针对所述门店的特征权重值进行修正的步骤具体包括:根据以下公式确定各个数据源在第n+1次数据采集过程中针对所述门店的门店特征的特征权重值;
Wn+1=(Wn+m)/(n+1);其中,Wn+1为该数据源在第n+1次数据采集过程中针对所述门店的门店特征的特征权重值,Wn为该数据源在第n次数据采集过程中针对所述门店的门店特征的特征权重值,m的取值根据该数据源对应的分组的分组得分确定。
可选地,其中,当所述门店的门店特征包括多个维度时,所述分别获取多个数据源在本次数据采集过程中针对门店的门店特征采集到的多个门店特征值的步骤具体包括:分别获取多个数据源在本次数据采集过程中针对门店的采集对象的门店特征采集到的多个门店特征值;
所述分别根据每个分组对应的数据源针对所述门店的特征权重值确定该分组的分组得分的步骤具体包括:分别根据每个分组对应的数据源针对所述门店中的该维度的特征权重值确定该分组的分组得分;
则所述确定所述门店的门店特征在本次数据采集过程中的采集结果,并对各个数据源针对所述门店的特征权重值进行修正的步骤具体包括:
确定所述门店中的该维度的门店特征在本次数据采集过程中的采集结果,并对各个数据源针对所述门店中的该维度的特征权重值进行修正。
可选地,其中,所述门店的门店特征包括以下至少一个维度:门店类型维度、门店中的商品维度和/或电子券维度;
所述数据源包括:商家提供的数据源、用户提供的数据源、以及APP提供的数据源。
根据本发明的另一方面,提供了一种基于多个数据源的数据采集系统,包括:第一获取模块,适于分别获取多个数据源在本次数据采集过程中针对采集对象的数据特征采集到的多个数据特征值;
第一确定模块,适于将所述多个数据特征值划分为至少一个分组,分别根据每个分组对应的数据源针对所述采集对象的特征权重值确定该分组的分组得分;
第一修正模块,适于根据各个分组的分组得分,确定所述采集对象的数据特征在本次数据采集过程中的采集结果,并对各个数据源针对所述采集对象的特征权重值进行修正,以便在下一次数据采集过程中使用各个数据源针对所述采集对象的修正后的特征权重值。
可选地,其中,所述第一确定模块具体适于:
按照预设聚类规则对所述多个数据特征值进行聚类处理,根据聚类处理结果将所述多个数据特征值划分为至少一个分组。
可选地,其中,所述第一确定模块具体适于:
针对每个分组,分别确定该分组对应的各个数据源针对所述采集对象的各个特征权重值,按照预设运算规则对所述各个数据源针对所述采集对象的各个特征权重值进行运算,根据运算结果得到该分组的分组得分。
可选地,其中,所述第一修正模块具体适于:
若数据源对应的分组的分组得分高于第一预设阈值,则增加该数据源针对所述采集对象的特征权重值;
若数据源对应的分组的分组得分低于第二预设阈值,则降低该数据源针对所述采集对象的特征权重值。
可选地,其中,所述第一获取模块具体适于:分别获取多个数据源在第n+1次数据采集过程中针对采集对象的数据特征采集到的多个数据特征值;其中,n为不小于0的正整数;
且所述第一确定模块具体适于:分别根据每个分组对应的数据源在第n次数据采集过程中针对所述采集对象的数据特征的特征权重值确定该分组的分组得分;
则所述第一修正模块具体适于:根据以下公式确定各个数据源在第n+1次数据采集过程中针对所述采集对象的数据特征的特征权重值;
Wn+1=(Wn+m)/(n+1);其中,Wn+1为该数据源在第n+1次数据采集过程中针对所述采集对象的数据特征的特征权重值,Wn为该数据源在第n次数据采集过程中针对所述采集对象的数据特征的特征权重值,m的取值根据该数据源对应的分组的分组得分确定。
可选地,其中,所述装置进一步包括设置模块,适于:
预先设置各个数据源针对所述采集对象的初始特征权重值,将所述初始特征权重值作为数据源在第0次数据采集过程中针对所述采集对象的数据特征的特征权重值。
可选地,其中,当所述采集对象的数据特征包括多个维度时,每个数据源针对所述采集对象的特征权重值包括:多个分别对应于所述采集对象的不同维度的特征权重值;
则所述第一获取模块具体适于:分别获取多个数据源在本次数据采集过程中针对采集对象的预设维度的数据特征采集到的多个数据特征值;
所述第一确定模块具体适于:分别根据每个分组对应的数据源针对所述采集对象的预设维度的特征权重值确定该分组的分组得分;
则所述第一修正模块具体适于:
确定所述采集对象的预设维度的数据特征在本次数据采集过程中的采集结果,并对各个数据源针对所述采集对象的预设维度的特征权重值进行修正。
可选地,其中,所述采集对象包括:温度、湿度、心跳、和/或实体;所述数据源包括:摄像头传感器、和/或声控传感器。
根据本发明的另一个方面,提供了一种基于多个数据源的数据采集系统,包括:
第二获取模块,适于分别获取多个数据源在本次数据采集过程中针对门店的门店特征采集到的多个门店特征值;
第二确定模块,适于将所述多个门店特征值划分为至少一个分组,分别根据每个分组对应的数据源针对所述门店的特征权重值确定该分组的分组得分;
第二修正模块,适于根据各个分组的分组得分,确定所述门店的门店特征在本次数据采集过程中的采集结果,并对各个数据源针对所述门店的特征权重值进行修正,以便在下一次数据采集过程中使用各个数据源针对所述门店的修正后的特征权重值。
可选地,其中,所述第二确定模块具体适于:
按照预设聚类规则对所述多个门店特征值进行聚类处理,根据聚类处理结果将所述多个门店特征值划分为至少一个分组。
可选地,其中,所述第二确定模块具体适于:
针对每个分组,分别确定该分组对应的各个数据源针对所述门店的各个特征权重值,按照预设运算规则对所述各个数据源针对所述门店的各个特征权重值进行运算,根据运算结果得到该分组的分组得分。
可选地,其中,所述第二修正模块具体适于:
若数据源对应的分组的分组得分高于第一预设阈值,则增加该数据源针对所述门店的特征权重值;
若数据源对应的分组的分组得分低于第二预设阈值,则降低该数据源针对所述门店的特征权重值。
可选地,其中,所述第二获取模块具体适于:分别获取多个数据源在第n+1次数据采集过程中针对门店的门店特征采集到的多个门店特征值;其中,n为不小于0的正整数;
且所述第二确定模块具体适于:分别根据每个分组对应的数据源在第n次数据采集过程中针对所述门店的门店特征的特征权重值确定该分组的分组得分;
则所述第二修正模块具体适于:根据以下公式确定各个数据源在第n+1次数据采集过程中针对所述门店的门店特征的特征权重值;
Wn+1=(Wn+m)/(n+1);其中,Wn+1为该数据源在第n+1次数据采集过程中针对所述门店的门店特征的特征权重值,Wn为该数据源在第n次数据采集过程中针对所述门店的门店特征的特征权重值,m的取值根据该数据源对应的分组的分组得分确定。
可选地,其中,当所述门店的门店特征包括多个维度时,第二获取模块具体适于:分别获取多个数据源在本次数据采集过程中针对门店的采集对象的门店特征采集到的多个门店特征值;
所述所述第二确定模块具体适于:分别根据每个分组对应的数据源针对所述门店中的该维度的特征权重值确定该分组的分组得分;
则所述第二修正模块具体适于:
确定所述门店中的该维度的门店特征在本次数据采集过程中的采集结果,并对各个数据源针对所述门店中的该维度的特征权重值进行修正。
可选地,其中,所述门店的门店特征包括以下至少一个维度:门店类型维度、门店中的商品维度和/或电子券维度;
所述数据源包括:商家提供的数据源、用户提供的数据源、以及APP提供的数据源。
依据本发明的又一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上述的基于多个数据源的数据采集方法对应的操作。
依据本发明的又一方面,提供了另一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上述的基于多个数据源的数据采集方法对应的操作。
依据本发明的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述的基于多个数据源的数据采集方法对应的操作。
依据本发明的再一方面,提供了另一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述的基于多个数据源的数据采集方法对应的操作。
根据本发明提供的基于多个数据源的数据采集方法及系统,通过获取多个数据源在本次数据采集过程中针对采集对象的数据特征采集到的多个数据特征值,并根据聚类规则将多个数据特征值划分为至少一个分组,针对上述分组分别根据每个分组对应的数据源针对采集对象的特征权重值确定该分组的分组得分,从而将每个分组对应的数据源针对采集对象的特征权重值与该分组的分组得分相互关联起来,最后根据各个分组的分组得分,确定采集对象的数据特征在本次数据采集过程中的采集结果,并对各个数据源针对采集对象的特征权重值进行修正,以便在下一次数据采集过程中使用各个数据源针对采集对象的修正后的特征权重值。根据该方法,能够通过不断地迭代各个分组对应的数据源针对采集对象的特征权重值,从而更加准确的获取上述特征权重值,并且根据投票机制来决定出最终的数据采集结果,而不是简单地通过计算平均值的方法,从而能够根据上述准确的特征权重值更加准确地确定采集对象的数据特征在本次数据采集过程中的采集结果,该方法简单实用,最终获取的采集结果准确度较高。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例一提供的一种基于多个数据源的数据采集方法的流程图;
图2示出了本发明实施例提供的一种基于多个数据源的数据采集方法一个流程框架图;
图3示出了本发明实施例提供的另一种基于多个数据源的数据采集方法的另一个流程框架图;
图4示出了本发明实施例二提供的一种基于多个数据源的数据采集方法的流程图;
图5示出了本发明实施例三提供的一种基于多个数据源的数据采集系统的结构图;
图6示出了本发明实施例四提供的另一种基于多个数据源的数据采集系统的结构图;
图7示出了本发明实施例五提供的一种电子设备的结构示意图;
图8示出了本发明实施例六提供的另一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
图1示出了本发明实施例一提供的一种基于多个数据源的数据采集方法的流程图。如图1所示,该方法包括:
步骤S110:预先设置各个数据源针对采集对象的初始特征权重值,将初始特征权重值作为数据源在第0次数据采集过程中针对采集对象的数据特征的特征权重值。
其中,该初始特征权重值可以设置为均等的数值,比如都可以设为0.5、1、2等数值或者设置为其它具体的数值。除了上述方式外,还可以根据各个数据源的参数值以及灵敏性来灵活地设置该初始特征权重值,对此本领域技术人员可以灵活地进行选择,此处不予以限制。
其中,本步骤为一个可选的步骤,在其他实施例中,也可以省略本步骤。例如,当各个数据源本身已具备初始特征权重值时则可以省略本步骤。
步骤S120:分别获取多个数据源在本次数据采集过程中针对采集对象的数据特征采集到的多个数据特征值。
其中,上述数据源包括但不限于以下中的至少一个:摄像头传感器、和/或声控传感器。上述传感器是指一种检测装置,能感受到被测量的信息,并能将感受到的信息按一定规律变换成为电信号或其他所需的信息输出形式,以满足信息的传输、处理、存储、显示、记录和控制等要求。传感器的特点包括:微型化、数字化、智能化、多功能化、系统化、网络化。它是实现自动检测和自动控制的首要环节。其中,上述采集对象包括但不限于以下中的至少一个:温度、湿度、心跳、和/或实体。比如当采集对象为实体中的商品,针对该商品的某个特征维度,比如针对价格维度,可以分别获取多个数据源在本次采集过程中针对商品的价格特征采集到的多个价格值。为了更加清楚全面地说明本发明的技术方案,图2示出了本发明实施例提供的一种基于多个数据源的数据采集方法的一个流程框架图。如图2所示,其中,假设上述多个数据源为多个传感器,分别为传感器i,传感器j,传感器k,则针对某一采集对象的数据特征,可以分别获取上述三个传感器获取的数据特征值。
可选地,当上述采集对象的数据特征包括多个维度时,则可以分别获取多个数据源在本次数据采集过程中针对采集对象的预设维度的数据特征采集到的多个数据特征值。其中,该预设维度可以为上述多个维度中的任一个。如图2所示,比如采集对象的数据特征包括4个维度,即为特征1、特征2、特征3、特征4,则可以分别获取多个数据源在本次数据采集过程中针对采集对象的上述4个维度中的任一个预设维度的数据特征采集到的多个数据特征值。又比如针对商品的数据特征,当商品的数据特征包括价格、重量、使用时间等多个维度,在本步骤中可以分别针对上述任一维度的数据特征来获取多个数据源在本次数据采集过程中针对采集对象的该维度的数据特征采集到的多个数据特征值。
步骤S130:将多个数据特征值划分为至少一个分组,分别根据每个分组对应的数据源针对采集对象的特征权重值确定该分组的分组得分。
具体地,在对多个数据特征值分组的时候,可以按照预设的聚类规则对多个数据特征值进行聚类处理,然后根据聚类处理结果将多个数据特征值划分为至少一个分组。上述聚类规则比如可以为基于数值范围的聚类规则、基于字数多少的聚类规则或者还可以为基于种类的聚类规则。比如可以将数据范围相差不大的数据特征值划分为同一组,或者将具有相同字数的数据特征值划分为同一组,或者将相似种类、相同种类的数据特征值划分为一组,总之,本发明并不限定聚类规则的具体种类,通过预设的聚类规则可以将具有相似属性特征或者相似大小的数据特征值划分为同一个分组内,从而间接地分别根据每个分组对应的数据源针对采集对象的特征权重值确定该分组的分组得分。图3示出了本发明实施例提供的另一种基于多个数据源的数据采集方法的流程框架图。如图3所示,传感器i与传感器j在本次数据采集过程中针对采集对象的数据特征采集到的数据特征值均为abc,传感器k采集到的数据特征值为abd,从而可以将上述两个数据特征值划分为一组,并将传感器k采集到的数据特征值abd划分为另一组。如图2、图3所示,对数据特征值进行分组的操作,可以通过数据融合器中的各个特征融合器来完成。
其中,每个分组的分组得分可以与分别根据每个分组对应的数据源针对采集对象的特征权重值成正相关的关系,即该分组的对应的数据源针对采集对象的特征权重值越高,该分组的得分越高。具体地,第一次根据每个分组对应的数据源针对采集对象的特征权重值确定该分组的分组得分时,可以根据初始特征权重值来确定每个分组的分组得分,接下来每次计算分组得分时可以根据对上一次修正后的特征权重值来确定该分组的分组得分,其中对各个数据源针对采集对象的特征权重值进行修正的具体方式将在下述步骤S140中详细说明,在此不再赘述。具体地,在计算分组得分时,可以针对每个分组,分别确定该分组对应的各个数据源针对上述采集对象的各个特征权重值,然后按照预设运算规则对各个数据源针对采集对象的各个特征权重值进行运算,并根据运算结果得到该分组的分组得分。其中,上述运算规则可以为相加规则、求平均值运算规则,线性回归计算规则等,具体地,该运算规则可以根据上述聚类规则中聚类的方式来确定,还可以根据具体的业务场景来确定,本领域技术人员可以灵活选择,本实施例在此不予以限制。
可选地,当采集对象的数据特征包括多个维度时,每个数据源针对该采集对象的特征权重值包括:多个分别对应于该采集对象的不同维度的特征权重值。比如如图2所示,当采集对象的数据特征包括4个维度时,对于传感器i,其针对该采集对象的特征权重值包括分别对应于该采集对象的4个不同维度的特征权重值,即针对特征1、特征2、特征3、特征4的特征权重值分别为:W(i,1)、W(i,2)、W(i,3)、W(i,4),关于图2中其它传感器分别对应于该采集对象的不同维度的特征权重值可以参照图2所示的内容,在此不再赘述。因此,当采集对象的数据特征包括多个维度时,可以分别根据每个分组对应的数据源针对采集对象的预设维度的特征权重值确定该分组的分组得分。该预设维度可以为上述多个维度中的任意一个。由于每个数据源在采集数据的过程中,针对不同维度的数据特征,其采集数据的灵敏度以及准确度会发生相应的改变,因此当采集对象的数据特征包括多个维度时,通过采用分别根据每个分组对应的数据源针对采集对象的预设维度的特征权重值确定该分组的分组得分的方式可以提高确定得分的准确性,从而获取更加准确的数据采集结果。
通过实施该步骤,能够将每个分组对应的数据源针对采集对象的特征权重值与该分组的分组得分相互关联起来,从而能够根据每个分组对应的数据源针对采集对象的特征权重值来决定采集对象的数据特征在本次数据采集过程中的采集结果。
步骤S140:根据各个分组的分组得分,确定采集对象的数据特征在本次数据采集过程中的采集结果,并对各个数据源针对采集对象的特征权重值进行修正,以便在下一次数据采集过程中使用各个数据源针对采集对象的修正后的特征权重值。
可选地,当每个数据源针对采集对象的特征权重值包括:多个分别对应于采集对象的不同维度的特征权重值;则在本步骤中可以确定采集对象的预设维度的数据特征在本次数据采集过程中的采集结果,并对各个数据源针对采集对象的预设维度的特征权重值进行修正。
具体地,比如在投票活动中,当有多个备选对象时,根据投票机制,由于获取票数最高的对象的可信度最高,所以通常会选择获取票数最高的对象作为选中对象。类似地,在获取的各个分组中,针对数值较大的特征权重值所对应的分组,其对应的各个数据源针对采集对象的数据特征采集到的数据特征值可信度较高,从而可以选取该分组对应的数据源针对采集对象的数据特征采集到的数据特征值作为采集对象的数据特征在本次数据采集过程中的采集结果。根据上述原理,在本步骤中可以选取获取的分组得分最高的分组对应的数据源针对采集对象的数据特征的数据特征值,作为采集对象的数据特征在本次数据采集过程中的采集结果。如图3所示,针对特征s,由于传感器i、传感器j针对采集对象的数据特征采集到的数据特征值所在分组的分组得分大于传感器k针对采集对象的数据特征采集到的数据特征值所在分组的分组得分,所以可以将数据特征值abc确定为采集对象的数据特征在本次数据采集过程中的采集结果。
进一步地,在对各个数据源针对采集对象的特征权重值进行修正时,若数据源对应的分组的分组得分高于第一预设阈值,表明该分组对应的数据源在采集数据过程中,针对采集对象的数据特征采集的数据特征值准确度高,则增加该数据源针对采集对象的特征权重值。相对应地,若数据源对应的分组的分组得分低于第二预设阈值,表明该分组对应的数据源在采集数据过程中,针对采集对象的数据特征采集的数据特征值准确度低,则降低该数据源针对采集对象的特征权重值,通过增加或者降低数据源针对采集对象的特征权重值,从而能够完成对各个数据源针对采集对象的特征权重值的修正。其中,上述第一预设阈值与第二预设阈值可以相同也可以不同,本领域技术人员可以根据具体的业务情况来具体设定。
具体地,在上述通过增加或者降低数据源针对采集对象的特征权重值,从而完成对各个数据源针对采集对象的特征权重值的修正的过程中,还可以根据具体的公式对各个数据源针对采集对象的特征权重值进行更加准确地修正,从而实现对各个数据源针对采集对象的特征权重值不断地迭代以在每一次数据采集过程中都能够根据每个分组对应的数据源针对采集对象的上一次修正后的特征权重值确定每个分组的分组得分。接下来将对上述公式进行详细地说明:假设在步骤S120中,分别获取多个数据源在第n+1次数据采集过程中针对采集对象的数据特征采集到的多个数据特征值;其中,n为不小于0的正整数;则在步骤S130中,可以分别根据每个分组对应的数据源在第n次数据采集过程中针对采集对象的数据特征的特征权重值确定该分组的分组得分;则上述对各个数据源针对采集对象的特征权重值进行修正时可以:根据公式Wn+1=(Wn+m)/(n+1)来确定各个数据源在第n+1次数据采集过程中针对采集对象的数据特征的特征权重值;其中,Wn+1为该数据源在第n+1次数据采集过程中针对采集对象的数据特征的特征权重值,Wn为该数据源在第n次数据采集过程中针对采集对象的数据特征的特征权重值,m的取值根据该数据源对应的分组的分组得分确定。具体地,m可以为正数、负数、0等数值,具体数值的大小可以根据该数据源对应的分组得分与第一预设阈值以及第二预设阈值的比较结果来确定,若上述分组得分高于第一预设阈值,则m可以设置为正值(例如+1),并且m值可以设置为与分组得分和第一预设阈值的差值成正比的值;若上述分组得分低于第二预设阈值,则m可以设置为负值等数值(例如0或-1),同样地,m的绝对值可以设置为与分组得分和第二预设阈值的差值成正比的值。根据上述公式Wn+1=(Wn+m)/(n+1),能够确定各个数据源在第n+1次数据采集过程中针对采集对象的数据特征的特征权重值,从而完成对各个数据源在第n次数据采集过程中针对采集对象的数据特征的特征权重值的修正。如图3所示,针对特征s,根据上述公式对各个数据源针对采集对象的特征权重值进行修正的操作过程,可以通过数据源特征权重计算器完成。比如对于数据源i,针对在数据采集过程中的针对采集对象的特征权重值,可以通过公式W’(i,1)=(W(i,1)+m)/(n+1)进行修正,其中W’(i,1)为在本次数据采集过程中(即第n+1次)修正后的数据源i针对特征1的特征权重值,W(i,1)为在上一次数据采集过程中修正后的数据源i针对特征1的特征权重值。针对其他的数据源j、数据源k在数据采集过程中的针对采集对象的特征权重值也可以根据如图3中的公式进行修正,在此不再赘述。
根据上述公式Wn+1=(Wn+m)/(n+1),在每完成一次数据源的数据采集之后,各个数据源对于采集对象的数据特征的权重都会发生动态的变化,通过对该数据源针对采集对象的数据特征值不断地迭代,从而使该权重值无限地趋近于理论权重值,进而使下一次该数据源针对采集对象的该数据特征的数据采集结果更加准确。
根据本实施例提供的基于多个数据源的数据采集方法,通过首先预设各个数据源针对采集对象的初始特征权重值,然后获取多个数据源在本次数据采集过程中针对采集对象的数据特征采集到的多个数据特征值,并根据聚类规则将多个数据特征值划分为至少一个分组,针对上述分组分别根据每个分组对应的数据源针对采集对象的特征权重值确定该分组的分组得分,从而将每个分组对应的数据源针对采集对象的特征权重值与该分组的分组得分相互关联起来,最后根据各个分组的分组得分,确定采集对象的数据特征在本次数据采集过程中的采集结果,并对各个数据源针对采集对象的特征权重值进行修正,以便在下一次数据采集过程中使用各个数据源针对采集对象的修正后的特征权重值。根据该方法,能够通过不断地迭代各个分组对应的数据源针对采集对象的特征权重值,从而更加准确的获取上述特征权重值,并且根据投票机制来决定出最终的数据采集结果,而不是简单地通过计算平均值的方法,从而能够根据上述准确的特征权重值更加准确地确定采集对象的数据特征在本次数据采集过程中的采集结果,该方法简单实用,最终获取的采集结果准确度较高。
实施例二
图4示出了本发明实施例二提供的一种基于多个数据源的数据采集方法的流程图。如图4所示,该方法包括:
步骤S410,分别获取多个数据源在本次数据采集过程中针对门店的门店特征采集到的多个门店特征值。
其中,上述数据源包括但不限于以下中的至少一个:商家提供的数据源、用户提供的数据源、以及APP提供的数据源。其中,商家提供的数据源比如可以为商家填写的门店信息,用户提供的数据源比如可以为来自客户端用户自己填写的门店信息,APP提供的数据源比如可以为APP小二根据客户门店填写的门店信息。另外,上述门店的门店特征包括但不限于以下中至少一个维度:门店类型维度、门店中的商品维度和/或电子券维度。比如针对门店类型维度,可以分别获取多个数据源在本次数据采集过程中针对门店的门店特征采集到的多个门店特征值,比如可以为餐饮类门店、服装类门店、家具类门店等。
进一步地,当上述门店的门店特征包括多个维度时,在该步骤中可以分别获取多个数据源在本次数据采集过程中针对门店的采集对象的门店特征采集到的多个门店特征值。其中,上述采集对象可以为上述任一维度的门店特征。比如针对门店类型特征,其包括门店名字、门店地址、门店经纬度等多个维度时,可以分别获取多个数据源在本次数据采集过程中针对上述任一维度的门店特征采集到的多个门店特征值。
步骤S420,将多个门店特征值划分为至少一个分组,分别根据每个分组对应的数据源针对门店的特征权重值确定该分组的分组得分。
在对门店聚类时,可以按照预设聚类规则对多个门店特征值进行聚类处理,根据聚类处理结果将多个门店特征值划分为至少一个分组。其中,上述聚类规则可以比如为基于数值范围的聚类规则、基于字数多少的聚类规则或者还可以为基于种类的聚类规则。比如针对门店的名称特征,在本次数据采集过程中,商家提供的数据源在此简称为数据源1,其获取的该特征值为黄焖鸡;用户提供的数据源,在此简称为数据源2,其获取的该特征值为小黄焖鸡;APP提供的数据源在此简称为数据源3,其获取的该特征值为黄焖鸡。由于数据源1,数据源3获取的特征值均为黄焖鸡,则根据聚类规则可以将数据源1,数据源3获取的特征值“黄焖鸡”划分为一组,数据源2获取的特征值“小黄焖鸡”划分为另一组。又比如,针对门店的地址特征,在本次数据采集过程中,数据源1获取的特征值为“杭州市西湖区”,数据源2获取的特征值为“杭州市西湖区高校路”、数据源3获取的特征值也为“杭州市西湖区高校路”,则根据聚类规则可以将数据2,数据3获取的特征值“杭州市西湖区高校路”划分为一组,将数据源1获取的特征值“杭州市西湖区”划分为另一组。关于其他的门店特征,也可以根据上述聚类规则来将多个门店特征值划分为至少一个分组,在此不再一一类述。
在将多个门店特征值划分为至少一个分组之后,分别根据每个分组对应的数据源针对门店的特征权重值确定该分组的分组得分。其中,每个分组的分组得分可以与每个分组对应的数据源针对门店的特征权重值成正相关的关系,即该分组的对应的数据源针对门店的特征权重值越高,该分组的得分越高。具体地,第一次根据每个分组对应的数据源针对门店特征的特征权重值确定该分组的分组得分时,可以根据初始特征权重值来确定每个分组的分组得分,该初始特征权重值可以人为地进行设定,接下来每次计算分组得分时可以根据对上一次修正后的特征权重值来确定该分组的分组得分,其中对各个数据源针对采集对象的特征权重值进行修正的具体方式将在下述步骤S230中详细说明,在此不再赘述。具体地,在计算分组得分时,可以针对每个分组,分别确定该分组对应的各个数据源针对上述门店特征的各个特征权重值,然后按照预设运算规则对各个数据源针对门店特征的各个特征权重值进行运算,根据运算结果得到该分组的分组得分。其中,上述运算规则可以为相加规则、求平均值运算规则,线性回归计算规则等,具体地,该运算规则可以根据上述聚类规则中聚类的方式来确定,还可以根据门店中具体的业务场景来确定,本领域技术人员可以灵活选择,本实施例在此不予以限制。
可选地,当上述门店的门店特征包括多个维度时,由于每个数据源在采集数据的过程中,针对不同维度的数据特征,其采集数据的灵敏度以及准确度会发生相应的改变,因此可以分别根据每个分组对应的数据源针对门店中的该维度的特征权重值确定该分组的分组得分,从而提高了确定得分的准确性,进而获取更加准确的门店的门店特征在本次数据采集过程中的采集结果。比如当门店特征包括门店名称、门店地址、门店经纬度等多个维度时,可以分别根据每个分组对应的数据源针对门店中上述三个维度的特征权重值确定该分组的分组得分,分别根据每个分组对应的数据源针对门店中的各个维度的数据值确定该分组的分组得分过程可以相互独立、互不干扰地进行。
步骤S430,根据各个分组的分组得分,确定门店的门店特征在本次数据采集过程中的采集结果,并对各个数据源针对门店的特征权重值进行修正,以便在下一次数据采集过程中使用各个数据源针对门店的修正后的特征权重值。
其中,当上述门店的门店特征包括多个维度时,可以确定门店中的该维度的门店特征在本次数据采集过程中的采集结果,并对各个数据源针对门店中的该维度的特征权重值进行修正,从而提高了修正的准确度。
具体地,在本次数据采集过程中,由于各个分组获取的门店的门店特征值的可信度随着分组得分的增大而增高,根据上述原理从而可以根据分组得分最高的分组对应的多个数据源在本次数据采集过程中针对门店的门店特征值采集到的多个门店特征值,来确定门店的门店特征在本次数据采集过程中的采集结果。比如数据源1、数据源3获取的特征值“黄焖鸡”所在组的得分高于数据源2获取的特征值“小黄焖鸡”所在组的分组得分,则可以在确定门店的名字特征在本次数据采集过程中的采集结果为“黄焖鸡”。
在确定门店的门店特征在本次数据采集过程中的采集结果之后,对各个数据源针对门店的特征权重值进行修正,以便在下一次数据采集过程中使用各个数据源针对门店的修正后的特征权重值。具体地,若数据源对应的分组的分组得分高于第一预设阈值,则增加该数据源针对门店的特征权重值;若数据源对应的分组的分组得分低于第二预设阈值,则降低该数据源针对门店的特征权重值。上述第一预设阈值、第二预设阈值可以设置为相等的值,也可以设置为不相等的值,具体数值的大小可以由本领域技术人员可以根据实际的业务情况灵活地进行设置。
具体地,在上述通过增加或者降低数据源针对门店的特征权重值,从而能够完成对各个数据源针对门店的特征权重值的修正时,还可以根据具体的公式对各个数据源针对门店的特征权重值进行更加准确地修正,从而实现对各个数据源针对门店的特征权重值不断地迭代以在每一次数据采集过程中都能够根据每个分组对应的数据源针对门店的上一次修正后的特征权重值确定每个分组的分组得分。接下来将对上述公式进行详细地说明,假设在步骤S210中,分别获取多个数据源在第n+1次数据采集过程中针对门店的数据特征采集到的多个数据特征值;其中,n为不小于0的正整数;则在步骤S220中,可以分别根据每个分组对应的数据源在第n次数据采集过程中针对门店的数据特征的特征权重值确定该分组的分组得分;则上述对各个数据源针对门店的特征权重值进行修正时可以根据以下公式Wn+1=(Wn+m)/(n+1)确定各个数据源在第n+1次数据采集过程中针对门店的特征权重值;其中,Wn+1为该数据源在第n+1次数据采集过程中针对门店的特征权重值,Wn为该数据源在第n次数据采集过程中针对门店的特征权重值,m的取值可以根据该数据源对应的分组的分组得分确定,具体地,m可以为正数、负数、0等数值,具体数值的大小可以根据该数据源对应的分组得分和第一预设阈值以及第二预设阈值的比较结果来确定,若上述分组得分高于第一预设阈值,则m可以设置为正值(例如+1),并且m值可以设置为与分组得分和第一预设阈值的差值成正比的值;若上述分组得分低于第二预设阈值,则m可以设置为负值等数值(例如0或-1),同样地,m的绝对值可以设置为与分组得分和第二预设阈值的差值成正比的值。根据上述公式Wn+1=(Wn+m)/(n+1),能够确定各个数据源在第n+1次数据采集过程中针对门店的特征权重值,从而完成对各个数据源在第n次数据采集过程中针对门店的特征权重值的修正。根据上述公式,在每完成一次数据源的数据采集之后,数据源对于门店的权重值都会发生动态的变化,通过对该数据源针对门店的数据特征值不断地迭代,从而使该权重值无限地趋近于该理论权重值,进而使下一次该数据源针对门店的该数据特征的数据采集结果更加准确。
根据本实施例提供的基于多个数据源的数据采集方法,通过分别获取多个数据源在本次数据采集过程中针对门店的门店特征采集到的多个门店特征值,并将上述多个门店特征值划分为至少一个分组,分别根据每个分组对应的数据源针对门店的特征权重值确定该分组的分组得分,从而根据各个分组的分组得分,确定门店的门店特征在本次数据采集过程中的采集结果,并对各个数据源针对门店的特征权重值进行修正,以便在下一次数据采集过程中使用各个数据源针对门店的修正后的特征权重值。根据该方法能够对各个分组对应的数据源针对门店的特征权重值进行迭代,从而获取更加准确的特征权重值,并且根据投票机制来决定出最终的数据采集结果,而不是简单地通过计算平均值的方法,从而能够根据上述准确的特征权重值更加准确地确定门店的门店特征在本次数据采集过程中的采集结果,该方法简单实用,最终获取的采集结果准确度较高。
实施例三
图5示出了本发明实施例三提供的一种基于多个数据源的数据采集系统的结构图,该系统包括:
第一获取模块52,适于分别获取多个数据源在本次数据采集过程中针对采集对象的数据特征采集到的多个数据特征值;
第一确定模块53,适于将所述多个数据特征值划分为至少一个分组,分别根据每个分组对应的数据源针对所述采集对象的特征权重值确定该分组的分组得分;
第一修正模块54,适于根据各个分组的分组得分,确定所述采集对象的数据特征在本次数据采集过程中的采集结果,并对各个数据源针对所述采集对象的特征权重值进行修正,以便在下一次数据采集过程中使用各个数据源针对所述采集对象的修正后的特征权重值。
可选地,其中,所述第一确定模块53具体适于:
按照预设聚类规则对所述多个数据特征值进行聚类处理,根据聚类处理结果将所述多个数据特征值划分为至少一个分组。
可选地,其中,所述第一确定模块53具体适于:
针对每个分组,分别确定该分组对应的各个数据源针对所述采集对象的各个特征权重值,按照预设运算规则对所述各个数据源针对所述采集对象的各个特征权重值进行运算,根据运算结果得到该分组的分组得分。
可选地,其中,所述第一修正模块54具体适于:
若数据源对应的分组的分组得分高于第一预设阈值,则增加该数据源针对所述采集对象的特征权重值;
若数据源对应的分组的分组得分低于第二预设阈值,则降低该数据源针对所述采集对象的特征权重值。
可选地,其中,所述第一获取模块52具体适于:分别获取多个数据源在第n+1次数据采集过程中针对采集对象的数据特征采集到的多个数据特征值;其中,n为不小于0的正整数;
且所述第一确定模块53具体适于:分别根据每个分组对应的数据源在第n次数据采集过程中针对所述采集对象的数据特征的特征权重值确定该分组的分组得分;
则所述第一修正模块54具体适于:根据以下公式确定各个数据源在第n+1次数据采集过程中针对所述采集对象的数据特征的特征权重值;
Wn+1=(Wn+m)/(n+1);其中,Wn+1为该数据源在第n+1次数据采集过程中针对所述采集对象的数据特征的特征权重值,Wn为该数据源在第n次数据采集过程中针对所述采集对象的数据特征的特征权重值,m的取值根据该数据源对应的分组的分组得分确定。
可选地,其中,所述装置进一步包括设置模块51,适于:
预先设置各个数据源针对所述采集对象的初始特征权重值,将所述初始特征权重值作为数据源在第0次数据采集过程中针对所述采集对象的数据特征的特征权重值。
可选地,其中,当所述采集对象的数据特征包括多个维度时,每个数据源针对所述采集对象的特征权重值包括:多个分别对应于所述采集对象的不同维度的特征权重值;
则所述第一获取模块52具体适于:分别获取多个数据源在本次数据采集过程中针对采集对象的预设维度的数据特征采集到的多个数据特征值;
所述第一确定模块53具体适于:分别根据每个分组对应的数据源针对所述采集对象的预设维度的特征权重值确定该分组的分组得分;
则所述第一修正模块54具体适于:
确定所述采集对象的预设维度的数据特征在本次数据采集过程中的采集结果,并对各个数据源针对所述采集对象的预设维度的特征权重值进行修正。
可选地,其中,所述采集对象包括:温度、湿度、心跳、和/或实体;所述数据源包括:摄像头传感器、和/或声控传感器。
实施例四
图6示出了本发明实施例四提供的另一种基于多个数据源的数据采集系统的结构图,该系统包括:
第二获取模块61,适于分别获取多个数据源在本次数据采集过程中针对门店的门店特征采集到的多个门店特征值;
第二确定模块62,适于将所述多个门店特征值划分为至少一个分组,分别根据每个分组对应的数据源针对所述门店的特征权重值确定该分组的分组得分;
第二修正模块63,适于根据各个分组的分组得分,确定所述门店的门店特征在本次数据采集过程中的采集结果,并对各个数据源针对所述门店的特征权重值进行修正,以便在下一次数据采集过程中使用各个数据源针对所述门店的修正后的特征权重值。
可选地,其中,所述第二确定模块62具体适于:
按照预设聚类规则对所述多个门店特征值进行聚类处理,根据聚类处理结果将所述多个门店特征值划分为至少一个分组。
可选地,其中,所述第二确定模块62具体适于:
针对每个分组,分别确定该分组对应的各个数据源针对所述门店的各个特征权重值,按照预设运算规则对所述各个数据源针对所述门店的各个特征权重值进行运算,根据运算结果得到该分组的分组得分。
可选地,其中,所述第二修正模块63具体适于:
若数据源对应的分组的分组得分高于第一预设阈值,则增加该数据源针对所述门店的特征权重值;
若数据源对应的分组的分组得分低于第二预设阈值,则降低该数据源针对所述门店的特征权重值。
可选地,其中,所述第二获取模块61具体适于:分别获取多个数据源在第n+1次数据采集过程中针对门店的门店特征采集到的多个门店特征值;其中,n为不小于0的正整数;
且所述第二确定模块62具体适于:分别根据每个分组对应的数据源在第n次数据采集过程中针对所述门店的门店特征的特征权重值确定该分组的分组得分;
则所述第二修正模块63具体适于:根据以下公式确定各个数据源在第n+1次数据采集过程中针对所述门店的门店特征的特征权重值;
Wn+1=(Wn+m)/(n+1);其中,Wn+1为该数据源在第n+1次数据采集过程中针对所述门店的门店特征的特征权重值,Wn为该数据源在第n次数据采集过程中针对所述门店的门店特征的特征权重值,m的取值根据该数据源对应的分组的分组得分确定。
可选地,其中,当所述门店的门店特征包括多个维度时,第二获取模块61具体适于:分别获取多个数据源在本次数据采集过程中针对门店的采集对象的门店特征采集到的多个门店特征值;
所述所述第二确定模块62具体适于:分别根据每个分组对应的数据源针对所述门店中的该维度的特征权重值确定该分组的分组得分;
则所述第二修正模块63具体适于:
确定所述门店中的该维度的门店特征在本次数据采集过程中的采集结果,并对各个数据源针对所述门店中的该维度的特征权重值进行修正。
可选地,其中,所述门店的门店特征包括以下至少一个维度:门店类型维度、门店中的商品维度和/或电子券维度;
所述数据源包括:商家提供的数据源、用户提供的数据源、以及APP提供的数据源。
实施例五
图7示出了根据本发明实施例五的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图7所示,该电子设备可以包括:处理器(processor)702、通信接口(Communications Interface)706、存储器(memory)704、以及通信总线708。
其中:
处理器702、通信接口706、以及存储器704通过通信总线708完成相互间的通信。
通信接口706,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器702,用于执行程序710,具体可以执行上述基于多个数据源的数据采集方法实施例中的相关步骤。
具体地,程序710可以包括程序代码,该程序代码包括计算机操作指令。
处理器702可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器704,用于存放程序710。存储器704可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序710具体可以用于使得处理器702执行以下操作:
分别获取多个数据源在本次数据采集过程中针对采集对象的数据特征采集到的多个数据特征值;
将所述多个数据特征值划分为至少一个分组,分别根据每个分组对应的数据源针对所述采集对象的特征权重值确定该分组的分组得分;
根据各个分组的分组得分,确定所述采集对象的数据特征在本次数据采集过程中的采集结果,并对各个数据源针对所述采集对象的特征权重值进行修正,以便在下一次数据采集过程中使用各个数据源针对所述采集对象的修正后的特征权重值。
实施例六
图8示出了本发明实施例六提供的另一种电子设备的结构示意图。本发明具体实施例并不对电子设备的具体实现做限定。
如图8所示,该电子设备可以包括:处理器(processor)802、通信接口(Communications Interface)806、存储器(memory)804、以及通信总线808。
其中:
处理器802、通信接口806、以及存储器804通过通信总线808完成相互间的通信。
通信接口806,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器802,用于执行程序810,具体可以执行上述基于多个数据源的数据采集方法实施例中的相关步骤。
具体地,程序810可以包括程序代码,该程序代码包括计算机操作指令。
处理器802可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器804,用于存放程序810。存储器804可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序810具体可以用于使得处理器802执行以下操作:
分别获取多个数据源在本次数据采集过程中针对门店的门店特征采集到的多个门店特征值;
将所述多个门店特征值划分为至少一个分组,分别根据每个分组对应的数据源针对所述门店的特征权重值确定该分组的分组得分;
根据各个分组的分组得分,确定所述门店的门店特征在本次数据采集过程中的采集结果,并对各个数据源针对所述门店的特征权重值进行修正,以便在下一次数据采集过程中使用各个数据源针对所述门店的修正后的特征权重值。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于语音输入信息的抽奖系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种基于多个数据源的数据采集方法,包括:
分别获取多个数据源在本次数据采集过程中针对采集对象的数据特征采集到的多个数据特征值;
将所述多个数据特征值划分为至少一个分组,分别根据每个分组对应的数据源针对所述采集对象的特征权重值确定该分组的分组得分;
根据各个分组的分组得分,确定所述采集对象的数据特征在本次数据采集过程中的采集结果,并对各个数据源针对所述采集对象的特征权重值进行修正,以便在下一次数据采集过程中使用各个数据源针对所述采集对象的修正后的特征权重值。
2.根据权利要求1所述的方法,其中,所述将所述多个数据特征值划分为至少一个分组的步骤具体包括:
按照预设聚类规则对所述多个数据特征值进行聚类处理,根据聚类处理结果将所述多个数据特征值划分为至少一个分组。
3.根据权利要求1或2所述的方法,其中,所述分别根据每个分组对应的数据源针对所述采集对象的特征权重值确定该分组的分组得分的步骤具体包括:
针对每个分组,分别确定该分组对应的各个数据源针对所述采集对象的各个特征权重值,按照预设运算规则对所述各个数据源针对所述采集对象的各个特征权重值进行运算,根据运算结果得到该分组的分组得分。
4.一种基于多个数据源的数据采集方法,包括:
分别获取多个数据源在本次数据采集过程中针对门店的门店特征采集到的多个门店特征值;
将所述多个门店特征值划分为至少一个分组,分别根据每个分组对应的数据源针对所述门店的特征权重值确定该分组的分组得分;
根据各个分组的分组得分,确定所述门店的门店特征在本次数据采集过程中的采集结果,并对各个数据源针对所述门店的特征权重值进行修正,以便在下一次数据采集过程中使用各个数据源针对所述门店的修正后的特征权重值。
5.一种基于多个数据源的数据采集系统,包括:
第一获取模块,适于分别获取多个数据源在本次数据采集过程中针对采集对象的数据特征采集到的多个数据特征值;
第一确定模块,适于将所述多个数据特征值划分为至少一个分组,分别根据每个分组对应的数据源针对所述采集对象的特征权重值确定该分组的分组得分;
第一修正模块,适于根据各个分组的分组得分,确定所述采集对象的数据特征在本次数据采集过程中的采集结果,并对各个数据源针对所述采集对象的特征权重值进行修正,以便在下一次数据采集过程中使用各个数据源针对所述采集对象的修正后的特征权重值。
6.一种基于多个数据源的数据采集系统,包括:
第二获取模块,适于分别获取多个数据源在本次数据采集过程中针对门店的门店特征采集到的多个门店特征值;
第二确定模块,适于将所述多个门店特征值划分为至少一个分组,分别根据每个分组对应的数据源针对所述门店的特征权重值确定该分组的分组得分;
第二修正模块,适于根据各个分组的分组得分,确定所述门店的门店特征在本次数据采集过程中的采集结果,并对各个数据源针对所述门店的特征权重值进行修正,以便在下一次数据采集过程中使用各个数据源针对所述门店的修正后的特征权重值。
7.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-3中任一项所述的基于多个数据源的数据采集方法对应的操作。
8.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求4所述的基于多个数据源的数据采集方法对应的操作。
9.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-3中任一项所述的基于多个数据源的数据采集方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求4所述的基于多个数据源的数据采集方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810539389.5A CN108764348B (zh) | 2018-05-30 | 2018-05-30 | 基于多个数据源的数据采集方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810539389.5A CN108764348B (zh) | 2018-05-30 | 2018-05-30 | 基于多个数据源的数据采集方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108764348A true CN108764348A (zh) | 2018-11-06 |
CN108764348B CN108764348B (zh) | 2020-07-10 |
Family
ID=64004210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810539389.5A Active CN108764348B (zh) | 2018-05-30 | 2018-05-30 | 基于多个数据源的数据采集方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108764348B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110473396A (zh) * | 2019-06-27 | 2019-11-19 | 安徽科力信息产业有限责任公司 | 交通拥堵数据分析方法、装置、电子设备及存储介质 |
CN110517083A (zh) * | 2019-08-27 | 2019-11-29 | 秒针信息技术有限公司 | 一种确定用户属性信息的方法及装置 |
CN112988875A (zh) * | 2021-04-08 | 2021-06-18 | 北京澎思科技有限公司 | 一种多维数据采集装置、系统及方法 |
CN113793174A (zh) * | 2021-09-01 | 2021-12-14 | 北京爱笔科技有限公司 | 数据关联方法、装置、计算机设备和存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090304290A1 (en) * | 2008-06-09 | 2009-12-10 | Denso Corporation | Image recognition apparatus utilizing plurality of weak classifiers for evaluating successive sub-images extracted from an input image |
CN103902961A (zh) * | 2012-12-28 | 2014-07-02 | 汉王科技股份有限公司 | 一种人脸识别方法及装置 |
CN104866969A (zh) * | 2015-05-25 | 2015-08-26 | 百度在线网络技术(北京)有限公司 | 个人信用数据处理方法和装置 |
CN105260748A (zh) * | 2015-10-16 | 2016-01-20 | 吉林大学 | 一种不确定数据的聚类方法 |
CN106709805A (zh) * | 2016-06-29 | 2017-05-24 | 腾讯科技(深圳)有限公司 | 一种用户收益数据获取方法及系统 |
CN106919794A (zh) * | 2017-02-24 | 2017-07-04 | 黑龙江特士信息技术有限公司 | 面向多数据源的药品类实体识别方法及装置 |
US9798644B2 (en) * | 2014-05-15 | 2017-10-24 | Ca, Inc. | Monitoring system performance with pattern event detection |
US9875445B2 (en) * | 2014-02-25 | 2018-01-23 | Sri International | Dynamic hybrid models for multimodal analysis |
CN107622432A (zh) * | 2017-07-28 | 2018-01-23 | 阿里巴巴集团控股有限公司 | 商户评价方法及系统 |
CN107657476A (zh) * | 2017-08-29 | 2018-02-02 | 口碑(上海)信息技术有限公司 | 店铺的评价方法及装置、店铺推荐方法及装置 |
CN107679103A (zh) * | 2017-09-08 | 2018-02-09 | 口碑(上海)信息技术有限公司 | 用于实体的属性分析方法及系统 |
US20180060652A1 (en) * | 2016-08-31 | 2018-03-01 | Siemens Healthcare Gmbh | Unsupervised Deep Representation Learning for Fine-grained Body Part Recognition |
CN107808152A (zh) * | 2017-11-23 | 2018-03-16 | 高域(北京)智能科技研究院有限公司 | 提升人脸识别准确率的方法和人脸识别系统 |
CN107918657A (zh) * | 2017-11-20 | 2018-04-17 | 腾讯科技(深圳)有限公司 | 一种数据源的匹配方法和装置 |
CN108038132A (zh) * | 2017-11-17 | 2018-05-15 | 上海数据交易中心有限公司 | 数据质量分析方法及装置、存储介质、终端 |
-
2018
- 2018-05-30 CN CN201810539389.5A patent/CN108764348B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090304290A1 (en) * | 2008-06-09 | 2009-12-10 | Denso Corporation | Image recognition apparatus utilizing plurality of weak classifiers for evaluating successive sub-images extracted from an input image |
CN103902961A (zh) * | 2012-12-28 | 2014-07-02 | 汉王科技股份有限公司 | 一种人脸识别方法及装置 |
US9875445B2 (en) * | 2014-02-25 | 2018-01-23 | Sri International | Dynamic hybrid models for multimodal analysis |
US9798644B2 (en) * | 2014-05-15 | 2017-10-24 | Ca, Inc. | Monitoring system performance with pattern event detection |
CN104866969A (zh) * | 2015-05-25 | 2015-08-26 | 百度在线网络技术(北京)有限公司 | 个人信用数据处理方法和装置 |
CN105260748A (zh) * | 2015-10-16 | 2016-01-20 | 吉林大学 | 一种不确定数据的聚类方法 |
CN106709805A (zh) * | 2016-06-29 | 2017-05-24 | 腾讯科技(深圳)有限公司 | 一种用户收益数据获取方法及系统 |
US20180060652A1 (en) * | 2016-08-31 | 2018-03-01 | Siemens Healthcare Gmbh | Unsupervised Deep Representation Learning for Fine-grained Body Part Recognition |
CN106919794A (zh) * | 2017-02-24 | 2017-07-04 | 黑龙江特士信息技术有限公司 | 面向多数据源的药品类实体识别方法及装置 |
CN107622432A (zh) * | 2017-07-28 | 2018-01-23 | 阿里巴巴集团控股有限公司 | 商户评价方法及系统 |
CN107657476A (zh) * | 2017-08-29 | 2018-02-02 | 口碑(上海)信息技术有限公司 | 店铺的评价方法及装置、店铺推荐方法及装置 |
CN107679103A (zh) * | 2017-09-08 | 2018-02-09 | 口碑(上海)信息技术有限公司 | 用于实体的属性分析方法及系统 |
CN108038132A (zh) * | 2017-11-17 | 2018-05-15 | 上海数据交易中心有限公司 | 数据质量分析方法及装置、存储介质、终端 |
CN107918657A (zh) * | 2017-11-20 | 2018-04-17 | 腾讯科技(深圳)有限公司 | 一种数据源的匹配方法和装置 |
CN107808152A (zh) * | 2017-11-23 | 2018-03-16 | 高域(北京)智能科技研究院有限公司 | 提升人脸识别准确率的方法和人脸识别系统 |
Non-Patent Citations (2)
Title |
---|
YANG YIFEI1: "Multiple Data Sources Fusion Method for Effectiveness Evaluation of Ship-borne TT&C System", 《2016 15TH INTERNATIONAL CONFERENCE ON OPTICAL COMMUNICATIONS AND NETWORKS (ICOCN)》 * |
林雍泰等: "基于新权重的多数据源规则合成算法", 《基于新权重的多数据源规则合成算法》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110473396A (zh) * | 2019-06-27 | 2019-11-19 | 安徽科力信息产业有限责任公司 | 交通拥堵数据分析方法、装置、电子设备及存储介质 |
CN110473396B (zh) * | 2019-06-27 | 2020-12-04 | 安徽科力信息产业有限责任公司 | 交通拥堵数据分析方法、装置、电子设备及存储介质 |
CN110517083A (zh) * | 2019-08-27 | 2019-11-29 | 秒针信息技术有限公司 | 一种确定用户属性信息的方法及装置 |
CN112988875A (zh) * | 2021-04-08 | 2021-06-18 | 北京澎思科技有限公司 | 一种多维数据采集装置、系统及方法 |
CN113793174A (zh) * | 2021-09-01 | 2021-12-14 | 北京爱笔科技有限公司 | 数据关联方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108764348B (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210248461A1 (en) | Graph enhanced attention network for explainable poi recommendation | |
Evans et al. | From data to decisions: helping crop producers build their actionable knowledge | |
JP6384065B2 (ja) | 情報処理装置、学習方法、及び、プログラム | |
CN108764348A (zh) | 基于多个数据源的数据采集方法及系统 | |
Bode | Neural networks for cost estimation: simulations and pilot application | |
Comber et al. | Using control data to determine the reliability of volunteered geographic information about land cover | |
EP3346428A1 (en) | Sensor design support apparatus, sensor design support method and computer program | |
CN105868254A (zh) | 信息推荐方法及装置 | |
Hanea et al. | An in-depth perspective on the classical model | |
CN112150214A (zh) | 一种数据预测方法、装置以及计算机可读存储介质 | |
CN112417002B (zh) | 应用于教育信息化的信息素养数据挖掘方法及系统 | |
Brown et al. | Estimating per‐pixel thematic uncertainty in remote sensing classifications | |
Wang et al. | Construction of fuzzy control charts based on weighted possibilistic mean | |
CN108255788A (zh) | 一种评估数据的可信度的方法及装置 | |
Reyes et al. | Vetting asteroseismic Δν measurements using neural networks | |
Lee et al. | Optimizing artificial neural network-based models to predict rice blast epidemics in Korea | |
Budiastuti et al. | Predicting daily consumer price index using support vector regression method | |
CN112925994B (zh) | 基于局部和全局信息融合的群组推荐方法、系统及设备 | |
Chan et al. | The “mutual ignoring” mechanism of cyberbalkanization: triangulating observational data analysis and agent-based modeling | |
CN110278524B (zh) | 用户位置确定方法、图模型生成方法、装置及服务器 | |
Karademir et al. | Galaxy And Mass Assembly (GAMA): z~ 0 galaxy luminosity function down to L~ 106 L⊙ via clustering based redshift inference | |
Lipton | Africa’s National-accounts Mess1 | |
CN117951636A (zh) | 基于物联网数据融合的土壤污染检测方法、装置及介质 | |
US20170124106A1 (en) | Recommending a social structure | |
CN109358323B (zh) | 一种地质雷达数据解释方法、装置,电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |