CN114049505B

CN114049505B - 一种商品的匹配与识别方法、装置、设备和介质

Info

Publication number: CN114049505B
Application number: CN202111181881.8A
Authority: CN
Inventors: 郑新刚; 邱华淞; 张意坤; 林富钦; 杨锋
Original assignee: Shucai Xiaobo Technology Development Co ltd
Current assignee: Shucai Xiaobo Technology Development Co ltd
Priority date: 2021-10-11
Filing date: 2021-10-11
Publication date: 2022-08-23
Anticipated expiration: 2041-10-11
Also published as: CN114049505A

Abstract

本发明提供一种商品的匹配与识别方法、装置、设备和介质，方法包括：S1、对电子商城中的商品数据进行治理；S2、分别利用第一匹配算法和第二匹配算法对商品的相似度进行匹配，得到第一匹配结果和第二匹配结果；S3、对所述第一匹配结果和所述第二匹配结果进行交叉验证，提取匹配差别较大的部分，根据人工检测结果判别所述第一匹配算法和所述第二匹配算法中哪种算法更准确；S4、当所述第一匹配算法更为准确时，则调整所述第二匹配算法中的参数，或当所述第二匹配算法更为准确时，则调整所述第一匹配算法中的参数，回到步骤S2，直到所述第一匹配算法和所述第二匹配算法都达到预期准确度。

Description

一种商品的匹配与识别方法、装置、设备和介质

技术领域

本发明涉及计算机技术领域，特别涉及一种电子商城中商品的匹配与识别方法、装置、设备和介质。

背景技术

电子商城中商品的匹配识别是根据商品的描述，把相同商品进行匹配，以达到精确识别商品、实现商品比价和价格监测的目的。现有技术中往往有如下方式进行商品识别：

A、人工梳理法：通过人工梳理商品的特征名和特征值(或属性名和属性值)，并形成商品标准化数据，在此基础上进行商品匹配识别；

B、全文搜索法：以ElasticSearch等搜索引擎为中心，通过输入关键字、配置字符串相似度和简单规则搜索匹配商品；

C、商品归一法：利用监督学习，代替了“人工梳理法”中商品特征的人工梳理的环节，是“人工梳理法”的升级版。其过程分为数据预处理和商品归一两部分，如图1所示为商品归一的整体框架。其中，模式集成、缺失值填充、错误值修复属于数据预处理部分，定义特征相似度、训练分类器、聚类则属于商品归一部分。各部分的特点如下：

a)模式集成。把所有商品的属性都纳入到统一的模式下，其主要原理是通过字符串相似度把本质上相同的特征值先进行合并，再把本质上相同的特征名合并。这里涉及到相似度的阈值，即字符串相似度不低于指定阈值则认为是相同的，阈值通过随机挑选部分商品的特征进行人工标记再训练后得到：

上面公式中，δ和θ分别为特征名和特征值的相似度阈值。

b)缺失值填充。特征中有两类缺失：特征值缺失和模式缺失，即商品中缺失一个或多个本该存在的特征名及其值。缺失值填充算法伪代码如下：

c)错误值修复。又分为错误值检测、正确值确认。其中，错误值检测的伪代码如下：

经过缺失值填充和错误值检测后会存在冲突属性，需要执行正确值确认，可以选择下面两个策略中的任一个：

(1)

(2)

d)定义特征相似度(特征选择)。若两个商品在某个属性上的取值分别为v1和v2，则他们在该特征上的相似度定义如下：

除了商品特征表外，商品名称(标题)和价格也是商品特征的补充。

e)商品名称的相似度计算。需先进行分词，去除停用词，再利用TF-ID]计算词权重，最后利用Jaccord计算带权重的相似度，公式如下：

价格相似度计算公式如下：

f)训练分类器。要训练分类器须先对数据进行人工标注。多分类器中所需要训练的参数个数远远大于二分类器，若使用多分类器，训练数据集就必须覆盖所有的类别，由于商品种类繁多，数量巨大，不可能对所有商品进行人工标注。而二分类器不需要训练集覆盖所有的实体，因此选择二分类器。在二分类器中，设定C₀为匹配，C₁为不匹配。C₀类的后验概率可以利用一个关于特征向量的带权重和线性的sigmoid函数来建模：

在P(C₀|s)中，w＝[w₀，w]，其中w₀是偏置、W是特征向量的权重，s＝[1，s]。P(C₁|s)＝1-P(C₀|s)的作用是：如果两个商品的特征越相似，它们在所有特征上相似度等于1或者接近1的值就越多，因此特征相似度的带权和(w^Ts)就越大，通过sigmoid函数得到的估计概率就越接近于1，反之亦然。利用训练数据集通过极大似然估计可以对w以及偏置

进行训练。训练完毕后w中的第k个值反映了第k个特征在区分商品时的重要程度：

越大，说明第k个特征的重要性越高，则分类器将k特征上不同的商品进行匹配的可能性就越低。

g)聚类。用两两商品之间匹配的概率生成商品的相似度矩阵，然后对相似度矩阵聚类来实现划分。使用聚类进行划分时不但考虑两两商品之间的相似度，还会考虑到邻域信息，这样会得到更好的结果。聚类算法(如k-means或HAC)来对商品进行划分。

上述现有技术的缺点及其原因分析：

(A)人工梳理法。人工梳理需要熟悉不同种类的不同商品，且商品种类繁多，动辄过千万。因此，这种方法注定劳民伤财，效率极其低下，是不可持续的一种方法。

(B)全文搜索法。这种方法依赖于搜索引擎，需导入指定的词库、字典，还需进行规则和相似度阈值配置，所能干预的空间有限，且匹配不精准，仅作为参考。

(C)商品归一法。该方法通过机器学习技术实现一定程度的自动化，且具有灵活性。但商品的“缺失值填充”、“错误值修复”等环节不仅计算量巨大，计算效率低下，且依然不能保证较高的准确率，更何况没有交叉验证机制。

发明内容

本发明要解决的技术问题，在于提供一种商品的匹配与识别方法、装置、设备和介质，通过两种各自独立匹配算法分别对商品进行相似度匹配，之后再通过交叉验证工具进行交叉验证，并根据验证结果再调整匹配算法的参数，经过检验、核查、调整参数、计算多次循环计算，从而使匹配算法结果更精准，直到得到满意的商品匹配和识别效果。

第一方面，本发明提供了一种商品的匹配与识别方法，包括下述步骤：

S1、对电子商城中的商品数据进行治理；

S2、分别利用第一匹配算法和第二匹配算法对商品的相似度进行匹配，得到第一匹配结果和第二匹配结果；

S3、对所述第一匹配结果和所述第二匹配结果进行交叉验证，提取匹配差别较大的部分，根据人工检测结果判别所述第一匹配算法和所述第二匹配算法中哪种算法更准确；

S4、当所述第一匹配算法更为准确时，则调整所述第二匹配算法中的参数，或当所述第二匹配算法更为准确时，则调整所述第一匹配算法中的参数，回到步骤S2，直到所述第一匹配算法和所述第二匹配算法都达到预期准确度。

第二方面，本发明提供了一种商品的匹配与识别装置，包括：

数据治理模块，用于对电子商城中的商品数据进行治理；

第一匹配模块，利用第一匹配算法对商品的相似度进行匹配，得到第一匹配结果；

第二匹配模块，利用第二匹配算法对商品的相似度进行匹配，得到第二匹配结果；

交叉验证模块，对所述第一匹配结果和所述第二匹配结果进行交叉验证，提取匹配差别较大的部分，根据人工检测结果判别所述第一匹配算法和所述第二匹配算法中哪种算法更准确；

调整模块，当所述第一匹配算法更为准确时，则调整所述第二匹配算法中的参数，或当所述第二匹配算法更为准确时，则调整所述第一匹配算法中的参数，直到所述第一匹配算法和所述第二匹配算法都达到预期准确度。

第三方面，本发明提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述的方法。

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：本发明通过两种各自独立匹配算法分别对商品进行相似度匹配，之后再通过交叉验证工具进行交叉验证，并根据验证结果再调整匹配算法的参数，经过检验、核查、调整参数、计算多次循环计算，从而使匹配算法结果更精准，直到得到满意的商品匹配和识别效果。实验证明初次识别率约为83％，持续计算后识别率约为95％。一方面大幅缩短了人工梳理的时间、提高了效率、并极大降低了成本；当第一匹配算法和第二匹配算法都达到预期准确度时，还可将核验结果进行固化；另一方面更具有普适性，针对不同的商品数据集均可使用，可用于多电商不同结构化商品描述的同一商品比价、价格监测等商业应用，可大大降低人工重复性工作，极大促进企业采购效率解决多次搜索、比价等采购决策，例如单一物品采购时间由原来的2小时将为10分钟左右。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明实施例一中方法中的流程图；

图2为本发明实施例一中方法中的详细流程图；

图3为本发明实施例二中装置的结构示意图；

图4为本发明实施例三中电子设备的结构示意图；

图5为本发明实施例四中介质的结构示意图。

具体实施方式

本申请实施例通过提供一种商品的匹配与识别方法、装置、设备和介质，采用两个各自独立的相似度匹配算法，分别对商品进行相似度匹配，再进行交叉验证，并根据验证结果再调整匹配算法的参数，进一步提高商品匹配的准确性。

本申请实施例中的技术方案，总体思路如下：本发明通过两种各自独立相似度匹配算法分别对商品进行相似度匹配，之后再通过交叉验证工具进行交叉验证，并根据验证结果再调整匹配算法的参数，经过检验、核查、调整参数、可多次循环计算，从而使匹配算法结果更精准，直到得到满意的商品匹配和识别效果，而且由于匹配算法为基于多模态和语义相似度的算法，大幅缩短了人工梳理的时间、提高了效率、并极大降低了成本，还可将核验结果进行固化。

实施例一

如图1所示，本实施例提供一种一种商品的匹配与识别方法，包括下述步骤：

S1、对电子商城中的商品数据进行治理；

S4、当所述第一匹配算法更为准确时，则调整所述第二匹配算法中的参数，或当所述第二匹配算法更为准确时，则调整所述第一匹配算法中的参数，回到步骤S2，直到所述第一匹配算法和所述第二匹配算法都达到预期准确度。从而取得最近似也是最正确的匹配结果。

其中，作为本实施例的一种更优或更为具体的实现方式，所述步骤S1包括下述任务：

规范商品的各品牌数据，并建立商品品牌表；

将商品的品名和特征值数据合并为一个字符串；

对合并后的字符串进行分词，并建立商品词汇表以扩展基础词库；

去除停用词，并建立停用词表；

替换近义词，并建立近义词表；如把“CPU”替换成“处理器”；

将字符串中的全角字符与半角字符统一为一种，如把字符串中的全角字符替换为半角字符；

按规则替换或去除其它词，并建立替换规则表，所述其它词是指商品名称里面的一些会影响计算结果的分词，替换规则是人工维护的，建立替换规则表进行相应分词的替换或者去除，这些词往往与商品本身的属性、描述无关，是为了迎合营销和搜索场景而设置的词，例如“漂亮”、“新款”等；

其中，由于商品词汇非常庞大，通过人工方式维护商品词汇将非常耗时，本实施例可引入“新词发现”技术，利用FastText算法把海量商品数据作为语料进行新词发现训练，并找到可能的新词，算法发现的新词需经人工确认方可成为正式的词汇。“新词发现”技术可在建立扩展词库时使用，因为分词的词库是基础，需要不定时维护新的词库到扩展词库中，便于分词的时候能准确的分词。

如图2所示，所述第一匹配算法为基于关键特征加权匹配算法，该算法基于监督学习，关键特征加权主要有两个重点：提取关键字、权重。通常，词的权重可以通过TF-IDF计算后换算为权重，本算法的权重除了是关键字本身的权重，还针对每商品关键字与商品全词的情况建立权重规则，关键字个数越多权重越大。本算法是以商品的品牌为单位，即按品牌分批执行，每批获取该品牌下的商品，并遍历每个商品执行相似度进行匹配计算。其中，利用基于关键特征加权匹配算法对商品的相似度进行匹配具体包括下述步骤：

S11、关键字抽取：

a)对治理后的商品品名和特征值数据合并后进行分词；在步骤S1中，其数据治理部分对合并后的字符串进行的是分词，但是并没有提取关键字，这里的关键字是品名中包含的英文字母和数字的抽取；

b)对所述商品词汇表中的词集合进行过滤和转换，所述过滤是根据所述停用词表去除停用词，所述转换是根据所述近义词表把近义词统一转换为标准词；

c)提取经过滤和转换后的词集合longKeys中仅由英文字母和数字组成的序列存放于规格向量shortKeys中，形成由longKeys和shortKeys两组向量构成的商品关键字对象；

d)执行附加过滤器(可以是自定义的多个过滤器，通过自定义一些无需出现在关键字中的词列表，用于过滤掉关键字中的多个词)处理所述商品关键字对象，得到最终关键字对象；

e)按下述公式计算最终关键字对象中各词的TF-IDF值：

TF-IDF＝TF*IDF；

其中，词频TF＝某词在所有商品中出现的次数/所有商品的总词数；

逆商品词频IDF＝log(语料库的总商品数/(包含该词的商品数+1))；

再把TF-IDF值高的词或按配置的规则(这个规则是人为配置的一些规则，例如使用正则表达式进行匹配longKeys中的词，将匹配的词添加到shortKeys，例如商品的单位信息，例如：XX个等)得到的词从longKeys补充到shortKeys；

S12、双余弦相似度计算商品相似性：

a)设定两个相似度比较的商品分别为left和right，计算left和right的shortKeys的包含关系，该包含关系为left包含right、right包含left、相等、相似或互不包含；

b)计算left和right两个商品品名相似度：shortKeys(关键词相似度*关键词权重)+longKeys(全词相似度*全词权重)，所述关键特征权重Ws与所述全词特征权重Wl的和为1，在程序会根据实际上进行动态计算调整；

c)用余弦相似度计算left和right两个商品的shortKeys的相似度；

d)用余弦相似度计算left和right两个商品的longKeys的相似度；

e)如商品价格有效，则计算left和right的价格相似度，价差越小越相似；

通过a)至e)5个方面计算left和right两个商品各个维度的相似度值，即可根据这些相似度值及相应的权重比例进行组合判断，得到left和right两个商品最终的相似度值。

S13、商品匹配判断，即根据相似度值计算得到的结果，执行如下过程：

使用用户级商品匹配判断器判断left和right是否匹配，当用户级商品匹配判断都不成立的情况下，使用如下缺省判断规则：

(1)如商品中的词存在于全局关键字集合中，则这些词必须全部匹配，否则返回“不匹配”；

(2)如商品的shortKeys包含关系为“互不包含”，则返回“不匹配”；

(3)特征权重计算，根据shortKeys的长度动态获取关键特征权重Ws，该关键特征权重Ws等于所述关键词权重，Ws，该关键特征权重Ws等于所述关键词权重，采用分级加权策略，即shortKeys向量越长则关键特征权重Ws越大，其原理与transformers的注意力机制相似，其伪代码如下：

constintminNum＝？ //最小长度，不小于1；

constdouble step＝？ //权重增加的步长，大于0；

constdouble minWeight＝？ //最低权重，不小于0；

constdouble maxWeight＝？ //最大权重，不大于1；

int lKeySize＝length(leftShortKey)；

intrKeySize＝length(rightShortKey)；

IflKeySize＝＝0andrKeySize＝＝0Thenreturn 0.0；

int count＝max(lKeySize，rKeySize)；

intnum＝count–minNum；

double weight＝num*step+minWeight；

Ifweight<＝minWeight ThenreturnminWeight；

Else Ifweight>＝maxWeightThenreturnmaxWeight；

Else returnweight；

其中minWeight通常固定在0.5，maxWeight通常取0.8，step则需要使用极大似然估计，通常在0.06～0.1之间；

(4)得到shortKeys的关键特征权重Ws后，计算longKeys的全词特征权重Wl＝1–Ws，全词特征权重Wl对应于所述全词权重；

(5)最终商品特征的相似度为：

sim＝shortKeys相似度*关键特征权重Ws+longKeys相似度*全词特征权重Wl；

sim为一个在[0,1]区间的值，越大则越相似；

(6)如价格有效(价格大于0时有效)，则还需判断价格相似度，其公式为：

如价格无效(价格为0时无效)则忽略；

(7)当商品特征相似度和价格相似度均大于等于各自的阈值时则判断为匹配；

S14、匹配结果确认，即在计算出匹配结果后，展示该匹配结果给人工确认是否正确，并接收人工标准的确认匹配结果；

S15、调整特征参数：

a)利用线性回归进行建模，把人工标准的确认匹配结果作为因变量y，值为1和0，1表示匹配，0表示不匹配；把“shortKeys相似度*关键特征权重Ws”作为自变量x，公式为：

y＝w*x+b

b)通过拟合找到最佳拟合系数k以反映相似度与真实匹配之间的线性关系，如果有如下两种情形，说明数据本身质量较差，则检验过程是否正确，并调整特征权重值或阈值：

第一种，相似度明显低于阈值但是人工标注匹配的；

第二种，相似度明显高于阈值但是人工标注不匹配的。

c)为检验拟合效果，通过欧氏距离作为损失函数进行判断：

如果Loss计算的值误差较大，即表示通过线性回归模型计算的相似度的点与线的距离比较大，相似度的点比较分散，计算相似度的效果不好，则需要调整特征权重值，并使用极大似然估计方法重新调整特征权重值。

调整特征权重，即上文中的伪代码中的step。极大似然估计就是利用已知的样本结果信息，反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。公式P(x∣θ)输入有两个：x表示某一个具体的数据；θ表示模型的参数。在本发明中，x为确认为匹配的商品相似度，θ为上面伪代码中的step、minWeight、maxWeight。

如图2所示，所述第二匹配算法为基于语义相似度匹配算法，利用第二匹配算法对商品的相似度进行匹配具体包括下述步骤：

S21、将分词通过word2vec模型转换为词向量；word2vec模型是自然语言处理领域的一种算法模型，通过该模型训练后得到模型参数(这里指神经网络的权重)，并将这些参数，作为输入x的某种向量化的表示，即词向量，使用word2vec模型训练时，应小心调整如下超参数：词向量大小、最低词频数、迭代次数，它们将影响驯良的效率和正确性；

S22、将所述word2vec模型转换的词向量作为输入的参数，使用局部敏感哈希(Locality-SensitiveHashing,LSH)快速近似查找，得到LSH近似查找结果；LSH主要运用到高维海量数据的快速近似查找，近似查找是比较数据点之间的距离或者是相似度。

S23、将所述LSH近似查找结果作为输入的参数，计算欧氏距离，欧氏距离最短的几组商品即为匹配商品。欧氏距离是一个通常采用的距离定义，指在m维空间中两个点之间的真实距离，或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。我们输入LSH近似查找的结果，通过欧氏距离计算出两个商品的距离，距离最短的几组商品即为匹配商品。以下是其n维空间的公式：

所述步骤S4交叉验证是通过交叉验证工具自动比对上面两个算法得到的匹配结果，提取匹配差别较大的部分进行人工检测，以判别哪种算法更准确，再通过分别调整各自的参数执行两个算法，以取得最近似也是最正确的匹配结果。

基于同一发明构思，本申请还提供了与实施例一中的方法对应的装置，详见实施例二。

实施例二

如图3所示，在本实施例中提供了一种商品的匹配与识别装置，包括：

数据治理模块，用于对电子商城中的商品数据进行治理；

其中，作为本实施例的一种更优或更为具体的实现方式，所述数据治理模块用于完成下述任务：

规范商品的各品牌数据，并建立商品品牌表；

将商品的品名和特征值数据合并为一个字符串；

去除停用词，并建立停用词表；

其中，由于商品词汇非常庞大，通过人工方式维护商品词汇将非常耗时，本实施例可引入“新词发现”技术，利用FastText算法把海量商品数据作为语料进行新词发现训练，并找到可能的新词，算法发现的新词需经人工确认方可成为正式的词汇。

所述第一匹配模块采用的第一匹配算法为基于关键特征加权匹配算法，该算法基于监督学习，关键特征加权主要有两个重点：提取关键字、权重。通常，词的权重可以通过TF-IDF计算后换算为权重，本算法的权重除了是关键字本身的权重，还针对每商品关键字与商品全词的情况建立权重规则，关键字个数越多权重越大。本算法是以商品的品牌为单位，即按品牌分批执行，每批获取该品牌下的商品，并遍历每个商品执行相似度进行匹配计算。其中，利用基于关键特征加权匹配算法对商品的相似度进行匹配具体包括下述步骤：

S11、关键字抽取：

a)对治理后的商品品名和特征值数据合并后进行分词；

d)执行附加过滤器处理所述商品关键字对象，得到最终关键字对象；

e)按下述公式计算最终关键字对象中各词的TF-IDF值：

TF-IDF＝TF*IDF；

再把TF-IDF值高的词或按特定规则得到的词从longKeys补充到shortKeys；

S12、双余弦相似度计算：

b)shortKeys：(关键词相似度*关键词权重)+longKeys(全词相似度*全词权重)，所述关键特征权重Ws与所述全词特征权重Wl的和为1；

c)用余弦相似度计算left和right两个商品的shortKeys的相似度；

d)用余弦相似度计算left和right两个商品的longKeys的相似度；

S13、商品匹配判断，即根据上一步骤计算所得的各个相似度，执行如下过程：

判断left和right是否匹配(可以使用自定义的判断器进行判断，在处理特殊商品时，通用的判断器无法进行有效的匹配判断，则可自定义判断器，根据特殊商品的特征制定专门的规则来进行)，当用户级商品匹配判断都不成立的情况下，使用如下缺省判断规则：

(3)特征权重计算，根据shortKeys的长度动态获取关键特征权重Ws，该关键特征权重Ws等于所述关键词权重，采用分级加权策略，shortKeys向量越长则关键特征权重Ws就越大，其原理与transformers的注意力机制相似，其伪代码如下：

constintminNum＝？ //最小长度，不小于1；

constdouble step＝？ //权重增加的步长，大于0；

constdouble minWeight＝？//最低权重，不小于0；

constdouble maxWeight＝？//最大权重，不大于1；

int lKeySize＝length(leftShortKey)；

intrKeySize＝length(rightShortKey)；

IflKeySize＝＝0andrKeySize＝＝0Thenreturn 0.0；

int count＝max(lKeySize，rKeySize)；

intnum＝count–minNum；

double weight＝num*step+minWeight；

Ifweight<＝minWeight ThenreturnminWeight；

Else Ifweight>＝maxWeightThenreturnmaxWeight；

Else returnweight；

(4)得到shortKeys的权重Ws后，计算longKeys的全词特征权重Wl＝1–Ws；

(5)最终商品特征的相似度为：

sim为一个在[0,1]区间的值，越大则越相似；

如价格无效(价格为0时无效)则忽略；

S15、调整特征参数：

y＝w*x+b

第一种，相似度明显低于阈值但是人工标注匹配的；

第二种，相似度明显高于阈值但是人工标注不匹配的。

c)为核验拟合效果，通过欧氏距离作为损失函数进行判断拟合系数b的值：

调整特征权重，即上文中的伪代码中的step。并使用极大似然估计，极大似然估计就是利用已知的样本结果信息，反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。公式P(x∣θ)输入有两个：x表示某一个具体的数据；θ表示模型的参数。在本发明中，x为确认为匹配的商品相似度，θ为上面伪代码中的step、minWeight、maxWeight。

所述第二匹配模块采用的第二匹配算法为基于语义相似度匹配算法，利用第二匹配算法对商品的相似度进行匹配具体包括下述步骤：

S21、通过word2vec模型转换为词向量；word2vec模型是自然语言处理领域的一种算法模型，通过该模型训练后得到模型参数(这里指神经网络的权重)，并将这些参数，作为输入x的某种向量化的表示，即词向量，使用word2vec模型训练时，应小心调整如下超参数：词向量大小、最低词频数、迭代次数，它们将影响驯良的效率和正确性；

所述交叉验证模块是通过交叉验证工具自动比对上面两个算法得到的匹配结果，提取匹配差别较大的部分进行人工检测，以判别哪种算法更准确，再通过分别调整各自的参数执行两个算法，以取得最近似也是最正确的匹配结果。

由于本发明实施例二所介绍的装置，为实施本发明实施例一的方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

基于同一发明构思，本申请提供了实施例一对应的电子设备实施例，详见实施例三。

实施例三

本实施例提供了一种电子设备，如图4所示，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，可以实现实施例一中任一实施方式。

由于本实施例所介绍的电子设备为实施本申请实施例一中方法所采用的设备，故而基于本申请实施例一中所介绍的方法，本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式，所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的设备，都属于本申请所欲保护的范围。

基于同一发明构思，本申请提供了实施例一对应的存储介质，详见实施例四。

实施例四

本实施例提供一种计算机可读存储介质，如图5所示，其上存储有计算机程序，该计算机程序被处理器执行时，可以实现实施例一中任一实施方式。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：本发明通过两种各自独立匹配算法分别对商品进行相似度匹配，之后再通过交叉验证工具进行交叉验证，并根据验证结果再调整匹配算法的参数，经过检验、核查、调整参数、计算多次循环计算，从而使匹配算法结果更精准，直到得到满意的商品匹配和识别效果。实验证明初次识别率约为83％，持续计算后识别率约为95％。一方面大幅缩短了人工梳理的时间、提高了效率、并极大降低了成本，还可将核验结果进行固化；另一方面更具有普适性，针对不同的商品数据集均可使用，可用于多电商不同结构化商品描述的同一商品比价、价格监测等商业应用，可大大降低人工重复性工作，极大促进企业采购效率解决多次搜索、比价等采购决策，例如单一物品采购时间由原来的2小时将为10分钟左右。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置或系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种商品的匹配与识别方法，其特征在于：包括下述步骤：

S1、对电子商城中的商品数据进行治理；

S4、当所述第一匹配算法更为准确时，则调整所述第二匹配算法中的参数，或当所述第二匹配算法更为准确时，则调整所述第一匹配算法中的参数，回到步骤S2，直到所述第一匹配算法和所述第二匹配算法都达到预期准确度；

所述第一匹配算法为基于关键特征加权匹配算法，包括下述步骤：

S11、关键字抽取，即对治理后的商品品名和特征值数据合并后进行分词；对商品词汇表中的词集合进行过滤和转换，所述过滤是根据停用词表去除停用词，所述转换是根据近义词表把近义词统一转换为标准词；提取经过滤和转换后的词集合longKeys中仅由英文字母和数字组成的序列存放于规格向量shortKeys中，形成由longKeys和shortKeys两组向量构成的商品关键字对象；过滤处理所述商品关键字对象，得到最终关键字对象；按下述公式计算最终关键字对象中各词的TF-IDF值：

TF-IDF＝TF*IDF；

再把TF-IDF值高的词或按配置的规则得到的词从longKeys补充到shortKeys；

S12、双余弦相似度计算，即设定两个相似度比较的商品分别为left和right，计算left和right的shortKeys的包含关系，该包含关系为left包含right、right包含left、相等、相似或互不包含；

计算商品品名相似度：shortKeys(关键词相似度*关键词权重)+longKeys(全词相似度*全词权重)，所述关键词权重与所述全词权重的和为1；

用余弦相似度计算left和right两个商品的shortKeys的相似度；

用余弦相似度计算left和right两个商品的longKeys的相似度；

如商品价格有效，则计算left和right的价格相似度，价差越小越相似；

S13、商品匹配判断，即根据上一步骤计算所得的各个相似度，判断商品left和商品right是否匹配，若判断为不匹配，使用如下缺省判断规则：

(3)特征权重计算，根据shortKeys的长度动态获取关键特征权重Ws，该关键特征权重Ws等于所述关键词权重，采用分级加权策略，即shortKeys向量越长则关键特征权重Ws就越大；

(4)得到shortKeys关键特征权重Ws后，计算longKeys的全词特征权重Wl＝1–Ws，所述全词特征权重Wl等于所述全词权重；

(5)最终商品特征的相似度为：

sim＝shortKeys相似度*Ws+longKeys相似度*Wl；

sim为一个在[0,1]区间的值，越大则越相似；

(6)如价格大于0时有效，则还需判断价格相似度，其公式为：

如价格为0时无效，则忽略；

S15、调整特征参数，利用线性回归进行建模，把人工标准的确认匹配结果作为因变量y，值为1和0；把“shortKeys相似度*关键特征权重Ws”作为自变量x，b是线性回归中的值，公式为：

y＝w*x+b

通过拟合找到最佳拟合系数b以反映相似度与真实匹配之间的线性关系，如果有如下两种情形，则检验过程是否正确，并调整特征权重值或阈值：

第一种，相似度明显低于阈值但是人工标注匹配的；

第二种，相似度明显高于阈值但是人工标注不匹配的；

为核验拟合效果，通过欧氏距离作为损失函数进行判断拟合系数b的值：

如果Loss计算的值误差较大，则使用极大似然估计方法重新调整特征权重值；

所述第二匹配算法为基于语义相似度匹配算法，包括下述步骤：

S21、通过word2vec模型转换为词向量；

S22、将所述word2vec模型转换的词向量作为输入的参数，使用局部敏感哈希快速近似查找，得到LSH近似查找结果；

S23、将所述LSH近似查找结果作为输入的参数，计算欧氏距离，欧氏距离最短的几组商品即为匹配商品。

2.根据权利要求1所述的一种商品的匹配与识别方法，其特征在于：所述步骤S1包括下述任务：

规范商品的各品牌数据，并建立商品品牌表；

将商品的品名和特征值数据合并为一个字符串；

去除停用词，并建立停用词表；

替换近义词，并建立近义词表；

把字符串中的全角字符替换为半角字符；

按规则替换或去除其它词，并建立替换规则表，所述其它词是指商品名称里面的一些会影响计算结果的分词；

其中，利用FastText算法把海量商品数据作为语料进行新词发现训练，并找到可能的新词，再经人工确认后成为正式的词汇。

3.一种商品的匹配与识别装置，其特征在于：包括：

数据治理模块，用于对电子商城中的商品数据进行治理；

调整模块，当所述第一匹配算法更为准确时，则调整所述第二匹配算法中的参数，或当所述第二匹配算法更为准确时，则调整所述第一匹配算法中的参数，直到所述第一匹配算法和所述第二匹配算法都达到预期准确度；

所述第一匹配算法为基于关键特征加权匹配算法，所述第一匹配模块用于执行下述步骤：

S11、关键字抽取，即对治理后的商品品名和特征值数据合并后进行分词；对所述商品词汇表中的词集合进行过滤和转换，所述过滤是根据停用词表去除停用词，所述转换是根据近义词表把近义词统一转换为标准词；提取经过滤和转换后的词集合longKeys中仅由英文字母和数字组成的序列存放于规格向量shortKeys中，形成由longKeys和shortKeys两组向量构成的商品关键字对象；执行附加过滤器处理所述商品关键字对象，得到最终关键字对象；按下述公式计算最终关键字对象中各词的TF-IDF值：

TF-IDF＝TF*IDF；

shortKeys：(关键词相似度*关键词权重)+longKeys(全词相似度*全词权重)，所述关键词权重与所述全词权重的和为1；

用余弦相似度计算left和right两个商品的shortKeys的相似度；

用余弦相似度计算left和right两个商品的longKeys的相似度；

S13、商品匹配判断，即根据上一步骤计算所得的各个相似度，使用用户级商品匹配判断器判断left和right是否匹配，若判断为不匹配，使用如下缺省判断规则：

(3)特征权重计算，根据shortKeys的长度动态获取关键特征权重Ws，该关键特征权重Ws等于所述关键词权重，采用分级加权策略，shortKeys向量越长则关键特征权重Ws就越大；

(5)最终商品特征的相似度为：

sim＝shortKeys相似度*Ws+longKeys相似度*Wl；

sim为一个在[0,1]区间的值，越大则越相似；

(6)如价格大于0时有效，则还需判断价格相似度，其公式为：

如价格为0时无效时，则忽略；

S15、调整特征参数，利用线性回归进行建模，把人工标准的确认匹配结果作为因变量y，值为1和0；把“shortKeys相似度*关键特征权重Ws”作为自变量x，公式为：

y＝w*x+b

通过拟合找到最佳拟合系数k以反映相似度与真实匹配之间的线性关系，如果有如下两种情形，说明数据本身质量较差，则检验过程是否正确，并调整特征权重值或阈值：

第一种，相似度明显低于阈值但是人工标注匹配的；

第二种，相似度明显高于阈值但是人工标注不匹配的；

所述第二匹配算法为基于语义相似度匹配算法，所述第一匹配模块用于执行下述步骤：

S21、通过word2vec模型转换为词向量；

4.根据权利要求3所述的一种商品的匹配与识别装置，其特征在于：所述数据治理模块用于完成下述任务：

规范商品的各品牌数据，并建立商品品牌表；

将商品的品名和特征值数据合并为一个字符串；

去除停用词，并建立停用词表；

替换近义词，并建立近义词表；

把字符串中的全角字符替换为半角字符；

其中，利用FastText算法把海量商品数据作为语料进行新词发现训练，并找到可能的新词，算法发现的新词需经人工确认方可成为正式的词汇。

5.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1或2所述的方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1或2所述的方法。