[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN109189990B - 一种搜索词的生成方法、装置及电子设备 - Google Patents

一种搜索词的生成方法、装置及电子设备 Download PDF

Info

Publication number
CN109189990B
CN109189990B CN201810826071.5A CN201810826071A CN109189990B CN 109189990 B CN109189990 B CN 109189990B CN 201810826071 A CN201810826071 A CN 201810826071A CN 109189990 B CN109189990 B CN 109189990B
Authority
CN
China
Prior art keywords
search
word
training
words
recommended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810826071.5A
Other languages
English (en)
Other versions
CN109189990A (zh
Inventor
叶澄灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201810826071.5A priority Critical patent/CN109189990B/zh
Publication of CN109189990A publication Critical patent/CN109189990A/zh
Application granted granted Critical
Publication of CN109189990B publication Critical patent/CN109189990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种搜索词的生成方法、装置及电子设备,涉及计算机技术领域中的搜索技术领域,其中,上述方法包括:针对指定搜索词,采用多种预设模型,分别生成推荐候选词集合;将所生成的推荐候选词集合合并,并对合并后的集合进行去重处理,得到推荐搜索词候选集;从推荐搜索词候选集内的推荐候选词中,选取推荐搜索词。应用本发明实施例提供的方案生成搜索词,能够解决现有技术生成的推荐搜索词不够全面,品类单一的技术问题。

Description

一种搜索词的生成方法、装置及电子设备
技术领域
本发明涉及计算机技术领域中的搜索技术领域,特别是涉及一种搜索词的生成方法、装置及电子设备。
背景技术
随着在线视频质量、数量的增长,以及用户对视频搜索引擎使用程度的增加,视频搜索已经成为用户获取信息、休闲娱乐的重要方式。在用户完成一次搜索行为后,给用户提供优质的推荐搜索词,可以激发用户的搜索兴趣,解决基于当前搜索词得到的搜索结果不佳的问题,进而提升用户的搜索体验。
目前,已知的一种搜索词生成技术,是基于协同过滤模型的推荐搜索词生成方法,方案如下:
利用搜索日志,提取用户和搜索词之间的点击关系,构建数据集。对于任意两个搜索词qi和qj,利用下面的公式计算其协同过滤相关性:
Figure BDA0001742508170000011
协同过滤相关性wij等于N(i)∩N(j)的模,除以N(i)的模与N(j)的模乘积的平方根。其中,N(i)是某时间段内搜索过qi的用户的集合,N(j)是同一时间段内搜索过qj的用户的集合,N(i)∩N(j)是同一时间段内同时搜索过qi和qj的用户的集合。对于当前搜索词,计算它与各待选取搜索词的协同过滤相关性,取协同过滤相关性最高的一些搜索词,构成针对该当前搜索词的推荐搜索词候选集。
当前各搜索引擎的视频搜索部分,在生成推荐搜索词的问题上主要采用的是协同过滤模型技术。该技术通过协同过滤模型生成推荐搜索词候选集,再对推荐搜索词候选集内所有候选词的各个维度的特征评分,加权求和,优先选取总分高的候选词,作为推荐搜索词。
发明人在实现本发明的过程中发现,现有技术至少存在如下问题:
采用协同过滤模型得到的推荐搜索词,相比用户可能需要获知的推荐搜索词,不够全面,得到的推荐搜索词品类单一,无法有效的满足用户的搜索需求。
发明内容
本发明实施例的目的在于提供一种搜索词的生成方法、装置及电子设备,用以解决生成的推荐搜索词不够全面,品类单一的技术问题。具体技术方案如下:
本发明实施例提供一种搜索词的生成方法,包括:
针对指定搜索词,采用多种预设模型,分别生成推荐候选词集合,其中,所述多种预设模型分别通过搜索日志中不同维度的数据训练得到;
将所生成的推荐候选词集合合并,并对合并后的集合进行去重处理,得到推荐搜索词候选集;
从所述推荐搜索词候选集内的推荐候选词中,选取推荐搜索词。
进一步的,所述多种模型,至少包括如下模型中的两种:
点击相关性模型;
LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)主题模型;
协同过滤模型。
进一步的,所述预设多种模型包括点击相关性模型,通过所述点击相关性模型生成推荐候选词集合的过程包括:
针对指定搜索词,查询使用点击相关性模型得到的第一训练结果,得到所述指定搜索词的点击相关性表达向量,所述点击相关性表达向量为分词向量,用于表示所述指定搜索词的每个分词的权重,其中,所述第一训练结果为使用所述点击相关性模型对搜索日志中提取的第一样本数据进行训练得到的,所述第一样本数据包括从所述搜索日志中提取的多个搜索词,作为训练搜索词,以及所述搜索日志中的训练搜索词与搜索结果之间的点击关系,所述第一训练结果包括每个所述训练搜索词的分词向量;
分别计算所述指定搜索词的点击相关性表达向量,与各待选取搜索词的点击相关性表达向量的内积,得到所述指定搜索词分别与每个待选取搜索词之间的点击相关性;
在所述各待选取搜索词中,优先选取所述点击相关性高的待选取搜索词,构成所述指定搜索词的采用所述点击相关性模型生成的推荐候选词集合。
进一步的,所述搜索日志中的训练搜索词与搜索结果之间的点击关系为,所述搜索日志中的训练搜索词与搜索结果之间的点击次数;
采用如下步骤使用所述第一样本数据对所述点击相关性模型进行训练,得到所述第一训练结果:
分别对所述第一样本数据中的每个训练搜索词进行分词,并针对得到的分词生成初始分词向量,所述初始分词向量用于表示该训练搜索词的每个分词的初始权重,且该训练搜索词的每个分词的初始权重相等;
重复执行如下步骤A和步骤B,直至满足预设迭代终止条件:
步骤A:基于多个所述训练搜索词的当前迭代表达向量、多个所述训练搜索词的数量和所述点击次数,分别计算所述第一样本数据中多个搜索结果的当前迭代表达向量,其中,第一次迭代时所述训练搜索词的当前迭代表达向量为所述初始分词向量;
步骤B:基于多个所述搜索结果的当前迭代表达向量、多个所述搜索结果的数量和所述点击次数,分别计算多个所述训练搜索词的新的迭代表达向量;
当满足所述预设迭代终止条件时,分别将每个所述训练搜索词的最新的迭代表达向量,作为该训练搜索词的分词向量,所述训练搜索词的分词向量构成所述第一训练结果。
进一步的,所述基于多个所述训练搜索词的当前迭代表达向量、多个所述训练搜索词的数量和所述点击次数,分别计算所述第一样本数据中多个搜索结果的当前迭代表达向量,包括:
采用如下公式,计算所述搜索结果的当前迭代表达向量:
Figure BDA0001742508170000031
其中,Dj (n)是第j个搜索结果的第n轮迭代的当前迭代表达向量,Qi (n-1)是第i个训练搜索词的第n-1轮迭代的当前迭代表达向量,Ci,j是第i个训练搜索词和第j个搜索结果之间的点击次数,|Query|是多个所述训练搜索词的数量;
所述基于多个所述搜索结果的当前迭代表达向量、多个所述搜索结果的数量和所述点击次数,分别计算多个所述训练搜索词的新的迭代表达向量,包括:
采用如下公式,计算所述训练搜索词的新的迭代表达向量:
Figure BDA0001742508170000041
其中,Qi (n)是第i个训练搜索词的第n轮迭代的新的迭代表达向量,|Doc|是多个所述搜索结果的数量。
进一步的,所述预设多种模型包括LDA主题模型,通过所述点击相关性模型生成推荐候选词集合的过程包括:
对指定搜索词进行分词,得到所述指定搜索词的分词;
获取所述指定搜索词的每个分词在所述指定搜索词中的权重;
分别对得到的所述指定搜索词的每个分词,查询采用LDA主题模型得到的第二训练结果,得到所述指定搜索词的该分词在多个LDA主题上的概率分布,其中,所述第二训练结果为采用所述LDA主题模型对搜索日志中提取的第二样本数据进行训练得到的,所述第二样本数据包括从所述搜索日志的搜索结果的标题中提取的分词,作为训练分词,所述第二训练结果包括每个所述训练分词在多个所述LDA主题上的概率分布;
针对每个所述LDA主题,使用所述指定搜索词的每个分词在所述指定搜索词中的权重,计算所述指定搜索词的分词在该LDA主题上的概率分布的加权和值,作为所述指定搜索词在该LDA主题上的权重;
采用所述指定搜索词在多个所述LDA主题上的权重,构成所述指定搜索词的LDA主题向量,作为所述指定搜索词的LDA表达向量;
分别计算所述指定搜索词的LDA表达向量,与各待选取搜索词的LDA表达向量的内积,得到所述指定搜索词分别与每个待选取搜索词之间的LDA相关性;
在所述各待选取搜索词中,优先选取所述LDA相关性高的待选取搜索词,构成所述指定搜索词的采用所述LDA主题模型生成的推荐候选词集合。
进一步的,所述从所述推荐搜索词候选集内的推荐候选词中,选取推荐搜索词,包括:
获取所述推荐搜索词候选集内的推荐候选词,与所述指定搜索词的相关性特征,作为第一相关性特征;
对所述第一相关性特征,采用推荐搜索词筛选模型,对所述推荐搜索词候选集内的推荐候选词分别评分,得到筛选分,其中,所述推荐搜索词筛选模型,是采用线性回归或梯度提升决策树算法,对第三样本数据进行训练得到的,所述第三样本数据包括搜索日志中的搜索词与该搜索词的推荐搜索词之间的点击关系,以及搜索日志中的搜索词与该搜索词的推荐搜索词之间的第二相关性特征,所述第二相关性特征,与所述第一相关性特征种类相同;
优先选取所述筛选分高的所述推荐候选词作为推荐搜索词。
进一步的,所述第一相关性特征,至少包括如下相关性之一:
点击相关性;
LDA相关性;
协同过滤相关性。
本发明实施例还提供一种搜索词的生成装置,包括:
集合生成模块,用于针对指定搜索词,采用多种预设模型,分别生成推荐候选词集合,其中,所述多种预设模型分别通过搜索日志中不同维度的数据训练得到;
集合合并模块,用于将所生成的推荐候选词集合合并,并对合并后的集合进行去重处理,得到推荐搜索词候选集;
词语选取模块,用于从所述推荐搜索词候选集内的推荐候选词中,选取推荐搜索词。
进一步的,所述多种预设模型,至少包括如下模型中的两种:
点击相关性模型;
LDA主题模型;
协同过滤模型。
进一步的,所述预设多种模型包括点击相关性模型;
所述集合生成模块,包括:
第一查询子模块,用于针对指定搜索词,查询使用点击相关性模型得到的第一训练结果,得到所述指定搜索词的点击相关性表达向量,所述点击相关性表达向量为分词向量,用于表示所述指定搜索词的每个分词的权重,其中,所述第一训练结果为使用所述点击相关性模型对搜索日志中提取的第一样本数据进行训练得到的,所述第一样本数据包括从所述搜索日志中提取的多个搜索词,作为训练搜索词,以及所述搜索日志中的训练搜索词与搜索结果之间的点击关系,所述第一训练结果包括每个所述训练搜索词的分词向量;
第一内积计算子模块,用于分别计算所述指定搜索词的点击相关性表达向量,与各待选取搜索词的点击相关性表达向量的内积,得到所述指定搜索词分别与每个待选取搜索词之间的点击相关性;
第一优选子模块,用于在所述各待选取搜索词中,优先选取所述点击相关性高的待选取搜索词,构成所述指定搜索词的采用所述点击相关性模型生成的推荐候选词集合。
进一步的,所述搜索日志中的训练搜索词与搜索结果之间的点击关系为,所述搜索日志中的训练搜索词与搜索结果之间的点击次数;
所述集合生成模块,还包括如下子模块,用于使用所述第一样本数据对所述点击相关性模型进行训练,得到所述第一训练结果:
第一分词子模块,用于分别对所述第一样本数据中的每个训练搜索词进行分词,并针对得到的分词生成初始分词向量,所述初始分词向量用于表示该训练搜索词的每个分词的初始权重,且该训练搜索词的每个分词的初始权重相等;
迭代子模块,用于重复执行如下步骤A和步骤B,直至满足预设迭代终止条件:
步骤A:基于多个所述训练搜索词的当前迭代表达向量、多个所述训练搜索词的数量和所述点击次数,分别计算所述第一样本数据中多个搜索结果的当前迭代表达向量,其中,第一次迭代时所述训练搜索词的当前迭代表达向量为所述初始分词向量;
步骤B:基于多个所述搜索结果的当前迭代表达向量、多个所述搜索结果的数量和所述点击次数,分别计算多个所述训练搜索词的新的迭代表达向量;
当满足所述预设迭代终止条件时,分别将每个所述训练搜索词的最新的迭代表达向量,作为该训练搜索词的分词向量,所述训练搜索词的分词向量构成所述第一训练结果。
进一步的,所述迭代子模块,包括:
搜索结果迭代单元,用于采用如下公式,计算所述搜索结果的当前迭代表达向量:
Figure BDA0001742508170000071
其中,Dj (n)是第j个搜索结果的第n轮迭代的当前迭代表达向量,Qi (n-1)是第i个训练搜索词的第n-1轮迭代的当前迭代表达向量,Ci,j是第i个训练搜索词和第j个搜索结果之间的点击次数,|Query|是多个所述训练搜索词的数量;
训练搜索词迭代单元,用于采用如下公式,计算所述训练搜索词的新的迭代表达向量:
Figure BDA0001742508170000072
其中,Qi (n)是第i个训练搜索词的第n轮迭代的新的迭代表达向量,|Doc|是多个所述搜索结果的数量。
进一步的,所述预设多种模型包括LDA主题模型;
所述集合生成模块,包括:
第二分词子模块,用于对指定搜索词进行分词,得到所述指定搜索词的分词;
权重获取子模块,用于获取所述指定搜索词的每个分词在所述指定搜索词中的权重;
第二查询子模块,用于分别对得到的所述指定搜索词的每个分词,查询采用LDA主题模型得到的第二训练结果,得到所述指定搜索词的该分词在多个LDA主题上的概率分布,其中,所述第二训练结果为采用所述LDA主题模型对搜索日志中提取的第二样本数据进行训练得到的,所述第二样本数据包括从所述搜索日志的搜索结果的标题中提取的分词,作为训练分词,所述第二训练结果包括每个所述训练分词在多个所述LDA主题上的概率分布;
和值计算子模块,用于针对每个所述LDA主题,使用所述指定搜索词的每个分词在所述指定搜索词中的权重,计算所述指定搜索词的分词在该LDA主题上的概率分布的加权和值,作为所述指定搜索词在该LDA主题上的权重;
向量生成子模块,用于采用所述指定搜索词在多个所述LDA主题上的权重,构成所述指定搜索词的LDA主题向量,作为所述指定搜索词的LDA表达向量;
第二内积计算子模块,用于分别计算所述指定搜索词的LDA表达向量,与各待选取搜索词的LDA表达向量的内积,得到所述指定搜索词分别与每个待选取搜索词之间的LDA相关性;
第二优选子模块,用于在所述各待选取搜索词中,优先选取所述LDA相关性高的待选取搜索词,构成所述指定搜索词的采用所述LDA主题模型生成的推荐候选词集合。
进一步的,所述词语选取模块,包括:
特征获取子模块,用于获取所述推荐搜索词候选集内的推荐候选词,与所述指定搜索词的相关性特征,作为第一相关性特征;
评分子模块,用于对所述第一相关性特征,采用推荐搜索词筛选模型,对所述推荐搜索词候选集内的推荐候选词分别评分,得到筛选分,其中,所述推荐搜索词筛选模型,是采用线性回归或梯度提升决策树算法,对第三样本数据进行训练得到的,所述第三样本数据包括搜索日志中的搜索词与该搜索词的推荐搜索词之间的点击关系,以及搜索日志中的搜索词与该搜索词的推荐搜索词之间的第二相关性特征,所述第二相关性特征,与所述第一相关性特征种类相同;
第三优选子模块,用于优先选取所述筛选分高的所述推荐候选词作为推荐搜索词。
进一步的,所述特征获取子模块,具体获取的所述第一相关性特征,至少包括如下相关性之一:
点击相关性;
LDA相关性;
协同过滤相关性。
本发明实施例还提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的搜索词生成方法的步骤。
在本发明实施的又一方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的搜索词生成方法的步骤。
在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的搜索词生成方法。
本发明实施例提供的搜索词的生成方法及装置,通过使用搜索日志中不同维度数据训练得到的多种模型,得到推荐搜索词候选集,扩充了推荐搜索词的生成方式,能够解决现有技术生成的推荐搜索词不够全面,品类单一的技术问题。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的搜索词生成方法的一种流程图;
图2为本发明实施例提供的搜索词生成方法的另一种流程图;
图3为本发明实施例提供的采用点击相关性模型生成推荐候选词集合的方法流程图;
图4为本发明实施例提供的训练点击相关性模型的方法流程图;
图5为采用LDA主题模型生成推荐候选词的方法流程图;
图6为本发明实施例提供的搜索词生成装置的结构示意图;
图7为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
本发明实施例提供了一种搜索词的生成方法及装置,下面先对本发明实施例中涉及的概念进行说明。
推荐搜索词为用户在输入完整或部分搜索词后,搜索引擎推荐给用户的搜索词,旨在提供更符合用户搜索需求的搜索词,或者激发用户的搜索兴趣。
点击相关性模型根据点击数据,生成搜索词的点击相关性。对于具有点击数据的搜索词,本模型可以提供与其点击相关性高的其他搜索词。
LDA主题模型,即隐含狄利克雷分布主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。在训练LDA主题模型时不需要标注的训练集,仅需要文档集和指定主题的数量。
协同过滤模型利用兴趣相投、搜索相同内容的群体的喜好来推荐用户感兴趣的搜索词。
下面通过具体实施例,对本发明实施例提供的搜索词生成方法进行详细说明。
参见图1,图1为本发明实施例提供的搜索词生成方法的一种流程图,包括如下步骤:
步骤101、针对指定搜索词,采用多种预设模型,分别生成推荐候选词集合。
多种预设模型分别通过搜索日志中不同维度的数据训练得到。其中,搜索日志中不同维度的数据,可以包括:搜索日志中各个搜索结果与各个搜索词之间的点击关系、搜索日志中各个搜索结果的标题内容、搜索日志中各个用户与各个搜索词之间的点击关系。搜索日志中不同维度的数据,从不同方面反应了搜索历史。各个搜索结果与各个搜索词之间的点击关系,反应了搜索词与搜索结果之间的关联程度,而各个用户与各个搜索词之间的点击关系,反应了用户的搜索偏好。
本发明实施例中,指定搜索词可以是用户输入的,也可以是从其他程序导入而来的。生成推荐候选词集合的多种模型,可以包括生成与指定搜索词相关性高的搜索词集合的模型,也可以包括判断搜索者感兴趣的领域,并将该领域内热搜词的集合作为推荐候选词集合的模型。
步骤102、将所生成的推荐候选词集合合并,并对合并后的集合进行去重处理,得到推荐搜索词候选集。
通过不同模型的生成的同一个指定搜索词的多个推荐搜索词,可能有一部分相同,对于相同的推荐搜索词,可以只保留一个,去除重复的推荐搜索词。推荐搜索词候选集由多个推荐候选词构成。
步骤103、从推荐搜索词候选集内的推荐候选词中,选取推荐搜索词。
本发明实施例中,可以对比推荐搜索词候选集内的各个推荐候选词的搜索热度,优选选取搜索热度高的推荐候选词作为推荐搜索词。也可以对推荐搜索词候选集内所有候选词的各个维度的特征评分,加权求和,优先选取总分高的候选词,作为推荐搜索词。
本发明实施例提供的搜索词的生成方法,通过使用搜索日志中不同维度数据训练得到的多种模型,得到推荐搜索词候选集,扩充了推荐搜索词的生成方式,能够解决现有技术生成的推荐搜索词不够全面,品类单一的技术问题。
上述图1所示的方法中,推荐候选词和从推荐候选词中选取出来的推荐搜索词,都与指定搜索词不同。
下面结合附图,对本发明实施例提供的上述搜索词生成方法进行详细描述。
图2所示为本发明实施例提供的搜索词生成方法的另一种流程图,具体可以包括如下步骤:
步骤201、获取指定搜索词。
步骤202、针对指定搜索词,采用点击相关性模型、LDA主题模型和协同过滤模型,生成推荐候选词集合。
本发明实施例中,可以只对第一训练结果包括的指定搜索词,采用点击相关性模型,生成推荐候选词,其中,第一训练结果是使用点击相关性模型,对搜索日志中提取的第一样本数据进行训练得到的。
LDA主题模型可以给出指定搜索词在多个预先训练得到的LDA主题上的权重,根据该指定搜索词在各个LDA主题上的权重,可以提供与该搜索词主题相近的其他搜索词。
使用协同过滤模型生成推荐候选词集合的方案如下:利用搜索日志,提取用户和搜索词之间的点击关系,构建数据集。对于任意两个搜索词qi和qj,利用下面的公式计算其协同过滤相关性:
Figure BDA0001742508170000121
协同过滤相关性wij等于N(i)∩N(j)的模,除以N(i)的模与N(j)的模乘积的平方根。其中,N(i)是某时间段内搜索过qi的用户的集合,N(j)是同一时间段内搜索过qj的用户的集合,N(i)∩N(j)是同一时间段内同时搜索过qi和qj的用户的集合。该时间段可以是一天,也可以是一个星期。对于当前搜索词,计算它与各待选取搜索词的协同过滤相关性,优先选取协同过滤相关性高的待选取搜索词,构成推荐候选词集合。
步骤203、将所生成的推荐候选词集合合并,并对合并后的集合进行去重处理,得到推荐搜索词候选集。
步骤204、获取推荐搜索词候选集内的推荐候选词,与指定搜索词的相关性特征,作为第一相关性特征。
第一相关性特征,可以是点击相关性、LDA相关性或协同过滤相关性。
本发明实施例中,可以直接提取推荐候选词在其生成过程中计算过的点击相关性或LDA相关性或协同过滤相关性,作为本步骤获取的推荐候选词的相关性特征。
步骤205、对第一相关性特征,采用推荐搜索词筛选模型,对推荐搜索词候选集内的推荐候选词分别评分,得到筛选分。
推荐搜索词筛选模型,是采用线性回归或梯度提升决策树算法,对第三样本数据进行训练得到的,第三样本数据包括搜索日志中的搜索词与该搜索词的推荐搜索词之间的点击关系,以及搜索日志中的搜索词与该搜索词的推荐搜索词之间的第二相关性特征,第二相关性特征,与步骤206中的第一相关性特征种类相同。
本发明实施例中,搜索日志中的搜索词与该搜索词的推荐搜索词之间的点击关系,可以是点击次数,也可以是点击率。
步骤206、优先选取筛选分高的推荐候选词作为推荐搜索词。
优先选取筛选分高的推荐候选词,可以包括按照筛选分从高到低的顺序,选出预先设定的第一数量的推荐候选词,也可以包括选出筛选分超过预设筛选分阈值的所有推荐候选词。
本发明实施例利用经过训练得到的推荐搜索词筛选模型,采用推荐搜索词筛选模型,对推荐搜索词候选集内的推荐候选词分别评分,相比使用人工设定的参数对推荐候选词评分的现有技术,可以挑选出更能解决用户搜索需求,更能激发用户搜索兴趣的推荐搜索词。
图3所示为本发明实施例提供的采用点击相关性模型生成推荐候选词集合的方法流程图,具体可以包括如下步骤:
步骤301、获取指定搜索词。
步骤302、对指定搜索词,查询第一训练结果,得到指定搜索词的点击相关性表达向量。
第一训练结果的内容为多个搜索词的分词向量。第一训练结果为使用点击相关性模型对搜索日志中提取的第一样本数据进行训练得到的。第一样本数据包括从搜索日志中提取的多个搜索词,作为训练搜索词,以及搜索日志中的训练搜索词与搜索结果之间的点击关系。第一训练结果包括每个训练搜索词的经过训练得到的点击相关性表达向量。
本发明实施例中,搜索日志中的训练搜索词与搜索结果之间的点击关系,可以是点击次数。
步骤303、计算指定搜索词与各个待选取搜索词之间的点击相关性。
待选取搜索词可以是第一训练结果内的全部搜索词,也可以是第一训练结果在与指定搜索词相关的领域内的多个搜索词。
指定搜索词与各个待选取搜索词之间的点击相关性,为指定搜索词的点击相关性表达向量与各个待选取搜索词的点击相关性表达向量的内积。
两个分词向量的内积,是两个分词向量中,相同分词的权重的乘积总和,除以两个分词向量的模的乘积。点击相关性表达向量是一种分词向量,所以两个点击相关性表达向量的内积与两个分词向量的内积相同,其公式为:
Figure BDA0001742508170000141
其中,
Figure BDA0001742508170000142
Figure BDA0001742508170000143
为两个点击相关性表达向量,s为
Figure BDA0001742508170000144
Figure BDA0001742508170000145
的内积,i为分词序号,n为不同的分词的总数量,Ai
Figure BDA0001742508170000146
在序号为i的分词上的权重,Bi
Figure BDA0001742508170000147
在序号为i的分词上的权重。
步骤304、优先选取点击相关性高的待选取搜索词,构成推荐候选词集合。
优先选取点击相关性高的待选取搜索词,可以包括按照点击相关性从高到低的顺序,选出预先设定的第二数量的待选取搜索词,也可以包括选出点击相关性超过预设点击相关性阈值的所有待选取搜索词。
本发明实施例通过查询点击相关性模型的训练结果,生成指定搜索词的推荐候选词集合。本发明实施例作为一种推荐候选词集合的生成方式,可以和其他的生成方式相配合,一起解决现有技术生成的推荐搜索词不够全面,品类单一的技术问题。
图4所示为本发明实施例提供的训练点击相关性模型的方法流程图,具体可以包括如下步骤:
步骤401、从搜索日志中,提取多个搜索词作为训练搜索词,提取多个搜索结果,提取训练搜索词和搜索结果之间的点击次数。
步骤402、分别对每个训练搜索词进行分词,并针对得到的分词生成初始分词向量。
采用训练搜索词在训练搜索词的每个分词个上的权重,构成训练搜索词的初始分词向量,初始分词向量中的每个权重都相等。
本发明实施例中,有数量为m个分词的训练搜索词,其初始分词向量可以设定为总共有m个元素,坐标表示为
Figure BDA0001742508170000151
的单位向量。
步骤403、基于多个训练搜索词的当前迭代表达向量,分别计算多个搜索结果的当前迭代表达向量。
基于多个训练搜索词的当前迭代表达向量、多个训练搜索词的数量和点击次数,分别计算第一样本数据中多个搜索结果的当前迭代表达向量。
采用如下公式,计算搜索结果的当前迭代表达向量:
Figure BDA0001742508170000152
其中,Dj (n)是第j个搜索结果的第n轮迭代的当前迭代表达向量,Qi (n-1)是第i个训练搜索词的第n-1轮迭代的当前迭代表达向量,Ci,j是第i个训练搜索词和第j个搜索结果之间的点击次数,|Query|是多个训练搜索词的数量。
步骤404、基于多个搜索结果的当前迭代表达向量,分别计算多个训练搜索词的新的迭代表达向量。
基于多个搜索结果的当前迭代表达向量、多个搜索结果的数量和点击次数,分别计算多个训练搜索词的新的迭代表达向量。
采用如下公式,计算训练搜索词的新的迭代表达向量:
Figure BDA0001742508170000161
其中,Qi (n)是第i个训练搜索词的第n轮迭代的新的迭代表达向量,|Doc|是多个搜索结果的数量。
步骤405、判断是否满足迭代终止条件,如果满足,进入步骤406,如果不满足,进入步骤403。
本发明实施例中,判断是否满足迭代终止条件,可以为判断迭代的次数是否达到一个预先设定的第一阈值,也可以为,判断是否所有训练搜索词的当前迭代表达向量,减去上一轮迭代的迭代表达向量的差的模,小于预先设定的第二阈值。
步骤406、获取第一训练结果。
第一训练结果包括每个训练搜索词的经过训练得到的点击相关性表达向量。
本发明实施例通过迭代的方法训练点击数据,获得搜索词的点击相关性表达向量作为训练结果,该点击相关性表达向量间的内积可以充分的反应其所表达的两个搜索词的点击相关性。
图5所示为本发明实施例提供的采用LDA主题模型生成推荐候选词的方法流程图,具体可以包括如下步骤:
步骤501、获取指定搜索词。
步骤502、获取指定搜索词的分词和每个分词在指定搜索词中的权重。
本发明实施例中,可以通过现有技术提供的分词方法,获取指定搜索词的分词和每个分词在指定搜索词中的权重。将指定搜索词输入分词器,得到该分词器输出的,指定搜索词的分词和每个分词在指定搜索词中的权重。
步骤503、分别对指定搜索词的每个分词查询第二训练结果,得到每个分词在多个LDA主题上的概率分布。
第二训练结果的内容为多个分词在多个LDA主题上的概率分布。第二训练结果为采用LDA主题模型对搜索日志中提取的第二样本数据进行训练得到的。第二样本数据包括从搜索日志的搜索结果的标题中提取的分词,作为训练分词。第二训练结果包括每个训练分词在多个LDA主题上的概率分布。
步骤504、计算指定搜索词在多个LDA主题上的权重。
针对每个LDA主题,使用指定搜索词的每个分词在指定搜索词中的权重,计算指定搜索词的分词在该LDA主题上的概率分布的加权和值,作为指定搜索词在该LDA主题上的权重。计算指定搜索词在一个LDA主题上的权重的公式为:
Figure BDA0001742508170000171
其中,j为LDA主题的序号,t为指定搜索词的分词,Pj(z|q)为指定搜索词在序号为j的LDA主题上的权重,P(z|t)为分词t在指定搜索词中的权重,Pj(t|q)为分词t在序号为j的LDA主题上的权重。
步骤505、生成指定搜索词的LDA表达向量。
采用指定搜索词在多个LDA主题上的权重,构成指定搜索词的LDA主题向量,作为指定搜索词的LDA表达向量。
步骤506、计算指定搜索词与各个待选取搜索词之间的LDA相关性。
待选取搜索词可以是搜索日志内的全部搜索词,也可以是搜索日志在与指定搜索词相关的领域内的多个搜索词。
指定搜索词与各个待选取搜索词之间的LDA相关性,为指定搜索词的LDA表达向量与各个待选取搜索词的LDA表达向量的内积。LDA表达向量是一种分词向量,该内积的计算方法,与在图3所示流程图包括的步骤303中提供的方法相同。
步骤507、优先选取LDA相关性高的待选取搜索词,构成推荐候选词集合。
优先选取LDA相关性高的待选取搜索词,可以包括按照LDA相关性从高到低的顺序,选出预先设定的第三数量的待选取搜索词,也可以包括选出LDA相关性超过预设LDA相关性阈值的所有待选取搜索词。
本发明实施例通过LDA主题模型的训练结果,生成指定搜索词的推荐候选词集合。本发明实施例作为一种推荐候选词集合的生成方式,可以和其他的生成方式相配合,一起解决现有技术生成的推荐搜索词不够全面,品类单一的技术问题。
基于同一发明构思,根据本发明上述实施例提供的搜索词的生成方法,相应地,本发明实施例还提供一种搜索词的生成装置,其结构示意图如图6所示,具体包括:
集合生成模块601,用于针对指定搜索词,采用多种预设模型,分别生成推荐候选词集合,其中,所述多种预设模型分别通过搜索日志中不同维度的数据训练得到;
集合合并模块602,用于将所生成的推荐候选词集合合并,并对合并后的集合进行去重处理,得到推荐搜索词候选集;
词语选取模块603,用于从所述推荐搜索词候选集内的推荐候选词中,选取推荐搜索词。
本发明实施例提供的搜索词的生成装置,通过使用搜索日志中不同维度数据训练得到的多种模型,得到推荐搜索词候选集,扩充了推荐搜索词的生成方式,能够解决现有技术生成的推荐搜索词不够全面,品类单一的技术问题。
进一步的,所述多种预设模型,至少包括如下模型中的两种:
点击相关性模型;
LDA主题模型;
协同过滤模型。
进一步的,所述预设多种模型包括点击相关性模型;
所述集合生成模块601,包括:
第一查询子模块,用于针对指定搜索词,查询使用点击相关性模型得到的第一训练结果,得到所述指定搜索词的点击相关性表达向量,所述点击相关性表达向量为分词向量,用于表示所述指定搜索词的每个分词的权重,其中,所述第一训练结果为使用所述点击相关性模型对搜索日志中提取的第一样本数据进行训练得到的,所述第一样本数据包括从所述搜索日志中提取的多个搜索词,作为训练搜索词,以及所述搜索日志中的训练搜索词与搜索结果之间的点击关系,所述第一训练结果包括每个所述训练搜索词的分词向量;
第一内积计算子模块,用于分别计算所述指定搜索词的点击相关性表达向量,与各待选取搜索词的点击相关性表达向量的内积,得到所述指定搜索词分别与每个待选取搜索词之间的点击相关性;
第一优选子模块,用于在所述各待选取搜索词中,优先选取所述点击相关性高的待选取搜索词,构成所述指定搜索词的采用所述点击相关性模型生成的推荐候选词集合。
进一步的,所述搜索日志中的训练搜索词与搜索结果之间的点击关系为,所述搜索日志中的训练搜索词与搜索结果之间的点击次数;
所述集合生成模块601,还包括如下子模块,用于使用所述第一样本数据对所述点击相关性模型进行训练,得到所述第一训练结果:
第一分词子模块,用于分别对所述第一样本数据中的每个训练搜索词进行分词,并针对得到的分词生成初始分词向量,所述初始分词向量用于表示该训练搜索词的每个分词的初始权重,且该训练搜索词的每个分词的初始权重相等;
迭代子模块,用于重复执行如下步骤A和步骤B,直至满足预设迭代终止条件:
步骤A:基于多个所述训练搜索词的当前迭代表达向量、多个所述训练搜索词的数量和所述点击次数,分别计算所述第一样本数据中多个搜索结果的当前迭代表达向量,其中,第一次迭代时所述训练搜索词的当前迭代表达向量为所述初始分词向量;
步骤B:基于多个所述搜索结果的当前迭代表达向量、多个所述搜索结果的数量和所述点击次数,分别计算多个所述训练搜索词的新的迭代表达向量;
当满足所述预设迭代终止条件时,分别将每个所述训练搜索词的最新的迭代表达向量,作为该训练搜索词的分词向量,所述训练搜索词的分词向量构成所述第一训练结果。
进一步的,所述迭代子模块,包括:
搜索结果迭代单元,用于采用如下公式,计算所述搜索结果的当前迭代表达向量:
Figure BDA0001742508170000201
其中,Dj (n)是第j个搜索结果的第n轮迭代的当前迭代表达向量,Qi (n-1)是第i个训练搜索词的第n-1轮迭代的当前迭代表达向量,Ci,j是第i个训练搜索词和第j个搜索结果之间的点击次数,|Query|是多个所述训练搜索词的数量;
训练搜索词迭代单元,用于采用如下公式,计算所述训练搜索词的新的迭代表达向量:
Figure BDA0001742508170000202
其中,Qi (n)是第i个训练搜索词的第n轮迭代的新的迭代表达向量,|Doc|是多个所述搜索结果的数量。
进一步的,所述预设多种模型包括LDA主题模型;
所述集合生成模块601,包括:
第二分词子模块,用于对指定搜索词进行分词,得到所述指定搜索词的分词;
权重获取子模块,用于获取所述指定搜索词的每个分词在所述指定搜索词中的权重;
第二查询子模块,用于分别对得到的所述指定搜索词的每个分词,查询采用LDA主题模型得到的第二训练结果,得到所述指定搜索词的该分词在多个LDA主题上的概率分布,其中,所述第二训练结果为采用所述LDA主题模型对搜索日志中提取的第二样本数据进行训练得到的,所述第二样本数据包括从所述搜索日志的搜索结果的标题中提取的分词,作为训练分词,所述第二训练结果包括每个所述训练分词在多个所述LDA主题上的概率分布;
和值计算子模块,用于针对每个所述LDA主题,使用所述指定搜索词的每个分词在所述指定搜索词中的权重,计算所述指定搜索词的分词在该LDA主题上的概率分布的加权和值,作为所述指定搜索词在该LDA主题上的权重;
向量生成子模块,用于采用所述指定搜索词在多个所述LDA主题上的权重,构成所述指定搜索词的LDA主题向量,作为所述指定搜索词的LDA表达向量;
第二内积计算子模块,用于分别计算所述指定搜索词的LDA表达向量,与各待选取搜索词的LDA表达向量的内积,得到所述指定搜索词分别与每个待选取搜索词之间的LDA相关性;
第二优选子模块,用于在所述各待选取搜索词中,优先选取所述LDA相关性高的待选取搜索词,构成所述指定搜索词的采用所述LDA主题模型生成的推荐候选词集合。
进一步的,所述词语选取模块603,包括:
特征获取子模块,用于获取所述推荐搜索词候选集内的推荐候选词,与所述指定搜索词的相关性特征,作为第一相关性特征;
评分子模块,用于对所述第一相关性特征,采用推荐搜索词筛选模型,对所述推荐搜索词候选集内的推荐候选词分别评分,得到筛选分,其中,所述推荐搜索词筛选模型,是采用线性回归或梯度提升决策树算法,对第三样本数据进行训练得到的,所述第三样本数据包括搜索日志中的搜索词与该搜索词的推荐搜索词之间的点击关系,以及搜索日志中的搜索词与该搜索词的推荐搜索词之间的第二相关性特征,所述第二相关性特征,与所述第一相关性特征种类相同;
第三优选子模块,用于优先选取所述筛选分高的所述推荐候选词作为推荐搜索词。
进一步的,所述特征获取子模块,具体获取的所述第一相关性特征,至少包括如下相关性之一:
点击相关性;
LDA相关性;
协同过滤相关性。
基于同一发明构思,根据本发明上述实施例提供的搜索词生成方法,相应地,本发明实施例还提供了一种电子设备,如图7所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,
存储器703,用于存放计算机程序;
处理器701,用于执行存储器703上所存放的程序时,实现上述实施例中任一搜索词生成方法的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例提供的搜索词生成的电子设备,通过使用搜索日志中不同维度数据训练得到的多种模型,得到推荐搜索词候选集,扩充了推荐搜索词的生成方式,能够解决现有技术生成的推荐搜索词不够全面,品类单一的技术问题。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一搜索词生成方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一搜索词生成方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质和计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (15)

1.一种搜索词的生成方法,其特征在于,包括:
针对指定搜索词,采用多种预设模型,分别生成推荐候选词集合,其中,所述多种预设模型分别通过搜索日志中不同维度的数据训练得到,所述不同维度的数据反映不同方面的搜索历史;
将所生成的推荐候选词集合合并,并对合并后的集合进行去重处理,得到推荐搜索词候选集;
从所述推荐搜索词候选集内的推荐候选词中,选取推荐搜索词;
所述从所述推荐搜索词候选集内的推荐候选词中,选取推荐搜索词,包括:
获取所述推荐搜索词候选集内的推荐候选词,与所述指定搜索词的相关性特征,作为第一相关性特征;
对所述第一相关性特征,采用推荐搜索词筛选模型,对所述推荐搜索词候选集内的推荐候选词分别评分,得到筛选分,其中,所述推荐搜索词筛选模型,是采用线性回归或梯度提升决策树算法,对第三样本数据进行训练得到的,所述第三样本数据包括搜索日志中的搜索词与该搜索词的推荐搜索词之间的点击关系,以及搜索日志中的搜索词与该搜索词的推荐搜索词之间的第二相关性特征,所述第二相关性特征,与所述第一相关性特征种类相同;
优先选取所述筛选分高的所述推荐候选词作为推荐搜索词。
2.根据权利要求1所述的方法,其特征在于,所述多种预设模型,至少包括如下模型中的两种:
点击相关性模型;
LDA主题模型;
协同过滤模型。
3.根据权利要求1所述的方法,其特征在于,所述多种预设模型包括点击相关性模型,通过所述点击相关性模型生成推荐候选词集合的过程包括:
针对指定搜索词,查询使用点击相关性模型得到的第一训练结果,得到所述指定搜索词的点击相关性表达向量,所述点击相关性表达向量为分词向量,用于表示所述指定搜索词的每个分词的权重,其中,所述第一训练结果为使用所述点击相关性模型对搜索日志中提取的第一样本数据进行训练得到的,所述第一样本数据包括从所述搜索日志中提取的多个搜索词,作为训练搜索词,以及所述搜索日志中的训练搜索词与搜索结果之间的点击关系,所述第一训练结果包括每个所述训练搜索词的分词向量;
分别计算所述指定搜索词的点击相关性表达向量,与各待选取搜索词的点击相关性表达向量的内积,得到所述指定搜索词分别与每个待选取搜索词之间的点击相关性;
在所述各待选取搜索词中,优先选取所述点击相关性高的待选取搜索词,构成所述指定搜索词的采用所述点击相关性模型生成的推荐候选词集合。
4.根据权利要求3所述的方法,其特征在于,所述搜索日志中的训练搜索词与搜索结果之间的点击关系为,所述搜索日志中的训练搜索词与搜索结果之间的点击次数;
采用如下步骤使用所述第一样本数据对所述点击相关性模型进行训练,得到所述第一训练结果:
分别对所述第一样本数据中的每个训练搜索词进行分词,并针对得到的分词生成初始分词向量,所述初始分词向量用于表示该训练搜索词的每个分词的初始权重,且该训练搜索词的每个分词的初始权重相等;
重复执行如下步骤A和步骤B,直至满足预设迭代终止条件:
步骤A:基于多个所述训练搜索词的当前迭代表达向量、多个所述训练搜索词的数量和所述点击次数,分别计算所述第一样本数据中多个搜索结果的当前迭代表达向量,其中,第一次迭代时所述训练搜索词的当前迭代表达向量为所述初始分词向量;
步骤B:基于多个所述搜索结果的当前迭代表达向量、多个所述搜索结果的数量和所述点击次数,分别计算多个所述训练搜索词的新的迭代表达向量;
当满足所述预设迭代终止条件时,分别将每个所述训练搜索词的最新的迭代表达向量,作为该训练搜索词的分词向量,所述训练搜索词的分词向量构成所述第一训练结果。
5.根据权利要求4所述的方法,其特征在于,所述基于多个所述训练搜索词的当前迭代表达向量、多个所述训练搜索词的数量和所述点击次数,分别计算所述第一样本数据中多个搜索结果的当前迭代表达向量,包括:
采用如下公式,计算所述搜索结果的当前迭代表达向量:
Figure FDA0002822988530000031
其中,Dj (n)是第j个搜索结果的第n轮迭代的当前迭代表达向量,Qi (n-1)是第i个训练搜索词的第n-1轮迭代的当前迭代表达向量,Ci,j是第i个训练搜索词和第j个搜索结果之间的点击次数,|Query|是多个所述训练搜索词的数量;
所述基于多个所述搜索结果的当前迭代表达向量、多个所述搜索结果的数量和所述点击次数,分别计算多个所述训练搜索词的新的迭代表达向量,包括:
采用如下公式,计算所述训练搜索词的新的迭代表达向量:
Figure FDA0002822988530000032
其中,Qi (n)是第i个训练搜索词的第n轮迭代的新的迭代表达向量,|Doc|是多个所述搜索结果的数量。
6.根据权利要求1所述的方法,其特征在于,所述多种预设模型包括LDA主题模型,通过所述LDA主题模型生成推荐候选词集合的过程包括:
对指定搜索词进行分词,得到所述指定搜索词的分词;
获取所述指定搜索词的每个分词在所述指定搜索词中的权重;
分别对得到的所述指定搜索词的每个分词,查询采用LDA主题模型得到的第二训练结果,得到所述指定搜索词的该分词在多个LDA主题上的概率分布,其中,所述第二训练结果为采用所述LDA主题模型对搜索日志中提取的第二样本数据进行训练得到的,所述第二样本数据包括从所述搜索日志的搜索结果的标题中提取的分词,作为训练分词,所述第二训练结果包括每个所述训练分词在多个所述LDA主题上的概率分布;
针对每个所述LDA主题,使用所述指定搜索词的每个分词在所述指定搜索词中的权重,计算所述指定搜索词的分词在该LDA主题上的概率分布的加权和值,作为所述指定搜索词在该LDA主题上的权重;
采用所述指定搜索词在多个所述LDA主题上的权重,构成所述指定搜索词的LDA主题向量,作为所述指定搜索词的LDA表达向量;
分别计算所述指定搜索词的LDA表达向量,与各待选取搜索词的LDA表达向量的内积,得到所述指定搜索词分别与每个待选取搜索词之间的LDA相关性;
在所述各待选取搜索词中,优先选取所述LDA相关性高的待选取搜索词,构成所述指定搜索词的采用所述LDA主题模型生成的推荐候选词集合。
7.根据权利要求1所述的方法,其特征在于,所述第一相关性特征,至少包括如下相关性之一:
点击相关性;
LDA相关性;
协同过滤相关性。
8.一种搜索词的生成装置,其特征在于,包括:
集合生成模块,用于针对指定搜索词,采用多种预设模型,分别生成推荐候选词集合,其中,所述多种预设模型分别通过搜索日志中不同维度的数据训练得到,所述不同维度的数据反映不同方面的搜索历史;
集合合并模块,用于将所生成的推荐候选词集合合并,并对合并后的集合进行去重处理,得到推荐搜索词候选集;
词语选取模块,用于从所述推荐搜索词候选集内的推荐候选词中,选取推荐搜索词;
所述词语选取模块,包括:
特征获取子模块,用于获取所述推荐搜索词候选集内的推荐候选词,与所述指定搜索词的相关性特征,作为第一相关性特征;
评分子模块,用于对所述第一相关性特征,采用推荐搜索词筛选模型,对所述推荐搜索词候选集内的推荐候选词分别评分,得到筛选分,其中,所述推荐搜索词筛选模型,是采用线性回归或梯度提升决策树算法,对第三样本数据进行训练得到的,所述第三样本数据包括搜索日志中的搜索词与该搜索词的推荐搜索词之间的点击关系,以及搜索日志中的搜索词与该搜索词的推荐搜索词之间的第二相关性特征,所述第二相关性特征,与所述第一相关性特征种类相同;
第三优选子模块,用于优先选取所述筛选分高的所述推荐候选词作为推荐搜索词。
9.根据权利要求8所述的装置,其特征在于,所述多种预设模型,至少包括如下模型中的两种:
点击相关性模型;
LDA主题模型;
协同过滤模型。
10.根据权利要求8所述的装置,其特征在于,所述多种预设模型包括点击相关性模型;
所述集合生成模块,包括:
第一查询子模块,用于针对指定搜索词,查询使用点击相关性模型得到的第一训练结果,得到所述指定搜索词的点击相关性表达向量,所述点击相关性表达向量为分词向量,用于表示所述指定搜索词的每个分词的权重,其中,所述第一训练结果为使用所述点击相关性模型对搜索日志中提取的第一样本数据进行训练得到的,所述第一样本数据包括从所述搜索日志中提取的多个搜索词,作为训练搜索词,以及所述搜索日志中的训练搜索词与搜索结果之间的点击关系,所述第一训练结果包括每个所述训练搜索词的分词向量;
第一内积计算子模块,用于分别计算所述指定搜索词的点击相关性表达向量,与各待选取搜索词的点击相关性表达向量的内积,得到所述指定搜索词分别与每个待选取搜索词之间的点击相关性;
第一优选子模块,用于在所述各待选取搜索词中,优先选取所述点击相关性高的待选取搜索词,构成所述指定搜索词的采用所述点击相关性模型生成的推荐候选词集合。
11.根据权利要求10所述的装置,其特征在于,所述搜索日志中的训练搜索词与搜索结果之间的点击关系为,所述搜索日志中的训练搜索词与搜索结果之间的点击次数;
所述集合生成模块,还包括如下子模块,用于使用所述第一样本数据对所述点击相关性模型进行训练,得到所述第一训练结果:
第一分词子模块,用于分别对所述第一样本数据中的每个训练搜索词进行分词,并针对得到的分词生成初始分词向量,所述初始分词向量用于表示该训练搜索词的每个分词的初始权重,且该训练搜索词的每个分词的初始权重相等;
迭代子模块,用于重复执行如下步骤A和步骤B,直至满足预设迭代终止条件:
步骤A:基于多个所述训练搜索词的当前迭代表达向量、多个所述训练搜索词的数量和所述点击次数,分别计算所述第一样本数据中多个搜索结果的当前迭代表达向量,其中,第一次迭代时所述训练搜索词的当前迭代表达向量为所述初始分词向量;
步骤B:基于多个所述搜索结果的当前迭代表达向量、多个所述搜索结果的数量和所述点击次数,分别计算多个所述训练搜索词的新的迭代表达向量;
当满足所述预设迭代终止条件时,分别将每个所述训练搜索词的最新的迭代表达向量,作为该训练搜索词的分词向量,所述训练搜索词的分词向量构成所述第一训练结果。
12.根据权利要求11所述的装置,其特征在于,所述迭代子模块,包括:
搜索结果迭代单元,用于采用如下公式,计算所述搜索结果的当前迭代表达向量:
Figure FDA0002822988530000061
其中,Dj (n)是第j个搜索结果的第n轮迭代的当前迭代表达向量,Qi (n-1)是第i个训练搜索词的第n-1轮迭代的当前迭代表达向量,Ci,j是第i个训练搜索词和第j个搜索结果之间的点击次数,|Query|是多个所述训练搜索词的数量;
训练搜索词迭代单元,用于采用如下公式,计算所述训练搜索词的新的迭代表达向量:
Figure FDA0002822988530000071
其中,Qi (n)是第i个训练搜索词的第n轮迭代的新的迭代表达向量,|Doc|是多个所述搜索结果的数量。
13.根据权利要求8所述的装置,其特征在于,所述多种预设模型包括LDA主题模型;
所述集合生成模块,包括:
第二分词子模块,用于对指定搜索词进行分词,得到所述指定搜索词的分词;
权重获取子模块,用于获取所述指定搜索词的每个分词在所述指定搜索词中的权重;
第二查询子模块,用于分别对得到的所述指定搜索词的每个分词,查询采用LDA主题模型得到的第二训练结果,得到所述指定搜索词的该分词在多个LDA主题上的概率分布,其中,所述第二训练结果为采用所述LDA主题模型对搜索日志中提取的第二样本数据进行训练得到的,所述第二样本数据包括从所述搜索日志的搜索结果的标题中提取的分词,作为训练分词,所述第二训练结果包括每个所述训练分词在多个所述LDA主题上的概率分布;
和值计算子模块,用于针对每个所述LDA主题,使用所述指定搜索词的每个分词在所述指定搜索词中的权重,计算所述指定搜索词的分词在该LDA主题上的概率分布的加权和值,作为所述指定搜索词在该LDA主题上的权重;
向量生成子模块,用于采用所述指定搜索词在多个所述LDA主题上的权重,构成所述指定搜索词的LDA主题向量,作为所述指定搜索词的LDA表达向量;
第二内积计算子模块,用于分别计算所述指定搜索词的LDA表达向量,与各待选取搜索词的LDA表达向量的内积,得到所述指定搜索词分别与每个待选取搜索词之间的LDA相关性;
第二优选子模块,用于在所述各待选取搜索词中,优先选取所述LDA相关性高的待选取搜索词,构成所述指定搜索词的采用所述LDA主题模型生成的推荐候选词集合。
14.根据权利要求8所述的装置,其特征在于,所述特征获取子模块,具体获取的所述第一相关性特征,至少包括如下相关性之一:
点击相关性;
LDA相关性;
协同过滤相关性。
15.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
CN201810826071.5A 2018-07-25 2018-07-25 一种搜索词的生成方法、装置及电子设备 Active CN109189990B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810826071.5A CN109189990B (zh) 2018-07-25 2018-07-25 一种搜索词的生成方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810826071.5A CN109189990B (zh) 2018-07-25 2018-07-25 一种搜索词的生成方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN109189990A CN109189990A (zh) 2019-01-11
CN109189990B true CN109189990B (zh) 2021-03-26

Family

ID=64937297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810826071.5A Active CN109189990B (zh) 2018-07-25 2018-07-25 一种搜索词的生成方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN109189990B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347911A (zh) * 2019-05-28 2019-10-18 成都美美臣科技有限公司 一个电子商务网站商品搜索自动推送的方法
CN110276009B (zh) * 2019-06-20 2021-09-24 北京百度网讯科技有限公司 一种联想词的推荐方法、装置、电子设备及存储介质
CN110390052B (zh) * 2019-07-25 2022-10-28 腾讯科技(深圳)有限公司 搜索推荐方法、ctr预估模型的训练方法、装置及设备
CN110795612A (zh) * 2019-10-28 2020-02-14 北京字节跳动网络技术有限公司 搜索词的推荐方法、装置、电子设备和计算机可读存储介质
CN112765966B (zh) * 2021-04-06 2021-07-23 腾讯科技(深圳)有限公司 联想词去重方法及装置、计算机可读存储介质和电子设备
CN113282832B (zh) * 2021-06-10 2024-10-25 北京爱奇艺科技有限公司 一种搜索信息的推荐方法、装置、电子设备及存储介质
CN113282831A (zh) * 2021-06-10 2021-08-20 北京爱奇艺科技有限公司 一种搜索信息的推荐方法、装置、电子设备及存储介质
CN113515940B (zh) * 2021-07-14 2022-12-13 上海芯翌智能科技有限公司 一种用于文本搜索的方法及设备
CN113312523B (zh) * 2021-07-30 2021-12-14 北京达佳互联信息技术有限公司 字典生成、搜索关键字推荐方法、装置和服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462289A (zh) * 2014-11-27 2015-03-25 百度在线网络技术(北京)有限公司 直达号关键词的推荐方法和装置
CN105095210A (zh) * 2014-04-22 2015-11-25 阿里巴巴集团控股有限公司 一种筛选推广关键词的方法和装置
CN105956149A (zh) * 2016-05-12 2016-09-21 北京奇艺世纪科技有限公司 默认搜索词的推荐方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9613133B2 (en) * 2014-11-07 2017-04-04 International Business Machines Corporation Context based passage retrieval and scoring in a question answering system
CN105677769B (zh) * 2015-12-29 2018-01-05 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
CN106777217B (zh) * 2016-12-23 2020-10-30 北京奇虎科技有限公司 一种搜索词推荐方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095210A (zh) * 2014-04-22 2015-11-25 阿里巴巴集团控股有限公司 一种筛选推广关键词的方法和装置
CN104462289A (zh) * 2014-11-27 2015-03-25 百度在线网络技术(北京)有限公司 直达号关键词的推荐方法和装置
CN105956149A (zh) * 2016-05-12 2016-09-21 北京奇艺世纪科技有限公司 默认搜索词的推荐方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Feature word selection by iterative top-K aggregation for classifying recommended shops;Heeryon Cho 等;《IEEE》;20161205;第27-29页 *

Also Published As

Publication number Publication date
CN109189990A (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
CN109189990B (zh) 一种搜索词的生成方法、装置及电子设备
CN108073568B (zh) 关键词提取方法和装置
CN109885770B (zh) 一种信息推荐方法、装置、电子设备及存储介质
JP5379239B2 (ja) 関心領域についての判定情報を使用した勧告の提供
JP5351182B2 (ja) 関心領域についての関連情報の決定
CN108304512B (zh) 一种视频搜索引擎粗排序方法、装置及电子设备
CN108829808B (zh) 一种页面个性化排序方法、装置及电子设备
CN107862022B (zh) 文化资源推荐系统
US9864803B2 (en) Method and system for multimodal clue based personalized app function recommendation
CN110532479A (zh) 一种信息推荐方法、装置及设备
CN111831802B (zh) 一种基于lda主题模型的城市领域知识检测系统及方法
CN109325146B (zh) 一种视频推荐方法、装置、存储介质和服务器
US11061980B2 (en) System and method for integrating content into webpages
CN109241243B (zh) 候选文档排序方法及装置
CN110334356A (zh) 文章质量的确定方法、文章筛选方法、以及相应的装置
CN110991187A (zh) 一种实体链接的方法、装置、电子设备及介质
CN109388634B (zh) 地址信息的处理方法、终端设备及计算机可读存储介质
CN106599047B (zh) 一种信息的推送方法及装置
CN111400516B (zh) 标签确定方法、电子设备及存储介质
CN113656575B (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN112989118B (zh) 视频召回方法及装置
CN115687690A (zh) 一种视频推荐方法、装置、电子设备及存储介质
CN115794898B (zh) 一种金融资讯推荐方法、装置、电子设备及存储介质
CN113688633A (zh) 一种提纲确定方法及装置
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant