CN107145525B

CN107145525B - 用于确认搜索场景的数据处理方法、搜索方法及相应装置

Info

Publication number: CN107145525B
Application number: CN201710243857.XA
Authority: CN
Inventors: 吴霄; 梁东; 苟秋媛; 张潇
Original assignee: Beijing Xingxuan Technology Co Ltd
Current assignee: Beijing Xingxuan Technology Co Ltd
Priority date: 2017-04-14
Filing date: 2017-04-14
Publication date: 2020-10-16
Anticipated expiration: 2037-04-14
Also published as: CN107145525A

Abstract

本发明实施例提供一种用于确认搜索场景的数据处理方法、搜索方法及相应装置，涉及数据处理以及搜索领域。其中，所述数据处理方法包括：建立第一数据集与第二数据集之间的初始数据映射；根据监督数据集调整所述初始数据映射，得到所述第一数据集与所述第二数据集之间的实际数据映射；基于所述第二数据集中的第二数据实际映射到的所述第一数据集中的第一数据，确定所述第二数据集中的第二数据所映射的搜索场景。采用本发明，能够有效优化数据映射关系，改善映射的精准度，进而提高后续确定搜索场景的精准度；提升匹配效率，有效地提升匹配场景的广度，提高搜索结果的准确性。

Description

用于确认搜索场景的数据处理方法、搜索方法及相应装置

技术领域

本发明实施例涉及数据处理以及搜索领域，更为具体而言，涉及一种用于确认搜索场景的数据处理方法、搜索方法及相应装置。

背景技术

O2O电商平台近年来在互联网领域迅速发崛起，其中以餐饮配送为主的外卖领域发展最为迅速。用户通过在应用软件上搜索选择美食来完成消费，这一过程中必然涉及的一个核心功能就是搜索。

不同于百度、GOOGLE等传统的通用文本搜索引擎，餐饮电商的搜索引擎需要通过特定的搜索场景和专业化的数据源展开搜索任务。例如，搜索“油条”，则对应的特定场景应该为早餐以及北方等。简单来说，搜索场景就是在挖掘用户搜索行为背后的信息，例如搜索“小龙虾”，对应的搜索场景就是“夏季、宵夜、多人聚会、海鲜”等一些信息，通过这些场景数据的“联想”，可以更精准地产出用户期待的结果。

目前，基于餐饮领域知识的搜索场景识别技术在国内还处于摸索阶段。在工业界，由于餐饮领域垂搜起步晚且发展迅速，搜索场景识别的技术升级未能跟上需求的提升；而学界由于难以获得大规模高价值搜索数据，该领域研究进展也基本停滞。然而巨大的市场需求给餐饮领域搜索带来巨大压力。因此，精准且专业化的识别搜索场景就成了这一领域搜索引擎技术的核心优化方向。

在一种现有技术中，餐饮领域垂直电商搜索的场景识别主要采用人工标记的方式完成。这种方式具有人力成本高、标记标准主观性强无法客观统一等缺陷。即使现有技术支持自动化方式，也难以保证搜索场景的精准且专业化的识别。

发明内容

为了解决现有技术所存在的缺陷，本发明实施例提供一种用于确认搜索场景的数据处理方法、搜索方法及相应装置，能够自动化、精准化地实现搜索场景的映射，改善搜索场景的识别准确度，提高搜索结果的精准度。

第一方面，本发明实施方式中提供了一种用于确认搜索场景的数据处理方法，包括：

建立第一数据集与第二数据集之间的初始数据映射，所述第一数据集包含多项第一数据，所述第二数据集包含多项第二数据；

根据监督数据集调整所述初始数据映射，得到所述第一数据集与所述第二数据集之间的实际数据映射；

基于所述第二数据集中的第二数据实际映射到的所述第一数据集中的第一数据，确定所述第二数据集中的第二数据对应的搜索场景。

在本发明实施方式的一种实现方式中，所述第一数据集为餐饮领域的场景特征库，所述第二数据集包括菜品数据和商户数据。

在本发明实施方式的一种实现方式中，所述方法还包括：按照时间维度和地理维度处理第一数据源，得到所述第一数据集。或者，所述方法还包括：对监督数据源进行切词分析、词频分析、词干提取以及语义分析，得到所述监督数据集。

在本发明实施方式的一种实现方式中，所述监督数据集中的监督数据除了包括短语名称，还包括权重和/或惩罚因子。

进一步地，所述根据监督数据集调整所述初始数据映射，包括：

采用文本匹配处理确定相互匹配的监督数据和第一数据；

针对各项第二数据，基于与第二数据初始映射到的第一数据匹配的监督数据的权重，修改第二数据与其初始映射到的第一数据之间的映射关系，和/或，

针对各项第二数据，基于与第二数据初始映射到的第一数据匹配的监督数据的惩罚因子，调整第二数据初始映射到的第一数据的权重。

在本发明实施方式的一种实现方式中，所述基于所述第二数据集中的第二数据实际映射到的所述第一数据集中的第一数据，确定所述第二数据集中的第二数据对应的搜索场景，包括：针对各项第二数据，从实际映射至第二数据的第一数据中选取至少部分第一数据或所述至少部分第一数据的组合作为所述搜索场景。

第二方面，本发明实施方式中提供了一种搜索场景识别方法，该方法包括：

对搜索项进行切词，得到搜索词；

通过匹配处理确定第二数据集中与所述搜索词匹配的匹配数据；

根据所述匹配数据所映射的搜索场景，确定所述搜索项对应的搜索场景；

其中，所述第二数据集所映射的搜索场景采用前述数据处理方法确定。

第三方面，本发明实施方式还提供一种搜索方法，包括：

根据搜索项和第二数据集及所述第二数据集所映射的搜索场景，确定所述搜索项对应的搜索场景，其中，所述第二数据集所映射的所述场景采用前述数据映射方法确定(该步骤的输出结果是识别搜索场景，其具体可以通过上述第二方面实现)；

加载与所述搜索场景对应的数据文件，所述数据文件配置有召回数据的优化策略；

根据所述数据文件对召回数据进行优化排序。

第四方面，本发明实施方式中提供一种用于确认搜索场景的数据处理装置，包括：

数据映射建立模块，用于建立第一数据集与第二数据集之间的数据映射，所述第一数据集包含多项第一数据，所述第二数据集包含多项第二数据；

数据映射调整模块，用于根据监督数据集调整所述初始数据映射，得到所述第一数据集与所述第二数据集之间的实际数据映射；

搜索场景映射模块，用于基于所述第二数据集中的第二数据实际映射到的所述第一数据集中的第一数据，确定所述第二数据集中的第二数据对应的搜索场景。

在本发明实施方式的一种实现方式中，所述装置还包括：第一数据处理模块，用于按照时间维度和地理维度处理第一数据源，得到所述第一数据集。或者，所述装置还包括：监督数据处理模块，用于对监督数据源进行切词分析、词频分析、词干提取以及语义分析，得到所述监督数据集。

进一步地，所述数据映射调整模块包括：匹配子模块，用于采用文本匹配处理确定相互匹配的监督数据和第一数据；第一调整子模块，用于针对各项第二数据，基于与第二数据初始映射到的第一数据匹配的监督数据的权重，修改第二数据与其初始映射到的第一数据之间的映射关系，和/或，第二调整子模块，用于针对各项第二数据，基于与第二数据初始映射到的第一数据匹配的监督数据的惩罚因子，调整第二数据初始映射到的第一数据的权重。

在本发明实施方式的一种实现方式中，所述搜索场景映射模块具体用于：针对各项第二数据，从实际映射到第二数据的第一数据中选取至少部分第一数据或所述至少部分第一数据的组合作为所述搜索场景。

第五方面，本发明实施方式中提供一种搜索场景识别装置，包括：

切词模块，用于对搜索项进行切词，得到搜索词；

匹配模块，用于通过匹配处理确定第二数据集中与所述搜索词匹配的匹配数据；

确定模块，用于根据所述匹配数据所映射的搜索场景，确定所述搜索项对应的搜索场景；

其中，所述第二数据集所映射的场景采用前述数据映射方法确定。

第六方面，本发明实施例中提供一种搜索装置，包括：

场景确定模块，用于根据搜索项和第二数据集及所述第二数据集所映射的搜索场景，确定所述搜索项对应的搜索场景，其中，所述第二数据集所映射的场景采用前述数据映射方法确定(该模块的输出结果是识别搜索场景，其具体可以通过上述搜索场景识别装置实现)；

加载模块，用于加载与所述搜索场景对应的数据文件，所述数据文件配置有召回数据的优化策略；

优化模块，用于根据加载的所述数据文件对召回数据进行优化排序。

所述搜索场景识别装置和搜索装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，上述搜索场景识别装置或搜索装置的结构中包括处理器和存储器，所述存储器用于存储支持相关装置执行前述相应处理的程序，所述处理器被配置为用于执行所述存储器中存储的程序。相关装置还可以包括通信接口，用于装置与其他设备或通信网络通信。

第七方面，本发明实施例提供了一种计算机存储介质，用于储存所述搜索场景识别装置和/或搜索装置所用的计算机软件指令，其包含用于执行上述相应方法以使搜索场景识别装置和/或搜索装置实现相应数据处理所涉及的程序。

本发明实施例能够有效优化数据映射关系，改善映射的精准度，进而提高后续确定搜索场景的精准度；此外还能够提升匹配效率，有效地提升匹配场景的广度，进而有效提高搜索结果的准确性。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种用于确认搜索场景的数据处理方法的流程示意图；

图2是根据本发明实施例的一种建立场景特征库的方法的流程示意图；

图3是根据本发明实施例的一种获取监督数据的方法的流程示意图；

图4是根据本发明实施例的一种数据映射逻辑示意图；

图5是根据本发明实施例的一种数据映射方法的流程示意图；

图6是根据本发明实施例的一种搜索场景识别方法的流程示意图；

图7是根据本发明实施例的一种搜索方法的流程示意图；

图8是根据本发明实施例的一种用于确认搜索场景的数据处理装置的框图的一例；

图9是根据本发明实施例的一种搜索场景识别装置的框图的一例；

图10是根据本发明实施例的一种搜索装置的框图的一例。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

首先，对本发明涉及或可能涉及的部分名词进行说明。这些解释仅为了便于理解，而并不构成对本发明各种实施例的限制。

搜索技术，针对互联网的数据资源建立信息数据库和索引数据信息，通过各种软件、硬件技术实现性能优化，利用相关算法策略进行搜索准确性和排序结果的功能优化。

场景识别，针对搜索关键词进行基于大数据和自然语言处理的深度数据挖掘，分析关键词所处的搜索情景，进而从更高层次优化搜索结果。

领域知识，行业领域中的专门知识与技能。领域指某个限定的专业或行业的范围，如金融、制造、餐饮等。领域内的专家经验、技能、管理素质构成的知识框架称为知识领域。

自然语言处理，是用计算机处理自然语言信息的过程和有关技术。自然语言指的是人类自身的书面或口头形式的语言，如汉语、英语、日语等，它是相对于人造的形式化的计算机语言而言的。处理自然语言的关键是要让计算机理解自然语言。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是根据本发明实施例的一种用于确认搜索场景的数据处理方法的流程示意图，参照图1，所述方法包括：

10：建立第一数据集与第二数据集之间的初始数据映射。其中，所述第一数据集包含多项第一数据，所述第二数据集包含多项第二数据。

在本发明中，第一数据集和第二数据集均包含可以直接进行数据映射处理的数据。关于如何得到特定应用环境下的第一数据集和第二数据集，将在下文进行详细说明。

可选地，在本实施例中，处理10也可以理解为利用第一数据集对第二数据集进行数据标记，从而建立第一数据集与第二数据集之间的初始映射关系。

12：根据监督数据集调整所述初始数据映射，得到所述第一数据集与所述第二数据集之间的实际数据映射。

可选地，在本实施例的一种实现方式中，监督数据集的作用是对处理10得到的初始映射关系进行优化，例如，防止对第一数据集的数据标记的过拟合情况，对映射强度进行限制。

其中，监督数据集包含监督数据，本发明中的监督数据可以理解为一种规范化的数据样本，用于辅助进行数据过滤、调整、优化等处理，具有数据参考意义。

14：基于所述实际数据映射确定所述第二数据集所映射的搜索场景。具体而言，基于所述第二数据集中的第二数据实际映射到的所述第一数据集中的第一数据，确定所述第二数据集中的第二数据对应的搜索场景。

采用本实施例提供的方法，相对于存在映射效果不足或者过拟合情况的现有映射技术而言，基于监督数据对数据映射进行调整，能够有效优化数据映射关系，改善映射的精准度，进而提高所确定的搜索场景的精准度。

可选地，在本实施例的一种实现方式中，所述监督数据集中的监督数据包含短语名称和调整参数，所述调整参数包括权重和/或惩罚因子。此时，处理12可以通过以下方式实现：

首先，采用文本匹配处理确定相互匹配的监督数据和第一数据。例如，将短语名称和第一数据集中的第一数据进行匹配处理，确定相互匹配的监督数据和第一数据。然后，针对各项第二数据，基于与第二数据初始映射到的第一数据匹配的监督数据的权重，修改第二数据与其初始映射到的第一数据之间的映射关系，和/或，针对各项第二数据，基于与第二数据初始映射到的第一数据匹配的监督数据的惩罚因子，调整第二数据初始映射到的第一数据的权重。

其中，所述修改第二数据其初始映射到的第一数据之间的映射关系，包括：删除所匹配的监督数据的权重值不满足预设条件的第一数据与第二数据的映射关系、根据第一数据所匹配的监督数据的权重值对第一数据与第二数据之间的映射进行排序等。

可选地，在本实施例的一种实现方式中，按照时间维度和地理维度处理第一数据源得到所述第一数据集；对监督数据源进行文本处理(包括：切词分析、词频分析、词干提取以及语义分析)，得到所述监督数据集；第二数据集可以是已有的数据集。

可选地，在本实施例的一种实现方式中，第一数据集、第二数据集和监督数据集是同一领域的数据。例如，以餐饮领域为例，第一数据集为餐饮领域的场景特征库，第二数据集包括菜品数据和商户数据，监督数据集则基于外源挖掘的有效餐饮领域信息得到。

可选地，在本实施例的一种实现方式中，针对各项第二数据，从实际映射至第二数据的第一数据中选取至少部分第一数据或所述至少部分第一数据的组合作为所述搜索场景。

举例而言，以第二数据集中的“油条”这个菜品词为例，假设映射到的第一数据包括：“早餐”、“北方”、“主食”、“油炸食品”、“中华传统”等。其中“早餐”出现频次最高，最具代表性。因此，在“油条”这个菜品词的映射数据中，可以将“早餐”排在所有特征的首位，对应最大的权重。进而，在处理14中，可以选取“早餐”作为油条的搜索场景。当然，也可以从映射的词语中选取至少部分词语组合构成场景，例如将“北方的早餐”作为场景。换言之，在本实现方式中，可以根据所匹配的监督数据的权重(例如，权重排序)选取权重满足预设条件的第一数据或第一数据的组合作为相应的搜索场景。

在该实现方式中，可以采用特征词的频次对“油条”所对应的特征词进行筛选，也可以根据特征词的频次对各个特征词的权重进行优化，这样，通过将特征词的频次作为辅助参数对权重进行调整/修正，将权重描述可能存在的不准确的问题弱化，也保证了基于权重进行调整而得到的实际数据映射的准确性。

关于特征词的频次，其是指特征词在所述第一数据集的数据收集、统计阶段所记录到的数量。例如：假设“早餐”一词在第一数据集的数据收集阶段，一共统计到723个“早餐”或“早餐”作为主要语义的短语，那么在所述第一数据集中，“早餐”这个特征词的词频就是723/(所有特征词出现的总次数)。

下面，以将本发明应用于餐饮领域为例，对与本发明相关的各个细节进行详细说明。

图2是根据本发明实施例的一种建立场景特征库的方法的流程示意图。所述场景特征库是第一数据集的一种具体实现方式。参照图2，所述方法包括：

首先，获取第一数据源。所述第一数据源包括用户行为数据和外源挖掘数据。用户行为数据主要反映用户在时间维度上的行为，利用客户端(例如，APP客户端)收集到的用户点击以及浏览记录，在服务端以时间为维度，将用户的这些行为依次整理收集，例如：用户A在2016年11月03日11点的行为数据为“打开APP->浏览首页->下拉菜单至第3页->停留2秒后选择第三家商户并进入->在商户详情页选择X产品->进入下单页面->选择付款方式以及配送地理信息”等。而外源挖掘数据包括主流专业餐饮网站的公开菜单、菜品做法、餐饮分类等信息。

接着，通过数据分析子系统，对所述第一数据源进行分析，得到时间场景基本数据、节日场景基本数据、地理信息基本数据。具体而言，利用文本模式匹配技术将第一数据源划分为早餐、午餐、晚餐以及夜宵四个基本时间场景、中西方传统节假日等基本节日场景以及基于地理信息的用户配送场景等基本特征。

接着，在获得基本特征信息后，通过拟合算法对特征过滤模型进行训练和拟合优化，完成特征数据的过滤，去除错误的、不属于餐饮领域的关联信息的数据，使特征库的数据合理化。

此处，之所以要对特征过滤模型进行训练，是因为未经过滤的原始特征数据往往存在各种噪声数据。例如：“香烟”这个搜索词在原始的场景特征提取中，可能产生“早餐”、“甜品”这两个场景特征。显然地，这是由于脏数据造成的错误识别，需要被过滤掉。因此，通过人为设置模型预期的目标状态，采用拟合过程，可以不断地让过滤条件更加精确，进而可以过滤掉逻辑关联不强的特征库数据。

通过以上处理，即可得到场景特征库。示例性地，场景特征库中的基本数据结构如下表所示：

(表一)

参照表一。其中，特征ID表示每个特征的唯一识别信息，在搜索场景识别中使用该ID调用相关特征。特征名称方便特征库管理者查看以及信息展示。特征分类代表特征所处类别，例如，可以将特征分为一级特征、二级特征以及三级子类。更具体而言，“早餐”属于一级特征，其中包含“减肥早餐”这个二级特征，该二级特征又包含“金枪鱼肉制品”等三级特征。

特征权重表示该特征在特征库中的影响因子，其计算公式为：

W_i＝θ*C_i/∑_j＝0Cj+Punishment(i>＝0，j从0开始)

W_i表示第i个特征的权重(也称影响因子)，θ表示人为设置的正向激励参数，这个参数用来削弱前文所提到的噪声引起的干扰，C_i表示第i个特征在训练数据中经过切词、词频分析以及语义分析(相关说明请参照与下文在监督数据中的说明)所得的特征名称，而训练数据即前文的第一数据源。Punishment为惩罚因子，用于修正过拟合问题带来的权重因子影响过大的问题。

特征关系表示特征之间的关系，包括近似、互斥以及包含三种关系。例如：“早餐”与“晚餐”就属于互斥特征。特征关系信息对之后特征映射部分的优化有着重要作用，通过特征权重以及特征关系的比较，可以较精准的过滤掉错误的映射结果。

采用本实施例提供的方法，通过全自动化的流程进行数据处理，尤其是引入时间维度和地理信息维度来划分海量数据，能够有效地缩短数据挖掘处理以及人工评审带来的无效时间成本消耗，提高整体策略评估性能。此外，为提升特征库的可描述性和可代表性，可采用特征模型反向激励的方式二次优化特征库。与传统的特征提取技术相比，准确性更高，所包含的特征也更具代表性。

图3是根据本发明实施例的一种获取监督数据的方法的流程示意图。该方法针对餐饮领域信息进行文本处理，获得监督数据，所述监督数据是指适用于监督模型(一种基本的机器学习方法)的数据。具体而言，如图3所示，所述方法包括：

30：获取餐饮领域信息。所述餐饮领域信息可以由网络爬虫机器人从外源挖掘数据中提取。

32：切词分析。具体而言，可以使用切词工具完成切词分析。例如，采用wordseg切词工具,其基本原理是将海量数据生成的单词字典与一段餐饮信息进行匹配，一旦发现匹配成功的短语，则将其视为候选切词，并依据单词字典提供的单词权重去挑选出匹配度最高的切词方式，继而可以认为这种切词结果就是最终结果。一段餐饮信息切词后形成由短语组成的集合，例如：“糖醋里脊主要食材包括里脊肉、淀粉、番茄等”这句文本被视为餐饮信息，切词后的短语集合为{“糖醋里脊”，“主要食材”，“里脊肉”，“淀粉”，“番茄”}。

34：词频分析。具体而言，在针对每一段餐饮领域信息都进行切词分析之后，进而统计每个切词后短语出现的次数，这个次数就是词频信息。词频分析的主要目的是过滤掉不需要的词语，留下最具代表性的词语。例如：针对餐饮领域信息，在切词后形成这样两个词语：“鸡排”，“大鸡排”。根据词频统计，“鸡排”一共出现了12834次，而“大鸡排”一共出现了231次，那么针对这两个具有相似文本组织结构的词语，可以只保留“鸡排”。

36：词干提取。具体而言，使用词干字典与前述生成的切词短语进行部分匹配检查，例如：“美味的里脊肉”会被提取为“里脊肉”，其中的定语“美味的”会被去除。词干提取会识别短语的词性，进而对短语进行二次切割，最后只留下核心的名词部分。

38：语义分析。示例性地，可以进行基于N-gram(一种语言模型)的语义分析。该分析方法基于一种假设，第N个词的出现只与前面N-1个词相关，而不与其他因素相关，这个短语的概率就是各个词干出现的概率的乘积。

通过以上处理30-38，即可得到餐饮领域的监督数据。示例性地，监督数据的结构如下表所示：

短语ID

短语名称

权重

惩罚因子

表二

其中，短语ID唯一标示该短语，用于在调用监督数据时使用。短语名称用于与第一数据集中的数据(例如，场景特征库中的特征词)进行文本匹配。权重是指该监督数据的重要性，例如菜品“鱼香肉丝”映射到“川菜”、“流行”、“时尚创意”这三个特征词，而系统的监督数据中“川菜”、“流行”两个监督短语的权重明显大于“时尚创意”这个短语，那么过滤后留下来的特征就是“川菜”、“流行”，同时，“鱼香XX”这个短语表达方式也被系统定义为一个监督公式。当下次类似于“鱼香XX”的短语被处理时，但凡出现“川菜”、“流行”或类似特征时，监督模型将会提升这些特征的影响因子，同时，会限制其他特征的映射强度。惩罚因子是监督数据的修正选项，该数值通常是人为设置，通过数据采样后的人工审核去评估监督数据对特征的约束。

图4是根据本发明实施例的一种数据映射逻辑示意图，其示出的是场景特征库与餐饮领域数据的实际数据映射逻辑。参照图4，该数据映射逻辑包括：首先，基于餐饮领域数据(包括菜品数据和商户数据)与场景特征库建立二者之间的数据映射。然后，读取监督数据的权重和惩罚因子，进而进行提升与限制。具体而言，在将场景特征库映射到菜品或者商户数据时，利用监督数据自身的权重提升与监督数据匹配上的那部分特征词，同时通过监督数据的惩罚因子限制映射强度(即，特征词的权重)，生成有效映射数据(即，实际映射数据)。

传统的特征映射技术存在映射效果不足或者过拟合的情况。而本实施例采用的数据映射逻辑，引入监督数据的概念，可以通过第三方数据构建餐饮领域知识的监督模型，进而在数据映射中基于监督数据过滤菜品、店铺名称的场景特征，提升映射精确度。

在本实施例中，在生成有效映射数据处理之后，可以利用特征词频次对每个餐饮领域信息词(例如，菜品和商户名称)映射到的特征词进行排序。以“油条”这个菜品词为例，映射到的特征词包括：“早餐”、“北方”、“主食”、“油炸食品”、“中华传统”等，其中“早餐”这个场景特征出现频次最高，最具代表性。因此在“油条”这个菜品词的映射数据中，“早餐”排在所有特征的首位，权重最大。可以将“早餐”作为油条的搜索场景。

图5是根据本发明实施例的一种数据映射方法的流程示意图，其示出了场景特征库与餐饮领域数据(包括菜品数据和商户数据)的实际数据映射过程。参照图5，所述方法包括：

50：建立场景特征库与餐饮领域数据的数据映射。

52：基于监督数据优化所述数据映射。例如，通过前述的权重、惩罚因子进行优化。

54：确定餐饮领域数据所对应的搜索场景。例如，针对第二数据集中的单个第二数据，根据与其映射的第一数据的出现频次、权重或其它参数进行排序、筛选或组合，从而得到对应的搜索场景。

图6是根据本发明实施例的一种搜索场景识别方法的流程示意图。参照图6，所述方法包括：

60：对搜索项进行切词，得到搜索词。所述搜索词可以是一个或多个。

可选地，在本实施例的一种实现方式中，首先针对用户输入的搜索项进行识别处理，该识别处理包括简单的过滤、首次召回触发。其中，过滤是指针对该搜索项进行异常判断，如果发现该搜索项异常，例如：搜索词包含非法字符、敏感信息等，搜索将不再进行下一步处理。

可选地，在本实施例中，可以采用前文提及的切词工具进行切词。

62：通过匹配处理确定第二数据集中与所述搜索词匹配的匹配数据。其中，所述第二数据集与所述第一数据集采用如前文所述的数据映射方法建立数据映射(即，实际数据映射)。关于第一数据集和第二数据集的说明，请参见前文。

可选地，在本实施例的一种实现方式中，所述匹配处理为文本匹配处理，并且优选采用部分匹配。所述部分匹配是指，如果第二数据集中的第二数据与搜索项切词后的任意一个词匹配，则该第二数据与搜索项匹配。例如，利用搜索项的切词结果与特征词库的词语进行近似计算，假如搜索词“川香回锅肉”与特征库中的“回锅”这一特征匹配成功，其实是“川香回锅肉”中的“回锅”两字与相关特征匹配成功。

采用部分匹配的方式快速匹配餐饮领域数据，一方面提升匹配效率，另一方面有效地提升匹配场景的广度。

64：根据所述匹配数据所映射的搜索场景，确定所述搜索项对应的搜索场景。

可选地，在本实施例的一种实现方式中，以餐饮领域为例，第一数据集是场景特征库、第二数据集是餐饮领域数据。在确定搜索词对应的搜索场景后，可以利用场景特征库中预计算的场景权重进行场景排序。

图7是根据本发明实施例的一种搜索方法的流程示意图，参照图7，所述方法包括：

70：识别搜索项对应的搜索场景。例如，根据搜索项和第二数据集及所述第二数据集所映射的搜索场景，确定所述搜索项对应的搜索场景。其中，所述第二数据集所映射的搜索场景采用前文所述的数据映射方法确定。更具体而言，可以采用图6所示的方法进行识别。

72：加载与搜索场景对应的数据文件。所述数据文件配置有召回数据的优化策略。

可选地，在本实施例的一种实现方式中，动态加载不同场景所对应的数据文件，继而得到符合用户搜索意图的搜索结果。所述动态加载即热加载技术，即在不重启服务的情况下，可以实时的更换数据。而在本实施例中，将召回逻辑的排序策略构造成一个个的数据文件，通过加载这些数据文件，来构造排序算法。示例性地，这些排序策略的数据文件如下表所示：

策略ID

策略名称

策略分类

描述参数

参数作用范围

扩展信息

(表三)

其中，描述参数和参数作用范围旨在表示策略的影响点，例如：基于距离的排序策略中，描述参数就是“距离因子”，而参数作用范围就是“0km–20km”。

74：根据数据文件对召回数据进行优化排序。

采用本实施例提供的方法，为搜索召回提供了模块化的计算入口，可以针对不同的搜索场景设计各自的排序优化策略，实现“千人千面”的搜索个性化效果。

以上结合附图对根据本发明实施例的方法实施例进行了详细说明。下面结合附图对根据本发明的装置实施例进行说明。

图8是根据本发明实施例的一种用于确认搜索场景的数据处理装置的框图的一例。参照图8，数据处理装置包括：数据映射建立模块80，用于建立第一数据集与第二数据集之间的初始数据映射；数据映射调整模块82，用于根据监督数据集调整所述数据映射，得到所述第一数据集与所述第二数据集之间的实际数据映射；搜索场景映射模块84，用于基于所述第二数据集中的第二数据实际映射到的所述第一数据集中的第一数据，确定所述第二数据集中的第二数据对应的搜索场景。

可选地，在本实施例的一种实现方式中，所述监督数据集中的监督数据除了包括权重和/或惩罚因子。

可选地，在本实施例的一种实现方式中，数据映射调整模块82包括：匹配子模块，用于采用文本匹配处理确定相互匹配的监督数据和第一数据；第一调整子模块，用于针对各项第二数据，基于与第二数据初始映射到的第一数据匹配的监督数据的权重，修改第二数据与其初始映射到的第一数据之间的映射关系，和/或，第二调整子模块，用于针对各项第二数据，基于与第二数据初始映射到的第一数据匹配的监督数据的惩罚因子，调整第二数据初始映射到的第一数据的权重。

可选地，在本实施例的一种实现方式中，所述搜索场景映射模块84具体用于：针对各项第二数据，从实际映射到第二数据的第一数据中选取至少部分第一数据或所述至少部分第一数据的组合作为所述搜索场景。例如，基于第一数据所匹配的监督数据的权重选取所述至少部分第一数据。

可选地，在本实施例的一种实现方式中，所述第一数据集为餐饮领域的场景特征库，所述第二数据集包括菜品数据和商户数据。

图9是根据本发明实施例的一种搜索场景识别装置的框图的一例，参照图9，该装置包括：切词模块90，用于对搜索项进行切词，得到搜索词；匹配模块92，用于通过匹配处理确定第二数据集中与所述搜索词匹配的匹配数据；确定模块94，用于根据所述匹配数据所映射的搜索场景，确定所述搜索项对应的搜索场景。其中，采用前文所述的方法为第二数据集映射搜索场景。

图10是根据本发明实施例的一种搜索装置的框图的一例，参照图10，该装置包括：场景确定模块102，用于根据搜索项和第二数据集及所述第二数据集所映射的搜索场景，确定所述搜索项对应的搜索场景(其中，所述第二数据集所映射的场景采用前文所述的数据映射方法确定，或采用图9所示搜索场景识别装置确定)；加载模块104，用于加载与所述搜索场景对应的数据文件，所述数据文件配置有召回数据的优化策略；优化模块106，用于根据加载的所述数据文件对召回数据进行优化排序。

以上结合附图对根据本发明实施例的信息推送方法及装置进行了说明，本领域技术人员应当理解，本发明提供的方法实施例或实现方式可以相应地由本发明提供的装置实施例或实现方式实现，而本发明的装置实施例的处理过程/逻辑又与本发明的方法实施例相一致。因此，在本发明的装置实施例中，关于各个模块、子模块所执行处理或可执行处理的详细说明，关于特定名称、术语、范围的解释，以及关于各个实施例、相关特征所具有的有益效果的描述，请参见方法实施例中的相应说明，此处不再赘述。

在与本发明相关的一种可能的设计中，前述数据处理装置可以包括处理器和存储器，所述存储器用于存储支持所述数据处理装置执行前述相应模块/子模块所执行的处理的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令供所述处理器调用执行。

更具体而言，所述处理器通过执行所述计算机指令以用于：

基于所述第二数据集中的第二数据实际映射到的所述第一数据集中的第一数据，确定所述第二数据集中的第二数据所映射的搜索场景。

可选地，所述处理器还可以通过执行所述计算机指令以用于：按照时间维度和地理维度处理第一数据源，得到所述第一数据集；对监督数据源进行切词分析、词频分析、词干提取以及语义分析，得到所述监督数据集。

可选地，所述监督数据集中的监督数据除了包括短语名称，还包括权重和/或惩罚因子。此时，所述处理还可以通过执行所述计算机指令以用于：

采用文本匹配处理确定相互匹配的监督数据和第一数据；针对各项第二数据，基于与第二数据初始映射到的第一数据匹配的监督数据的权重，修改第二数据与其初始映射到的第一数据之间的映射关系，和/或，针对各项第二数据，基于与第二数据初始映射到的第一数据匹配的监督数据的惩罚因子，调整第二数据初始映射到的第一数据的权重。

可选地，所述处理还可以通过执行所述计算机指令以用于：针对各项第二数据，从实际映射至第二数据的第一数据中选取至少部分第一数据或所述至少部分第一数据的组合作为所述搜索场景。

相应地，本发明实施例还提供了一种计算机存储介质，用于储存前述数据映射装置所执行的计算机软件指令，其包含用于执行上述数据映射方法的数据映射装置所涉及的程序。

在与本发明相关的另一种可能的设计中，前述搜索装置可以包括处理器和存储器，所述存储器用于存储支持所述数据处理装置执行相应模块/子模块所执行的处理的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

更具体而言，所述处理器通过执行所述计算机指令以用于：根据搜索项和第二数据集及所述第二数据集所映射的搜索场景，确定所述搜索项对应的搜索场景，其中，所述第二数据集所映射的搜索场景采用前述数据映射方法确定；加载与所述搜索场景对应的数据文件，所述数据文件配置有召回数据的优化策略；根据所述数据文件对召回数据进行优化排序。

相应地，本发明实施例中还提供一种计算机存储介质，用于储存前述搜索装置所执行的计算机软件指令，其包含用于执行前文所述搜索方法的搜索装置所涉及的程序。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

本发明公开A1、一种用于确认搜索场景的数据处理方法，包括：

A2、如A1所述的方法中，所述第一数据集为餐饮领域的场景特征库，所述第二数据集包括菜品数据和商户数据。

A3、如A1所述的方法中，所述方法还包括：按照时间维度和地理维度处理第一数据源，得到所述第一数据集。

A4、如A1所述的方法中，还包括：

对监督数据源进行文本处理(包括：切词分析、词频分析、词干提取以及语义分析)，得到所述监督数据集。

A5、如A1～A4中任一项所述的方法，所述监督数据集中的监督数据包括权重和/或惩罚因子。

A6、如A5所述的方法中，

根据监督数据集调整所述初始数据映射关系，包括：

采用文本匹配处理确定相互匹配的监督数据和第一数据；

A7、如A1-A4或A6中任一项所述的方法中，所述基于所述第二数据集中的第二数据实际映射到的所述第一数据集中的第一数据，确定所述第二数据集中的第二数据对应的搜索场景，包括：针对各项第二数据，从实际映射至第二数据的第一数据中选取至少部分第一数据或所述至少部分第一数据的组合作为所述搜索场景。

本发明还公开了B8、一种搜索方法，包括：

根据搜索项和第二数据集及所述第二数据集所映射的搜索场景，确定所述搜索项对应的搜索场景，其中，所述第二数据集所映射的搜索场景采用如A1-A7中任一项所述的方法确定；

根据所述数据文件对召回数据进行优化排序。

本发明还公开了C9、一种用于确认搜索场景的数据处理装置，包括：

数据映射建立模块，用于建立第一数据集与第二数据集之间的初始数据映射，所述第一数据集包含多项第一数据，所述第二数据集包含多项第二数据；

C10、如C9所述的装置中，所述第一数据集为餐饮领域的场景特征库，所述第二数据集包括菜品数据和商户数据。

C11、如C9所述的装置中，所述装置还包括第一数据处理模块，用于按照时间维度和地理维度处理第一数据源，得到所述第一数据集。

C12、如C9所述的装置中，所述装置还包括监督数据处理模块，用于对监督数据源进行文本处理(例如，包括：切词分析、词频分析、词干提取以及语义分析)，得到所述监督数据集。

C13、如C9-C12所述的装置中，所述监督数据集中的监督数据除了包括短语名称，还包括权重和/或惩罚因子。

C14、如C13所述的装置中，所述数据映射调整模块包括：

匹配子模块，用于采用文本匹配处理确定相互匹配的监督数据和第一数据；

第一调整子模块，用于针对各项第二数据，基于与第二数据初始映射到的第一数据匹配的监督数据的权重，修改第二数据与其初始映射到的第一数据之间的映射关系，和/或，

第二调整子模块，用于针对各项第二数据，基于与第二数据初始映射到的第一数据匹配的监督数据的惩罚因子，调整第二数据初始映射到的第一数据的权重。

C15、如C9-C12或C14中任一项所述的装置中，所述搜索场景映射模块具体用于：针对各项第二数据，从实际映射到第二数据的第一数据中选取至少部分第一数据或所述至少部分第一数据的组合作为所述搜索场景。

本发明还公开D16、一种搜索装置，包括：

场景确定模块，用于根据搜索项和第二数据集及所述第二数据集所映射的搜索场景，确定所述搜索项对应的搜索场景，其中，所述第二数据集所映射的搜索场景采用如A1-A7中任一项所述的方法确定；

优化模块，用于根据加载的所述数据文件对召回数据进行优化排序

本发明还公开了E1、一种数据映射装置，包括存储器和处理器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令供所述处理器调用执行；

所述处理器通过执行所述计算机指令以执行以下处理：

E2、如E1所述的数据映射装置中，所述第一数据集为餐饮领域的场景特征库，所述第二数据集包括菜品数据和商户数据。

E3、如E1所述的数据映射装置中，所述处理器通过执行所述计算机指令以执行以下处理：按照时间维度和地理维度处理第一数据源，得到所述第一数据集。

E4、如E1所述的数据映射装置中，所述处理器通过执行所述计算机指令以执行以下处理：对监督数据源进行文本处理(例如，包括：切词分析、词频分析、词干提取以及语义分析)得到所述监督数据集。

E5、如E1-E4中任一项所述的数据映射装置中，所述监督数据集中的监督数据包括权重和/或惩罚因子。

E6、如E5所述的数据映射装置中，所述处理器通过执行所述计算机指令以执行以下处理：采用文本匹配处理确定相互匹配的监督数据和第一数据；针对各项第二数据，基于与第二数据初始映射到的第一数据匹配的监督数据的权重，修改第二数据与其初始映射到的第一数据之间的映射关系，和/或，针对各项第二数据，基于与第二数据初始映射到的第一数据匹配的监督数据的惩罚因子，调整第二数据初始映射到的第一数据的权重。

E7、如E1-E4或E6中任一项所述的装置，所述处理器通过执行所述计算机指令以执行以下处理：针对各项第二数据，从实际映射至第二数据的第一数据中选取至少部分第一数据或所述至少部分第一数据的组合作为所述搜索场景。

本发明还公开了F1、一种搜索装置，包括存储器和处理器；其中，

所述处理器通过执行所述计算机指令以执行以下处理：根据搜索项和第二数据集及所述第二数据集所映射的搜索场景，确定所述搜索项对应的搜索场景，其中，所述第二数据集所映射的搜索场景如A1-A7中任一项所述的方法确定；加载与所述搜索场景对应的数据文件，所述数据文件配置有召回数据的优化策略；根据所述数据文件对召回数据进行优化排序。

Claims

1.一种用于确认搜索场景的数据处理方法，其特征在于，所述方法包括：

根据监督数据集调整所述初始数据映射，得到所述第一数据集与所述第二数据集之间的实际数据映射，所述监督数据集、所述第一数据集以及所述第二数据集为同一领域的数据，所述监督数据集为所述同一领域的规范样本数据，所述监督数据包括权重和/或惩罚因子，所述权重或惩罚因子用于调整所述第一数据集和所述第二数据集的映射关系；

2.如权利要求1所述的方法，其特征在于，所述第一数据集为餐饮领域的场景特征库，所述第二数据集包括菜品数据和商户数据。

3.如权利要求1所述的方法，其特征在于，所述方法还包括：

按照时间维度和地理维度处理第一数据源，得到所述第一数据集。

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

对监督数据源进行文本处理得到所述监督数据集。

5.如权利要求1所述的方法，其特征在于，所述根据监督数据集调整所述初始数据映射，包括：

采用文本匹配处理确定相互匹配的监督数据和第一数据；

6.如权利要求1-5中任一项所述的方法，其特征在于，所述基于所述第二数据集中的第二数据实际映射到的所述第一数据集中的第一数据，确定所述第二数据集中的第二数据对应的搜索场景，包括：

针对各项第二数据，从实际映射至第二数据的第一数据中选取至少部分第一数据或所述至少部分第一数据的组合作为所述搜索场景。

7.一种搜索方法，其特征在于，所述方法包括：

根据搜索项和第二数据集及所述第二数据集所映射的搜索场景，确定所述搜索项对应的搜索场景，其中，所述第二数据集所映射的搜索场景采用如权利要求1-6中任一项所述的方法确定；

根据所述数据文件对召回数据进行优化排序。

8.一种用于确认搜索场景的数据处理装置，其特征在于，所述装置包括：

数据映射调整模块，用于根据监督数据集调整所述初始数据映射，得到所述第一数据集与所述第二数据集之间的实际数据映射，所述监督数据集、所述第一数据集以及所述第二数据集为同一领域的数据，所述监督数据集为所述同一领域的规范样本数据，所述监督数据包括权重和/或惩罚因子，所述权重或惩罚因子用于调整所述第一数据集和所述第二数据集的映射关系；

9.如权利要求8所述的装置，其特征在于，所述第一数据集为餐饮领域的场景特征库，所述第二数据集包括菜品数据和商户数据。

10.如权利要求8所述的装置，其特征在于，所述装置还包括：

第一数据处理模块，用于按照时间维度和地理维度处理第一数据源，得到所述第一数据集。

11.如权利要求8所述的装置，其特征在于，所述装置还包括：

监督数据处理模块，用于对监督数据源进行文本处理得到所述监督数据集。

12.如权利要求8所述的装置，其特征在于，所述数据映射调整模块包括：

13.如权利要求8-12中任一项所述的装置，其特征在于，所述搜索场景映射模块具体用于：

针对各项第二数据，从实际映射到第二数据的第一数据中选取至少部分第一数据或所述至少部分第一数据的组合作为所述搜索场景。

14.一种搜索装置，其特征在于，所述装置包括：

场景确定模块，用于根据搜索项和第二数据集及所述第二数据集所映射的搜索场景，确定所述搜索项对应的搜索场景，其中，所述第二数据集所映射的搜索场景采用如权利要求1-6中任一项所述的方法确定；

15.一种数据处理装置，包括存储器和处理器；其中，

所述处理器通过执行所述计算机指令以实现如权利要求1-6中任一项所述的方法。