CN107329887B

CN107329887B - 一种基于推荐系统的数据处理方法以及装置

Info

Publication number: CN107329887B
Application number: CN201610274544.6A
Authority: CN
Inventors: 岳亚丁
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Yunnan Tengyun Information Industry Co ltd
Priority date: 2016-04-28
Filing date: 2016-04-28
Publication date: 2020-08-14
Anticipated expiration: 2036-04-28
Also published as: CN107329887A

Abstract

本发明实施例公开了一种基于推荐系统的数据处理方法以及装置，所述方法包括：获取至少一个具有待调节参数的在线推荐模型分别输出的推荐结果数据；当每个在线推荐模型的运行时间满足预设时间周期时，分别统计所述每个在线推荐模型分别输出的所述推荐结果数据所关联的实际业务评估值，并确定各所述待调节参数与各所述实际业务评估值之间的当前映射关系；根据所述当前映射关系和历史映射关系集合对所述每个在线推荐模型中的所述待调节参数进行优化调节。采用本发明，可缩短对模型参数的在线调节时间，并提高在线调节效率。

Description

一种基于推荐系统的数据处理方法以及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于推荐系统的数据处理方法以及装置。

背景技术

目前的推荐系统中通常都会有推荐模型，推荐模型是用于通过模型参数对输入值进行计算以输入针对每个用户的推荐列表，而每个推荐列表是否符合用户的兴趣则取决于模型参数的准确性，即需要为推荐模型寻找最准确的模型参数。

目前，调节模型参数的方式通常有两种：A/B测试和交错测试。A/B测试是指两种不同模型参数A和B的随机实验，A和B分别是受控实验中的新方案实验组和对照组，根据两组的业务效果衡量，并通过统计假设检验，可以确定哪一个模型参数的设置或调节是更优的。交错测试是A/B测试的一种推广，即把两个不同模型参数的推荐模型的输出结果(如推荐列表)随机掺杂在一起，并同时上线用于生产(如将推荐列表展示给用户)，而用户并不知道哪个推荐列表是由哪个推荐模型产生，然后根据用户的选择，反推出哪种推荐模型的模型参数的设置或调节更好。

虽然A/B测试和交错测试都可以用于在线调节，但是这两种方式都是针对两个模型参数之间的比较和确定，当有多个模型参数时，则需要进行多次的两两比较，导致在线调节时间过长；而且由于这两种方式中的所有预设的模型参数都是在运行推荐模型之前设置好的，所以在预设模型参数时是没有考虑到实际的业务效果的，进而可能出现所预设的部分模型参数所带来的业务效果十分差，而对这些模型参数进行测试只会降低模型参数的在线调节效率。

发明内容

本发明实施例提供一种基于推荐系统的数据处理方法以及装置，可缩短对模型参数的在线调节时间，并提高在线调节效率。

本发明实施例提供了一种基于推荐系统的数据处理方法，包括：

获取至少一个具有待调节参数的在线推荐模型分别输出的推荐结果数据；

当每个在线推荐模型的运行时间满足预设时间周期时，分别统计所述每个在线推荐模型分别输出的所述推荐结果数据所关联的实际业务评估值，并确定各所述待调节参数与各所述实际业务评估值之间的当前映射关系；

根据所述当前映射关系和历史映射关系集合对所述每个在线推荐模型中的所述待调节参数进行优化调节，并将所述当前映射关系添加至所述历史映射关系集合，以在下一个时间周期中继续对优化调节后的各待调节参数进行优化调节，直至存在优化调节后的待调节参数满足收敛条件时，将具有满足收敛条件的待调节参数的在线推荐模型确定为所述推荐系统的固定在线推荐模型。

本发明实施例还提供了一种基于推荐系统的数据处理装置，包括：

获取模块，用于获取至少一个具有待调节参数的在线推荐模型分别输出的推荐结果数据；

统计确定模块，用于当每个在线推荐模型的运行时间满足预设时间周期时，分别统计所述每个在线推荐模型分别输出的所述推荐结果数据所关联的实际业务评估值，并确定各所述待调节参数与各所述实际业务评估值之间的当前映射关系；

优化调节模块，用于根据所述当前映射关系和历史映射关系集合对所述每个在线推荐模型中的所述待调节参数进行优化调节，并将所述当前映射关系添加至所述历史映射关系集合，以在下一个时间周期中继续对优化调节后的各待调节参数进行优化调节，直至存在优化调节后的待调节参数满足收敛条件时，将具有满足收敛条件的待调节参数的在线推荐模型确定为所述推荐系统的固定在线推荐模型。

本发明实施例通过获取至少一个具有待调节参数的在线推荐模型分别输出的推荐结果数据，并分别统计时间周期内每个在线推荐模型分别输出的所述推荐结果数据所关联的实际业务评估值，并确定各所述待调节参数与各所述实际业务评估值之间的当前映射关系，并根据所述当前映射关系和历史映射关系集合对所述每个在线推荐模型中的所述待调节参数进行优化调节，并将所述当前映射关系添加至所述历史映射关系集合，以在下一个时间周期中继续对优化调节后的各待调节参数进行优化调节，直至存在优化调节后的待调节参数满足收敛条件时，将具有满足收敛条件的待调节参数的在线推荐模型确定为所述推荐系统的固定在线推荐模型。由此可见，每次对待调节参数进行优化调节时都一并考虑了实际业务评估值的变化，以保证优化调节后的待调节参数对应的实际业务评估值在整体上是呈增长趋势的，从而可以减少对待调节参数进行优化调节的次数，即可以缩短对待调节参数的在线调节时间，并提高在线调节效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种推荐系统的网络架构示意图；

图2是本发明实施例提供的一种基于推荐系统的数据处理方法的流程示意图；

图3是本发明实施例提供的另一种基于推荐系统的数据处理方法的流程示意图；

图3a是本发明实施例提供的一种在线推荐模型的结构示意图；

图4是本发明实施例提供的一种基于推荐系统的数据处理装置的结构示意图；

图5是本发明实施例提供的一种获取模块的结构示意图；

图6是本发明实施例提供的一种优化调节模块的结构示意图；

图7是本发明实施例提供的一种构建优化调节单元的结构示意图；

图8是本发明实施例提供的另一种基于推荐系统的数据处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了更好理解本发明实施例公开的一种基于推荐系统的数据处理方法以及装置，下面先对本发明实施例适用的推荐系统的网络构架进行描述。请参阅图1，图1是本发明实施例提供的一种推荐系统的网络架构示意图。如图1所示，该网络构架可以包括服务器100以及多个客户端，其中，服务器100也被称后台服务器、组件服务器等，服务器100可以通过互联网与多个客户端进行通信连接。在图1所示的网络构架中，各个客户端可以运行在包括但不限于移动电话、移动电脑、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、媒体播放器、智能电视、智能手表、智能眼镜、智能手环等用户设备上。

本发明实施例提供的所述推荐系统的网络构架中的客户端200a、客户端200b、……、客户端200n以及所述服务器100可以应用到互联网中进行个性化推荐的场景。每个客户端在与所述服务器100的交互过程中，所述服务器100可以通过计算推断出用户属性数据，所述用户属性数据可以包括年龄、性别、地域、兴趣等等，所述服务器100中设置有在线推荐模型，所述在线推荐模型中包含待调节参数，所述服务器100将用户属性数据和推荐对象属性数据输入到所述在线推荐模型，所述在线推荐模型根据所述待调节参数对所输入的数据进行计算以输出推荐列表，所述服务器100将所述在线推荐模型所输出的推荐列表发送至对应客户端，且该客户端显示该推荐列表，以实现针对单个用户的个性化推荐；其中，所述推荐对象属性数据可以包括商品类型、尺寸、广告主所属行业、广告类型等等。为了提高推荐列表所带来的业务效果，则需要对推荐模型中的待调节参数进行优化调节，因此，下面通过图2-图8对应的实施例对所述待调节参数的优化调节的具体实施过程进行详细描述。

请参见图2，是本发明实施例提供的一种基于推荐系统的数据处理方法的流程示意图，所述方法包括：

S101，获取至少一个具有待调节参数的在线推荐模型分别输出的推荐结果数据；

具体的，服务器可以根据用户的业务行为(如用户通过客户端与该服务器进行交互的行为)推断出该用户对应的用户推荐输入数据，所述用户推荐输入数据包括用户属性数据和推荐对象属性数据，所述用户属性数据可以包括年龄、性别、地域、兴趣等等，所述推荐对象属性数据可以包括商品类型、尺寸、广告主所属行业、广告类型等等。其中，不同的用户对应不同的用户推荐输入数据，所述服务器可以对所有的用户推荐输入数据进行分组，以得到至少一个用户推荐输入数据组，例如，若存在100个用户推荐输入数据，则可以划分出10个用户推荐输入数据组，每个用户推荐输入数据组包括10个用户推荐输入数据。所述服务器中可以预设至少一个在线推荐模型，每个在线推荐模型中的初始的待调节参数互不相同。其中，所述用户推荐输入数据组的数量可以与在线推荐模型的数量相同，因此，可以将各个用户推荐输入数据组分别输入至对应的在线推荐模型，并根据每个在线推荐模型中的待调节参数，分别对所述每个在线推荐模型中所输入的用户推荐输入数据组进行计算，以得到所述每个在线推荐模型分别输出的推荐结果数据；其中，一个用户推荐输入数据组对应一个在线推荐模型；所述一个用户推荐输入数据组包括多个用户标识分别对应的用户推荐输入数据；所述一个在线推荐模型输出的推荐结果数据包括所述一个用户推荐输入数据组中的各用户推荐输入数据分别对应的推荐结果数据。例如，一个用户推荐输入数据组中有10个用户标识分别对应的用户推荐输入数据，则所述服务器通过与该用户推荐输入数据组对应的在线模型可以分别对该用户推荐输入数据组中的10个用户推荐输入数据进行计算，以获取该在线模型输出的10个用户标识分别对应的推荐结果数据，所述服务器还可以进一步将10个推荐结果数据分别发送至对应用户标识的客户端，以实现对用户的个性化推荐。

S102，当每个在线推荐模型的运行时间满足预设时间周期时，分别统计所述每个在线推荐模型分别输出的所述推荐结果数据所关联的实际业务评估值，并确定各所述待调节参数与各所述实际业务评估值之间的当前映射关系；

具体的，当所述每个在线推荐模型的运行时间满足预设时间周期时，所述服务器可以分别统计所述每个在线推荐模型分别输出的所述推荐结果数据所关联的实际业务评估值。例如，若所述预设时间周期为一天，则所述每个在线推荐模型每运行一天，所述服务器就统计一次所述实际业务评估值。所述实际业务评估值可以是由所述服务器对在一个时间周期内由所述推荐结果数据所带来的业务收益进行计算得到的，若所述推荐结果数据包括广告推荐、网络产品推荐、游戏推荐，则所述业务收益可以包括一个时间周期内的在线广告业务点击量、网络产品的注册用户数、游戏的注册用户数等等。其中，一个在线推荐模型对应有一个实际业务评估值，即一个待调节参数对应一个实际业务评估值，因此，可以确定各所述待调节参数与各所述实际业务评估值之间的当前映射关系。

S103，根据所述当前映射关系和历史映射关系集合对所述每个在线推荐模型中的所述待调节参数进行优化调节，并将所述当前映射关系添加至所述历史映射关系集合，以在下一个时间周期中继续对优化调节后的各待调节参数进行优化调节，直至存在优化调节后的待调节参数满足收敛条件时，将具有满足收敛条件的待调节参数的在线推荐模型确定为所述推荐系统的固定在线推荐模型；

具体的，所述服务器将进一步基于预设的优化调节算法，并根据所述当前映射关系以及历史映射关系集合对各所述待调节参数进行优化调节；其中，所述优化调节算法可以为OPUS-RBF(Optimization by Particle swarm Using Surrogates-Radial BasisFunction，基于粒子群的、以径向基函数为替代函数的优化算法)，或者为MISO(multi-input single output，多输入单输出)等其他可实现多维度数值优化的最优化算法。所述服务器将具有优化调节后的待调节参数的在线推荐模型确定为更新后的在线推荐模型，并将所述当前映射关系添加至所述历史映射关系集合，以得到新的历史映射关系集合，以便于在在下一个时间周期中重新运行各更新后的在线推荐模型，并通过运行所述各更新后的在线推荐模型可以获得新的推荐结果数据，再根据新的推荐结果数据统计新的实际业务评估值，继而确定出新的映射关系，并继续通过新的映射关系以及所述新的历史映射关系集合对所述各更新后的在线推荐模型中的待调节参数再次进行优化调节，直至存在优化调节后的待调节参数满足收敛条件时，将具有满足收敛条件的待调节参数的在线推荐模型确定为所述推荐系统的固定在线推荐模型，即无需再对待调节参数进行调节，且后续所有用户对应的用户推荐输入数据都将输入所述固定在线推荐模型，并由所述固定在线推荐模型为每个用户分别输出对应的推荐结果数据，以保证整个所述推荐系统的实际业务评估值最大化。其中，所述收敛条件可以为相邻两个时间周期中分别统计的所述实际业务评估值之间的差值小于预设的评估值阈值；或者，所述收敛条件可以为对所述每个在线推荐模型中的各所述待调节参数进行优化调节的次数达到预设的次数阈值。其中，每次对待调节参数进行优化调节后，即可在下一个时间周期中通过优化调节后的待调节参数重新获取新的推荐结果数据，并根据新的推荐结果数据统计出新的实际业务评估值，通过所述优化调节算法、各待调节参数与各实际业务评估值之间的映射关系即可使优化调节后的待调节参数所对应的实际业务评估值在整体上呈增长趋势。

请参见图3，是本发明实施例提供的另一种基于推荐系统的数据处理方法的流程示意图，所述方法包括：

S201，将至少一个用户推荐输入数据组分别输入至对应的在线推荐模型；

具体的，服务器可以根据用户的业务行为(如用户通过客户端与该服务器进行交互的行为)推断出该用户对应的用户推荐输入数据，所述用户推荐输入数据包括用户属性数据和推荐对象属性数据，所述用户属性数据可以包括年龄、性别、地域、兴趣等等，所述推荐对象属性数据可以包括商品类型、尺寸、广告主所属行业、广告类型等等。其中，不同的用户对应不同的用户推荐输入数据，所述服务器可以对所有的用户推荐输入数据进行分组，以得到至少一个用户推荐输入数据组，例如，若存在100个用户推荐输入数据，则可以划分出10个用户推荐输入数据组，每个用户推荐输入数据组包括10个用户推荐输入数据。所述服务器中可以预设至少一个在线推荐模型，每个在线推荐模型中的初始的待调节参数互不相同。其中，所述用户推荐输入数据组的数量可以与在线推荐模型的数量相同，因此，可以将各个用户推荐输入数据组分别输入至对应的在线推荐模型。

S202，根据每个在线推荐模型中的固定参数，分别对所述每个在线推荐模型中所输入的用户推荐输入数据组进行计算，以得到所述每个在线推荐模型分别对应的隐层数据；所述隐层数据包括基于神经网络且具有预设数量的隐层节点；

S203，根据每个在线推荐模型中的待调节参数，分别对所述每个在线推荐模型分别对应的隐层数据进行计算，以得到所述每个在线推荐模型分别输出的推荐结果数据；

具体的，所述在线推荐模型的结构可以为极限学习机的结构，而对所述在线推荐模型中的待调节参数进行优化调节的算法不采用极限学习机的优化算法，对所述待调节参数进行优化调节的算法具体参见下面S205步骤的描述。

进一步的，请一并参见图3a，是本发明实施例提供的一种在线推荐模型的结构示意图。所述在线推荐模型包括三层，分别为输入层300a、隐层300b、输出层300c，其中，输入层300a、隐层300b、输出层300c的节点数分别记为n、q、m(暂不记偏置节点“1”)。各层之间的连接权值w＝{w⁽¹⁾,w⁽²⁾}。其中，w⁽¹⁾是输入层300a与隐层300b之间的连接权值，根据极限学习机的原理w⁽¹⁾可取为任意的随机值，例如w⁽¹⁾位于[-1,1]之间的随机值，且一旦对w⁽¹⁾赋值，在后续的优化调节过程中就不再变化，因此，隐层300b的最终效果与输入层300a中的输入变量的数量无关，从而所述在线推荐模型可以容纳大量的输入变量。w⁽²⁾是隐层300b与输出层300c之间的连接权值，w⁽²⁾即为需要进行优化调节的待调节参数，通过对w⁽²⁾的逐步调优，可以达到业务指标(如业务收益)的极大化，w⁽²⁾的初始值也可以暂取[-1,1]之间的随机值。其中，隐层300b中的隐层节点数q是超参数，q值得过小或过大，都可能导致欠拟合或过拟合，只能通过实验确定一个最佳值的q。

其中，隐层z₁，…，z_q的计算值为：

其中j＝1,…,q，x_n+1＝1(偏置项)，f(x)＝1(1+e^-x)，w⁽¹⁾ _ij是输入层第i个节点与隐层第j个节点之间的连接权值。

其中，输出层y₁，…，y_m的计算值为：

其中k＝1,…,m(一般取m＝1)，z_q+1＝1(偏置项)，w⁽²⁾ _jk是隐层第j个节点与输出层第k个节点之间的连接权值，y_k即为推荐结果数据中的其中一个子数据。当将用户的用户推荐输入数据输入至在线推荐模型中的输入层300a时，在线推荐模型可以通过w⁽¹⁾、w⁽²⁾以及隐层300b对用户推荐输入数据进行计算，以输出与该用户对应的推荐结果数据到输出层300c。且由于本发明实施例所提供的在线推荐模型是以神经网络为基础的模型，所以可以避免人工构造特征，且非线性的神经网络可以对事物本质拟合得更彻底。

S204，当每个在线推荐模型的运行时间满足预设时间周期时，分别统计所述每个在线推荐模型分别输出的所述推荐结果数据所关联的实际业务评估值，并确定各所述待调节参数与各所述实际业务评估值之间的当前映射关系；

S205，基于预设的优化调节算法，并根据所述当前映射关系以及历史映射关系集合构建替代函数，并根据所述替代函数和所述优化调节算法对各所述待调节参数进行优化调节；

具体的，所述替代函数是用于计算待调节参数对应的预测业务评估值的函数，即将待调节参数输入到所述替代函数中，所述替代函数即可输出与该待调节参数对应的预测业务评估值，即所述替代函数是用于预测待调节参数的业务评估值，所述优化调节算法可以为OPUS-RBF，或者为MISO等其他可实现多维度数值优化的最优化算法。下面以OPUS-RBF算法为例进行说明，所述服务器可以根据所述当前映射关系以及历史映射关系集合中的各待调节参数分别对应的实际业务评估值，构建替代函数；所述历史映射关系集合中的各历史映射关系可以为以往的各时间周期内所确定出的映射关系，例如，当进入到下一个时间周期中时，所述当前映射关系也将会被作为历史映射关系，并被添加至所述历史映射关系集合中。所述服务器再为所述当前映射关系中的各所述待调节参数分别确定对应的试验性参数组，并根据所述替代函数对每个试验性参数组中的各试验性参数进行计算，以得到每个试验性参数分别对应的预测业务评估值，并分别将所述每个试验性参数组中具有最高预测业务评估值的试验性参数作为目标试验性参数，并将各目标试验性参数分别作为对应的优化调节后的待调节参数。

S206，将具有优化调节后的待调节参数的在线推荐模型确定为更新后的在线推荐模型，并将所述当前映射关系添加至所述历史映射关系集合；

S207，在下一个时间周期中重新运行各更新后的在线推荐模型，并继续对所述各更新后的在线推荐模型中的待调节参数进行优化调节，直至存在优化调节后的待调节参数满足收敛条件时，将具有满足收敛条件的待调节参数的在线推荐模型确定为所述推荐系统的固定在线推荐模型；

具体的，所述服务器将具有优化调节后的待调节参数的在线推荐模型确定为更新后的在线推荐模型，并将所述当前映射关系添加至所述历史映射关系集合，以得到新的历史映射关系集合，以便于在在下一个时间周期中重新运行各更新后的在线推荐模型，并继续通过新确定的映射关系以及所述新的历史映射关系集合对所述各更新后的在线推荐模型中的待调节参数再次进行优化调节，直至存在优化调节后的待调节参数满足收敛条件时，将具有满足收敛条件的待调节参数的在线推荐模型确定为所述推荐系统的固定在线推荐模型，即无需再对待调节参数进行调节，且后续所有用户对应的用户推荐输入数据都将输入所述固定在线推荐模型，并由所述固定在线推荐模型为每个用户分别输出对应的推荐结果数据，以保证整个所述推荐系统的实际业务评估值最大化。其中，所述收敛条件可以为相邻两个时间周期中分别统计的所述实际业务评估值之间的差值小于预设的评估值阈值；或者，所述收敛条件可以为对所述每个在线推荐模型中的各所述待调节参数进行优化调节的次数达到预设的次数阈值。其中，每次对待调节参数进行优化调节后，即可在下一个时间周期中通过优化调节后的待调节参数重新获取新的推荐结果数据，并根据新的推荐结果数据统计出新的实际业务评估值，通过所述优化调节算法、各待调节参数与各实际业务评估值之间的映射关系即可使优化调节后的待调节参数所对应的实际业务评估值为增长趋势。

可选的，在下一个时间周期中重新运行各更新后的在线推荐模型，并继续对所述各更新后的在线推荐模型中的待调节参数进行优化调节的同时，即当通过所述各更新后的在线推荐模型统计出各优化调节后的待调节参数分别对应的实际业务评估值时，所述服务器还可以根据所述各优化调节后的待调节参数分别对应的实际业务评估值和预测业务评估值，计算所述各优化调节后的待调节参数分别对应的目标优化函数值(一个待调节参数对应的目标优化函数值是指该待调节参数对应的实际业务评估值与预测业务评估值的比值再取倒数)，并根据所述各优化调节后的待调节参数分别对应的目标优化函数值以及新历史映射关系集合中的各待调节参数分别对应的目标优化函数值，选择出具有最优目标优化函数值的待调节参数，以作为全局最优待调节参数；再根据所述各优化调节后的待调节参数分别对应的实际业务评估值以及所述新历史映射关系集合，构建新的替代函数，并根据所述新的替代函数对所述全局最优待调节参数以及具有最小预测业务评估值的优化调节后的待调节参数分别进行局部优化调节，以进一步提高对待调节参数的在线调节效率。

为了更好说明上述的OPUS-RBF算法，下面将对待调节参数进行优化调节的具体算法过程进行详细说明：

第1步，确定出空间初始点：{z⁽¹⁾,…,z^(k)}∈[a,b]，k≥s，s为在线推荐模型的数量，然后计算每个空间初始点的目标优化函数值f(z⁽ⁱ⁾)，f为待极小化的目标优化函数(即在线推荐模型对应的实际业务评估值与替代函数中的预测业务评估值的比值再取倒数)。

第2步，在各个空间初始点的函数值中选择s个最优函数值的空间初始点，作为初始群体x⁽¹⁾(0),…,x^(s)(0)，初始群体中的s个粒子分别为s个在线推荐模型的初始的待调节参数。

第3步，初始化每个粒子的速度：

For i＝1,…,s；

在[a,b]上随机生成u⁽ⁱ⁾；

取v⁽ⁱ⁾(0)＝0.5*(u⁽ⁱ⁾–x⁽ⁱ⁾(0))。

第4步，初始化每个粒子的最好位置(最好位置即指一个在线推荐模型中所调节过的各待调节参数中对应最优的目标优化函数值的待调节参数)，并初始化全体粒子的历史上最好位置：

设y⁽ⁱ⁾(0)＝x⁽ⁱ⁾(0),i＝1,…,s，且记y^(0)为{y⁽¹⁾(0),…,y^(s)(0)}中对应有最小函数值f的y⁽ⁱ⁾(0)(如果有多个相同的，则取最小下标的y⁽ⁱ⁾(0))；同时，设ε₀＝1，t＝0。

其中，第1步至第4步为初始化步骤，均在S201之前执行，即先初始化各在线推荐模型后，再通过各在线推荐模型输出推荐结果数据。初始化的最好位置即为初始群体中的各个粒子。

第5步，构建替代函数：

用以前所有估值过的点(所有估值过的点具体包括如S205中所述的当前映射关系以及历史映射关系集合)

来构建替代函数s_t(x)。

第6步，确定新的粒子位置(即为当前映射关系中的各所述待调节参数分别确定至少一个试验性参数)，并利用所述替代函数在新的粒子位置中选择最有希望的点(即通过所述替代函数选择具有最高预测业务评估值的试验性参数)：

(6a)确定新的粒子位置：

(6b)利用所述替代函数在新的粒子位置中选择最有希望的点：

利用替代模型s_t(x)从{x^(i,1)(t+1),x^(i,2)(t+1),...,x^(i,r)(t+1)}点中选择最有希望的试验位置；记x⁽ⁱ⁾(t+1)为最有希望的试验点，相应的速度为v⁽ⁱ⁾(t+1)。这些最有希望的试验点可以分别作为在线推荐模型中优化调节后的待调节参数。这些最有希望的试验点即为上述的目标试验性参数。

其中，第5步和第6步对应的是上述S205步骤对应的实施例。

第7步，对选择出的多个最有希望的试验点计算对应的目标优化函数值：

For each i＝1,...,s,计算f(x⁽ⁱ⁾(t+1))。

其中，第7步是在下一个时间周期中通过各个在线推荐模型统计出各个最有希望的试验点分别对应的实际业务评估值之后开始执行的。

第8步，更新每个粒子历史上的最好位置，及全体粒子历史上的最好位置(即为上述的全局最优待调节参数)：

取y^(t+1)＝y^(t)(注：y⁽ⁱ⁾表示第i个粒子的历史上最佳的粒子，y^表示全局最佳的粒子)，

第9步，重新构建替代函数：

用以前所有估值过的点(这里所有估值过的点具体包括各个目标试验性参数分别对应的实际业务评估值，以及如S205中所述的当前映射关系以及历史映射关系集合)

来构建新的替代模型s～_t(x)。

第10步，对全体粒子历史上的最好位置做局部性调优：

用局部调优的优化方法，对s～_t(x)在[y^(t+1)–ξ/2,y^(t+1)+ξ/2]∩[a,b]找到全局最小x^* _t+1。

第11步，确定替代函数的最小点是否远离以前的点：

If x^* _t+1与所有以前估值过的点的最小距离为δ，then：

(11a)(对替代函数的最小点估值)计算f(x^* _t+1)；

(11b)(更新全局最佳位置)if f(x^* _t+1)<f(y^(t+1))then y^(t+1)＝x^* _t+1；

(11c)(更新局部调优点)取ε_t+1＝ε_t∪{x^* _t+1}；

Else

(11d)(维护局部调优点)ε_t+1＝ε_t

End if.

其中，第7步至第11步的内容即为上述实施例中对所述全局最优待调节参数以及具有最小预测业务评估值的优化调节后的待调节参数分别进行局部优化调节的内容。

第12步，检查迭代终止条件(其中一种收敛方式)：

If t<T_max,then取t＝t+1，返回第5步(即根据新的映射关系以及新的历史映射关系集合继续构建新的替代函数，以再次进行优化调节)，否则终止。

其中，第5、9步中的替代函数的形式为：

其中，p是d维变量的线性多项式，

通过最小二乘法求得λ_i及p中的系数。

请参见图4，是本发明实施例提供的一种基于推荐系统的数据处理装置的结构示意图。所述数据处理装置1可以应用于服务器中，所述数据处理装置1可以包括：获取模块10、统计确定模块20、优化调节模块30；

所述获取模块10，用于获取至少一个具有待调节参数的在线推荐模型分别输出的推荐结果数据；

具体的，所述获取模块10可以根据用户的业务行为(如用户通过客户端与该服务器进行交互的行为)推断出该用户对应的用户推荐输入数据，所述用户推荐输入数据包括用户属性数据和推荐对象属性数据，所述用户属性数据可以包括年龄、性别、地域、兴趣等等，所述推荐对象属性数据可以包括商品类型、尺寸、广告主所属行业、广告类型等等。其中，不同的用户对应不同的用户推荐输入数据，所述获取模块10可以对所有的用户推荐输入数据进行分组，以得到至少一个用户推荐输入数据组，例如，若存在100个用户推荐输入数据，则所述获取模块10可以划分出10个用户推荐输入数据组，每个用户推荐输入数据组包括10个用户推荐输入数据。所述服务器中可以预设至少一个在线推荐模型，每个在线推荐模型中的初始的待调节参数互不相同。其中，所述用户推荐输入数据组的数量可以与在线推荐模型的数量相同，因此，所述获取模块10可以将各个用户推荐输入数据组分别输入至对应的在线推荐模型，并根据每个在线推荐模型中的待调节参数，分别对所述每个在线推荐模型中所输入的用户推荐输入数据组进行计算，以得到所述每个在线推荐模型分别输出的推荐结果数据；其中，一个用户推荐输入数据组对应一个在线推荐模型；所述一个用户推荐输入数据组包括多个用户标识分别对应的用户推荐输入数据；所述一个在线推荐模型输出的推荐结果数据包括所述一个用户推荐输入数据组中的各用户推荐输入数据分别对应的推荐结果数据。例如，一个用户推荐输入数据组中有10个用户标识分别对应的用户推荐输入数据，则所述获取模块10通过与该用户推荐输入数据组对应的在线模型可以分别对该用户推荐输入数据组中的10个用户推荐输入数据进行计算，以获取该在线模型输出的10个用户标识分别对应的推荐结果数据，所述获取模块10还可以进一步将10个推荐结果数据分别发送至对应用户标识的客户端，以实现对用户的个性化推荐。

所述统计确定模块20，用于当每个在线推荐模型的运行时间满足预设时间周期时，分别统计所述每个在线推荐模型分别输出的所述推荐结果数据所关联的实际业务评估值，并确定各所述待调节参数与各所述实际业务评估值之间的当前映射关系；

具体的，当所述每个在线推荐模型的运行时间满足预设时间周期时，所述统计确定模块20可以分别统计所述每个在线推荐模型分别输出的所述推荐结果数据所关联的实际业务评估值。例如，若所述预设时间周期为一天，则所述每个在线推荐模型每运行一天，所述统计确定模块20就统计一次所述实际业务评估值。所述实际业务评估值可以是由所述统计确定模块20对在一个时间周期内由所述推荐结果数据所带来的业务收益进行计算得到的，若所述推荐结果数据包括广告推荐、网络产品推荐、游戏推荐，则所述业务收益可以包括一个时间周期内的在线广告业务点击量、网络产品的注册用户数、游戏的注册用户数等等。其中，一个在线推荐模型对应有一个实际业务评估值，即一个待调节参数对应一个实际业务评估值，因此，所述统计确定模块20可以确定各所述待调节参数与各所述实际业务评估值之间的当前映射关系。

所述优化调节模块30，用于根据所述当前映射关系和历史映射关系集合对所述每个在线推荐模型中的所述待调节参数进行优化调节，并将所述当前映射关系添加至所述历史映射关系集合，以在下一个时间周期中继续对优化调节后的各待调节参数进行优化调节，直至存在优化调节后的待调节参数满足收敛条件时，将具有满足收敛条件的待调节参数的在线推荐模型确定为所述推荐系统的固定在线推荐模型；

具体的，所述优化调节模块30将基于预设的优化调节算法，并根据所述当前映射关系以及历史映射关系集合对各所述待调节参数进行优化调节；其中，所述优化调节算法可以为OPUS-RBF，或者为MISO等其他可实现多维度数值优化的最优化算法。所述优化调节模块30将具有优化调节后的待调节参数的在线推荐模型确定为更新后的在线推荐模型，并将所述当前映射关系添加至所述历史映射关系集合，以得到新的历史映射关系集合，以便于在在下一个时间周期中重新运行各更新后的在线推荐模型，并通知所述获取模块10通过运行所述各更新后的在线推荐模型获得新的推荐结果数据，再通知所述统计确定模块20根据新的推荐结果数据统计新的实际业务评估值，继而确定出新的映射关系，所述优化调节模块30再继续通过新的映射关系以及所述新的历史映射关系集合对所述各更新后的在线推荐模型中的待调节参数再次进行优化调节，直至存在优化调节后的待调节参数满足收敛条件时，将具有满足收敛条件的待调节参数的在线推荐模型确定为所述推荐系统的固定在线推荐模型，即无需再对待调节参数进行调节，且后续所有用户对应的用户推荐输入数据都将输入所述固定在线推荐模型，并由所述固定在线推荐模型为每个用户分别输出对应的推荐结果数据，以保证整个所述推荐系统的实际业务评估值最大化。其中，所述收敛条件可以为相邻两个时间周期中分别统计的所述实际业务评估值之间的差值小于预设的评估值阈值；或者，所述收敛条件可以为对所述每个在线推荐模型中的各所述待调节参数进行优化调节的次数达到预设的次数阈值。其中，通过所述优化调节算法、各待调节参数与各实际业务评估值之间的映射关系即可使优化调节后的待调节参数所对应的实际业务评估值在整体上呈增长趋势。

进一步的，请一并参见图5，是本发明实施例提供的一种获取模块10的结构示意图；所述获取模块10包括：输入单元101、计算单元102；

所述输入单元101，用于将至少一个用户推荐输入数据组分别输入至对应的在线推荐模型；

所述计算单元102，用于根据每个在线推荐模型中的固定参数，分别对所述每个在线推荐模型中所输入的用户推荐输入数据组进行计算，以得到所述每个在线推荐模型分别对应的隐层数据；所述隐层数据包括基于神经网络且具有预设数量的隐层节点；

所述计算单元102，还用于根据每个在线推荐模型中的待调节参数，分别对所述每个在线推荐模型分别对应的隐层数据进行计算，以得到所述每个在线推荐模型分别输出的推荐结果数据。

所述输入单元101和所述计算单元102的具体实现方式可以参见上述图3对应实施例中的S201-S203，并同时可以参见上述图3a对应实施例中的在线推荐模型，这里不再进行赘述。

进一步的，请一并参见图6，是本发明实施例提供的一种优化调节模块30的结构示意图；所述优化调节模块30包括：构建优化调节单元301、确定添加单元302、通知单元303、函数值计算单元304、选择单元305、局部调节单元306；

所述构建优化调节单元301，用于基于预设的优化调节算法，并根据所述当前映射关系以及历史映射关系集合构建替代函数，并根据所述替代函数和所述优化调节算法对各所述待调节参数进行优化调节；其中，所述替代函数是用于计算待调节参数对应的预测业务评估值的函数；

所述确定添加单元302，用于将具有优化调节后的待调节参数的在线推荐模型确定为更新后的在线推荐模型，并将所述当前映射关系添加至所述历史映射关系集合；

所述通知单元303，用于在下一个时间周期中重新运行各更新后的在线推荐模型，并通知所述构建优化调节单元301和所述确定添加单元302继续对所述各更新后的在线推荐模型中的待调节参数进行优化调节，直至存在优化调节后的待调节参数满足收敛条件时，将具有满足收敛条件的待调节参数的在线推荐模型确定为所述推荐系统的固定在线推荐模型。

所述函数值计算单元304，用于当通过所述各更新后的在线推荐模型统计出各优化调节后的待调节参数分别对应的实际业务评估值时，根据所述各优化调节后的待调节参数分别对应的实际业务评估值和预测业务评估值，计算所述各优化调节后的待调节参数分别对应的目标优化函数值；

所述选择单元305，用于根据所述各优化调节后的待调节参数分别对应的目标优化函数值以及新历史映射关系集合中的各待调节参数分别对应的目标优化函数值，选择出具有最优目标优化函数值的待调节参数，以作为全局最优待调节参数；

所述构建优化调节单元301，还用于根据所述各优化调节后的待调节参数分别对应的实际业务评估值以及所述新历史映射关系集合，构建新的替代函数；

所述局部调节单元306，用于根据所述新的替代函数对所述全局最优待调节参数以及具有最小预测业务评估值的优化调节后的待调节参数分别进行局部优化调节。

所述构建优化调节单元301、所述确定添加单元302以及所述通知单元303的具体实现方式可以参见上述图3对应实施例中的S205至S207，这里不再进行赘述。所述函数值计算单元304、所述选择单元305以及所述局部调节单元306的具体实现方式可以参见上述图3对应实施例中对所述全局最优待调节参数以及具有最小预测业务评估值的优化调节后的待调节参数分别进行局部优化调节的部分内容的描述，并可同时参见上述图3对应实施例中对OPUS-RBF算法的具体说明中的第7步至第11步的内容，这里不再进行赘述。

进一步的，再请一并参见图7，是本发明实施例提供的一种构建优化调节单元301的结构示意图；所述构建优化调节单元301包括：构建子单元3011、预测计算子单元3012、调节确定子单元3013；

所述构建子单元3011，用于根据所述当前映射关系以及历史映射关系集合中的各待调节参数分别对应的实际业务评估值，构建替代函数；

所述预测计算子单元3012，用于为所述当前映射关系中的各所述待调节参数分别确定对应的试验性参数组，并根据所述替代函数对每个试验性参数组中的各试验性参数进行计算，以得到每个试验性参数分别对应的预测业务评估值；

所述调节确定子单元3013，用于分别将所述每个试验性参数组中具有最高预测业务评估值的试验性参数作为目标试验性参数，并将各目标试验性参数分别作为对应的优化调节后的待调节参数；

所述构建子单元3011、所述预测计算子单元3012以及所述调节确定子单元3013的具体实现方式可以参见上述图3对应实施例中的S205，并可同时参见上述图3对应实施例中对OPUS-RBF算法的具体说明中的第5步至第6步的内容，这里不再进行赘述。

请参见图8，是本发明实施例提供的另一种基于推荐系统的数据处理装置的结构示意图。如图8所示，所述数据处理装置1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图8所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图8所示的数据处理装置1000中，网络接口1004主要用于与多个客户端通信；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，并具体执行以下步骤：

在一个实施例中，所述处理器1001在执行获取至少一个具有待调节参数的在线推荐模型分别输出的推荐结果数据时，具体执行以下步骤：

将至少一个用户推荐输入数据组分别输入至对应的在线推荐模型，并根据每个在线推荐模型中的待调节参数，分别对所述每个在线推荐模型中所输入的用户推荐输入数据组进行计算，以得到所述每个在线推荐模型分别输出的推荐结果数据；

其中，一个用户推荐输入数据组对应一个在线推荐模型；所述一个用户推荐输入数据组包括多个用户标识分别对应的用户推荐输入数据；所述一个在线推荐模型输出的推荐结果数据包括所述一个用户推荐输入数据组中的各用户推荐输入数据分别对应的推荐结果数据。

在一个实施例中，所述处理器1001在执行将至少一个用户推荐输入数据组分别输入至对应的在线推荐模型，并根据每个在线推荐模型中的待调节参数，分别对所述每个在线推荐模型中所输入的用户推荐输入数据组进行计算，以得到所述每个在线推荐模型分别输出的推荐结果数据时，具体执行以下步骤：

将至少一个用户推荐输入数据组分别输入至对应的在线推荐模型；

根据每个在线推荐模型中的固定参数，分别对所述每个在线推荐模型中所输入的用户推荐输入数据组进行计算，以得到所述每个在线推荐模型分别对应的隐层数据；所述隐层数据包括基于神经网络且具有预设数量的隐层节点；

根据每个在线推荐模型中的待调节参数，分别对所述每个在线推荐模型分别对应的隐层数据进行计算，以得到所述每个在线推荐模型分别输出的推荐结果数据。

在一个实施例中，所述处理器1001在执行根据所述当前映射关系和历史映射关系集合对所述每个在线推荐模型中的所述待调节参数进行优化调节，并将所述当前映射关系添加至所述历史映射关系集合，以在下一个时间周期中继续对优化调节后的各待调节参数进行优化调节，直至存在优化调节后的待调节参数满足收敛条件时，将具有满足收敛条件的待调节参数的在线推荐模型确定为所述推荐系统的固定在线推荐模型时，具体执行以下步骤：

基于预设的优化调节算法，并根据所述当前映射关系以及历史映射关系集合构建替代函数，并根据所述替代函数和所述优化调节算法对各所述待调节参数进行优化调节；其中，所述替代函数是用于计算待调节参数对应的预测业务评估值的函数；

将具有优化调节后的待调节参数的在线推荐模型确定为更新后的在线推荐模型，并将所述当前映射关系添加至所述历史映射关系集合；

在下一个时间周期中重新运行各更新后的在线推荐模型，并继续对所述各更新后的在线推荐模型中的待调节参数进行优化调节，直至存在优化调节后的待调节参数满足收敛条件时，将具有满足收敛条件的待调节参数的在线推荐模型确定为所述推荐系统的固定在线推荐模型。

在一个实施例中，所述收敛条件为相邻两个时间周期中分别统计的所述实际业务评估值之间的差值小于预设的评估值阈值；或者，

所述收敛条件为对所述每个在线推荐模型中的各所述待调节参数进行优化调节的次数达到预设的次数阈值。

在一个实施例中，所述处理器1001在执行基于预设的优化调节算法，并根据所述当前映射关系以及历史映射关系集合构建替代函数，并根据所述替代函数和所述优化调节算法对各所述待调节参数进行优化调节时，具体执行以下步骤：

根据所述当前映射关系以及历史映射关系集合中的各待调节参数分别对应的实际业务评估值，构建替代函数；

为所述当前映射关系中的各所述待调节参数分别确定对应的试验性参数组，并根据所述替代函数对每个试验性参数组中的各试验性参数进行计算，以得到每个试验性参数分别对应的预测业务评估值；

分别将所述每个试验性参数组中具有最高预测业务评估值的试验性参数作为目标试验性参数，并将各目标试验性参数分别作为对应的优化调节后的待调节参数。

在一个实施例中，所述处理器1001还执行以下步骤：

当通过所述各更新后的在线推荐模型统计出各优化调节后的待调节参数分别对应的实际业务评估值时，根据所述各优化调节后的待调节参数分别对应的实际业务评估值和预测业务评估值，计算所述各优化调节后的待调节参数分别对应的目标优化函数值；

根据所述各优化调节后的待调节参数分别对应的目标优化函数值以及新历史映射关系集合中的各待调节参数分别对应的目标优化函数值，选择出具有最优目标优化函数值的待调节参数，以作为全局最优待调节参数；

根据所述各优化调节后的待调节参数分别对应的实际业务评估值以及所述新历史映射关系集合，构建新的替代函数；

根据所述新的替代函数对所述全局最优待调节参数以及具有最小预测业务评估值的优化调节后的待调节参数分别进行局部优化调节。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于推荐系统的数据处理方法，其特征在于，包括：

获取至少一个具有待调节参数的在线推荐模型分别输出的推荐结果数据，所述在线推荐模型的结构为极限学习机的结构；

根据所述当前映射关系和历史映射关系集合对所述每个在线推荐模型中的所述待调节参数进行优化调节，并将所述当前映射关系添加至所述历史映射关系集合，以在下一个时间周期中继续对优化调节后的各待调节参数进行优化调节，直至存在优化调节后的待调节参数满足收敛条件时，将具有满足收敛条件的待调节参数的在线推荐模型确定为所述推荐系统的固定在线推荐模型，所述优化调节为根据替代函数和优化调节算法对各所述待调节参数的优化调节，所述替代函数为基于预设的优化调节算法并根据所述当前映射关系以及历史映射关系集合所构建的函数，所述替代函数是用于计算待调节参数对应的预测业务评估值的函数，所述优化调节算法为不同于所述极限学习机的优化算法，所述优化调节算法为可实现多维度数值优化的最优化算法。

2.如权利要求1所述的方法，其特征在于，所述获取至少一个具有待调节参数的在线推荐模型分别输出的推荐结果数据，具体包括：

3.如权利要求2所述的方法，其特征在于，所述将至少一个用户推荐输入数据组分别输入至对应的在线推荐模型，并根据每个在线推荐模型中的待调节参数，分别对所述每个在线推荐模型中所输入的用户推荐输入数据组进行计算，以得到所述每个在线推荐模型分别输出的推荐结果数据，包括：

4.如权利要求1所述的方法，其特征在于，所述根据所述当前映射关系和历史映射关系集合对所述每个在线推荐模型中的所述待调节参数进行优化调节，并将所述当前映射关系添加至所述历史映射关系集合，以在下一个时间周期中继续对优化调节后的各待调节参数进行优化调节，直至存在优化调节后的待调节参数满足收敛条件时，将具有满足收敛条件的待调节参数的在线推荐模型确定为所述推荐系统的固定在线推荐模型，包括：

5.如权利要求4所述的方法，其特征在于，

所述收敛条件为相邻两个时间周期中分别统计的所述实际业务评估值之间的差值小于预设的评估值阈值；或者，

6.如权利要求4或5所述的方法，其特征在于，所述基于预设的优化调节算法，并根据所述当前映射关系以及历史映射关系集合构建替代函数，并根据所述替代函数和所述优化调节算法对各所述待调节参数进行优化调节，包括：

7.如权利要求6所述的方法，其特征在于，还包括：

8.一种基于推荐系统的数据处理装置，其特征在于，包括：

获取模块，用于获取至少一个具有待调节参数的在线推荐模型分别输出的推荐结果数据，所述在线推荐模型的结构为极限学习机的结构；

优化调节模块，用于根据所述当前映射关系和历史映射关系集合对所述每个在线推荐模型中的所述待调节参数进行优化调节，并将所述当前映射关系添加至所述历史映射关系集合，以在下一个时间周期中继续对优化调节后的各待调节参数进行优化调节，直至存在优化调节后的待调节参数满足收敛条件时，将具有满足收敛条件的待调节参数的在线推荐模型确定为所述推荐系统的固定在线推荐模型，所述优化调节为根据替代函数和优化调节算法对各所述待调节参数的优化调节，所述替代函数为基于预设的优化调节算法并根据所述当前映射关系以及历史映射关系集合所构建的函数，所述替代函数是用于计算待调节参数对应的预测业务评估值的函数，所述优化调节算法为不同于所述极限学习机的优化算法，所述优化调节算法为可实现多维度数值优化的最优化算法。

9.如权利要求8所述的装置，其特征在于，

所述获取模块，具体用于将至少一个用户推荐输入数据组分别输入至对应的在线推荐模型，并根据每个在线推荐模型中的待调节参数，分别对所述每个在线推荐模型中所输入的用户推荐输入数据组进行计算，以得到所述每个在线推荐模型分别输出的推荐结果数据；

10.如权利要求9所述的装置，其特征在于，所述获取模块包括：

输入单元，用于将至少一个用户推荐输入数据组分别输入至对应的在线推荐模型；

计算单元，用于根据每个在线推荐模型中的固定参数，分别对所述每个在线推荐模型中所输入的用户推荐输入数据组进行计算，以得到所述每个在线推荐模型分别对应的隐层数据；所述隐层数据包括基于神经网络且具有预设数量的隐层节点；

所述计算单元，还用于根据每个在线推荐模型中的待调节参数，分别对所述每个在线推荐模型分别对应的隐层数据进行计算，以得到所述每个在线推荐模型分别输出的推荐结果数据。

11.如权利要求10所述的装置，其特征在于，所述优化调节模块包括：

构建优化调节单元，用于基于预设的优化调节算法，并根据所述当前映射关系以及历史映射关系集合构建替代函数，并根据所述替代函数和所述优化调节算法对各所述待调节参数进行优化调节；其中，所述替代函数是用于计算待调节参数对应的预测业务评估值的函数；

确定添加单元，用于将具有优化调节后的待调节参数的在线推荐模型确定为更新后的在线推荐模型，并将所述当前映射关系添加至所述历史映射关系集合；

通知单元，用于在下一个时间周期中重新运行各更新后的在线推荐模型，并通知所述构建优化调节单元和所述确定添加单元继续对所述各更新后的在线推荐模型中的待调节参数进行优化调节，直至存在优化调节后的待调节参数满足收敛条件时，将具有满足收敛条件的待调节参数的在线推荐模型确定为所述推荐系统的固定在线推荐模型。

12.如权利要求11所述的装置，其特征在于，

13.如权利要求11或12所述的装置，其特征在于，所述构建优化调节单元包括：

构建子单元，用于根据所述当前映射关系以及历史映射关系集合中的各待调节参数分别对应的实际业务评估值，构建替代函数；

预测计算子单元，用于为所述当前映射关系中的各所述待调节参数分别确定对应的试验性参数组，并根据所述替代函数对每个试验性参数组中的各试验性参数进行计算，以得到每个试验性参数分别对应的预测业务评估值；

调节确定子单元，用于分别将所述每个试验性参数组中具有最高预测业务评估值的试验性参数作为目标试验性参数，并将各目标试验性参数分别作为对应的优化调节后的待调节参数。

14.如权利要求13所述的装置，其特征在于，所述优化调节模块还包括：

函数值计算单元，用于当通过所述各更新后的在线推荐模型统计出各优化调节后的待调节参数分别对应的实际业务评估值时，根据所述各优化调节后的待调节参数分别对应的实际业务评估值和预测业务评估值，计算所述各优化调节后的待调节参数分别对应的目标优化函数值；

选择单元，用于根据所述各优化调节后的待调节参数分别对应的目标优化函数值以及新历史映射关系集合中的各待调节参数分别对应的目标优化函数值，选择出具有最优目标优化函数值的待调节参数，以作为全局最优待调节参数；

所述构建优化调节单元，还用于根据所述各优化调节后的待调节参数分别对应的实际业务评估值以及所述新历史映射关系集合，构建新的替代函数；

局部调节单元，用于根据所述新的替代函数对所述全局最优待调节参数以及具有最小预测业务评估值的优化调节后的待调节参数分别进行局部优化调节。

15.一种基于推荐系统的数据处理装置，其特征在于，包括处理器、存储器、网络接口；

所述处理器分别与所述存储器和所述网络接口相连，其中，所述网络接口用于与多个客户端通信，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1-7任一项所述的方法。

16.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-7任一项所述的方法。