CN103914478B

CN103914478B - 网页训练方法及系统、网页预测方法及系统

Info

Publication number: CN103914478B
Application number: CN201310003765.6A
Authority: CN
Inventors: 陈俊波; 薛贵荣; 李玉龙; 严孝伟; 李华康; 韩定; 韩定一
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2013-01-06
Filing date: 2013-01-06
Publication date: 2018-05-08
Anticipated expiration: 2033-01-06
Also published as: CN103914478A

Abstract

本申请涉及一种网页训练方法及系统、网页预测方法及系统，包括：根据与分类关键词相关联的已有数据获得分类关键词的先验概率表；对待训练网页进行预处理以获得待训练网页文本；根据先验概率表在所述待训练网页文本中提取特征得出待训练网页与指定类目之间的关联关系特征向量表示F1；对所述关联关系特征向量表示F1进行模型训练以得出所述待训练网页的分类结果。本申请可以同时处理异构性很强的类目体系，并且利用相对非常少的训练数据处理规模庞大的类目体系，此外，通过收集用户在全网上的浏览/搜索行为，而不仅仅是在一家网站上的行为，很大程度上解决了数据的稀疏性问题。

Description

网页训练方法及系统、网页预测方法及系统

技术领域

本申请涉及互联网领域，尤其涉及一种对用户访问互联网行为的分类与预测。

背景技术

随着计算机技术的不断普及，现代社会已经十分依赖信息技术带来的便利。随着计算机和网络技术越来越高效，安全和可靠，越来越多的批发商，零售商，消费者选择在互联网上进行商品的交易。特定网站正在成为互联网上最富商业价值的服务提供商。

用户可以在特定网站上进行浏览，搜索，比价，购买，付款，评价等一系列的动作来购买符合其商业意图的商品。

同时特定网站的规模与数量也不断的增长。例如，淘宝，天猫，京东，亚马逊，当当，以及为数众多的中小特定网站。

商业意图分析结果可以让特定网站为每一个用户提供个性化的广告与推荐结果，个性化网站入口。通过提供符合用户商业意图的产品与服务，可以大幅提高交易量与交易额。因此，用户的商业意图分析对特定网站而言非常重要。

对于特定网站而言，要分析其用户的商业意图，有如下困难：

（1）相对于用户访问互联网的行为而言，用户在某一家特定网站的行为的数量是非常稀少的。数据的稀疏性会导致无法全面地判断一个用户的商业意图；同时数据样本稀少会导致概率分布参数估计的置信区间范围过大，以至于无法做出准确的预测。

（2）特定网站的商品类目体系具有非常强的异构性，即，任何两家特定网站的类目体系都有非常大的差异。若使用经典的网页分类方法，那么对于任何一家特定网站，都需要采集规模庞大的标注数据（标注数据的数量与类目的数量成正比），根据类目体系的不同提取形式各异的特征，最后学习得到机器学习分类模型。这会带来昂贵的成本。

（3）特定网站的商品类目体系往往非常庞大。在一个实例中，商品类目体系由一棵5层的类目结构树定义，其中叶子节点的数量达到2万的规模。类目体系过于庞大会导致三类问题，第一，需要标注的训练数据的数量非常庞大。第二，类目预测的准确率会大幅下降。第三，要求对每一个网页给出多类目标签的预测；多类目标签反过来又会导致准确率的进一步下降。

综上所述，需要一种能够克服上述三个难题的利用用户行为分析用户商业意图的解决方案。

发明内容

本申请的主要目的在于提供一种网页训练方案以及网页预测方案，以解决现有技术难以克服的网站异构性、类目体系庞大和数据稀疏性问题。

为了解决上述技术问题，本申请的目的是通过以下技术方案实现的：

本申请公开了一种网页训练方法，用于对网页进行分类，包括以下步骤：根据与分类关键词相关联的已有数据获得分类关键词的先验概率表；对待训练网页进行预处理以获得待训练网页文本；根据先验概率表在所述待训练网页文本中提取特征得出待训练网页与指定类目之间的关联关系特征向量表示F1；对所述关联关系特征向量表示F1进行模型训练以得出所述待训练网页的分类结果。

优选的，在根据本申请的所述方法中，所述与分类关键词相关联的已有数据包括网站类目体系以及用户点击日志。

优选的，在根据本申请的所述方法中，根据与分类关键词相关联的已有数据获得分类关键词的先验概率表的步骤包括：从所述用户点击日志中获取搜索关键词，并过滤得到分类关键词；计算每个分类关键词在不同分类中出现的频率；采用自底向上的方法遍历所述网站类目体系中的每一个非叶子节点类目，计算每一个分类关键词的信息增益与卡方检验。

优选的，在根据本申请的所述方法中，对待训练网页进行预处理包括以下中的一个或多个处理：网页解析；正文抽取；分词/停用词过滤。

优选的，在根据本申请的所述方法中，根据先验概率表在待训练网页文本中提取特征得出待训练网页与指定类目之间的关联关系特征向量表示F1的步骤包括：计算分类关键词在待训练网页中的重要性得分；针对分类关键词的重要性得分以及分类关键词的先验概率进行离散化处理；根据分类关键词的离散化重要性以及分类关键词的离散化先验概率得到二维特征矩阵；分别在待训练网页文本的不同部分中计算所述二维特征矩阵，将所有矩阵元素依次排列得到一个固定长度的特征向量。

优选的，在根据本申请的所述方法中，所述待训练网页文本的不同部分包括网页标题、网页正文、网页超链接文本。

优选的，在根据本申请的所述方法中，对关联关系特征向量表示F1进行模型训练以得出待训练网页的分类结果的步骤包括：根据预先设置的回归模型算法对标注数据进行回归模型训练；以及针对所训练的所述回归模型计算对应的ROC曲线，并基于ROC曲线设定不同的切分阈值以得到分类结果。

本申请还公开了一种网页训练系统，用于对网页进行分类，包括：用于根据与分类关键词相关联的已有数据获得分类关键词的先验概率表的装置；用于对待训练网页进行预处理以获得待训练网页文本的装置；用于根据先验概率表在所述待训练网页文本中提取特征得出待训练网页与指定类目之间的关联关系特征向量表示F1的装置；用于对所述关联关系特征向量表示F1进行模型训练以得出所述待训练网页的分类结果的装置。

优选的，在所述的网页训练系统中，所述与分类关键词相关联的已有数据包括网站类目体系以及用户点击日志。

优选的，在所述的网页训练系统中，用于根据与分类关键词相关联的已有数据获得分类关键词的先验概率表的装置包括：用于从所述用户点击日志中获取搜索关键词，并过滤得到分类关键词的装置；用于计算每个分类关键词在不同分类中出现的频率的装置；用于采用自底向上的方法遍历所述网站类目体系中的每一个非叶子节点类目，计算每一个分类关键词的信息增益与卡方检验的装置。

优选的，在所述的网页训练系统中，用于对待训练网页进行预处理的装置包括：网页解析装置；正文抽取装置；分词/停用词过滤装置。

优选的，在所述的网页训练系统中，用于根据先验概率表在待训练网页文本中提取特征得出待训练网页与指定类目之间的关联关系特征向量表示F1的装置包括：用于计算分类关键词在待训练网页中的重要性得分的装置；用于针对分类关键词的重要性得分以及分类关键词的先验概率进行离散化处理的装置；用于根据分类关键词的离散化重要性以及分类关键词的离散化先验概率得到二维特征矩阵的装置；用于分别在待训练网页文本的不同部分中计算所述二维特征矩阵，将所有矩阵元素依次排列得到一个固定长度的特征向量的装置。

优选的，在所述的网页训练系统中，所述待训练网页文本的不同部分包括网页标题、网页正文、网页超链接文本。

优选的，在所述的网页训练系统中，用于对关联关系特征向量表示F1进行模型训练以得出待训练网页的分类结果的装置包括：回归建模装置，用于根据预先设置的回归模型算法对标注数据进行回归模型训练；以及ROC分析装置，用于针对所训练的所述回归模型计算对应的ROC曲线，并基于ROC曲线设定不同的切分阈值以得到分类结果。

本申请公开了一种网页预测方法，用于利用所述网页训练方法训练得出的分类结果，针对用户意图进行类目预测，包括：收集用户访问日志；从所述用户访问日志获得网页html源码；对所述网页html源码进行预处理以获得网页文本；根据先验概率表在所述网页文本中提取特征得出网页与指定类目之间的关联关系特征向量表示F2；根据所述分类结果和所述关联关系特征向量表示F2获得用户意图类目预测结果。

优选的，在根据本申请的所述方法中，从所述用户访问日志获得网页html源码的步骤包括：对所述用户访问日志进行url筛选；爬取筛选后的url以获得网页html源码。

优选的，在根据本申请的所述方法中，对所述用户访问日志进行url筛选的步骤包括：针对所述用户访问日志，计算去重后的url集合；为每一个url计算网页重要性得分；根据网页重要性得分为所有的去重后的url进行排序，取前若干条url作为待爬取的url集合。

优选的，在根据本申请的所述方法中，对所述网页html源码进行预处理的步骤包括：网页解析；正文抽取；分词/停用词过滤。

优选的，在根据本申请的所述方法中，根据先验概率表在网页文本中提取特征得出网页与指定类目之间的关联关系特征向量表示F2的步骤包括：计算分类关键词在网页中的重要性得分；针对分类关键词的重要性得分以及分类关键词的先验概率进行离散化处理；根据分类关键词的离散化重要性以及分类关键词的离散化先验概率得到二维特征矩阵；分别在网页文本的不同部分中计算所述二维特征矩阵，将所有矩阵元素依次排列得到一个固定长度的特征向量。

优选的，在根据本申请的所述方法中，根据所述分类结果和所述关联关系特征向量表示F2获得用户意图类目预测结果的步骤包括：根据所述分类结果和所述关联关系特征向量表示F2，得到网页级别的分析结果；将网页级别的分析结果与所述用户访问日志进行连接操作，得到用户每次网页访问行为所指示的意图，在用户维度进行聚合操作得到用户意图类目预测结果。

本申请还公开了一种网页预测系统，用于利用所述的网页训练系统训练得出的分类结果，针对用户意图进行类目预测，包括：用于收集用户访问日志的装置；用于从所述用户访问日志获得网页html源码的装置；用于对所述网页html源码进行预处理以获得网页文本的装置；用于根据先验概率表在所述网页文本中提取特征得出网页与指定类目之间的关联关系特征向量表示F2的装置；用于根据所述分类结果和所述关联关系特征向量表示F2获得用户意图类目预测结果的装置。

优选的，在所述的系统中，用于从所述用户访问日志获得网页html源码的装置包括：用于对所述用户访问日志进行url筛选的装置；用于爬取筛选后的url以获得网页html源码的装置。

优选的，在所述的系统中，用于对所述用户访问日志进行url筛选的装置包括：用于针对所述用户访问日志，计算去重后的url集合的装置；用于为每一个url计算网页重要性得分的装置；用于根据网页重要性得分为所有的去重后的url进行排序，取前若干条url作为待爬取的url集合的装置。

优选的，在所述的系统中，用于对所述网页html源码进行预处理的装置包括：网页解析装置；正文抽取装置；分词/停用词过滤装置。

优选的，在所述的系统中，用于根据先验概率表在网页文本中提取特征得出网页与指定类目之间的关联关系特征向量表示F2的装置包括：用于计算分类关键词在网页中的重要性得分的装置；用于针对分类关键词的重要性得分以及分类关键词的先验概率进行离散化处理的装置；用于根据分类关键词的离散化重要性以及分类关键词的离散化先验概率得到二维特征矩阵的装置；用于分别在网页文本的不同部分中计算所述二维特征矩阵，将所有矩阵元素依次排列得到一个固定长度的特征向量的装置。

优选的，在所述的系统中，其特征在于，用于根据所述分类结果和所述关联关系特征向量表示F2获得用户意图类目预测结果的装置包括：用于根据所述分类结果和所述关联关系特征向量表示F2，得到网页级别的分析结果的装置；用于将网页级别的分析结果与所述用户访问日志进行连接操作，得到用户每次网页访问行为所指示的意图，在用户维度进行聚合操作得到用户意图类目预测结果的装置。

与现有技术相比，根据本申请的技术方案，可以同时处理异构性很强的类目体系，并且利用相对非常少的训练数据处理规模庞大的类目体系，此外，通过收集用户在全网上的浏览/搜索行为，而不仅仅是在一家网站上的行为，很大程度上解决了数据的稀疏性问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例的网页训练方法的流程图；

图2是本申请实施例的ROC曲线；

图3是本申请实施例的网页训练系统的框图；

图4是本申请实施例的网页预测方法的流程图；

图5是本申请实施例的网页预测系统的框图；

图6是本申请实施例的有效识别用户商业意图的示例性系统的架构图。

具体实施方式

本申请的主要思想在于，通过统一处理用户在互联网上的浏览/搜索行为、通用的数据接口、具备自动适配能力的分类算法，本申请可以很好地解决数据稀疏性，类目体系异构性，类目数量过于庞大这三个重要的难题，并在统一的流程中同时为众多网站提供服务。

为使本申请的目的、技术方案和优点更加清楚，以下结合附图及具体实施例，对本申请作进一步地详细说明。

用户在互联网上的浏览与搜索行为的意图可以是商业性质的或者是非商业性质的，其中商业性质的意图又可以根据特定网站的具体商品类目体系做进一步划分。

用户的在线商业意图的识别对于特定网站而言是一个非常重要的功能。通过推荐与广告的方式，它能直接促进特定网站的成交量与成交金额。

另外一方面，任何一家特定网站内部的访问行为只占据了全网用户浏览/搜索行为的一小部分，大量的浏览/搜索行为发生在特定网站外部。利用用户在全网上的行为识别用户的商业意图会给特定网站带来极大的价值。

任何一家特定网站都有自己的商品类目体系，对于特定网站而言，希望分析得到的用户商业意图与其商品的类目体系是吻合的，否则，无法给出一致的推荐与广告。特别需要注意的是，商品的类目体系可以是非常庞大的。在给出的一个实例中，商品类目体系由多达5层的类目体系树状结构给出，所有的叶子节点的数量达到2万个。

本申请是一个处理商业意图分析的平台系统，该平台收集用户在互联网上的浏览/搜索行为，并开放数据接口给特定网站。特定网站通过数据接口上传商品类目体系，用户搜索点击日志，以及训练数据样本。结合用户在全网上的行为记录与特定网站的特定信息，提取与商业意图相关的特征，从这些特征构建的机器学习分类器自动检测用户在任意给定特定网站语境内的在线商业意图（OCI）。

根据本申请的实施例，提供了一种网页训练方法，用于对网页进行分类。

参考图1，图1是本申请实施例的网页训练方法100的流程图。训练流程的目标是根据任意一个特定网站通过开放数据接口上传的类目体系数据，用户搜索点击数据，标注数据，训练得到针对该网站的商业意图分类结果。

在步骤S102中，根据与分类关键词相关联的已有数据获得分类关键词的先验概率表。与分类关键词相关联的已有数据可以包括网站类目体系以及用户点击日志。该步骤实际上就是根据用户点击日志和网站类目体系结构获得先验概率表的日志处理流程。

举例而言，首先，通过“特定网站开放接口”（例如，可以是电子商务网站开放接口）获取针对特定网站的类目体系，用户搜索点击日志，以及标注好的训练数据。其中，针对特定网站的类目体系和用户搜索点击日志与分类关键词相关联，将用来获得分类关键词的先验概率表。而标注好的训练数据将用来在后面的步骤中用于模型训练。

类目体系：例如是树状结构的类目体系，可以使用任何可以表达树状结构的结构化描述语言。例如，在一个应用实例中，使用可扩展标记语言（XML）来描述类目体系：

用户点击日志：例如是表格结构，每一行包含如下字段：用户搜索关键词，搜索结构点击商品对应的类目。

训练数据：例如提供超过一定数量的网页，这些网页标注了对应于类目体系中一定数量的匹配的类目与不匹配的类目。每一行训练数据包含如下字段：url，html源码，类目id，标注结果。例如：

http://www.**.com.cn/mama/a10102/ html源码 4.3 匹配

http://www.**.com.cn/mama/a10102/ html源码 3.1 不匹配

http://www.**.com.cn/mama/a10102/ html源码 4.1 部分匹配

其中，标注结果“匹配”标识完全匹配的类目，“不匹配”标识完全无关的类目，“部分匹配”标识部分相关的类目。

步骤S102可以包括如下步骤：从用户点击日志中获取搜索关键词，并过滤得到分类关键词；计算每个分类关键词在不同分类中出现的频率；采用自底向上的方法遍历网站类目体系中的每一个非叶子节点类目，计算每一个分类关键词的信息增益与卡方检验。

举例而言，针对用户输入的数据进行预处理，进行繁简转换，大小写转换，编码转换为utf8，并过滤停用词。

搜索关键词的长度限制，若关键词不属于事先收集的实体词表（由品牌词，产品词，产品属性描述词等等组成），则过滤关键词长度<=4byte的所有关键词。（说明：>=4byte在utf8编码中，代表>=2个中文字符，或者>=4个英文字符）

分别计算每个关键词在不同分类中出现的频率，并根据关键词作为主键进行聚合，得到以关键词为主键，类目分布为属性的数据格式。

采用自底向上的方法遍历类目结构中的每一个非叶子节点（也即是说，类目），计算每一个关键词的信息增益与卡方检验。例如，计算每一个关键词的信息增益（Information Gain）维度约减权值，若该维度约减权值小于一定的阈值，则将关键词出现在子类目中的所有频率汇总到当前类目，并清空该关键字在所有子类目中的频率。若当前节点为根节点，则删除该关键字。

举例而言，定义K为关键字，C为当前节点下的所有类目，则K的信息增益IG计算方法如下：

IG(K)＝H(C)-H(C|K)

其中H为信息熵，定义P(x_i)为变量X取x_i的概率，由如下算式得出：

计算符合给定条件的关键词的卡方计算方法（χ²）的维度约减权值，若该维度约减权值小于一定的阈值，则将关键词出现在子类目中的所有频率汇总到当前类目，并清空该关键字在所有子类目中的频率。若当前节点为根节点，则删除该关键字。

定义K为关键字，为所有其他的关键字，{C_i}为给定的类目体系。

统计如下列联表（Contingency Table）

卡方计算方法：

其中T_i，j为第i行第j列的理论值：

参与计算的关键词的条件：

并且

|{(i，j)|T_i，j＝＝0}|＝0

在步骤S104中，对待训练网页进行预处理以获得待训练网页文本。预处理的目的如下：1）将html源码解析为结构化的数据；2）过滤非正文的噪音数据；3）对文本进行分词处理，并将停用词作为噪音数据进行过滤。

也即是说，步骤S104可以包括如下中的一个或多个处理：网页解析；正文抽取；分词/停用词过滤。

网页解析步骤中，网页解析流程的输入是html源码。解析html源码，得到每一个元素的位置信息与语义信息。例如，给定html源码，可以知道哪些文本出现在超链接中，哪些超链接文本在页眉中出现，哪些超链接文本在页脚中出现，等等。网页解析流程的输出为文档对象化模型结构树（DocumentObject Model Tree）。

正文抽取步骤中，正文抽取流程的输入是文档对象化模型结构树。根据网页解析的产出，过滤页眉/页脚/导航/广告/侧边栏，得到网页的正文。正文抽取流程的输出是带有标签信息的文档对象化模型结构树。在每一个树中的元素都带有一个标签，用来表示该元素是否属于网页正文。

分词/停用词过滤步骤中，分词/停用词过滤流程的输入是带有正文标签的文档对象化模型结构树。采用预先设置的中文分词算法，中文分词算法有很多种，例如CDWS，n-gram，隐马尔可夫模型，CRF（Conditional RandomField）等等。在一个应用实例中，可以采用CRF作为中文分词算法。文本语法组成部分中的虚词不仅在文章中出现的频率高，而且对分类几乎没有任何意义，即干扰分类，又使得文本维度过高，影响分类效率。这部分词汇通过停用词表进行过滤。分词/停用词过滤流程的输出是将每一个元素中的文本进行分词/停用词处理后的文档对象化模型结构树。

在步骤S106中，根据先验概率表在待训练网页文本中提取特征得出待训练网页与指定类目之间的关联关系特征向量表示F1。该步骤实际上就是根据日志处理流程得出的类目先验概率表在经过预处理流程的网页（已经经过了结构化处理，分词，噪音过滤等）中分析获得特征向量的特征提取流程。

步骤S106可以包括如下步骤：计算分类关键词在待训练网页中的重要性得分；针对分类关键词的重要性得分以及分类关键词的先验概率进行离散化处理；根据分类关键词的离散化重要性以及分类关键词的离散化先验概率得到二维特征矩阵；分别在待训练网页文本的不同部分中计算二维特征矩阵，将所有矩阵元素依次排列得到一个固定长度的特征向量。其中，待训练网页文本的不同部分可以包括网页标题、网页正文、网页超链接文本。

举例而言，首先计算关键词在网页中的重要性得分，综合考虑关键词的TF/IDF信息，关键词出现的位置信息，关键词的字体颜色信息，通过回归模型计算得到关键词的重要性得分。得分的取值范围为[0，1]。

接着针对关键词的重要性得分与关键词的先验概率进行离散化处理：设定相应的阈值，将关键词的重要性得分离散化为“高，较高，较低，低”四种可能的取值；设定相应的阈值，将关键词的先验概率得分离散化为“高，较高，较低，低”四种可能的取值。

然后根据关键词在网页中的重要程度，以及日志处理流程计算得到的先验概率表，可以计算得到一张二维的特征矩阵，如下：

重要性\先验概率	高	较高	较低	低
					高	n_1,1	n_1,2	n_1,3	n_1,4
较高	n_2,1	n_2,2	n_2,3	n_2,4
					较低	n_3,1	n_3,2	n_3,3	n_3,4
低	n_4,1	n_4,2	n_4,3	n_4,4

例如，n_2,3表示重要性较高，先验概率较低的关键词的数量。

最后分别在网页标题，网页正文，网页超链接文本中计算如上特征矩阵。因此，得到3个4×4维的矩阵，总共有3×4×4＝48个元素。将这48个元素依次排列得到一个固定长度的特征向量。这个特征向量即为特征提取流程的输出结果。

在步骤S108中，对关联关系特征向量表示F1进行模型训练以得出待训练网页的分类结果。

步骤S108可以包括如下步骤：回归建模和ROC分析。其中，回归建模可以包括根据预先设置的回归模型算法对标注数据进行回归模型训练。ROC分析可以包括针对所训练的回归模型计算对应的ROC曲线，并基于ROC曲线设定不同的切分阈值以得到分类结果。在本文的应用场景（类目数量庞大）下，结合回归模型与ROC分析技术，可以解决多类目预测问题，以提升类目预测准确率与召回率。

举例而言，结合特定网站上传的标注数据以及特征提取模块得到的特征向量，根据预先设置的回归模型算法对商业意图进行模型训练。回归算法有很多种，例如SVM（支持向量机），Logistic Regression等。在一个实例中，应用SVM回归算法进行训练。

完成回归算法模型拟合之后，在测试集合上针对该模型计算对应的ROC（ReceiverOperating Characteristic）曲线。在一个实例中，得到的ROC曲线如图2所示。

ROC曲线的横轴为FPR（False Positive Rate），纵轴为TPR（True PositiveRate）。定义如下：

其中：

FP（False Positive，假阳性）：测试集合中，真实标签为假，模型认为真的数据点的个数。

TP（True Positive，真阳性）：测试集合中，真实标签为真，模型认为真的数据点的个数。

FN（False Positive，假阴性）：测试集合中，真实标签为真，模型认为假的数据点的个数。

TN（False Positive，真阴性）：测试集合中，真实标签为假，模型认为假的数据点的个数。

FPR衡量了模型的准确率，该指标越低越好。TPR衡量了模型的召回率，该指标越高越好。可以根据不同的应用场景设定不同的切分阈值，将回归问题重新转换为分类问题，得到满足要求的网页分类结果。

例如，在广告的应用场景中，希望有更高的召回率，同时可以一定程度上容忍准确率不高的情况，在这种场景下，可以设定一个阈值，要求较高的TPR，同时容忍FPR也相对较高。相反的，在反作弊的应用当中，要求很高的准确率，那么可以设定一个阈值，保证很低的FPR，同时容忍一定的漏判存在。

根据本申请的实施例，提供了一种网页训练系统，用于对网页进行分类。

参考图3，图3是本申请实施例的网页训练系统300的框图。网页训练系统300包括用于根据与分类关键词相关联的已有数据获得分类关键词的先验概率表的装置302；用于对待训练网页进行预处理以获得待训练网页文本的装置304；用于根据先验概率表在待训练网页文本中提取特征得出待训练网页与指定类目之间的关联关系特征向量表示F1的装置306；用于对关联关系特征向量表示F1进行模型训练以得出待训练网页的分类结果的装置308。

与分类关键词相关联的已有数据可以包括网站类目体系以及用户点击日志。用于根据与分类关键词相关联的已有数据获得分类关键词的先验概率表的装置302可以包括：用于从用户点击日志中获取搜索关键词，并过滤得到分类关键词的装置；用于计算每个分类关键词在不同分类中出现的频率的装置；用于采用自底向上的方法遍历网站类目体系中的每一个非叶子节点类目，计算每一个分类关键词的信息增益与卡方检验的装置。

用于对待训练网页进行预处理的装置304可以包括：网页解析装置；正文抽取装置；分词/停用词过滤装置。

用于根据先验概率表在待训练网页文本中提取特征得出待训练网页与指定类目之间的关联关系特征向量表示F1的装置306可以包括：用于计算分类关键词在待训练网页中的重要性得分的装置；用于针对分类关键词的重要性得分以及分类关键词的先验概率进行离散化处理的装置；用于根据分类关键词的离散化重要性以及分类关键词的离散化先验概率得到二维特征矩阵的装置；用于分别在待训练网页文本的不同部分中计算二维特征矩阵，将所有矩阵元素依次排列得到一个固定长度的特征向量的装置。待训练网页文本的不同部分可以包括网页标题、网页正文、网页超链接文本。

用于对关联关系特征向量表示F1进行模型训练以得出待训练网页的分类结果的装置可以包括回归建模装置和ROC分析装置。回归建模装置可以用于根据预先设置的回归模型算法对标注数据进行回归模型训练；ROC分析装置可以用于针对所训练的回归模型计算对应的ROC曲线，并基于ROC曲线设定不同的切分阈值以得到分类结果。

本申请中的训练流程通过以下创新解决了背景技术中提及的类目体系异构性以及类目数量过于庞大的难题：

（1）挖掘特定网站的类目体系与用户搜索点击日志，得到关键词的先验概率表。

（2）结合关键词的先验概率表与网页文本特征，生成网页与指定类目之间的关联关系特征向量表示。

（3）将分类问题转换为网页与指定类目的关联关系的回归问题，通过得到的关联关系特征向量表示训练回归模型。

（4）计算回归模型结果与分类标注结果的ROC曲线，合理划分阈值，将回归问题逆转为分类问题。

由于网页与类目之间关联关系的特征向量表示是与具体类目信息无关的，所以通过上述方式，本申请可以同时处理异构性很强的类目体系，并且利用相对非常少的训练数据处理规模庞大的类目体系。

根据本申请的实施例，提供了一种网页预测方法，用于利用上述的网页训练方法100训练得出的分类结果，针对用户意图进行类目预测。预测流程的目标是根据用户在全网上的浏览/搜索行为，为给定的任意特定网站提供全面的商业意图分析结果。

参考图4，图4是本申请实施例的网页预测方法400的流程图。

在步骤S402中，收集用户访问日志。

举例而言，首先在全网上分发global cookie。Cookies是一种能够让网站服务器把少量数据储存到客户端的硬盘或内存，或是从客户端的硬盘读取数据的一种技术。Cookies是当你浏览某网站时，由Web服务器置于你硬盘上的一个非常小的文本文件，它可以记录你的用户ID、密码、浏览过的网页、停留的时间等信息。Cookie常用于识别用户。

接着当用户访问布有global cookie的网页时，该模块会给服务器后端返回用户的访问日志。

然后后端服务器负责收集，存储用户访问日志。访问日志格式：访问日志是用户访问互联网的浏览记录，包括如下字段：CookieId，IP，UserAgent，访问Url，Refer Url，访问时间，搜索关键字。

在步骤S404中，从用户访问日志获得网页html源码。

步骤S404可以包括如下步骤：对用户访问日志进行url筛选；爬取筛选后的url以获得网页html源码。其中，对用户访问日志进行url筛选的步骤可以包括如下步骤：针对用户访问日志，计算去重后的url集合；为每一个url计算网页重要性得分；根据网页重要性得分为所有的去重后的url进行排序，取前若干条url作为待爬取的url集合。url筛选流程是对从用户访问日志表中分析得到的url列表进行筛选，选出认为是高质量的url列表。

举例而言，首先针对收集到的用户访问日志，计算去重后的url集合。

接着为每一个url计算如下属性：PV（Page View，即，该网页被访问了多少次），UV（User View，即，该网页被多少人访问过），PageRank（根据网页超链接关系计算得到的网页重要性指标），PageType（分为404网页，登陆页，列表页，内容页）。

然后计算网页重要性得分：

S＝(α×sigmoid(PV)+β×sigmoid(UV))×PR×PT

其中：

α，β：线性调节系数，满足约束（α＞0，β＞0，α+β＝1）

PR：PageRank，取值范围为0～10

PT：PageType，为离散值，当PageType为404页，或者是登陆页时，取值为0，当PageType为列表页时，取值0.5，当PageType为内容页时，取值1。

根据上述计算公式计算重要性得分，为所有的url进行排序，取Top N条url作为待爬取的url集合。

最后根据给出的url列表，爬取并存储对应的html源码。

在步骤S406中，对网页html源码进行预处理以获得网页文本。

类似于步骤S104，步骤S406可以包括如下步骤：网页解析；正文抽取；分词/停用词过滤。

网页解析步骤中，解析html源码，得到每一个元素的位置信息与语义信息。例如，给定html源码，可以知道哪些文本出现在超链接中，哪些超链接文本在页眉中出现，哪些超链接文本在页脚中出现，等等。网页解析流程的输出为文档对象化模型结构树（DocumentObject Model Tree）。

正文抽取步骤中，根据网页解析的产出，过滤页眉/页脚/导航/广告/侧边栏，得到网页的正文。

分词/停用词过滤步骤中，采用预先设置的中文分词算法，中文分词算法有很多种，例如CDWS，n-gram，隐马尔可夫模型，CRF（Conditional RandomField）等等。在一个应用实例中，可以采用CRF作为中文分词算法。文本语法组成部分中的虚词不仅在文章中出现的频率高，而且对分类几乎没有任何意义，即干扰分类，又使得文本维度过高，影响分类效率。这部分词汇通过停用词表进行过滤。

在步骤S408中，根据先验概率表在网页文本中提取特征得出网页与指定类目之间的关联关系特征向量表示F2。优选地，利用训练流程得到回归模型与切分阈值，结合上述步骤得到的特征向量表示F2，得到网页的分类结果。注意到，网页分类结果可以是属于多个类别，也可能不属于任何一个类别。

类似于步骤S106，步骤S408可以包括如下步骤：计算分类关键词在网页中的重要性得分；针对分类关键词的重要性得分以及分类关键词的先验概率进行离散化处理；根据分类关键词的离散化重要性以及分类关键词的离散化先验概率得到二维特征矩阵；分别在网页文本的不同部分中计算二维特征矩阵，将所有矩阵元素依次排列得到一个固定长度的特征向量。

例如，n_2，3表示重要性较高，先验概率较低的关键词的数量。

在步骤S410中，根据分类结果和关联关系特征向量表示F2获得用户意图类目预测结果。

步骤S410可以包括如下步骤：根据分类结果和关联关系特征向量表示F2，得到网页级别的分析结果；将网页级别的分析结果与用户访问日志进行连接（join）操作，得到用户每次网页访问行为所指示的意图，在用户维度进行聚合操作得到用户意图类目预测结果。

举例而言，首先进行机器学习分类，结合特征提取模块得到的特征向量，以及在训练流程中产出的模型文件，按照预先设置的分类器算法对网页的商业意图偏好进行分类。

接下来进行用户维度的聚合。

首先将用户访问日志转换为关系型数据库中的Table，包含字段CookieId，访问Url，访问时间。将机器学习分类器模块的产出也转换为关系型数据库中的Table，包含字段Url，商业意图分析结果。就是说，用户维度的聚合流程的输入有两个：（1）网页分析结果表，该表有两个字段：网页url，网页商业意图分类结果；（2）用户访问日志，该表有三个字段：用户id，访问url，访问时间。

然后将这两张Table以Url作为Key进行Join操作，得到连接表，包括字段CookieId，访问Url，访问时间，商业意图分析结果。

最后根据CookieId作为Key，进行聚合操作，将相同CookieId的商业意图分析结果聚合到一起。聚合算法中考虑了时间衰减因子，下述公式描述了某一个给定CookieId的第i个商业分类权重的聚合结果：

其中，

W_i：给定CookieId的第i个商业意图分类权重的聚合结果；

W_i，j：给定CookieId的第i个商业意图分类在该用户访问的第j个页面上的权重；

Dj：给定CookieId访问第j个页面的时间距离当前时间的天数。

就是说，用户维度的聚合流程的输出为用户商业意图分析结果表，该表有两个字段：用户id，用户商业意图分类结果。

在一个优选实施例中，训练流程根据已知的训练数据与上述的处理流程，得到拟合好的回归模型文件，以及根据ROC曲线分析得到的切分阈值。在预测流程的“机器学习分类器”模块中，应用训练流程得到的回归模型文件与切分阈值，得到网页级别的预测结果。预测流程通过根据用户来聚合网页预测结果来分析得到用户级别的商业意图分析结果。

根据本申请的实施例，提供了一种网页预测系统，用于利用上述的网页训练系统训练得出的分类结果，针对用户意图进行类目预测。

参考图5，图5是本申请实施例的网页预测系统500的框图。网页预测系统500包括用于收集用户访问日志的装置502；用于从用户访问日志获得网页html源码的装置504；用于对网页html源码进行预处理以获得网页文本的装置506；用于根据先验概率表在网页文本中提取特征得出网页与指定类目之间的关联关系特征向量表示F2的装置508；用于根据分类结果和关联关系特征向量表示F2获得用户意图类目预测结果的装置510。

用于从用户访问日志获得网页html源码的装置504可以包括：用于对用户访问日志进行url筛选的装置；用于爬取筛选后的url以获得网页html源码的装置。其中，用于对用户访问日志进行url筛选的装置可以包括：用于针对用户访问日志，计算去重后的url集合的装置；用于为每一个url计算网页重要性得分的装置；用于根据网页重要性得分为所有的去重后的url进行排序，取前若干条url作为待爬取的url集合的装置。

用于对网页html源码进行预处理的装置506可以包括：网页解析装置；正文抽取装置；分词/停用词过滤装置。

用于根据先验概率表在网页文本中提取特征得出网页与指定类目之间的关联关系特征向量表示F2的装置508可以包括：用于计算分类关键词在网页中的重要性得分的装置；用于针对分类关键词的重要性得分以及分类关键词的先验概率进行离散化处理的装置；用于根据分类关键词的离散化重要性以及分类关键词的离散化先验概率得到二维特征矩阵的装置；用于分别在网页文本的不同部分中计算二维特征矩阵，将所有矩阵元素依次排列得到一个固定长度的特征向量的装置。

用于根据分类结果和关联关系特征向量表示F2获得用户意图类目预测结果的装置510可以包括：用于根据分类结果和关联关系特征向量表示F2，得到网页级别的分析结果的装置；用于将网页级别的分析结果与用户访问日志进行连接操作，得到用户每次网页访问行为所指示的意图，在用户维度进行聚合操作得到用户意图类目预测结果的装置。

本申请中的预测流程通过以下创新解决了背景技术中提及的数据稀疏性的难题：

（1）收集用户在全网上的浏览/搜索行为，而不仅仅是在一家网站上的行为，这将很大程度上解决数据的稀疏性问题，在一个应用的实例中，可以每天收集到50亿条用户浏览日志信息。

（2）从用户浏览日志信息中提取具备商业价值的用户浏览网页，并针对网页内容做深入分析。

（3）提供嵌入式接口，在预测流程中可以嵌入多个特定网站的定制需求。

（4）利用同一份用户数据，为任意给定特定网站自适应分析其定制的商业意图分析结果。

图6示出了本申请的有效识别用户商业意图的示例性系统的架构图。可以看出，从系统分层的角度看，系统分为三个层次：数据收集层，数据预处理层，数据分析层。从数据流的角度看，系统可以分为两个流程：训练流程，预测流程。

综上所述，本申请解决了背景技术中列举的三大难题。具体体现在：

（1）本申请收集并分析了用户在全网上的所有浏览，搜索记录，并基于分析结果建立完整的用户档案，很好得解决了数据的稀疏性问题。

（2）本申请提供统一的数据接口给任何潜在的特定网站，通过统一的接口与处理流程，能很好的适应类目体系异构性很强的情况，能在训练数据规模相对很小的前提下，迅速针对不同的类目体系建立准确的分类器。

（3）本申请能适用于非常庞大的类目体系，不要求训练数据随着类目数量的增长而线性增长，能很好的处理多类目以及无类目的情况，并保证类目预测的准确性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种网页训练方法，用于对网页进行分类，其特征在于，包括：

根据与分类关键词相关联的已有数据获得分类关键词的类目先验概率表，所述与分类关键词相关联的已有数据包括网站类目体系；

对待训练网页进行预处理以获得待训练网页文本；

根据类目先验概率表在所述待训练网页文本中提取特征得出待训练网页与指定类目之间的关联关系特征向量表示F1；

对所述关联关系特征向量表示F1进行模型训练以得出所述待训练网页的分类结果。

2.根据权利要求1所述的方法，其特征在于，所述与分类关键词相关联的已有数据包括用户点击日志。

3.根据权利要求2所述的方法，其特征在于，根据与分类关键词相关联的已有数据获得分类关键词的类目先验概率表的步骤包括：

从所述用户点击日志中获取搜索关键词，并过滤得到分类关键词；

计算每个分类关键词在不同分类中出现的频率；

采用自底向上的方法遍历所述网站类目体系中的每一个非叶子节点类目，计算每一个分类关键词的信息增益与卡方检验。

4.根据权利要求1所述的方法，其特征在于，对待训练网页进行预处理包括以下中的一个或多个处理：

网页解析；

正文抽取；

分词/停用词过滤。

5.根据权利要求1所述的方法，其特征在于，根据类目先验概率表在待训练网页文本中提取特征得出待训练网页与指定类目之间的关联关系特征向量表示F1的步骤包括：

计算分类关键词在待训练网页中的重要性得分；

针对分类关键词的重要性得分以及分类关键词的类目先验概率进行离散化处理；

根据分类关键词的离散化重要性以及分类关键词的离散化类目先验概率得到二维特征矩阵；

分别在待训练网页文本的不同部分中计算所述二维特征矩阵，将所有矩阵元素依次排列得到一个固定长度的特征向量。

6.根据权利要求5所述的方法，其特征在于，所述待训练网页文本的不同部分包括网页标题、网页正文、网页超链接文本。

7.根据权利要求1所述的方法，其特征在于，对关联关系特征向量表示F1进行模型训练以得出待训练网页的分类结果的步骤包括：

根据预先设置的回归模型算法对标注数据进行回归模型训练；以及

针对所训练的所述回归模型计算对应的ROC曲线，并基于ROC曲线设定不同的切分阈值以得到分类结果。

8.一种网页训练系统，用于对网页进行分类，其特征在于，包括：

用于根据与分类关键词相关联的已有数据获得分类关键词的类目先验概率表的装置，所述与分类关键词相关联的已有数据包括网站类目体系；

用于对待训练网页进行预处理以获得待训练网页文本的装置；

用于根据类目先验概率表在所述待训练网页文本中提取特征得出待训练网页与指定类目之间的关联关系特征向量表示F1的装置；

用于对所述关联关系特征向量表示F1进行模型训练以得出所述待训练网页的分类结果的装置。

9.一种网页预测方法，用于利用根据权利要求1-7中任一项所述的网页训练方法训练得出的分类结果，针对用户意图进行类目预测，其特征在于，包括：

收集用户访问日志；

从所述用户访问日志获得网页html源码；

对所述网页html源码进行预处理以获得网页文本；

根据类目先验概率表在所述网页文本中提取特征得出网页与指定类目之间的关联关系特征向量表示F2；

根据所述分类结果和所述关联关系特征向量表示F2获得用户意图类目预测结果。

10.根据权利要求9所述的方法，其特征在于，从所述用户访问日志获得网页html源码的步骤包括：

对所述用户访问日志进行url筛选；

爬取筛选后的url以获得网页html源码。

11.根据权利要求10所述的方法，其特征在于，对所述用户访问日志进行url筛选的步骤包括：

针对所述用户访问日志，计算去重后的url集合；

为每一个url计算网页重要性得分；

根据网页重要性得分为所有的去重后的url进行排序，取前若干条url作为待爬取的url集合。

12.根据权利要求9所述的方法，其特征在于，根据类目先验概率表在网页文本中提取特征得出网页与指定类目之间的关联关系特征向量表示F2的步骤包括：

计算分类关键词在网页中的重要性得分；

分别在网页文本的不同部分中计算所述二维特征矩阵，将所有矩阵元素依次排列得到一个固定长度的特征向量。

13.根据权利要求9所述的方法，其特征在于，根据所述分类结果和所述关联关系特征向量表示F2获得用户意图类目预测结果的步骤包括：

根据所述分类结果和所述关联关系特征向量表示F2，得到网页级别的分析结果；

将网页级别的分析结果与所述用户访问日志进行连接操作，得到用户每次网页访问行为所指示的意图，在用户维度进行聚合操作得到用户意图类目预测结果。

14.一种网页预测系统，用于利用根据权利要求8所述的网页训练系统训练得出的分类结果，针对用户意图进行类目预测，其特征在于，包括：

用于收集用户访问日志的装置；

用于从所述用户访问日志获得网页html源码的装置；

用于对所述网页html源码进行预处理以获得网页文本的装置；

用于根据类目先验概率表在所述网页文本中提取特征得出网页与指定类目之间的关联关系特征向量表示F2的装置；

用于根据所述分类结果和所述关联关系特征向量表示F2获得用户意图类目预测结果的装置。