[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN109214417A - 用户意图的挖掘方法及装置、计算机设备及可读介质 - Google Patents

用户意图的挖掘方法及装置、计算机设备及可读介质 Download PDF

Info

Publication number
CN109214417A
CN109214417A CN201810824176.7A CN201810824176A CN109214417A CN 109214417 A CN109214417 A CN 109214417A CN 201810824176 A CN201810824176 A CN 201810824176A CN 109214417 A CN109214417 A CN 109214417A
Authority
CN
China
Prior art keywords
term vector
current page
intent information
user
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810824176.7A
Other languages
English (en)
Inventor
周浩
黄浩
曹德强
苏冬冬
陈四通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810824176.7A priority Critical patent/CN109214417A/zh
Publication of CN109214417A publication Critical patent/CN109214417A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种用户意图的挖掘方法及装置、计算机设备及可读介质。其中所述方法包括:获取用户浏览的当前页面的文本特征信息;利用预先训练的词向量模型、文本特征信息和预先采集的意图信息库,分别获取当前页面的词向量表达以及意图信息库中各意图信息的词向量表达;根据当前页面的词向量表达和意图信息库中各意图信息的词向量表达,从意图信息库中获取用户阅读当前页面的目标意图。本发明的技术方案,能够弥补现有技术的不足,准确、有效地挖掘用户的意图信息,以便于根据用户的意图信息进行有效地广告推荐,从而能够有效地提高广告推荐效率。

Description

用户意图的挖掘方法及装置、计算机设备及可读介质
【技术领域】
本发明涉及计算机应用技术领域,尤其涉及一种用户意图的挖掘方法及装置、计算机设备及可读介质。
【背景技术】
随着移动时代的推进,内容生态蓬勃发展,越来越多展示类场景流量出现在人们日常生活中,广告主有意愿获取更多展示类商业流量。
现有技术中,在信息流场景下,用户主要出于浏览的目的,没有明确的检索行为,广告主无法直接获取用户的意图。通常仅仅根据用户的一些特征信息如年龄、职业身份、兴趣爱好等特征,来向用户进行广告推荐。但是这种场景下,由于无法获取用户的真正意图,导致推荐的广告并不一定是用户在浏览时真正想要点击查看的广告,从而导致广告推荐效率较低。
基于上述问题,本发明亟需提供一种信息流场景下的用户意图的挖掘方案,以便于根据用户意图进行广告推荐,从而进一步提高广告推荐效率。
【发明内容】
本发明提供了一种用户意图的挖掘方法及装置、计算机设备及可读介质,用于弥补现有技术的不足,提供一种有效地用户意图的挖掘方案。
本发明提供一种用户意图的挖掘方法,所述方法包括:
获取用户浏览的当前页面的文本特征信息;
利用预先训练的词向量模型、所述文本特征信息和预先采集的意图信息库,分别获取所述当前页面的词向量表达以及所述意图信息库中各意图信息的词向量表达;
根据所述当前页面的词向量表达和所述意图信息库中各所述意图信息的词向量表达,从所述意图信息库中获取所述用户阅读所述当前页面的目标意图,以进行广告推荐。
进一步可选地,如上所述的方法中,获取用户浏览的当前页面的文本特征信息,具体包括:
获取所述用户浏览的所述当前页面的标题和关键文本内容;
对所述当前页面的标题进行分词,得到多个标题分词;
利用预先训练的内容关键词提取模型从所述关键文本内容中提取多个内容关键词;
将所述多个标题分词和所述多个内容关键词组合,形成对应的所述当前页面的文本特征信息。
进一步可选地,如上所述的方法中,利用预先训练的词向量模型、所述文本特征信息和预先采集的意图信息库,分别获取所述当前页面的词向量表达以及所述意图信息库中各意图信息的词向量表达,具体包括:
将所述当前页面的所述文本特征信息输入至预先训练的所述词向量模型中,使得所述词向量模型输出所述当前页面的词向量表达;
分别将预先采集的所述意图信息库中的各所述意图信息输入至所述词向量模型中,使得所述词向量模型输出各所述意图信息的词向量表达。
进一步可选地,如上所述的方法中,根据所述当前页面的词向量表达和所述意图信息库中各所述意图信息的词向量表达,从所述意图信息库中获取所述用户阅读所述当前页面的目标意图,具体包括:
根据所述当前页面的词向量表达和所述意图信息库中各所述意图信息的向量表达,计算所述当前页面分别与各所述意图信息的语义相似度;
从所述意图信息库中获取与所述当前页面的语义相似度大于预设的相似度阈值的所述意图信息,作为所述用户阅读所述当前页面的目标意图。
进一步可选地,如上所述的方法中,利用预先训练的词向量模型、所述文本特征信息和预先采集的意图信息库,分别获取所述当前页面的词向量表达以及所述意图信息库中各意图信息的词向量表达之前,所述方法还包括:
采集词向量语料库,所述词向量语料库中包括数条训练词语以及各所述训练词语的已知词向量;
根据各条所述训练词语以及各所述训练词语的已知词向量,训练所述词向量模型。
本发明提供一种用户意图的挖掘装置,所述装置包括:
特征获取模块,用于获取用户浏览的当前页面的文本特征信息;
向量获取模块,用于利用预先训练的词向量模型、所述文本特征信息和预先采集的意图信息库,分别获取所述当前页面的词向量表达以及所述意图信息库中各意图信息的词向量表达;
意图获取模块,用于根据所述当前页面的词向量表达和所述意图信息库中各所述意图信息的词向量表达,从所述意图信息库中获取所述用户阅读所述当前页面的目标意图,以进行广告推荐。
进一步可选地,如上所述的装置中,所述特征获取模块,具体用于:
获取所述用户浏览的所述当前页面的标题和关键文本内容;
对所述当前页面的标题进行分词,得到多个标题分词;
利用预先训练的内容关键词提取模型从所述关键文本内容中提取多个内容关键词;
将所述多个标题分词和所述多个内容关键词组合,形成对应的所述当前页面的文本特征信息。
进一步可选地,如上所述的装置中,所述向量获取模块,具体用于:
将所述当前页面的所述文本特征信息输入至预先训练的所述词向量模型中,使得所述词向量模型输出所述当前页面的词向量表达;
分别将预先采集的所述意图信息库中的各所述意图信息输入至所述词向量模型中,使得所述词向量模型输出各所述意图信息的词向量表达。
进一步可选地,如上所述的装置中,所述意图获取模块,具体用于:
根据所述当前页面的词向量表达和所述意图信息库中各所述意图信息的向量表达,计算所述当前页面分别与各所述意图信息的语义相似度;
从所述意图信息库中获取与所述当前页面的语义相似度大于预设的相似度阈值的所述意图信息,作为所述用户阅读所述当前页面的目标意图。
进一步可选地,如上所述的装置中,所述装置还包括:
采集模块,用于采集词向量语料库,所述词向量语料库中包括数条训练词语以及各所述训练词语的已知词向量;
训练模块,用于根据各条所述训练词语以及各所述训练词语的已知词向量,训练所述词向量模型。
本发明还提供一种计算机设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的用户意图的挖掘方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的用户意图的挖掘方法。
本发明的用户意图的挖掘方法及装置、计算机设备及可读介质,通过获取用户浏览的当前页面的文本特征信息;利用预先训练的词向量模型、文本特征信息和预先采集的意图信息库,分别获取当前页面的词向量表达以及意图信息库中各意图信息的词向量表达;根据当前页面的词向量表达和意图信息库中各意图信息的词向量表达,从意图信息库中获取用户阅读当前页面的目标意图。本发明的技术方案,能够弥补现有技术的不足,准确、有效地挖掘用户的意图信息,以便于根据用户的意图信息进行有效地广告推荐,从而能够有效地提高广告推荐效率。
【附图说明】
图1为本发明的用户意图的挖掘方法实施例一的流程图。
图2为本发明的用户意图的挖掘方法实施例二的流程图。
图3为本发明的用户意图的挖掘装置实施例一的结构图。
图4为本发明的用户意图的挖掘装置实施例二的结构图。
图5为本发明的计算机设备实施例的结构图。
图6为本发明提供的一种计算机设备的示例图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图1为本发明的用户意图的挖掘方法实施例一的流程图。如图1所示,本实施例的用户意图的挖掘方法,具体可以包括如下步骤:
100、获取用户浏览的当前页面的文本特征信息;
101、利用预先训练的词向量模型、文本特征信息和预先采集的意图信息库,分别获取当前页面的词向量表达以及意图信息库中各意图信息的词向量表达;
102、根据当前页面的词向量表达和意图信息库中各意图信息的词向量表达,从意图信息库中获取用户阅读当前页面的目标意图,以进行广告推荐。
本实施例的用户意图的挖掘方法的执行主体为用户意图挖掘装置,该用户意图挖掘装置可以设置在服务器中,能够基于用户浏览的当前页面,挖掘用户的意图。本实施例的用户意图的挖掘方案可以为一种实时的、在线的用户意图的挖掘方案,基于用户浏览的当前页面,挖掘用户的目的意图,进而基于用户的目的意图,进行广告推荐,进而能够有效地提高广告推荐的广告推荐的准确性,提高用户对推荐的广告的点击率,从而有效地提高广告推荐的效率。
具体地,本实施例的用户意图的挖掘时,首先需要获取用户浏览的当前页面的文本特征信息,该文本特征信息在一定程度上能够唯一标识用户浏览的当前页面。例如该文本特征信息可以采用一组词语来标识。
然后,本实施例中,需要预先训练一个词向量模型,该词向量模型为一个神经网络模型,可以将任意一个或者一组词语表达为向量的形式。然后,可以将当前页面的文本特征信息输入至预先训练的词向量模型中,使得词向量模型输出当前页面的词向量表达。由于当前页面的文本特征信息能够唯一表达当前页面的内容,对应地,基于当前页面的文本特征信息获取的当前页面的词向量表达,也可以从向量的角度表达当前页面的内容。
另外,本实施例中,需要预先采集意图信息库,本实施例的意图信息库可以为预先对所有用户的历史行为数据进行挖掘,获取数个意图信息构成的意图信息库。由于意图信息库中的意图信息时对所有用户的历史行为数据进行挖掘得到,所以获取到的意图信息足够全面,能够覆盖全网的意图信息。例如所有用户的历史行为数据可以包括所有用户进行搜索时的搜索历史行为数据,还可以包括用户浏览页面时的上下文信息。其中搜索时的搜索历史行为数据可以直接反应用户的意图信息。每一个用户浏览页面时的上下文信息中,每一条点击查看的浏览页面都可以暗含有对应用户浏览时的倾向,从而暗含有该用户的意图信息。
本实施例中,对所有用户的历史行为数据进行挖掘,获取数个意图信息,构成意图信息库时,具体需要对每一个用户的每一条历史行为数据进行语义解析,获取该用户的意图信息。例如,若历史行为数据为搜索历史行为数据时,用户的意图信息挖掘非常容易,通常包含在搜索词中。而基于用户浏览的页面来挖掘用户的意图信息时,需要分析的内容较多,才能获取到用户的意图信息,导致用户意图信息的挖掘耗时较长、挖掘效率较低。
基于此问题,本实施例中,还可以提供一种历史行为数据为用户的浏览页面时的用户的意图信息的挖掘方案。本实施例中,可以预先训练一个意图提取模型,从而基于该意图提取模型实现对历史行为数据对应的浏览页面中的用户的意图进行挖掘。从而可以根据每个用户的每条历史行为数据和预先训练的意图提取模型,挖掘数个意图信息,构成意图信息库。
进一步地,该步骤“根据每个用户的每条历史行为数据和预先训练的意图提取模型,挖掘数个意图信息,构成意图信息库”,具体可以包括如下步骤:
(a1)获取每个用户的每条历史行为数据对应的文本特征信息;
(b1)根据每个用户的每条历史行为数据对应的文本特征信息和预先训练的意图提取模型,预测所有用户的数个意图信息;并将数个意图信息构成意图信息库。
由于每个用户的每条历史行为数据也对应一个页面的,获取的该历史行为数据的文本特征信息也能够唯一标识该历史行为数据的页面的内容,从而标识该历史行为数据。将每条历史行为数据对应的文本特征信息输入至预先训练的意图提取模型,可以过去到该条历史行为数据对应的意图信息。对每个用户的每条历史行为数据对应的意图信息进行采集,总共可以得到数个意图信息,并将这数个意图信息集合在一起构成意图信息库。本实施例的意图信息库中的数个意图信息的数量与网络中的历史行为数据的多少相关,历史行为数据的条数越多,意图信息的数量便越大,实际应用中,意图信息的数量可以达到几十万条甚至上百万条。
本实施例的意图提取模型的训练之前,需要预先采集训练语料,训练语料中可以包括几十万条训练数据,每一条训练数据中可以包括训练文本特征信息和采集的对应的意图信息。然后训练时,将每一条训练数据中的训练文本特征信息输入至该意图提取模型中,该意图提取模型预测其意图信息,然后将预测的意图信息和采集的意图信息进行对比,判断两者是否一致,若不一致,调整意图提取模型的参数,使得两者一致。按照上述训练方式,采用所有的训练数据对意图提取模型进行训练,直到预测的意图信息与采集的意图信息一致,训练完毕,确定意图提取模型的参数,从而确定意图提取模型。
最后基于所有用户的所有历史行为数据,和训练得到的意图提取模型,可以获取到数个意图信息构成的意图信息库。紧接着,本实施例中,可以将意图信息库中的每一个意图信息输入至预先训练的词向量模型中,使得词向量模型输出每个意图信息对应的词向量表达。同理,每一个意图信息的词向量表达,也可以从向量的角度表达该意图信息的内容。
进一步可选地,本实施例的该步骤101之前,还可以包括还可以包括词向量模型的训练过程,具体可以包括如下两个步骤:
(a2)采集词向量语料库,词向量语料库中包括数对训练词语以及各对训练词语中的每个训练词语的已知词向量;本实施例的数对训练词语中包括正例训练词语对和负例训练词语对,其中正例训练词语对中包括的一对训练词语为语义相近似的词语,负例训练词语对中包括的一对训练词语为语义完全不相干的词语。其中本实施例的数对训练词语的数量可以达到几十万条,其中正例训练词语对和负例训练词语对的比例可以为5:1、6:1、10:1或者其他比例。本实施例中的数对训练词语的数量越多,可以保证训练得到的词向量模型越准确,能够准确预测任意一个词语的向量表达,
(b2)根据各对训练词语以及各对训练词语中的每个训练词语的已知词向量,训练词向量模型。
本实施例中的词向量模型在训练时,先选择一对正例训练词语对或者负例训练语句对,然后将其中的每一个训练词语输入至该词向量模型中,该词向量模型预测其词向量表达。对于正例训练词语对,判断两个词语的词向量表达是否足够接近,如可以判断两个词语的词向量表达的相似度是否大于第一预设阈值,若不是,调整词向量模型的参数,使得正例训练词语对中的两个词语的词向量表达足够接近。同理,对于负例训练词语对,判断两个词语的词向量表达是否足够远,如可以判断两个词语的词向量表达的相似度是否小于第二预设阈值,若不是,调整词向量模型的参数,使得负例训练词语对中的两个词语的词向量表达足够远。按照上述训练方式,采用所有的训练词语对对词向量模型进行训练,直到预测的词向量表达满足要求,训练完毕,确定词向量模型的参数,从而确定词向量模型。
最后,根据当前页面的词向量表达和意图信息库中各意图信息的词向量表达,可以从意图信息库中获取与当前页面的词向量表达最接近的意图信息的词向量表达,从而获取对应的意图信息作为用户阅读当前页面的目标意图,从而可以基于用户当前页面的目标意图进行广告推荐。本实施例的技术方案,可以应用在信息流场景中,基于用户当前页面的目标意图进行广告推荐的针对性更强,从而能够有效地提高广告推荐的准确性,进而增加广告的点击率,真正实现广告的商业意图和商业价值。
本实施例的用户意图的挖掘方法,通过获取用户浏览的当前页面的文本特征信息;利用预先训练的词向量模型、文本特征信息和预先采集的意图信息库,分别获取当前页面的词向量表达以及意图信息库中各意图信息的词向量表达;根据当前页面的词向量表达和意图信息库中各意图信息的词向量表达,从意图信息库中获取用户阅读当前页面的目标意图。本实施例的技术方案,能够弥补现有技术的不足,准确、有效地挖掘用户的意图信息,以便于根据用户的意图信息进行有效地广告推荐,从而能够有效地提高广告推荐效率。
图2为本发明的用户意图的挖掘方法实施例二的流程图。如图2所示,本实施例的用户意图的挖掘方法,在上述图1所示实施例的技术方案的基础上,以排序指数是意图指数为例,来描述本发明的技术方案。如图2所示,本实施例的用户意图的挖掘方法,具体可以包括如下步骤:
200、获取用户浏览的当前页面的标题和关键文本内容;
201、对当前页面的标题进行分词,得到多个标题分词;
202、利用预先训练的内容关键词提取模型从关键文本内容中提取多个内容关键词;
203、将多个标题分词和多个内容关键词组合,形成对应的当前页面的文本特征信息;
本实施例的步骤200-203为上述图1所示实施例的步骤100的一种具体实现方式。
本实施例中,用户浏览的当前页面对应存在一个标题,本实施例中获取用户浏览的当前页面的标题作为用户意图挖掘的依据。另一方面用户浏览的当前页面中还会存在一段文本内容为该当前页面的关键文本内容,能够有效地概括该当前页面的内容。实际应用中,若当前页面中包括摘要时,该当前页面的关键文本内容可以为当前页面中的摘要。如果当前页面中不包括摘要时,基于当前页面的第一段通常也会概括介绍该当前页面的内容,此时可以选取当前页面的第一段作为当前页面的关键文本内容。或者也可以根据当前页面的特性,选择其他段,如最后一段作为当前页面的关键文本内容。
本实施例中对当前页面的标题进行分词,具体可以采用现有技术中常用的分词技术,将当前页面的标题拆分为多个标题分词,详细可以参考相关现有技术,在此不再赘述。
本实施例中,还需要提前训练一个内容关键词提取模型,能够从一段文本内容中提取出能够标识该段内容的多个内容关键词。基于该原理,可以采用该内容关键词提取模型从关键文本内容中提取多个内容关键词。
本实施例的内容关键词提取模型训练时,可以采用神经网络模型的训练原理进行训练。需要预先采集训练预料,例如本实施例的训练预料中可以包括几十万条训练数据,训练数据的数量越多,训练的内容关键词提取模型提取的越准确。本实施例的每一条训练数据中可以包括预先采集的一段训练文本和多个内容关键词。
训练时,将每一条训练数据输入至该内容关键词提取模型中,获取内容关键词提取模型提取的多个内容关键词。然后判断提取的多个内容关键词语采集的多个内容关键词是否一致,若不一致,修改内容关键词提取模型的参数,使得提取的多个内容关键词语采集的多个内容关键词一致。按照上述训练方式,采用所有的训练数据对内容关键词提取模型进行训练,直到提取的多个内容关键词与采集的多个内容关键词一致,训练完毕,确定内容关键词提取模型的参数,从而确定内容关键词提取模型。
最后,将当前页面的多个标题分词和多个内容关键词,集合在一起,构成当前页面的文本特征信息,该文本特征信息最有可能标识当前页面的内容。
204、将当前页面的所述文本特征信息输入至预先训练的所述词向量模型中,使得词向量模型输出所述当前页面的词向量表达;
205、分别将预先采集的意图信息库中的各意图信息输入至词向量模型中,使得词向量模型输出各意图信息的词向量表达;
上述步骤204-205为上述图1所示实施例的步骤101的一种具体实现方式,详细可以参考上述图1所示实施例的记载,在此不再赘述。且本实施例的步骤204和步骤205之间可以没有先后顺序限制。
206、根据当前页面的词向量表达和意图信息库中各意图信息的向量表达,计算当前页面分别与各意图信息的语义相似度;
207、从意图信息库中获取与当前页面的语义相似度大于预设的相似度阈值的意图信息,作为用户阅读当前页面的目标意图。
上述步骤206-207为上述图1所示实施例的步骤102的一种具体实现方式。本实施例中通过计算当前页面的词向量表达与意图信息库中各意图信息的向量表达的语义相似度,来从意图信息库中获取与当前页面的语义相似度大于预设的相似度阈值的意图信息,作为用户阅读当前页面的目标意图。
本实施例的用户意图的挖掘方法,通过采用上述技术方案,能够弥补现有技术的不足,准确、有效地挖掘用户的意图信息,以便于根据用户的意图信息进行有效地广告推荐,从而能够有效地提高广告推荐效率。
图3为本发明的用户意图的挖掘装置实施例一的结构图。如图3所示,本实施例的用户意图的挖掘装置,具体可以包括:
特征获取模块10用于获取用户浏览的当前页面的文本特征信息;
向量获取模块11用于利用预先训练的词向量模型、特征获取模块10获取的文本特征信息和预先采集的意图信息库,分别获取当前页面的词向量表达以及意图信息库中各意图信息的词向量表达;
意图获取模块12用于根据向量获取模块11获取的当前页面的词向量表达和意图信息库中各意图信息的词向量表达,从意图信息库中获取用户阅读当前页面的目标意图,以进行广告推荐。
本实施例的用户意图的挖掘装置,通过采用上述模块实现用户意图的挖掘的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图4为本发明的用户意图的挖掘装置实施例二的结构图。如图4所示,本实施例的用户意图的挖掘装置,在上述图3所示实施例的技术方案的基础上,进一步更加详细地介绍本发明的技术方案。
本实施例的用户意图的挖掘装置中,特征获取模块10具体用于:
获取用户浏览的当前页面的标题和关键文本内容;
对当前页面的标题进行分词,得到多个标题分词;
利用预先训练的内容关键词提取模型从关键文本内容中提取多个内容关键词;
将多个标题分词和多个内容关键词组合,形成对应的当前页面的文本特征信息。
进一步可选地,本实施例的用户意图的挖掘装置中,向量获取模块11具体用于:
将特征获取模块10获取的当前页面的文本特征信息输入至预先训练的词向量模型中,使得词向量模型输出当前页面的词向量表达;
分别将预先采集的意图信息库中的各意图信息输入至词向量模型中,使得词向量模型输出各意图信息的词向量表达。
进一步可选地,本实施例的用户意图的挖掘装置中,意图获取模块12具体用于:
根据向量获取模块11获取的当前页面的词向量表达和意图信息库中各意图信息的向量表达,计算当前页面分别与各意图信息的语义相似度;
从意图信息库中获取与当前页面的语义相似度大于预设的相似度阈值的意图信息,作为用户阅读当前页面的目标意图。
进一步可选地,如图4所示,本实施例的用户意图的挖掘装置中,还包括:
采集模块12用于采集词向量语料库,词向量语料库中包括数条训练词语以及各训练词语的已知词向量;
训练模块13用于根据采集模块12采集的各条训练词语以及各训练词语的已知词向量,训练词向量模型。
对应地,向量获取模块11用于利用训练模块13预先训练的词向量模型、特征获取模块10获取的文本特征信息和预先采集的意图信息库,分别获取当前页面的词向量表达以及意图信息库中各意图信息的词向量表达。
本实施例的用户意图的挖掘装置,通过采用上述模块实现用户意图的挖掘的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图5为本发明的计算机设备实施例的结构图。如图5所示,本实施例的计算机设备,包括:一个或多个处理器30,以及存储器40,存储器40用于存储一个或多个程序,当存储器40中存储的一个或多个程序被一个或多个处理器30执行,使得一个或多个处理器30实现如上图1-图2所示实施例的用户意图的挖掘方法。图5所示实施例中以包括多个处理器30为例。
例如,图6为本发明提供的一种计算机设备的示例图。图6示出了适于用来实现本发明实施方式的示例性计算机设备12a的框图。图6显示的计算机设备12a仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机设备12a以通用计算设备的形式表现。计算机设备12a的组件可以包括但不限于:一个或者多个处理器16a,系统存储器28a,连接不同系统组件(包括系统存储器28a和处理器16a)的总线18a。
总线18a表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12a典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12a访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28a可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34a可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18a相连。系统存储器28a可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明上述图1-图4各实施例的功能。
具有一组(至少一个)程序模块42a的程序/实用工具40a,可以存储在例如系统存储器28a中,这样的程序模块42a包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明所描述的上述图1-图4各实施例中的功能和/或方法。
计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器24a等)通信,还可与一个或者多个使得用户能与该计算机设备12a交互的设备通信,和/或与使得该计算机设备12a能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且,计算机设备12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20a通过总线18a与计算机设备12a的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12a使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16a通过运行存储在系统存储器28a中的程序,从而执行各种功能应用以及数据处理,例如实现上述实施例所示的用户意图的挖掘方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所示的用户意图的挖掘方法。
本实施例的计算机可读介质可以包括上述图6所示实施例中的系统存储器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储系统34a。
随着科技的发展,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载,或者采用其他方式获取。因此,本实施例中的计算机可读介质不仅可以包括有形的介质,还可以包括无形的介质。
本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种用户意图的挖掘方法,其特征在于,所述方法包括:
获取用户浏览的当前页面的文本特征信息;
利用预先训练的词向量模型、所述文本特征信息和预先采集的意图信息库,分别获取所述当前页面的词向量表达以及所述意图信息库中各意图信息的词向量表达;
根据所述当前页面的词向量表达和所述意图信息库中各所述意图信息的词向量表达,从所述意图信息库中获取所述用户阅读所述当前页面的目标意图,以进行广告推荐。
2.根据权利要求1所述的方法,其特征在于,获取用户浏览的当前页面的文本特征信息,具体包括:
获取所述用户浏览的所述当前页面的标题和关键文本内容;
对所述当前页面的标题进行分词,得到多个标题分词;
利用预先训练的内容关键词提取模型从所述关键文本内容中提取多个内容关键词;
将所述多个标题分词和所述多个内容关键词组合,形成对应的所述当前页面的文本特征信息。
3.根据权利要求1所述的方法,其特征在于,利用预先训练的词向量模型、所述文本特征信息和预先采集的意图信息库,分别获取所述当前页面的词向量表达以及所述意图信息库中各意图信息的词向量表达,具体包括:
将所述当前页面的所述文本特征信息输入至预先训练的所述词向量模型中,使得所述词向量模型输出所述当前页面的词向量表达;
分别将预先采集的所述意图信息库中的各所述意图信息输入至所述词向量模型中,使得所述词向量模型输出各所述意图信息的词向量表达。
4.根据权利要求1所述的方法,其特征在于,根据所述当前页面的词向量表达和所述意图信息库中各所述意图信息的词向量表达,从所述意图信息库中获取所述用户阅读所述当前页面的目标意图,具体包括:
根据所述当前页面的词向量表达和所述意图信息库中各所述意图信息的向量表达,计算所述当前页面分别与各所述意图信息的语义相似度;
从所述意图信息库中获取与所述当前页面的语义相似度大于预设的相似度阈值的所述意图信息,作为所述用户阅读所述当前页面的目标意图。
5.根据权利要求1所述的方法,其特征在于,利用预先训练的词向量模型、所述文本特征信息和预先采集的意图信息库,分别获取所述当前页面的词向量表达以及所述意图信息库中各意图信息的词向量表达之前,所述方法还包括:
采集词向量语料库,所述词向量语料库中包括数条训练词语以及各所述训练词语的已知词向量;
根据各条所述训练词语以及各所述训练词语的已知词向量,训练所述词向量模型。
6.一种用户意图的挖掘装置,其特征在于,所述装置包括:
特征获取模块,用于获取用户浏览的当前页面的文本特征信息;
向量获取模块,用于利用预先训练的词向量模型、所述文本特征信息和预先采集的意图信息库,分别获取所述当前页面的词向量表达以及所述意图信息库中各意图信息的词向量表达;
意图获取模块,用于根据所述当前页面的词向量表达和所述意图信息库中各所述意图信息的词向量表达,从所述意图信息库中获取所述用户阅读所述当前页面的目标意图,以进行广告推荐。
7.根据权利要求6所述的装置,其特征在于,所述特征获取模块,具体用于:
获取所述用户浏览的所述当前页面的标题和关键文本内容;
对所述当前页面的标题进行分词,得到多个标题分词;
利用预先训练的内容关键词提取模型从所述关键文本内容中提取多个内容关键词;
将所述多个标题分词和所述多个内容关键词组合,形成对应的所述当前页面的文本特征信息。
8.根据权利要求6所述的装置,其特征在于,所述向量获取模块,具体用于:
将所述当前页面的所述文本特征信息输入至预先训练的所述词向量模型中,使得所述词向量模型输出所述当前页面的词向量表达;
分别将预先采集的所述意图信息库中的各所述意图信息输入至所述词向量模型中,使得所述词向量模型输出各所述意图信息的词向量表达。
9.根据权利要求6所述的装置,其特征在于,所述意图获取模块,具体用于:
根据所述当前页面的词向量表达和所述意图信息库中各所述意图信息的向量表达,计算所述当前页面分别与各所述意图信息的语义相似度;
从所述意图信息库中获取与所述当前页面的语义相似度大于预设的相似度阈值的所述意图信息,作为所述用户阅读所述当前页面的目标意图。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
采集模块,用于采集词向量语料库,所述词向量语料库中包括数条训练词语以及各所述训练词语的已知词向量;
训练模块,用于根据各条所述训练词语以及各所述训练词语的已知词向量,训练所述词向量模型。
11.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201810824176.7A 2018-07-25 2018-07-25 用户意图的挖掘方法及装置、计算机设备及可读介质 Pending CN109214417A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810824176.7A CN109214417A (zh) 2018-07-25 2018-07-25 用户意图的挖掘方法及装置、计算机设备及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810824176.7A CN109214417A (zh) 2018-07-25 2018-07-25 用户意图的挖掘方法及装置、计算机设备及可读介质

Publications (1)

Publication Number Publication Date
CN109214417A true CN109214417A (zh) 2019-01-15

Family

ID=64990259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810824176.7A Pending CN109214417A (zh) 2018-07-25 2018-07-25 用户意图的挖掘方法及装置、计算机设备及可读介质

Country Status (1)

Country Link
CN (1) CN109214417A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109979462A (zh) * 2019-03-21 2019-07-05 广东小天才科技有限公司 一种结合上下文语境获取意图的方法和系统
CN110909122A (zh) * 2019-10-10 2020-03-24 重庆金融资产交易所有限责任公司 一种信息处理方法及相关设备
CN111078546A (zh) * 2019-12-05 2020-04-28 北京云聚智慧科技有限公司 一种表达页面特征的方法和电子设备
CN111680514A (zh) * 2019-02-25 2020-09-18 北京猎户星空科技有限公司 信息处理和模型训练方法、装置、设备及存储介质
CN111859913A (zh) * 2020-06-12 2020-10-30 北京百度网讯科技有限公司 风控特征因子的处理方法、装置、电子设备及存储介质
CN113377972A (zh) * 2020-03-09 2021-09-10 北京达佳互联信息技术有限公司 多媒体内容推荐方法、装置、计算设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103235823A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据相关网页和当前行为确定用户当前兴趣的方法和系统
CN103942232A (zh) * 2013-01-18 2014-07-23 佳能株式会社 用于挖掘意图的方法和设备
CN107330023A (zh) * 2017-06-21 2017-11-07 北京百度网讯科技有限公司 基于关注点的文本内容推荐方法和装置
CN108268617A (zh) * 2018-01-05 2018-07-10 阿里巴巴集团控股有限公司 用户意图确定方法及装置
CN108304466A (zh) * 2017-12-27 2018-07-20 中国银联股份有限公司 一种用户意图识别方法以及用户意图识别系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942232A (zh) * 2013-01-18 2014-07-23 佳能株式会社 用于挖掘意图的方法和设备
CN103235823A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据相关网页和当前行为确定用户当前兴趣的方法和系统
CN107330023A (zh) * 2017-06-21 2017-11-07 北京百度网讯科技有限公司 基于关注点的文本内容推荐方法和装置
CN108304466A (zh) * 2017-12-27 2018-07-20 中国银联股份有限公司 一种用户意图识别方法以及用户意图识别系统
CN108268617A (zh) * 2018-01-05 2018-07-10 阿里巴巴集团控股有限公司 用户意图确定方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680514A (zh) * 2019-02-25 2020-09-18 北京猎户星空科技有限公司 信息处理和模型训练方法、装置、设备及存储介质
CN111680514B (zh) * 2019-02-25 2024-03-01 北京猎户星空科技有限公司 信息处理和模型训练方法、装置、设备及存储介质
CN109979462A (zh) * 2019-03-21 2019-07-05 广东小天才科技有限公司 一种结合上下文语境获取意图的方法和系统
CN110909122A (zh) * 2019-10-10 2020-03-24 重庆金融资产交易所有限责任公司 一种信息处理方法及相关设备
CN110909122B (zh) * 2019-10-10 2023-10-03 湖北华中电力科技开发有限责任公司 一种信息处理方法及相关设备
CN111078546A (zh) * 2019-12-05 2020-04-28 北京云聚智慧科技有限公司 一种表达页面特征的方法和电子设备
CN113377972A (zh) * 2020-03-09 2021-09-10 北京达佳互联信息技术有限公司 多媒体内容推荐方法、装置、计算设备和存储介质
CN111859913A (zh) * 2020-06-12 2020-10-30 北京百度网讯科技有限公司 风控特征因子的处理方法、装置、电子设备及存储介质
CN111859913B (zh) * 2020-06-12 2024-04-12 北京百度网讯科技有限公司 风控特征因子的处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109087135A (zh) 用户意图的挖掘方法及装置、计算机设备及可读介质
CN109214417A (zh) 用户意图的挖掘方法及装置、计算机设备及可读介质
JP6361351B2 (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
CN108170859A (zh) 语音查询的方法、装置、存储介质及终端设备
CN109196496A (zh) 未知词预测器和内容整合的翻译器
CN109214418A (zh) 用户意图的挖掘方法及装置、计算机设备及可读介质
CN110347790B (zh) 基于注意力机制的文本查重方法、装置、设备及存储介质
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN111931488A (zh) 用于验证判断结果准确性的方法、装置、电子设备及介质
CN110325987A (zh) 语境语音驱动深度书签
CN109710951A (zh) 基于翻译历史的辅助翻译方法、装置、设备及存储介质
CN109214856A (zh) 用户意图的挖掘方法及装置、计算机设备及可读介质
CN106503907A (zh) 一种业务评估信息确定方法以及服务器
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN108319586A (zh) 一种信息提取规则的生成和语义解析方法及装置
CN107169011A (zh) 基于人工智能的网页原创性识别方法、装置及存储介质
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN116975349A (zh) 图像检索方法、装置、电子设备及存储介质
CN116662495A (zh) 问答处理方法、训练问答处理模型的方法及装置
CN110110218A (zh) 一种身份关联方法及终端
CN105069034A (zh) 一种生成推荐信息的方法及装置
CN113569118B (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN108268602A (zh) 分析文本话题点的方法、装置、设备和计算机存储介质
CN111382563A (zh) 文本相关性的确定方法及装置
CN111813936A (zh) 基于深度学习的新闻资讯呈现方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190115

RJ01 Rejection of invention patent application after publication