CN111859148A - 主题的提取方法、装置、设备及计算机可读存储介质 - Google Patents
主题的提取方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111859148A CN111859148A CN202010756727.8A CN202010756727A CN111859148A CN 111859148 A CN111859148 A CN 111859148A CN 202010756727 A CN202010756727 A CN 202010756727A CN 111859148 A CN111859148 A CN 111859148A
- Authority
- CN
- China
- Prior art keywords
- search
- conversation
- topic
- determining
- session
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 49
- 238000009826 distribution Methods 0.000 claims abstract description 55
- 238000000034 method Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000000875 corresponding effect Effects 0.000 description 72
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000002596 correlated effect Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及金融科技技术领域,公开了一种主题的提取方法、装置、设备及计算机可读存储介质。主题的提取方法包括:获取搜索日志信息以及各个搜索语句;根据各个所述搜索语句在所述搜索日志信息中确定会话,其中,所述会话中的各个所述搜索语句语义关联;通过主题模型确定所述会话的主题分布,并根据所述主题分布确定所述会话对应的统一资源定位符;根据所述会话对应的统一资源定位符,在所述会话对应的各个主题中提取目标主题。本发明提高了主题提取的准确性。
Description
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及一种主题的提取方法、装置、设备及计算机可读存储介质。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。
搜索日志信息中隐含的主题可以用于搜索引擎的功能,例如,研究人员将隐含主题应用在搜索引擎中拼写更正和搜索个性化等功能当中,也即搜索日志信息是一个非常价值的改善搜索引擎的搜索效果的信息库。
然而,现有挖掘隐含主题的方案针对整个日志信息进行隐含主题的全局查找,但是日志信息中某些主题并不相关,导致主题提取的不够准确。
发明内容
本发明的主要目的在于提供一种主题的提取方法、装置、设备及计算机可读存储介质,旨在解决主题提取的不够准确的问题。
为实现上述目的,本发明提供一种主题的提取方法,所述主题的提取方法包括:
获取搜索日志信息以及各个搜索语句;
根据各个所述搜索语句在所述搜索日志信息中确定会话,其中,所述会话中的各个所述搜索语句语义关联;
通过主题模型确定所述会话的主题分布,并根据所述主题分布确定所述会话对应的统一资源定位符;
根据所述会话对应的统一资源定位符,在所述会话对应的各个主题中提取目标主题。
可选地,所述根据各个所述搜索语句在所述搜索日志信息中确定会话的步骤包括:
在所述搜索日志信息中,确定相邻的搜索语句对应的参考参数,所述参考参数包括相邻的搜索语句的关键词以及相邻的搜索语句的语义相似度中的至少一个;
根据满足语义条件的所述参考参数对应的相邻的搜索语句,在所述搜索日志信息中提取会话,所述会话中的各个所述搜索语句依次相邻且语义关联。
可选地,所述根据满足语义条件的所述参考参数对应的相邻的搜索语句,在所述搜索日志信息中提取会话的步骤包括:
在所述搜索日志信息中,确定相邻的搜索语句的搜索时间点之间的间隔时长;
根据所述间隔时长以及满足语义条件的所述参考参数对应的相邻的搜索语句,在所述搜索日志信息中提取会话,其中,所述会话中的各个所述搜索语句依次相邻且语义关联,所述会话中相邻的搜索语句对应的间隔时长小于预设时长。
可选地,所述预设条件包括以下至少一种:
相邻的所述搜索语句的语义相似度大于预设相似度;
相邻的所述搜索语句中的关键词相同。
可选地,所述根据所述主题分布确定所述会话对应的统一资源定位符的步骤包括:
根据所述主题分布,确定所述会话中各个主题对应的边缘概率;
根据所述会话对应的边缘概率确定所述会话对应的统一资源定位符。
可选地,所述根据所述主题分布,确定所述会话中各个主题对应的边缘概率的步骤之前,还包括:
确定所述会话是否关联点击操作记录;
在确定所述会话关联点击操作记录时,执行所述根据所述主题分布,确定所述会话中各个主题对应的边缘概率的步骤。
可选地,所述通过主题模型确定所述会话的主题分布的步骤之前,还包括:
获取各个文档信息,所述文档信息包括标签,所述标签包括文档信息的主题分布标签、词分布标签以及统一资源定位符分布标签;
将各个所述文档信息输入预设模型,以对所述预设模型进行训练;
在所述预设模型的收敛值小于预设收敛值时,停止对所述预设模型的训练,并将停止训练的所述预设模型保存为主题模型。
可选地,所述获取搜索日志信息以及各个搜索语句的步骤包括:
获取搜索日志信息,并确定所述搜索日志信息对应的搜索引擎;
获取所述搜索引擎的搜索记录,并根据所述搜索记录确定所述搜索语句。
可选地,所述根据所述会话对应的统一资源定位符,在所述会话对应的各个主题中提取目标主题的步骤包括:
根据所述会话对应的统一资源定位符,对所述会话进行参数推断得到所述会话中各个主题的概率;
确定所述会话中最大概率的主题以作为目标主题,并在所述会话中提取目标主题。
可选地,在所述搜索日志信息提取会话为多个时,对各个所述会话的参数推断进行并行处理。
为实现上述目的,本发明还提供一种主题的提取装置,所述主题的提取装置包括:
获取模块,用于获取搜索日志信息以及各个搜索语句;
确定模块,用于根据各个所述搜索语句在所述搜索日志信息中确定会话,其中,所述会话中的各个所述搜索语句语义关联;
所述确定模块,还用于通过主题模型确定所述会话的主题分布,并根据所述主题分布确定所述会话对应的统一资源定位符;
提取模块,用于根据所述会话对应的统一资源定位符,在所述会话对应的各个主题中提取目标主题。
为实现上述目的,本发明还提供一种主题的提取设备,所述主题的提取设备包括:主题模型、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的提取程序,所述主题模型与所述处理器连接,所述提取程序被所述处理器执行时实现如上所述的主题的提取方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有提取程序,所述提取程序被处理器执行时实现如上所述的主题的提取方法的步骤。
本发明提供一种主题的提取方法、装置、设备及计算机可读存储介质,。本发明将搜索日志信息拆分成具有语义关联的各个搜索语句的会话,且通过主题模型确定会话的主题分布,进而基于主题分布确定会话的统一资源定位符以对会话中的各个主题进行准确的定位,最后从会话的各个主题中准确的提取目标主题。与目前对整个日志信息进行隐含主题的全局查找并提取相比,本发明能够将语义关联的搜索语句归为一个会话,使得会话中的各个主题均相关,进而使得从会话中提取的任意主题均能够表征该会话的隐含主题信息,克服了现有技术中日志信息中主题信息不相关导致主题提取不够准确的缺陷,提高了主题提取的准确性。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的设备的结构示意图;
图2为本发明主题的提取方法第一实施例的流程示意图;
图3为本发明主题的提取装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例所涉及的设备是接主题的提取装置。
如图1所示,该接主题的提取装置可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的接主题的提取装置结构并不构成对接主题的提取装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及提取程序。
在图1所示的终端中,网络接口1004主要用于连接服务器,与服务器进行数据通信;用户接口1003主要用于连接客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的提取程序,并执行以下操作:
获取搜索日志信息以及各个搜索语句;
根据各个所述搜索语句在所述搜索日志信息中确定会话,其中,所述会话中的各个所述搜索语句语义关联;
通过主题模型确定所述会话的主题分布,并根据所述主题分布确定所述会话对应的统一资源定位符;
根据所述会话对应的统一资源定位符,在所述会话对应的各个主题中提取目标主题。
在一实施例中,处理器1001可以调用存储器1005中存储的提取程序,还执行以下操作:
在所述搜索日志信息中,确定相邻的搜索语句对应的参考参数,所述参考参数包括相邻的搜索语句的关键词以及相邻的搜索语句的语义相似度中的至少一个;
根据满足语义条件的所述参考参数对应的相邻的搜索语句,在所述搜索日志信息中提取会话,所述会话中的各个所述搜索语句依次相邻且语义关联。
在一实施例中,处理器1001可以调用存储器1005中存储的提取程序,还执行以下操作:
在所述搜索日志信息中,确定相邻的搜索语句的搜索时间点之间的间隔时长;
根据所述间隔时长以及满足语义条件的所述参考参数对应的相邻的搜索语句,在所述搜索日志信息中提取会话,其中,所述会话中的各个所述搜索语句依次相邻且语义关联,所述会话中相邻的搜索语句对应的间隔时长小于预设时长。
在一实施例中,处理器1001可以调用存储器1005中存储的提取程序,还执行以下操作:
相邻的所述搜索语句的语义相似度大于预设相似度;
相邻的所述搜索语句中的关键词相同。
在一实施例中,处理器1001可以调用存储器1005中存储的提取程序,还执行以下操作:
根据所述主题分布,确定所述会话中各个主题对应的边缘概率;
根据所述会话对应的边缘概率确定所述会话对应的统一资源定位符。
在一实施例中,处理器1001可以调用存储器1005中存储的提取程序,还执行以下操作:
确定所述会话是否关联点击操作记录;
在确定所述会话关联点击操作记录时,执行所述根据所述主题分布,确定所述会话中各个主题对应的边缘概率的步骤。
在一实施例中,处理器1001可以调用存储器1005中存储的提取程序,还执行以下操作:
获取各个文档信息,所述文档信息包括标签,所述标签包括文档信息的主题分布标签、词分布标签以及统一资源定位符分布标签;
将各个所述文档信息输入预设模型,以对所述预设模型进行训练;
在所述预设模型的收敛值小于预设收敛值时,停止对所述预设模型的训练,并将停止训练的所述预设模型保存为主题模型。
在一实施例中,处理器1001可以调用存储器1005中存储的提取程序,还执行以下操作:
获取搜索日志信息,并确定所述搜索日志信息对应的搜索引擎;
获取所述搜索引擎的搜索记录,并根据所述搜索记录确定所述搜索语句。
在一实施例中,处理器1001可以调用存储器1005中存储的提取程序,还执行以下操作:
根据所述会话对应的统一资源定位符,对所述会话进行参数推断得到所述会话中各个主题的概率;
确定所述会话中最大概率的主题以作为目标主题,并在所述会话中提取目标主题。
在一实施例中,处理器1001可以调用存储器1005中存储的提取程序,还执行以下操作:
在所述搜索日志信息提取会话为多个时,对各个所述会话的参数推断进行并行处理。
基于上述硬件结构,提出本发明主题的提取方法的各实施例。
参照图2,图2为本发明主题的提取方法第一实施例的流程示意图,所述主题的提取方法包括:
步骤S10,获取搜索日志信息以及各个搜索语句;
在本实施例中,执行主体为主题的提取装置,为了便于描述,以下采用装置指代主体的提取装置。装置可以收集搜索日志信息,搜索日志信息为用户在使用具有搜索引擎的应用程序所产生的日志。搜索日志信息中包括了搜索语句,搜索语句可以是用户在应用程序的搜索界面上输入的语句。此类语句被应用程序所记录,并形成搜索操作记录,再将搜索操作记录发送至装置。装置将搜索操作记录与应用程序进行关联存储。搜索操作记录仅包含有搜索语句。
装置在需要提取主题时,获取搜索日志信息,并确定产生搜索日志信息的应用程序,也即确定产生搜索日志信息的搜索引擎,再确定搜索引擎对应的搜索记录,从而根据搜索记录确定搜索语句。搜索语句可以是一句话或者一个词语。
步骤S20,根据各个所述搜索语句在所述搜索日志信息中确定会话,其中,所述会话中的各个所述搜索语句语义关联;
装置在确定搜索语句后,即可在搜索日志信息中确定会话。具体的,搜索日志信息中分布有各个搜索语句,每一个搜索语句在搜索日志信息中具有对应的位置,该位置体现了搜索语句之间的相邻关系。
装置先在搜索日志信息中将各个搜索语句进行标记。装置再根据标记确定相邻的搜索语句的参考参数。参考参数包括相邻的搜索语句之间的语义相似度以及相邻的搜索语句的语义相似度中的至少一个。装置会确定两个相邻的搜索语句的参考参数是否满足语义条件,若满足语义条件,即可确定相邻的两个的搜索语句位于同一个会话中,也即每两个相邻的搜索语句满足语义条件,则将相邻的搜索语句归为一个会话中。可以理解的是,装置根据满足语义条件的所述参考参数对应的相邻的搜索语句,在所述搜索日志信息中提取各个会话,会话中的各个搜索语句依次相邻且需语义关联。
语义条件包括:相邻的所述搜索语句的语义相似度大于预设相似度以及相邻的所述搜索语句中的关键词相同中的至少一个。装置中设有计算语义相似度的模型,装置将相邻的搜索语句输入至模型,模型通过对相邻的搜索语句进行语义分析,从而计算得到相邻的搜索语句的语义相似度,也即装置获取模型输出的语义相似度。装置可以提取搜索语句对应的关键词,关键词可以为搜索语句中的专有名词,例如,搜索语句为“查询去往成都的高铁”,则关键词可以是专有名词“成都”以及“高铁”。装置可以确定每个搜索语句对应的关键词,如果相邻的搜索语句的关键词相同,则相邻的搜索语句语义关联。当然,如果搜索语句有3个或者3个以上的关键词,那么相邻的搜索语句相同的关键词应大于一个,此时,才可认定相邻的搜索语句语音关联。例如,A搜索语句具有abc三个关键词,与A搜索语句相邻的B搜索语句有ab两个关键词,则A搜索语句与B搜索语句具有ab两个相同的关键词,可以认为两者语义关联。
装置依次确定相邻的搜索语句的参考参数是否满足语义条件,若前一个相邻的搜索语句的参考参数满足语义条件,且当前相邻的搜索语句的参考参数满足语义条件,则上述三个搜索语句属于同一个会话。若前一个相邻的搜索语句的参考参数满足语义条件,且当前相邻的搜索语句的参考参数不满足语义条件,则将新的搜索语句划分至新的会话中。例如,前一个相邻的搜索语句为AB,而当前相邻的搜索语句为BC,则C为新的搜索语句。装置根据此种方式即可以确定多个会话,也即装置根据会话中的搜索语句依次相邻且语义关联的特性,在搜索日志信息中提取会话。需要说明的是,在确定会话时,还需要考虑相邻的搜索语句的间隔时长。若是间隔时长较长,即可确定相邻的两个搜索语句属于不同的会话。对此,装置确定相邻的搜索语句的搜索时间点之间的间隔时长,从而根据间隔时长以及满载语义条件的参考参数对应的相邻搜索语句,在搜索日志信息中提取各个会话。具体的,搜索语句关联有对应的搜索时间点,装置根据搜索时间点即可确定相邻的搜索语句之间的间隔时长。装置在获得间隔时长后,判断间隔时长是否小于预设时长,预设时长可以为任意合数的数值,例如,预设时长可为30分钟。若是间隔时长小于预设时长,装置则获取相邻的搜索语句的参考参数,在根据参考参数以及语义条件确定相邻的搜索语句是否处于同一会话。若是间隔时长大于或等于预设时长,即可直接确定相邻的两个搜索语句是处于不同的会话。当然,装置可以先根据参考参数确定各个会话,再对每个会话中的相邻的搜索语句进行间隔时长的判断,从而从确定好的会话中重新分裂出新的会话。
步骤S30,通过主题模型确定所述会话的主题分布,并根据所述主题分布确定所述会话对应的统一资源定位符;
装置中设有主题模型,主题模型可以生成每个会话对应的主题分别。主题模型可以训练得到。具体的,装置获取多个文档信息,文档信息包括标签,标签包括文档信息中主题分布标签、词分布标签以及统一资源定位符标签。
装置将包含有标签的文档信息输入至预设模型以对预设模型进行训练,在当预设模型的收敛值小于预设收敛值,即可停止预设模型的训练,并将停止训练的预设模型保存为主题模型。
主题模型先生成每个文档的主题分布theta,然后针对每个会话,装置可以根据会话的主题分布确定该会话的各个主题。装置可以根据会话的主题分布确定会话中各个主题z对应的边缘概率P(z|theta)。具体的,装置根据主题分布确定主题在会话中的位置,然后随机为每个位置选择一个边缘概率,选择的边缘概率即为该位置所对应的主题的边缘概率。主题分布可以理解为主题在会话中的位置,因而装置可以直接根据主题分布确定会话中各个主题的位置。而随机选择的边缘概率可以是预先设置的,也可以是即时生成的。随机选择的方式可以是骰子投掷,也即骰子的每一面或者每个点数关联一个预设的边缘概率,骰子投掷后所呈现的面或者点数关联的边缘概率即为位置对应的边缘概率。
装置在确定会话中各个主题对应的边缘概率后,即可以根据会话对应的边缘概率确定会话对应的统一资源定位符。具体的,会话一般具有用户的点击行为,点击行为可以理解为输入框中搜索语句的点击搜索动作,点击行为被记录于点击操作记录中,且点击操作记录可与搜索语句关联,因而点击操作记录与会话关联。点击操作记录中包括用户对搜索语句的点击操作,若是会话关联点击操作记录,则随机在该会话中确定一个主题,并根据该主题的边缘概率获取统一资源定位符P(URL|Z)。
具体的,装置内存储有多个统一资源定位符P以及多个对应关系,对应关系为骰子的面与统一资源定位符P之间的关系。装置在确定会话关联有点击操作记录时,获取随机确定的主题的边缘概率,再通过边缘概率确定骰子投掷后所呈现的面(边缘概率通过骰子投掷后所呈现的面确定,具体参照上述说明),进而提取该面的对应关系,最终通过对应关系以及骰子投掷后所呈现的面得到统一资源定位符P,得到的统一资源定位符P即为会话对应的会话的统一资源定位符P。
可以理解的是,在会话关联点击操作记录时,根据所述主题分布,确定所述会话中各个主题对应的边缘概率,并根据会话对应的边缘概率确定会话对应的统一资源定位符。装置根据此种方式,对具有点击行为的会话生成统一资源定位符。
步骤S40,根据所述会话对应的统一资源定位符,在所述会话对应的各个主题中提取目标主题。
在确定统一资源定位符后,装置可以根据统一资源定位符定位会话中各个主题的位置,从而在会话中提取目标主题。需要说明的是,由于会话中各个搜索语句语义关联,因而每个主题都可以表征该会话的隐含主题,因而目标主题可以是会话中任意一个主题。
此外,装置可以确定概率最大的主题作为目标主题,概率最大的主题即为最贴切会话的隐含主题。对此,装置在计算得到会话的统一资源定位符后,通过变分推断(Varitional Inference)的方式对会话进行参数推断,得到会话中各个主题的概率,装置再在每个会话中提取最大概率的主题以作为目标主题。此外,参数推断过程需要进行多个参数的迭代计算,导致参数推断的计算工作量较大,且搜索日志信息一般被分割为多个会话,装置会对各个会话的参数推断进行并行处理,以减少工作量具体的,装置采用MapReduce的计算框架利用多台机器并行进行变分推断,由采用了多个机器并行处理训练数据,训练的效率可以得到有效增强,也即降低了多个会话的参数推断的工作量。
在本实施例提供的技术方案中,装置将搜索日志信息拆分成具有语义关联的各个搜索语句的会话,且通过主题模型确定会话的主题分布,进而基于主题分布确定会话的统一资源定位符以对会话中的各个主题进行准确的定位,最后从会话的各个主题中准确的提取目标主题。与目前对整个日志信息进行隐含主题的全局查找并提取相比,本发明能够将语义关联的搜索语句归为一个会话,使得会话中的各个主题均相关,进而使得从会话中提取的任意主题均能够表征该会话的隐含主题信息,克服了现有技术中日志信息中主题信息不相关导致主题提取不够准确的缺陷,提高了主题提取的准确性。
本发明还提供一种主题的提取装置。
参照图3,图3为本发明主题的提取装置第一实施例的功能模块示意图。
如图3所示,所述主题的提取装置包括:
获取模块10,用于获取搜索日志信息以及各个搜索语句;
确定模块20,用于根据各个所述搜索语句在所述搜索日志信息中确定会话,其中,所述会话中的各个所述搜索语句语义关联;
所述确定模块20,还用于通过主题模型确定所述会话的主题分布,并根据所述主题分布确定所述会话对应的统一资源定位符;
提取模块30,用于根据所述会话对应的统一资源定位符,在所述会话对应的各个主题中提取目标主题。
在一实施例中,所述主题的提取装置包括:
所述确定模块20,还用于在所述搜索日志信息中,确定相邻的搜索语句对应的参考参数,所述参考参数包括相邻的搜索语句的关键词以及相邻的搜索语句的语义相似度中的至少一个;
所述提取模块30,还用于根据满足语义条件的所述参考参数对应的相邻的搜索语句,在所述搜索日志信息中提取会话,所述会话中的各个所述搜索语句依次相邻且语义关联。
在一实施例中,所述主题的提取装置包括:
所述确定模块20,还用于在所述搜索日志信息中,确定相邻的搜索语句的搜索时间点之间的间隔时长;
所述提取模块30,还用于根据所述间隔时长以及满足语义条件的所述参考参数对应的相邻的搜索语句,在所述搜索日志信息中提取会话,其中,所述会话中的各个所述搜索语句依次相邻且语义关联,所述会话中相邻的搜索语句对应的间隔时长小于预设时长。
在一实施例中,所述主题的提取装置包括:
所述确定模块20,还用于根据所述主题分布,确定所述会话中各个主题对应的边缘概率;
所述确定模块20,还用于根据所述会话对应的边缘概率确定所述会话对应的统一资源定位符。
在一实施例中,所述主题的提取装置包括:
确定模块,用于确定所述会话是否关联点击操作记录;
执行模块,用于在确定所述会话关联点击操作记录时,执行所述根据所述主题分布,确定所述会话中各个主题对应的边缘概率的步骤。
在一实施例中,所述主题的提取装置还包括获取模块、输入模块以及保存模块:
获取模块,用于获取各个文档信息,所述文档信息包括标签,所述标签包括文档信息的主题分布标签、词分布标签以及统一资源定位符分布标签;
输入模块,用于将各个所述文档信息输入预设模型,以对所述预设模型进行训练;
保存模块,用于在所述预设模型的收敛值小于预设收敛值时,停止对所述预设模型的训练,并将停止训练的所述预设模型保存为主题模型。
在一实施例中,所述主题的提取装置还包括:
获取模块,用于获取搜索日志信息,并确定所述搜索日志信息对应的搜索引擎;
获取模块,用于获取所述搜索引擎的搜索记录,并根据所述搜索记录确定所述搜索语句。
在一实施例中,所述主题的提取装置还包括推断模块:
推断模块,用于根据所述会话对应的统一资源定位符,对所述会话进行参数推断得到所述会话中各个主题的概率;
确定模块,用于确定所述会话中最大概率的主题以作为目标主题,并在所述会话中提取目标主题。
在一实施例中,所述主题的提取装置还包括处理模块:
处理模块,用于在所述搜索日志信息提取会话为多个时,对各个所述会话的参数推断进行并行处理。
其中,上述主题的提取装置中各个模块的功能实现与上述主题的提取方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有提取程序,所述提取程序被处理器执行时实现如以上任一项实施例所述的主题的提取方法的步骤。
本发明计算机可读存储介质的具体实施例与上述主题的提取方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (13)
1.一种主题的提取方法,其特征在于,所述主题的提取方法包括:
获取搜索日志信息以及各个搜索语句;
根据各个所述搜索语句在所述搜索日志信息中确定会话,其中,所述会话中的各个所述搜索语句语义关联;
通过主题模型确定所述会话的主题分布,并根据所述主题分布确定所述会话对应的统一资源定位符;
根据所述会话对应的统一资源定位符,在所述会话对应的各个主题中提取目标主题。
2.如权利要求1所述的主题的提取方法,其特征在于,所述根据各个所述搜索语句在所述搜索日志信息中确定会话的步骤包括:
在所述搜索日志信息中,确定相邻的搜索语句对应的参考参数,所述参考参数包括相邻的搜索语句的关键词以及相邻的搜索语句的语义相似度中的至少一个;
根据满足语义条件的所述参考参数对应的相邻的搜索语句,在所述搜索日志信息中提取会话,所述会话中的各个所述搜索语句依次相邻且语义关联。
3.如权利要求2所述的主题的提取方法,其特征在于,所述根据满足语义条件的所述参考参数对应的相邻的搜索语句,在所述搜索日志信息中提取会话的步骤包括:
在所述搜索日志信息中,确定相邻的搜索语句的搜索时间点之间的间隔时长;
根据所述间隔时长以及满足语义条件的所述参考参数对应的相邻的搜索语句,在所述搜索日志信息中提取会话,其中,所述会话中的各个所述搜索语句依次相邻且语义关联,所述会话中相邻的搜索语句对应的间隔时长小于预设时长。
4.如权利要求2所述的主题的提取方法,其特征在于,所述预设条件包括以下至少一种:
相邻的所述搜索语句的语义相似度大于预设相似度;
相邻的所述搜索语句中的关键词相同。
5.如权利要求1所述的主题的提取方法,其特征在于,所述根据所述主题分布确定所述会话对应的统一资源定位符的步骤包括:
根据所述主题分布,确定所述会话中各个主题对应的边缘概率;
根据所述会话对应的边缘概率确定所述会话对应的统一资源定位符。
6.如权利要求5所述的主题的提取方法,其特征在于,所述根据所述主题分布,确定所述会话中各个主题对应的边缘概率的步骤之前,还包括:
确定所述会话是否关联点击操作记录;
在确定所述会话关联点击操作记录时,执行所述根据所述主题分布,确定所述会话中各个主题对应的边缘概率的步骤。
7.如权利要求1所述的主题的提取方法,其特征在于,所述通过主题模型确定所述会话的主题分布的步骤之前,还包括:
获取各个文档信息,所述文档信息包括标签,所述标签包括文档信息的主题分布标签、词分布标签以及统一资源定位符分布标签;
将各个所述文档信息输入预设模型,以对所述预设模型进行训练;
在所述预设模型的收敛值小于预设收敛值时,停止对所述预设模型的训练,并将停止训练的所述预设模型保存为主题模型。
8.如权利要求1所述的主题的提取方法,其特征在于,所述获取搜索日志信息以及各个搜索语句的步骤包括:
获取搜索日志信息,并确定所述搜索日志信息对应的搜索引擎;
获取所述搜索引擎的搜索记录,并根据所述搜索记录确定所述搜索语句。
9.如权利要求1-8任一项所述的主题的提取方法,其特征在于,所述根据所述会话对应的统一资源定位符,在所述会话对应的各个主题中提取目标主题的步骤包括:
根据所述会话对应的统一资源定位符,对所述会话进行参数推断得到所述会话中各个主题的概率;
确定所述会话中最大概率的主题以作为目标主题,并在所述会话中提取目标主题。
10.如权利要求9所述的主题的提取方法,其特征在于,所述对所述会话进行参数推断得到所述会话中各个主题的概率,包括:
在所述搜索日志信息提取会话为多个时,对各个所述会话的参数推断进行并行处理,得到所述会话中各个主题的概率。
11.一种主题的提取装置,其特征在于,所述主题的提取装置包括:
获取模块,用于获取搜索日志信息以及各个搜索语句;
确定模块,用于根据各个所述搜索语句在所述搜索日志信息中确定会话,其中,所述会话中的各个所述搜索语句语义关联;
所述确定模块,还用于通过主题模型确定所述会话的主题分布,并根据所述主题分布确定所述会话对应的统一资源定位符;
提取模块,用于根据所述会话对应的统一资源定位符,在所述会话对应的各个主题中提取目标主题。
12.一种主题的提取设备,其特征在于,所述主题的提取设备包括:主题模型、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的提取程序,所述主题模型与所述处理器连接,所述提取程序被所述处理器执行时实现如权利要求1至10中任一项所述的主题的提取方法的步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有提取程序,所述提取程序被处理器执行时实现如权利要求1至10中任一项所述的主题的提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010756727.8A CN111859148A (zh) | 2020-07-30 | 2020-07-30 | 主题的提取方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010756727.8A CN111859148A (zh) | 2020-07-30 | 2020-07-30 | 主题的提取方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111859148A true CN111859148A (zh) | 2020-10-30 |
Family
ID=72952667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010756727.8A Pending CN111859148A (zh) | 2020-07-30 | 2020-07-30 | 主题的提取方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111859148A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114168810A (zh) * | 2021-11-19 | 2022-03-11 | 北京达佳互联信息技术有限公司 | 搜索意图确定方法、装置、设备以及存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1645370A (zh) * | 2004-01-23 | 2005-07-27 | 微软公司 | 为聚焦的搜索构建并使用子网 |
US20090063461A1 (en) * | 2007-03-01 | 2009-03-05 | Microsoft Corporation | User query mining for advertising matching |
CN101599071A (zh) * | 2009-07-10 | 2009-12-09 | 华中科技大学 | 对话文本主题的自动提取方法 |
CN102332006A (zh) * | 2011-08-03 | 2012-01-25 | 百度在线网络技术(北京)有限公司 | 一种信息推送控制方法及装置 |
CN103268348A (zh) * | 2013-05-28 | 2013-08-28 | 中国科学院计算技术研究所 | 一种用户查询意图识别方法 |
CN103744970A (zh) * | 2014-01-10 | 2014-04-23 | 北京奇虎科技有限公司 | 一种确定图片的主题词的方法及装置 |
CN104050235A (zh) * | 2014-03-27 | 2014-09-17 | 浙江大学 | 基于集合选择的分布式信息检索方法 |
US20140280150A1 (en) * | 2013-03-15 | 2014-09-18 | Xerox Corporation | Multi-source contextual information item grouping for document analysis |
US20160203140A1 (en) * | 2015-01-14 | 2016-07-14 | General Electric Company | Method, system, and user interface for expert search based on case resolution logs |
CN106407169A (zh) * | 2016-09-09 | 2017-02-15 | 北京工商大学 | 一种基于主题模型的文档标注方法 |
CN106649818A (zh) * | 2016-12-29 | 2017-05-10 | 北京奇虎科技有限公司 | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 |
CN106708803A (zh) * | 2016-12-21 | 2017-05-24 | 东软集团股份有限公司 | 一种特征提取方法及装置 |
WO2018036555A1 (zh) * | 2016-08-25 | 2018-03-01 | 腾讯科技(深圳)有限公司 | 会话处理方法及装置 |
CN110083774A (zh) * | 2019-05-10 | 2019-08-02 | 腾讯科技(深圳)有限公司 | 应用推荐列表的确定方法、装置、计算机设备及存储介质 |
-
2020
- 2020-07-30 CN CN202010756727.8A patent/CN111859148A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1645370A (zh) * | 2004-01-23 | 2005-07-27 | 微软公司 | 为聚焦的搜索构建并使用子网 |
US20090063461A1 (en) * | 2007-03-01 | 2009-03-05 | Microsoft Corporation | User query mining for advertising matching |
CN101599071A (zh) * | 2009-07-10 | 2009-12-09 | 华中科技大学 | 对话文本主题的自动提取方法 |
CN102332006A (zh) * | 2011-08-03 | 2012-01-25 | 百度在线网络技术(北京)有限公司 | 一种信息推送控制方法及装置 |
US20140280150A1 (en) * | 2013-03-15 | 2014-09-18 | Xerox Corporation | Multi-source contextual information item grouping for document analysis |
CN103268348A (zh) * | 2013-05-28 | 2013-08-28 | 中国科学院计算技术研究所 | 一种用户查询意图识别方法 |
CN103744970A (zh) * | 2014-01-10 | 2014-04-23 | 北京奇虎科技有限公司 | 一种确定图片的主题词的方法及装置 |
CN104050235A (zh) * | 2014-03-27 | 2014-09-17 | 浙江大学 | 基于集合选择的分布式信息检索方法 |
US20160203140A1 (en) * | 2015-01-14 | 2016-07-14 | General Electric Company | Method, system, and user interface for expert search based on case resolution logs |
WO2018036555A1 (zh) * | 2016-08-25 | 2018-03-01 | 腾讯科技(深圳)有限公司 | 会话处理方法及装置 |
CN106407169A (zh) * | 2016-09-09 | 2017-02-15 | 北京工商大学 | 一种基于主题模型的文档标注方法 |
CN106708803A (zh) * | 2016-12-21 | 2017-05-24 | 东软集团股份有限公司 | 一种特征提取方法及装置 |
CN106649818A (zh) * | 2016-12-29 | 2017-05-10 | 北京奇虎科技有限公司 | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 |
CN110083774A (zh) * | 2019-05-10 | 2019-08-02 | 腾讯科技(深圳)有限公司 | 应用推荐列表的确定方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
周雨佳 等: "基于递归神经网络与注意力机制的动态个性化搜索算法", 计算机学报, vol. 43, no. 5, 31 May 2020 (2020-05-31), pages 812 - 826 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114168810A (zh) * | 2021-11-19 | 2022-03-11 | 北京达佳互联信息技术有限公司 | 搜索意图确定方法、装置、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765244B (zh) | 获取应答话术的方法、装置、计算机设备及存储介质 | |
US12050648B2 (en) | Method and system for generating a conversational agent by automatic paraphrase generation based on machine translation | |
US11645517B2 (en) | Information processing method and terminal, and computer storage medium | |
US9582757B1 (en) | Scalable curation system | |
KR102316063B1 (ko) | 오디오 중의 키 프레이즈를 인식하기 위한 방법과 장치, 기기 및 매체 | |
WO2017181834A1 (zh) | 一种智能问答方法及装置 | |
CN109408821B (zh) | 一种语料生成方法、装置、计算设备及存储介质 | |
CN111368043A (zh) | 基于人工智能的事件问答方法、装置、设备及存储介质 | |
US11238050B2 (en) | Method and apparatus for determining response for user input data, and medium | |
CN106407393B (zh) | 一种用于智能设备的信息处理方法及装置 | |
CN112651236B (zh) | 提取文本信息的方法、装置、计算机设备和存储介质 | |
CN110287318B (zh) | 业务操作的检测方法及装置、存储介质、电子装置 | |
CN113343108B (zh) | 推荐信息处理方法、装置、设备及存储介质 | |
CN111159334A (zh) | 用于房源跟进信息处理的方法及系统 | |
CN112966076A (zh) | 智能问答问题的生成方法、装置、计算机设备及存储介质 | |
CN114242047B (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN109033082B (zh) | 语义模型的学习训练方法、装置及计算机可读存储介质 | |
CN113220854B (zh) | 机器阅读理解的智能对话方法及装置 | |
CN106407332B (zh) | 基于人工智能的搜索方法和装置 | |
CN111859148A (zh) | 主题的提取方法、装置、设备及计算机可读存储介质 | |
CN109684357B (zh) | 信息处理方法及装置、存储介质、终端 | |
CN110647537A (zh) | 数据搜索方法、装置及存储介质 | |
CN114547059A (zh) | 平台数据的更新处理方法、装置及计算机设备 | |
CN114281969A (zh) | 答复语句推荐方法、装置、电子设备及存储介质 | |
CN110347818B (zh) | 分词统计方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |