CN109033244B - 搜索结果排序方法和装置 - Google Patents
搜索结果排序方法和装置 Download PDFInfo
- Publication number
- CN109033244B CN109033244B CN201810729232.9A CN201810729232A CN109033244B CN 109033244 B CN109033244 B CN 109033244B CN 201810729232 A CN201810729232 A CN 201810729232A CN 109033244 B CN109033244 B CN 109033244B
- Authority
- CN
- China
- Prior art keywords
- candidate
- question
- search
- answer
- relevance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提出一种搜索结果排序方法和装置。该方法包括:从第一排序结果中获取用户请求和候选结果,用户请求中包括搜索问题,候选结果中包括候选问题和每个候选问题对应的候选答案;获取搜索问题与候选问题的第一相关性指标;获取搜索问题与候选答案的第二相关性指标;根据第一相关性指标和第二相关性指标,对第一排序结果进行重排序,得到第二排序结果。因为在第二排序中加入了更多特定的相关性指标,从而使排序结果不受单一排序方法的限定,可以更好更方便地提供精准的回答排序以及处理一些特定的问题。
Description
技术领域
本发明涉及自动问答技术领域,尤其涉及一种搜索结果排序方法和装置。
背景技术
随着互联网的快速发展,出现了大量的与医疗知识方面相关的搜索需求。针对这些搜索需求,衍生出了医疗智能问答服务。
在医疗自动问答中,因为涉及到医疗的特殊性和回答的严谨性,现有主要的方法是对已有回答内容进行相关性排序给出答案。然而这些依靠单一相关性排序的方法由于片面性、局限性等,缺乏对问答相关性的全面的衡量,难以给出精准的排序结果。并且其他领域的问答方法也无法直接扩展到医疗领域。
方案(1)基于问题和问题的信息进行排序,忽略了答案中包含的关键信息,想要得到好的排序结果非常依赖于原始问答库中问答的优质性。
方案(2)基于问题和答案的信息进行排序,忽略了问题中包含的关键信息,在医疗领域,问题偏差一点,答案可能完全不同,因此会导致排序不准。
方案(3)基于问题、答案合并的方法进行排序,虽然包含了问题和答案的信息,但是一种排序方法对排序结果是有侧重的,无法在医疗智能问答中应对比较复杂的场景。
发明内容
本发明实施例提供一种搜索结果排序方法和装置,以解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种搜索结果排序方法,包括:
从第一排序结果中获取用户请求和候选结果,所述用户请求中包括搜索问题,所述候选结果中包括候选问题和每个候选问题对应的候选答案;
获取所述搜索问题与所述候选问题的第一相关性指标;
获取所述搜索问题与所述候选答案的第二相关性指标;
根据所述第一相关性指标和所述第二相关性指标,对所述第一排序结果进行重排序,得到第二排序结果。
结合第一方面,本发明实施例在第一方面的第一种实现方式中,根据所述第一相关性指标和所述第二相关性指标,对所述第一排序结果进行重排序,得到第二排序结果,包括:
根据所述第一相关性指标确定高优先级列表中包括的候选问答组;
根据所述第二相关性指标确定低优先级列表中包括的候选问答组;
将所述高优先级列表和所述低优先级列表中的候选问答组,按照高优先级在前、低优先级在后的顺序进行合并,得到所述第二排序结果。
结合第一方面的第一种实现方式,本发明实施例在第一方面的第二种实现方式中,根据所述第一相关性指标确定高优先级列表中包括的候选问答组,包括:
如果一个候选问答组的至少一个第一相关性指标高于设定阈值,则将所述候选问答组加入高优先级列表。
结合第一方面的第一种实现方式,本发明实施例在第一方面的第三种实现方式中,根据所述第二相关性指标确定低优先级列表中包括的候选问答组,包括:
如果一个候选问答组的至少一个第二相关性指标高于设定阈值,则将所述候选问答组加入低优先级列表。
结合第一方面,本发明实施例在第一方面的第四种实现方式中,获取所述搜索问题与所述候选问题的第一相关性指标,包括以下方式的至少一种:
计算所述搜索问题与所述候选问题的词级别TF-IDF相似性;
计算所述搜索问题与所述候选问题的字符级别TF-IDF相似性;
计算所述搜索问题与所述候选问题的汉字拼音级别TF-IDF相似性;
计算所述搜索问题与所述候选问题的深度问题相似性;
计算所述搜索问题与所述候选问题的词向量相似性;
计算所述搜索问题与所述候选问题的潜在语义索引相似性。
结合第一方面,本发明实施例在第一方面的第五种实现方式中,获取所述搜索问题与所述候选答案的第二相关性指标,包括以下方式的至少一种:
计算所述搜索问题与所述候选答案的深度问答相关性;
计算所述搜索问题与所述候选答案的词级别TF-IDF相关性;
计算所述搜索问题与所述候选答案的字符级别TF-IDF相关性;
计算所述搜索问题与所述候选答案的汉字拼音级别TF-IDF相关性;
计算所述搜索问题与所述候选答案的词向量相关性;
计算所述搜索问题与所述候选答案的潜在语义索引相关性。
第二方面,本发明实施例提供了一种搜索结果排序装置,包括:
第一排序模块,用于从第一排序结果中获取用户请求和候选结果,所述用户请求中包括搜索问题,所述候选结果中包括候选问题和每个候选问题对应的候选答案;
第一相关性模块,用于获取所述搜索问题与所述候选问题的第一相关性指标;
第二相关性模块,用于获取所述搜索问题与所述候选答案的第二相关性指标;
第二排序模块,用于根据所述第一相关性指标和所述第二相关性指标,对所述第一排序结果进行重排序,得到第二排序结果。
结合第二方面,本发明实施例在第二方面的第一种实现方式中,所述第二排序模块包括:
高优先级子模块,用于根据所述第一相关性指标确定高优先级列表中包括的候选问答组;
低优先级子模块,用于根据所述第二相关性指标确定低优先级列表中包括的候选问答组;
合并排序子模块,用于将所述高优先级列表和所述低优先级列表中的候选问答组,按照高优先级在前、低优先级在后的顺序进行合并,得到所述第二排序结果。
结合第二方面的第一种实现方式,本发明实施例在第二方面的第二种实现方式中,所述高优先级子模块还用于如果一个候选问答组的至少一个第一相关性指标高于设定阈值,则将所述候选问答组加入高优先级列表。
结合第二方面的第一种实现方式,本发明实施例在第二方面的第三种实现方式中,所述低优先级子模块还用于如果一个候选问答组的至少一个第二相关性指标高于设定阈值,则将所述候选问答组加入低优先级列表。
结合第二方面,本发明实施例在第二方面的第四种实现方式中,所述第一相关性模块包括以下子模块的至少一个:
第一词级别子模块,用于计算所述搜索问题与所述候选问题的词级别TF-IDF相似性;
第一字符级别子模块,用于计算所述搜索问题与所述候选问题的字符级别TF-IDF相似性;
第一汉字拼音级别子模块,用于计算所述搜索问题与所述候选问题的汉字拼音级别TF-IDF相似性;
深度问题子模块,用于计算所述搜索问题与所述候选问题的深度问题相似性;
第一词向量子模块,用于计算所述搜索问题与所述候选问题的词向量相似性;
第一潜在语义索引子模块,用于计算所述搜索问题与所述候选问题的潜在语义索引相似性。
结合第二方面,本发明实施例在第二方面的第五种实现方式中,所述第二相关性模块包括以下子模块的至少一个:
深度问答子模块,用于计算所述搜索问题与所述候选答案的深度问答相关性;
第二词级别子模块,用于计算所述搜索问题与所述候选答案的词级别TF-IDF相关性;
第二字符级别子模块,用于计算所述搜索问题与所述候选答案的字符级别TF-IDF相关性;
第二汉字拼音级别子模块,用于计算所述搜索问题与所述候选答案的汉字拼音级别TF-IDF相关性;
第二词向量子模块,用于计算所述搜索问题与所述候选答案的词向量相关性;
第二潜在语义索引子模块,用于计算所述搜索问题与所述候选答案的潜在语义索引相关性。
第三方面,本发明实施例提供了一种搜索结果排序装置,所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,搜索结果排序装置的结构中包括处理器和存储器,所述存储器用于存储支持搜索结果排序装置执行上述搜索结果排序方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述搜索结果排序装置还可以包括通信接口,用于搜索结果排序装置与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储搜索结果排序装置所用的计算机软件指令,其包括用于执行上述搜索结果排序方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:基于主排序基础上的重排序技术,可以有效避免关注的方面单一性,提取出来的相关性特征的片面性和局限性的缺点。
上述技术方案中的另一个技术方案具有如下优点或有益效果:重排序技术是医疗智能问答中的一个核心模块。加入重排序模块,实现了对医疗智能问答排序结果的进一步优化。换句话说,在已有排序好的答案的基础上,我们对其中部分结果的位置做调整,使得某些更合适的答案位置前移,不合适的答案位置后移,以达到优化排序结果的目的。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为根据本发明实施例的搜索结果排序方法的流程图。
图2为根据本发明实施例的搜索结果排序方法的流程图。
图3为根据本发明实施例的搜索结果排序方法的流程图。
图4为根据本发明实施例的搜索结果排序装置的方框图。
图5为根据本发明实施例的搜索结果排序装置的方框图。
图6为根据本发明实施例的搜索结果排序装置的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1为根据本发明实施例的搜索结果排序方法的流程图。
如图1所示,该搜索结果排序方法可以包括以下步骤:
步骤S110、从第一排序结果中获取用户请求和候选结果,用户请求中包括搜索问题,候选结果中包括候选问题和每个候选问题对应的候选答案。
步骤S120、获取搜索问题与候选问题的第一相关性指标。
步骤S130、获取搜索问题与候选答案的第二相关性指标。
步骤S140、根据第一相关性指标和第二相关性指标,对第一排序结果进行重排序,得到第二排序结果。
在智能问答领域中,用户可以根据自己的需求在搜索引擎中输入想要提问的问题(即搜索问题)。例如,根据搜索问题搜索到的候选结果可以包括若干问答组(候选问题及其对应的候选答案)。然后,采用多种方式对这些候选的问答组进行初步排序,例如:1)基于问题和问题的方式初步排序。对候选问题和搜索问题进行编码,根据候选问题和搜索问题的相似度进行排序。2)基于问题和答案的方式初步排序。对候选答案和搜索问题进行编码,根据候选答案和搜索问题的相似度进行排序。3)基于问题、答案合并的方式。对候选问题、候选答案和搜索问题进行编码,根据综合的相似度进行排序。
在第一次排序后,可以得到第一排序结果,从第一排序结果中可以获取用户请求和多个候选结果。其中,用户请求中可以包括用户输入的搜索问题,每个候选结果可以包括一个候选问题及其对应的一个或多个候选答案。
对于第一排序结果中的多个候选结果,可以计算搜索问题与候选问题的第一相关性指标,以及搜索问题与候选答案的第二相关性指标,结合这两种指标对这多个候选结果进行重排序,从而得到与搜索问题更加相关、精准的排序结果。
在一种可能的实现方式中,如图2所示,步骤S140包括:
步骤S210、根据第一相关性指标确定高优先级列表中包括的候选问答组。
步骤S220、根据第二相关性指标确定低优先级列表中包括的候选问答组。
步骤S230、将高优先级列表和低优先级列表中的候选问答组,按照高优先级在前、低优先级在后的顺序进行合并,得到所述第二排序结果。
在一种可能的实现方式中,步骤S120包括以下方式的至少一种:
计算搜索问题与候选问题的词级别TF-IDF(Term Frequency–Inverse DocumentFrequency,词频-逆文本频率)相似性;
计算搜索问题与候选问题的字符级别TF-IDF相似性;
计算搜索问题与候选问题的汉字拼音级别TF-IDF相似性;
计算搜索问题与候选问题的深度问题相似性;
计算搜索问题与候选问题的词向量相似性;
计算搜索问题与候选问题的潜在语义索引相似性。
举例而言,可以对搜索问题和候选问题进行分词,然后根据分词结果计算词级别TF-IDF相似性。可以对搜索问题和候选问题进行分字,然后根据分字结果计算字符级别TF-IDF相似性。可以分别获取搜索问题和候选问题汉语拼音,然后根据汉语拼音计算汉字拼音级别TF-IDF相似性。
其中,计算汉字拼音TF-IDF相似性的优点如下:
拼音是中文与英文重要的差异之一,每一句中文文本唯一对应着一个拼音的序列。大多数用户使用拼音输入法作为汉字输入工具,即先输入汉字对应的拼音,然后再从若干该拼音对应的汉字中选择。这一操作导致用户可能会出现错误选择。如果相同的拼音对应的汉字不同,例如“生活”和“生火”的拼音都是“shenghuo”,用户可能选择错误的同音字。另外,由于拼音输入的普遍使用,有时候用户仅知道某个字的读音,却不清楚具体的汉字写法,也会影响了汉字输入的准确性。在医疗智能问答场景中,各种所有互联网用户输入的医疗搜索请求往往不是规范的文本,可能包括许多文字上的错误。因此,使用拼音来表示文本,再计算文本相似性则可以在一定程度上减弱由错别字造成的影响。
汉字拼音TF-IDF可以在字符级别上计算。例如,对于包括汉字的文本S,将S中的中文汉字转化为拼音表示(不考虑音调),而S中的非中文汉字则保留原始字符。每一个独立的汉字拼音算作一个独立的字符。例如,将汉字文本“咳嗽痰多”转化为“ke”、“sou”、“tan”和“duo”四个字符。然后,可以采用字符的IDF特征、文本的TF-IDF特征和余弦相似性等方式计算汉字拼音的TF-IDF相似。
深度问题相似性也可以称为深度QQ相似性。在实现深度QQ相关性时,可以采用问题聚类等方式获得每个问题Q相似的若干其它问题Q’,使用对级排序学习(PairwiseLearning)模式进行训练。然后将搜索问题与候选问题输入训练得到的模型深度QQ相似性的结果。
在一种可能的实现方式中,步骤S130包括以下方式的至少一种:
计算搜索问题与候选答案的深度问答相关性;
计算搜索问题与候选答案的词级别TF-IDF相关性;
计算搜索问题与候选答案的字符级别TF-IDF相关性;
计算搜索问题与候选答案的汉字拼音级别TF-IDF相关性;
计算搜索问题与候选答案的词向量相关性;
计算搜索问题与候选答案的潜在语义索引相关性。
其中,深度QA(问题与答案)相关性可以挖掘出用户的搜索问题Q与候选答案A的语义关系。利用深度学习来计算搜索问题Q与候选答案A的相关性,来调整根据问题与问题相似度得到的排序结果。
例如,在医疗智能问答场景下,除了匹配用户搜索问题Qu与候选问题Qi的文本相似性之外,通过匹配问题和答案之间的关联可以进一步提高排序精准性。一方面,两个问题可能在文字描述上完全不同,而在语义上是相同或者非常相似的。如果这两个问题对应的答案相同或者非常相似时,即使Qu与Qi无法完成匹配,还可以根据Qu与Ai之间的关联进行匹配。另一方面,问答资源库中的问答组也有出现错误匹配的情况,问答资源库中的问题和答案很难做到完全匹配或者达到完全匹配的代价很高,可能使得库中Qi与对应的Ai并不严格匹配。这种情况下,也可以通过深度QA相关性,对排序结果进行微调。
在一种可能的实现方式中,根据所述第一相关性指标确定高优先级列表中包括的候选问答组,包括:
如果一个候选问答组的至少一个第一相关性指标高于设定阈值,则将所述候选问答组加入高优先级列表。
在一种可能的实现方式中,根据所述第二相关性指标确定低优先级列表中包括的候选问答组,包括:
如果一个候选问答组的至少一个第二相关性指标高于设定阈值,则将所述候选问答组加入低优先级列表。
其中,每个相关性指标可能具有一个设定阈值。不同的相关性指标的阈值可能不同。第一相关性指标主要反映问题与问题的文本相似性。第二相关性指标主要反映问题与答案的相关性。在本发明实施例中,可以按照实际应用场景,选择所需的第一相关性指标和第二相关性指标的数量和类型。然后比较搜索问题与候选问答组之间的各相关性指标与阈值,从而将候选问答组分类存入不同的优先级列表中。
在一种示例中,可以按照一定顺序比较多种指标。先比较某一指标,将符合条件的问答组放入对应的优先级列表,将不符合条件问答组按照另一个指标进行比较,依次类推。
例如,如果100个问答组中,有10个问答组与搜索问题的词级别的相似性高于设定阈值,则将这10个问答组添加到高优先结果列表中。然后,比较剩余的90个问题组与搜索问题字符级别的相似性与设定阈值,再从中得到20组加入高优先级列表中。依次类推,不再赘述。
在另一种示例中,可以分别比较多种指标,再去重。
例如,比较100个问答组与搜索问题的词级别的相似性,从中选取10个词级别的相似性高于设定阈值的问答组。比较这100个问答组与搜索问题的字符级别的相似性,从中选取40个字符级别的相似性高于设定阈值的问答组。将这40个问答组去重后得到30个问答组加入高优先级列表(也可以先加入高优先级列表再去重)。
通过多种相关性指标对排序结果进一步优化和调整,可以将某些更合适的答案位置前移,将不合适的答案位置后移,以优化排序结果。
在一种示例中,基于以上搜索问题Qu与候选问题Qi的相似性,以及搜索问题Qu与候选问题Ai的相关性,采用如图3所示的方法,将之前排序结果中的每个问答组(Qi,Ai)按照排序从前至后依次处理,步骤如下:
步骤S301、计算Qu与Qi的词级别TF-IDF相似性,若相似性高于某一阈值,则将(Qi,Ai)添加至高优先结果列表;若相似性低于某一阈值,则丢弃该问答组;否则,进入步骤S302。
例如,可以为词级别TF-IDF相似性设置两个阈值Y1、Y2,Y1大于Y2。如果该问答组的Qu与Qi的词级别TF-IDF相似性大于Y1,则放入高优先级列表。如果该问答组的Qu与Qi的词级别TF-IDF相似性小于Y2,则丢弃该问答组,可以排除明显不具有相关性的问答组,减少后续比较的数量。在Y1与Y2之间的问答组,可以比较其他相关性指标。示例中的各种相关性指标的阈值设置与比较方式类似,以下不再重复举例。
步骤S302、计算Qu与Qi的字符级别TF-IDF相似性,若相似性高于某一阈值,则将(Qi,Ai)添加至高优先结果列表;若相似性低于某一阈值,则丢弃该问答组;否则,进入步骤S303。
步骤S303、计算Qu与Qi的汉字拼音TF-IDF相似性,若相似性高于某一阈值,则将(Qi,Ai)添加至高优先结果列表;若相似性低于某一阈值,则丢弃该问答组;否则,进入步骤S304。
步骤S304、计算Qu与Qi深度QQ相似性,若相似性高于某一阈值,则将(Qi,Ai)添加至高优先结果列表;若相似性低于某一阈值,则丢弃该问答组;否则,进入步骤S305。
步骤S305、计算Qu与Qi的词向量相似性,若相似性高于某一阈值,则将(Qi,Ai)添加至高优先结果列表;若相似性低于某一阈值,则丢弃该问答组;否则,进入步骤S306。
步骤S306、计算Qu与Qi的LSI(Latent Semantic Indexing,潜在语义索引)相似性,若相似性高于某一阈值,则将(Qi,Ai)添加至高优先结果列表;若相似性低于某一阈值,则丢弃该问答组;否则,进入步骤S307。
步骤S307、计算Qu与Ai的深度QA相关性,若候选结果(不含进入高优先结果列表的项)中最大的深度相关性高于某一阈值,则将候选结果添加入低优先结果列表;否则,设置低优先结果列表为空;执行步骤S308。
步骤S308、按高优先在前、低优先在后的原则合并两个结果列表,合并后的排序结果即为最终的排序结果。
需要指出的是,步骤301-步骤308的顺序可以按照需要进行调整,用户搜索问题与候选问题的相似性和相关性、用户搜索问题与候选答案的相似性和相关性可以根据实际应用场景选择不同的指标进行重排序,在本发明实施例中不做限定。
本发明实施例在主排序方法后加入重排序方法,在例如医疗智能问答的场景中,能有效地解决由于主排序方法得到的排序结果不全面(如片面性、局限性等),难以给出精准的排序的问题。通过重排序中可以加入很多特定相关性指标,从而让整理排序结果综合了更多因素,可以更好、更方便的给出精准的回答排序,处理一些特定的医疗问题。
图4为根据本发明实施例的搜索结果排序装置的方框图。如图4所示,该装置包括:
第一排序模块41,用于从第一排序结果中获取用户请求和候选结果,所述用户请求中包括搜索问题,所述候选结果中包括候选问题和每个候选问题对应的候选答案;
第一相关性模块42,用于获取所述搜索问题与所述候选问题的第一相关性指标;
第二相关性模块43,用于获取所述搜索问题与所述候选答案的第二相关性指标;
第二排序模块45,用于根据所述第一相关性指标和所述第二相关性指标,对所述第一排序结果进行重排序,得到第二排序结果。
在一种可能的实现方式中,第二排序模块45,还包括:
高优先级子模块451,用于根据所述第一相关性指标确定高优先级列表中包括的候选问答组;
低优先级子模块452,用于根据所述第二相关性指标确定低优先级列表中包括的候选问答组;
合并排序子模块453,用于将所述高优先级列表和所述低优先级列表中的候选问答组,按照高优先级在前、低优先级在后的顺序进行合并,得到所述第二排序结果。
在一种可能的实现方式中,高优先级子模块451,还用于如果一个候选问答组的至少一个第一相关性指标高于设定阈值,则将所述候选问答组加入高优先级列表。
在一种可能的实现方式中,低优先级子模块452,还用于如果一个候选问答组的至少一个第二相关性指标高于设定阈值,则将所述候选问答组加入低优先级列表。
在一种可能的实现方式中,第一相关性模块42,包括以下子模块的至少一个:
第一词级别子模块,用于计算所述搜索问题与所述候选问题的词级别TF-IDF相似性;
第一字符级别子模块,用于计算所述搜索问题与所述候选问题的字符级别TF-IDF相似性;
第一汉字拼音级别子模块,用于计算所述搜索问题与所述候选问题的汉字拼音级别TF-IDF相似性;
深度问题子模块,用于计算所述搜索问题与所述候选问题的深度问题相似性;
第一词向量子模块,用于计算所述搜索问题与所述候选问题的词向量相似性;
第一潜在语义索引子模块,用于计算所述搜索问题与所述候选问题的潜在语义索引相似性。
在一种可能的实现方式中,第二相关性模块43,包括以下子模块的至少一个:
深度问答子模块,用于计算所述搜索问题与所述候选答案的深度问答相关性;
第二词级别子模块,用于计算所述搜索问题与所述候选答案的词级别TF-IDF相关性;
第二字符级别子模块,用于计算所述搜索问题与所述候选答案的字符级别TF-IDF相关性;
第二汉字拼音级别子模块,用于计算所述搜索问题与所述候选答案的汉字拼音级别TF-IDF相关性;
第二词向量子模块,用于计算所述搜索问题与所述候选答案的词向量相关性;
第二潜在语义索引子模块,用于计算所述搜索问题与所述候选答案的潜在语义索引相关性
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图6为根据本发明一实施例的搜索结果排序装置的结构框图。如图6所示,该装置包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的搜索结果排序方法。所述存储器910和处理器920的数量可以为一个或多个。
该装置还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述实施例中任一所述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (12)
1.一种搜索结果排序方法,其特征在于,包括:
从第一排序结果中获取用户请求和候选结果,所述第一排序结果为采用多种方式对候选的问答组进行初步排序后的结果;所述用户请求中包括搜索问题,所述候选结果中包括候选问题和每个候选问题对应的候选答案;
获取所述搜索问题与所述候选问题的第一相关性指标;
获取所述搜索问题与所述候选答案的第二相关性指标;
根据所述第一相关性指标和所述第二相关性指标,对所述第一排序结果进行重排序,得到第二排序结果;
其中,根据所述第一相关性指标和所述第二相关性指标,对所述第一排序结果进行重排序,得到第二排序结果,包括:
根据所述第一相关性指标确定高优先级列表中包括的候选问答组;其中,所述第一相关性指标包括多个相关性指标;所述确定高优先级列表中包括的候选问答组包括:针对所述多个相关性指标,将相关性高于高阈值的候选问答组添加至所述高优先级列表,并将相关性低于低阈值的候选问答组丢弃;
根据所述第二相关性指标确定低优先级列表中包括的候选问答组;
将所述高优先级列表和所述低优先级列表中的候选问答组,按照高优先级在前、低优先级在后的顺序进行合并,得到所述第二排序结果。
2.根据权利要求1所述的方法,其特征在于,根据所述第一相关性指标确定高优先级列表中包括的候选问答组,包括:
如果一个候选问答组的至少一个第一相关性指标高于设定阈值,则将所述候选问答组加入高优先级列表。
3.根据权利要求1所述的方法,其特征在于,根据所述第二相关性指标确定低优先级列表中包括的候选问答组,包括:
如果一个候选问答组的至少一个第二相关性指标高于设定阈值,则将所述候选问答组加入低优先级列表。
4.根据权利要求1所述的方法,其特征在于,获取所述搜索问题与所述候选问题的第一相关性指标,包括以下方式的至少一种:
计算所述搜索问题与所述候选问题的词级别TF-IDF相似性;
计算所述搜索问题与所述候选问题的字符级别TF-IDF相似性;
计算所述搜索问题与所述候选问题的汉字拼音级别TF-IDF相似性;
计算所述搜索问题与所述候选问题的深度问题相似性;
计算所述搜索问题与所述候选问题的词向量相似性;
计算所述搜索问题与所述候选问题的潜在语义索引相似性。
5.根据权利要求1所述的方法,其特征在于,获取所述搜索问题与所述候选答案的第二相关性指标,包括以下方式的至少一种:
计算所述搜索问题与所述候选答案的深度问答相关性;
计算所述搜索问题与所述候选答案的词级别TF-IDF相关性;
计算所述搜索问题与所述候选答案的字符级别TF-IDF相关性;
计算所述搜索问题与所述候选答案的汉字拼音级别TF-IDF相关性;
计算所述搜索问题与所述候选答案的词向量相关性;
计算所述搜索问题与所述候选答案的潜在语义索引相关性。
6.一种搜索结果排序装置,其特征在于,包括:
第一排序模块,用于从第一排序结果中获取用户请求和候选结果,所述第一排序结果为采用多种方式对候选的问答组进行初步排序后的结果;所述用户请求中包括搜索问题,所述候选结果中包括候选问题和每个候选问题对应的候选答案;
第一相关性模块,用于获取所述搜索问题与所述候选问题的第一相关性指标;
第二相关性模块,用于获取所述搜索问题与所述候选答案的第二相关性指标;
第二排序模块,用于根据所述第一相关性指标和所述第二相关性指标,对所述第一排序结果进行重排序,得到第二排序结果;
其中,所述第二排序模块包括:
高优先级子模块,用于根据所述第一相关性指标确定高优先级列表中包括的候选问答组;其中,所述第一相关性指标包括多个相关性指标;所述确定高优先级列表中包括的候选问答组包括:针对所述多个相关性指标,将相关性高于高阈值的候选问答组添加至所述高优先级列表,并将相关性低于低阈值的候选问答组丢弃;
低优先级子模块,用于根据所述第二相关性指标确定低优先级列表中包括的候选问答组;
合并排序子模块,用于将所述高优先级列表和所述低优先级列表中的候选问答组,按照高优先级在前、低优先级在后的顺序进行合并,得到所述第二排序结果。
7.根据权利要求6所述的装置,其特征在于,所述高优先级子模块还用于如果一个候选问答组的至少一个第一相关性指标高于设定阈值,则将所述候选问答组加入高优先级列表。
8.根据权利要求6所述的装置,其特征在于,所述低优先级子模块还用于如果一个候选问答组的至少一个第二相关性指标高于设定阈值,则将所述候选问答组加入低优先级列表。
9.根据权利要求6所述的装置,其特征在于,所述第一相关性模块包括以下子模块的至少一个:
第一词级别子模块,用于计算所述搜索问题与所述候选问题的词级别TF-IDF相似性;
第一字符级别子模块,用于计算所述搜索问题与所述候选问题的字符级别TF-IDF相似性;
第一汉字拼音级别子模块,用于计算所述搜索问题与所述候选问题的汉字拼音级别TF-IDF相似性;
深度问题子模块,用于计算所述搜索问题与所述候选问题的深度问题相似性;
第一词向量子模块,用于计算所述搜索问题与所述候选问题的词向量相似性;
第一潜在语义索引子模块,用于计算所述搜索问题与所述候选问题的潜在语义索引相似性。
10.根据权利要求6所述的装置,其特征在于,所述第二相关性模块包括以下子模块的至少一个:
深度问答子模块,用于计算所述搜索问题与所述候选答案的深度问答相关性;
第二词级别子模块,用于计算所述搜索问题与所述候选答案的词级别TF-IDF相关性;
第二字符级别子模块,用于计算所述搜索问题与所述候选答案的字符级别TF-IDF相关性;
第二汉字拼音级别子模块,用于计算所述搜索问题与所述候选答案的汉字拼音级别TF-IDF相关性;
第二词向量子模块,用于计算所述搜索问题与所述候选答案的词向量相关性;
第二潜在语义索引子模块,用于计算所述搜索问题与所述候选答案的潜在语义索引相关性。
11.一种搜索结果排序装置,其特征在于,所述装置包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至5中任一项所述的方法。
12.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810729232.9A CN109033244B (zh) | 2018-07-05 | 2018-07-05 | 搜索结果排序方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810729232.9A CN109033244B (zh) | 2018-07-05 | 2018-07-05 | 搜索结果排序方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109033244A CN109033244A (zh) | 2018-12-18 |
CN109033244B true CN109033244B (zh) | 2020-10-16 |
Family
ID=65522449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810729232.9A Active CN109033244B (zh) | 2018-07-05 | 2018-07-05 | 搜索结果排序方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109033244B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851484A (zh) * | 2019-11-13 | 2020-02-28 | 北京香侬慧语科技有限责任公司 | 一种获取多指标问题答案的方法及装置 |
CN110825864A (zh) * | 2019-11-13 | 2020-02-21 | 北京香侬慧语科技有限责任公司 | 一种获取问题答案的方法及装置 |
CN113761084B (zh) * | 2020-06-03 | 2023-08-08 | 北京四维图新科技股份有限公司 | 一种poi搜索排序模型训练方法、排序装置与方法及介质 |
CN112784600B (zh) * | 2021-01-29 | 2024-01-16 | 北京百度网讯科技有限公司 | 信息排序方法、装置、电子设备和存储介质 |
CN113326420B (zh) * | 2021-06-15 | 2023-10-27 | 北京百度网讯科技有限公司 | 问题检索方法、装置、电子设备和介质 |
CN115203598B (zh) * | 2022-07-20 | 2023-09-19 | 贝壳找房(北京)科技有限公司 | 房产领域的信息排序方法、电子设备及存储介质 |
CN116013488B (zh) * | 2023-03-27 | 2023-06-02 | 中国人民解放军总医院第六医学中心 | 具有自适应数据重排功能的病案数据智能安全管理系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8412514B1 (en) * | 2005-10-27 | 2013-04-02 | At&T Intellectual Property Ii, L.P. | Method and apparatus for compiling and querying a QA database |
CN108153876A (zh) * | 2017-12-26 | 2018-06-12 | 爱因互动科技发展(北京)有限公司 | 智能问答方法及系统 |
CN108170739A (zh) * | 2017-12-18 | 2018-06-15 | 深圳前海微众银行股份有限公司 | 问题匹配方法、终端和计算机可读存储介质 |
-
2018
- 2018-07-05 CN CN201810729232.9A patent/CN109033244B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8412514B1 (en) * | 2005-10-27 | 2013-04-02 | At&T Intellectual Property Ii, L.P. | Method and apparatus for compiling and querying a QA database |
CN108170739A (zh) * | 2017-12-18 | 2018-06-15 | 深圳前海微众银行股份有限公司 | 问题匹配方法、终端和计算机可读存储介质 |
CN108153876A (zh) * | 2017-12-26 | 2018-06-12 | 爱因互动科技发展(北京)有限公司 | 智能问答方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109033244A (zh) | 2018-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033244B (zh) | 搜索结果排序方法和装置 | |
US10460029B2 (en) | Reply information recommendation method and apparatus | |
CN108549656B (zh) | 语句解析方法、装置、计算机设备及可读介质 | |
CN109726274B (zh) | 问题生成方法、装置及存储介质 | |
CN110647614A (zh) | 智能问答方法、装置、介质及电子设备 | |
EP2930628A1 (en) | Searching method, client and server | |
CN109885180B (zh) | 纠错方法和装置、计算机可读介质 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN111078837A (zh) | 智能问答信息处理方法、电子设备及计算机可读存储介质 | |
CN109388634B (zh) | 地址信息的处理方法、终端设备及计算机可读存储介质 | |
CN112559709A (zh) | 基于知识图谱的问答方法、装置、终端以及存储介质 | |
CN114757176A (zh) | 一种获取目标意图识别模型的方法以及意图识别方法 | |
CN109657043B (zh) | 自动生成文章的方法、装置、设备及存储介质 | |
CN114528391A (zh) | 问答对评分模型的训练方法、装置、设备及存储介质 | |
CN111930891B (zh) | 基于知识图谱的检索文本扩展方法及相关装置 | |
KR20190090636A (ko) | 문서 자동 편집 방법 | |
CN115310436A (zh) | 一种文档提纲的抽取方法、装置、电子设备及存储介质 | |
CN111611781A (zh) | 数据标注方法、问答方法、装置及电子设备 | |
CN114706841B (zh) | 查询内容库构建方法、装置、电子设备及可读存储介质 | |
CN116484829A (zh) | 用于信息处理的方法和设备 | |
CN115964474A (zh) | 一种政策关键词抽取方法、装置、存储介质及电子设备 | |
CN111931480B (zh) | 文本主要内容的确定方法、装置、存储介质及计算机设备 | |
CN114416174A (zh) | 基于元数据的模型重构方法、装置、电子设备及存储介质 | |
CN114528824A (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN112905026A (zh) | 展示单词建议的方法、装置、存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |