CN116186220A

CN116186220A - 信息检索方法、问答处理方法、信息检索装置及系统

Info

Publication number: CN116186220A
Application number: CN202310127720.3A
Authority: CN
Inventors: 余海洋; 李晶阳; 黄非; 李永彬
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-02-01
Filing date: 2023-02-01
Publication date: 2023-05-30

Abstract

本申请实施例公开了一种信息检索方法、问答处理方法、信息检索装置及系统，涉及人工智能技术领域。其中方法包括：获取检索文本；利用检索文本在文档库包括的各文档对应的文档图中进行匹配，获取匹配到的M个文档知识作为候选结果，M为预设的正整数，其中文档图中的节点包括至少一种文档知识，文档知识包括文档中的文本单元、从文档中抽取出的实体三元组或问答语句对，各节点之间的层级关系体现对应文档知识在文档中的结构关系；对候选结果进行排序，依据排序结果选择N个候选结果以得到针对检索文本的检索结果，N为正整数，且N小于或等于M。本申请将文档结构信息引入信息检索过程，提高在文档数据中检索信息的准确性。

Description

信息检索方法、问答处理方法、信息检索装置及系统

技术领域

本申请涉及人工智能技术领域，特别是涉及一种信息检索方法、问答处理方法、信息检索装置及系统。

背景技术

各种企业、机构和个人等在生产、工作、生活过程中会产生大量的非结构化文档数据，例如各种机构的公文、产品使用手册、会议记录、个人笔记等，这些数据包含大量的信息。然而，在这些文档中查找需要的信息是非常困难的。现阶段一般采用传统的搜索引擎在非结构化文档数据中进行信息检索。

传统的搜索引擎将用户输入的query(搜索文本)在非结构化文档数据中进行匹配，该匹配主要是基于query与文档中各段落或句子之间的距离来实现。但传统搜索引擎的实现方案的准确性较差，用户难以从检索结果中找到自己需要的信息。

发明内容

有鉴于此，本申请提供了一种信息检索方法、问答处理方法、信息检索装置及系统，以便于提高从文档数据中检索信息的准确性，提高用户获取需要的信息的效率。

本申请提供了如下方案：

第一方面，提供了一种信息检索方法，所述方法包括：

获取检索文本；

利用所述检索文本在文档库包括的各文档对应的文档图中进行匹配，获取匹配到的M个文档知识作为候选结果，所述M为预设的正整数，其中所述文档图中的节点包括至少一种文档知识，所述文档知识包括文档中的文本单元、从文档中抽取出的实体三元组或问答语句对，各节点之间的层级关系体现对应文档知识在文档中的结构关系；

对所述候选结果进行排序，依据排序结果选择N个候选结果以得到针对所述检索文本的检索结果，所述N为正整数，且所述N小于或等于所述M。

根据本申请实施例中一可实现的方式，利用所述检索文本在文档库包括的各文档对应的文档图中进行匹配包括：

利用检索模型获取所述检索文本的特征表示以及所述文档图中各文档知识的特征表示，其中各文档知识的特征表示是依据文档知识的特征以及该文档知识在所述文档图中的层级关系特征得到的；

分别确定所述检索文本的特征表示与所述各文档知识的特征表示之间的相似度，确定对应相似度满足预设第一相似度要求的M个文档知识。

根据本申请实施例中一可实现的方式，若所述文档图中的节点包括多种文档知识，则所述各文档知识的特征表示进一步依据文档知识的类型得到。

根据本申请实施例中一可实现的方式，所述检索模型采用如下方式预先训练得到：

获取包括多个正样本对和负样本对的第一训练数据，各样本对包括检索文本样本和文档知识样本，所述文档知识样本来源于所述文档库中的文档图；

利用所述第一训练数据训练检索模型，其中，利用检索模型获取检索文本样本的特征表示和文档知识样本的特征表示，确定检索文本样本的特征表示与文档知识样本的特征表示之间的相似度，所述训练的目标包括最大化正样本对中检索文本样本的特征表示与文档知识样本的特征表示之间的相似度，且最小化负样本对中检索文本样本的特征表示与文档知识样本的特征表示之间的相似度。

根据本申请实施例中一可实现的方式，对所述候选结果进行排序包括：

将所述检索文本与各候选结果分别进行拼接，利用排序模型获取拼接后得到的各文本序列的特征表示，利用各文本序列的特征表示预测对应候选结果的排序得分，其中文本序列的特征表示依据文本序列的特征以及文本序列所包含候选结果在所述文档图中的层级关系特征得到；

依据所述排序得分，确定各候选结果的排序结果。

根据本申请实施例中一可实现的方式，所述排序模型采用如下方式预先训练得到：

获取包括多个正样本对和负样本对的第二训练数据，各样本对包括检索文本样本和文档知识样本，所述文档知识样本来源于所述文档库中的文档图；

利用所述第二训练数据训练排序模型，其中，排序模型获取样本对中检索文本样本和文档知识样本拼接后得到的文本序列的特征表示，利用该特征表示预测对应文档知识样本的排序得分，所述训练的目标包括：最大化同一检索文本样本对应的正样本对中文档知识样本的排序得分与对应的负样本对中文档知识样本的排序得分之间的差异。

根据本申请实施例中一可实现的方式，所述负样本对采用如下方式中的至少一种构建：

获取正样本对中的检索文本样本和文档知识样本，在文档图中采样与该文档知识样本属于同一节点的其他文档知识，将该检索文本样本和采样的文档知识构成负样本对；

将一个正样本对中的检索文本样本和另一个正样本对中的文档知识样本进行组合，构成负样本对；

获取正样本对中的检索文本样本和文档知识样本，在文档图中随机采样不同于该文档知识样本的文档知识，将该检索文本样本和随机采样的文档知识构成负样本对；

获取正样本对中的检索文本样本和文档知识样本，从所述文档库的各文档图中确定与该检索文本样本之间的相似度满足预设第二相似度要求的文档知识，从确定出的文档知识中选择不同于正样本对中的文档知识样本的文档知识，将该检索文本样本和选择的文档知识构成负样本对。

第二方面，提供了一种问答处理方法，应用于智能问答系统，所述方法包括：

利用用户输入所述智能问答系统的问题得到检索文本；

对所述候选结果进行排序，依据排序结果选择N个候选结果以得到针对所述检索文本的检索结果，所述N为正整数，且所述N小于或等于所述M；

利用所述检索结果生成答案，并将生成的答案返回给所述用户。

第三方面，提供了一种信息检索的装置，所述装置包括：

输入获取单元，被配置为获取检索文本；

检索处理单元，被配置为利用所述检索文本在文档库包括的各文档对应的文档图中进行匹配，获取匹配到的M个文档知识作为候选结果，所述M为预设的正整数，其中所述文档图中的节点包括至少一种文档知识，所述文档知识包括文档中的文本单元、从文档中抽取出的实体三元组或问答语句对，各节点之间的层级关系体现对应文档知识在文档中的结构关系；

排序处理单元，被配置为对所述候选结果进行排序，依据所述排序结果选择N个候选结果得到针对所述检索文本的检索结果，所述N为预设的正整数，且所述N小于或等于所述M。

第四方面，提供了一种信息检索系统，所述系统包括用户设备和服务器；

所述用户设备，被配置为将检索文本发送给所述服务器，接收所述服务器返回的检索结果；

所述服务器，被配置为利用所述检索文本在文档库包括的各文档对应的文档图中进行匹配，获取匹配到的M个文档知识作为候选结果，所述M为预设的正整数，其中所述文档图中的节点包括至少一种文档知识，所述文档知识包括文档中的文本单元、从文档中抽取出的实体三元组或问答语句对，各节点之间的层级关系体现对应文档知识在文档中的结构关系；对所述候选结果进行排序，依据排序结果选择N个候选结果得到针对所述检索文本的检索结果，所述N为预设的正整数，且所述N小于或等于所述M。

根据第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面和第二方面中任一项所述的方法的步骤。

根据第六方面，提供了一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行上述第一方面和第二方面中任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

1)本申请将文档库中的文档抽象为文档图，使用文档图中的节点层级关系来体现文档知识在文档中的结构关系，从而将文档结构信息引入信息检索过程，提高在文档数据中检索信息的准确性，用户能够在检索结果中快速找到自己需要的信息。

2)本申请中采用文本单元、实体三元组、问答语句对等多种粒度的文档知识，从而更加丰富知识类型，帮助用户匹配到符合需求的检索结果。

3)本申请中在确定各文档知识的特征表示时，不仅依据文档知识的特征还进一步结合该文档知识所在节点的层级关系特征，从而更加准确地获取文档知识在文档中的特征，进而更加准确地获取出候选结果，提高最终检索结果的准确性。

4)本申请中在确定各文档知识的特征表示时，可以进一步依据文档知识的类型得到，也就是说，在知识检索以及知识检索的学习过程中融入文档知识的类型信息，从而提高知识检索的准确性。

5)本申请中检索模型和排序模型均可以采用对比学习的方式进行训练，其中在构建负样本对时，利用文档图中与正样本对中文档知识样本属于同一节点的其他文档知识，以及正样本对中的检索文本样本构成负样本，一方面实现负样本对的自动构建，另一方面利用文档图中文档知识的结构信息提高负样本的质量，从而提高训练得到模型的效果。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为是本申请实施例所适用的系统架构图；

图2为本申请实施例提供的信息检索方法的流程图；

图3为本申请实施例提供的信息检索框架的示意图；

图4为本申请实施例提供的一个文档图的示意图；

图5为本申请实施例提供的检索模型的原理示意图；

图6为本申请实施例提供的排序模型的原理示意图；

图7为本申请实施例提供的信息检索装置的示意性框图；

图8为本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

为了方便对本申请的理解，首先对本申请所适用的系统架构进行简单描述。图1示出了可以应用本申请实施例的示例性系统架构，如图1中所示，该系统架构可以包括用户设备和位于服务器端的信息检索装置。

用户可以通过用户设备输入query(检索文本)，用户设备将检索文本发送给服务器端的信息检索装置。

其中用户设备可以包括但不限于诸如：智能移动终端、智能家居设备、可穿戴式设备、PC(PersonalComputer，个人计算机)等。其中智能移动设备可以包括诸如手机、平板电脑、笔记本电脑、PDA(PersonalDigitalAssistant，个人数字助理)、互联网汽车等。智能家居设备可以包括智能电视、智能冰箱等等。可穿戴式设备可以包括诸如智能手表、智能眼镜、虚拟现实设备、增强现实设备、混合现实设备(即可以支持虚拟现实和增强现实的设备)等等。

信息检索装置可以采用本申请实施例中提供的方法，在文档库中对检索文本进行检索处理，得到检索结果。其中，信息检索装置在检索过程中会涉及到对检索模型、排序模型等的利用。

信息检索装置可以设置为独立的服务器，也可以设置于服务器群组，还可以设置于云服务器。云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPs，VirtualPrivateServer)服务中存在的管理难度大，服务扩展性弱的缺陷。除了图1所示架构之外，信息检索装置还可以设置于具有较强计算能力的计算机终端。

应该理解，图1中的用户设备、信息检索装置、检索模型、排序模型和文档库的数目仅仅是示意性的。根据实现需要，可以具有任意数目的用户设备、信息检索装置、检索模型、排序模型和文档库。

图2为本申请实施例提供的信息检索方法的流程图，该方法可以由图1所示系统架构中的信息检索装置执行。如图2中所示，该方法可以包括以下步骤：

步骤202：获取检索文本。

步骤204：利用检索文本在文档库包括的各文档对应的文档图中进行匹配，获取匹配到的M个文档知识作为候选结果，M为预设的正整数，其中文档图中的节点包括至少一种文档知识，文档知识包括文档中的文本单元、从文档中抽取出的实体三元组或问答语句对，各节点之间的层级关系体现对应文档知识在文档中的结构关系。

步骤206：对候选结果进行排序，依据排序结果选择N个候选结果以得到针对检索文本的检索结果，N为预设的正整数，且N小于或等于M。

由上述流程可以看出，本申请将文档库中的文档抽象为文档图，使用文档图中的节点层级关系来体现文档知识在文档中的结构关系，从而将文档结构信息引入信息检索过程，提高在文档数据中检索信息的准确性，用户能够在检索结果中快速找到自己需要的信息。

下面分别对上述流程中的各步骤进行具体描述。首先结合实施例对上述步骤202即“获取检索文本”进行详细描述。

在不同应用场景下，获取的检索文本的来源可以不同。例如，用户通过用户设备可以在搜索引擎中输入文本(可以是字、词语、句子)等文本，该文本可以是用户在文本框中直接输入的文本，也可以是通过语音方式输入语音后经过语音识别得到的文本。除此之外，用户还可以在其他嵌入搜索功能的应用中输入文本或图像等。

在问答场景下，用户可以在智能问答系统中输入问题，用户可以直接输入问题文本，也可以通过语音的方式输入问题，再经过语音识别得到问题文本。这种场景下将问题文本作为检索文本。

用户设备将用户输入的检索文本或者语音信息发送给服务器端的信息检索装置。信息检索装置获取到检索文本，或者，利用服务器端的语音识别装置对语音信息进行识别后获取到检索文本。

下面结合实施例对上述步骤204即“利用检索文本在文档库包括的各文档对应的文档图中进行匹配，获取匹配到的M个文档知识作为候选结果”。

传统的文档库中包含的文档就是原始的文档形态，大多采用非结构化或半结构化的形式，因此传统的文档检索方法均未考虑文档的结构信息。而文档的结构信息很大程度地在语义上增强了文档中文本单元的表达，因此如果将文档的结构信息引入检索过程，则会提高文档数据的检索准确性。

传统针对文档数据的信息检索框架主要如图3中所示，获取到用户的检索文本之后，首先通过检索处理单元(Retriever)从非结构化文档中检索出候选结果。然后利用排序处理单元(Ranker)对候选结果进行排序，利用排序结果进一步从候选结果中选择检索结果。本申请实施例大体上沿用了这一框架，但在该框架中引入了文档的结构化信息，首先将文档库中的文档抽象为结构化的文档图(DocGraph)，并且在具体的检索处理、检索模型的训练以及排序模型的训练方式上进行了改进。

首先结合只是发现技术对文档库中的文档进行基于文档结构的文档图构建。文档图不同于文档(Document)，文档图中采用的是节点和边的架构，每个节点包括至少一种文档知识。文档知识可以包括文档中的文本单元、从文档中抽取出的实体三元组和问答语句对中的至少一种。其中文本单元可以是段落、句子、短语等。文档图中节点之间通过边所表达的层级关系体现了对应文档知识在文档中的结构关系。

举个例子，文档的结构关系包括：文档标题、摘要、一级标题、二级标题、段落等。例如图4中所示，一个文档的文档标题为“本公司提供的保障”，该文档标题作为文档图中的根节点。一级标题包括“保险金额”、“保险期间”和“保险责任”，则一级标题和摘要作为文档图中的一级节点即根节点的下一层节点。一级标题下面都包含有相应的段落作为下一层节点。假设“保险责任”下存在二级标题，则该节点的下一层节点为二级标题“意外伤害医疗保险金”，该二级标题的下一层节点为该二级标题下的段落。另外，节点中除了包含段落之外，还可以包括从该段落中提取出的实体三元组和/或问答语句对。

其中实体三元组可以包括两个实体以及该两个实体之间的关系。问答语句对可以包括问题和答案。其中实体三元组和问答语句对的提取方式本申请实施例并不加以限制，可以采用任意可实现的方式，例如采用预先训练得到的实体抽取模型、实体关系抽取模型、答案生成模型等来提取，在此不做详述。

在利用检索文本在文档库包括的各文档对应的文档图中进行匹配时，可以利用检索模型来实现，检索模型可以采用稠密检索(DenseRetriever)方式，也可以采用稀疏检索(Sparse Retriever)方式，或者采用稠密检索结合稀疏检索的混合检索(HybridRetrieval)方式。

以稠密检索为例，可以首先利用检索模型获取检索文本的特征表示以及文档图中各文档知识的特征表示；然后分别确定检索文本的特征表示与所述各文档知识的特征表示之间的相似度，确定对应相似度满足预设第一相似度要求的M个文档知识作为候选结果，M为预设的正整数。例如，确定对应相似度大于或等于预设相似度阈值的M个文档知识作为候选结果；再例如确定对应相似度排在前M个的文档知识作为候选结果；等等。

如图5中所示，检索模型可以通过第一编码网络对检索文本进行编码，得到检索文本的特征表示。通过第二编码网络对文档图中的文档知识，例如段落或句子等文本单元，进行编码，得到文本单元的特征表示。其中第一编码网络和第二编码网络可以基于预训练语言模型训练得到，将诸如T5(TransferText-to-TextTransformer，文本到文本迁移的转换)模型、BERT(BidirectionalEncoderRepresentationfromTransformers，基于转换的双向编码表示)、XLNet(一种通过排列语言模型实现双向上下文信息的自回归模型)、GPT(Generative Pre-Training，生成式预训练)模型等预训练语言模型作为初始的特征提取模型，在此基础上进行进一步训练。这种方式下提取的稠密特征是基于语义的特征表示。

需要说明的是，本公开中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制，仅仅用以在名称上加以区分。例如“第一编码网络”和“第二编码网络”用以在名称上区分两个编码网络，再例如“第一训练数据”和“第二训练数据”用以在名称上区分两种训练数据。

其中，第一编码网络和第二编码网络在进行编码之前，可以首先对输入的文本进行Embedding(嵌入)处理。例如，基于词的Embedding、基于位置的Embedding等。其中，词Embedding，即将各Token(元素)进行词向量编码，得到词向量表示。位置Embedding，即将各Token在输入的文本中的位置进行编码，得到位置的表示。其中各Token可以包括字符、词语、分隔符、起始符等。

其中，第二编码网络在对文档知识进行编码时，将文档的结构信息融入其中，可以依据文档知识本身的特征以及该文档知识所在节点的层级关系特征来编码得到文档知识的特征表示。

作为其中一种可实现的方式，可以将文档知识本身与该文档知识之前L个层级的节点进行拼接，作为第二编码网络的输入，由第二编码网络对拼接后的文档序列进行编码，得到该文档知识的特征表示。其中L可以为预设的正整数，例如取2。例如图4中段落2的特征表示可以依据段落2、其上一级节点“保险金额”以及再上一级节点“本公司提供的保障”得到。

作为另一种可实现的方式，也可以针对各Token增加特殊的Embedding处理，例如基于文档结构的Embedding，即将文档知识中的各Token增加该文档知识在文档图中结构信息的编码。例如为文档图中各节点进行编号，该编码体现出节点在文档图中的层级位置，在对文档知识进行Embedding处理时，该文档知识的各Token均具有该文档知识对应的编号，对该编号进行编码作为该文档知识的各Token的文档结构表示。然后第二编码网络利用对文档知识的Embedding结果进行进一步编码，得到文档知识的特征表示。

作为再一种可实现的方式，第二编码网络可以采用诸如RGCN(RelationalGraphConvolutionalNetworks，关系图卷积网络)、RGAT(RelationalGraphAttentionNetworks，关系图注意力网络)等图神经网络对文档图中的节点进行编码，得到各节点的特征表示。其中就能够得到各文档知识的特征表示。

RGCN模型的输入由节点特征和边类型组成，所有的节点特征传递到RGCN层，通过聚合来自邻居节点的特征表示，将其转换为节点的特征表示。其中邻居节点的特征表示会根据边的类型进行加权。RGAT模型相比较RGCN模型引入了attention(注意力)机制，即在计算节点的特征表示时，引入了邻居节点对节点特征的attention影响。

更进一步地，由于本申请实施例中文档图中各节点可以包含多种文档知识的类型。因此，还可以在检索模型中融入文档知识的类型信息，来辅助进行知识检索。例如可以进一步对文档知识进行基于文档知识类型的Embedding，具体地，可以为文档知识中的各Token增加文档知识类型的信息，例如为各种文档知识的类型进行编号。在对文档知识进行Embedding处理时，该文档知识的各Token均具有该文档知识对应的文档知识的类型编号，对该类型编号进行编码作为该文档知识的各Token的文档知识类型表示。然后第二编码网络利用对文档知识的Embedding结果进行进一步编码，得到文档知识的特征表示。

第二编码网络可以预先对各文档知识进行编码得到各文档知识的特征表示，并进行存储以供检索模型检索时直接匹配存储的各文档知识的特征表示。

上述检索模型在预先进行训练时，可以首先获取包括多个正样本对和负样本对的第一训练数据，各样本对包括检索文本样本和文档知识样本，其中文档知识样本来源于文档库中的文档图。

其中，正样本对可以人为构造，也可以采用其他方式获得，例如从历史检索日志中获取用户的检索文本以及用户从检索结果中点击的文档知识作为正样本对。

负样本对的构造可以采用但不限于以下方式中的任一种或任意组合：

第一种方式：将一个正样本对中的检索文本样本和另一个正样本对中的文档知识样本进行组合，构成负样本对。

例如存在正样本对：(q1,k1)，(q2,k2)，可以将(q1,k2)、(q2,k1)作为负样本。

第二种方式：获取正样本对中的检索文本样本和文档知识样本，在文档图中随机采样不同于该文档知识样本的文档知识，将该检索文本样本和随机采样的文档知识构成负样本对。

例如，存在正样本对(q1,k1)，在文档图中随机采样一个文档知识k3，将(q1,k3)作为否样本对。

第三种方式：获取正样本对中的检索文本样本和文档知识样本，在文档图中采样与该文档知识样本属于同一节点的其他文档知识，将该检索文本样本和采样的文档知识构成负样本对。

这种方式与第二种方式不同的是，为了提高检索模型的检索准确性，使得检索文本更具区分能力，在文档图中采样与正样本对中文档知识样本属于同一节点的其他文档知识。之所以如此，是因为对于检索模型而言，区分同一节点的不同文档知识相比较区分其他文档知识而言更难，因此这种方式构建的负样本对能够帮助检索模型更好地学习到同一节点下两个文档知识在特定文档结构的基础上所体现出的特征上的区别。

例如，存在正样本对(q1,k1)，k1和k2属于同一节点下的两个不同的文档知识，可以将(q1,k2)作为负样本对。

第四种方式：获取正样本对中的检索文本样本和文档知识样本，采用BM25算法从文档库的各文档图中确定与该检索文本样本之间的相似度满足预设第二相似度要求的文档知识，从确定出的文档知识中选择不同于正样本对中的文档知识样本的文档知识，将该检索文本样本和选择的文档知识构成负样本对。

例如，存在正样本对(q1,k1)，采用BM25算法从文档库的各文档图中确定与q1之间的相似度大于预设相似度阈值的文档知识，从确定的文档知识中随机选择一个不是k1的文档知识，例如k2。利用(q1,k2)构成负样本对。

通过上述方式可以构造大量负样本对，降低了手工构造负样本对所带来的人力成本。

然后利用第一训练数据训练检索模型。在训练检索模型时采用的是对比学习的方式。其中，利用检索模型获取检索文本样本的特征表示和文档知识样本的特征表示，确定检索文本样本的特征表示与文档知识样本的特征表示之间的相似度，训练的目标包括最大化正样本对中检索文本样本的特征表示与文档知识样本的特征表示之间的相似度，且最小化负样本对中检索文本样本的特征表示与文档知识样本的特征表示之间的相似度。

在本申请实施例中，可以依据上述训练目标构造损失函数，在每一轮迭代中利用损失函数的取值，采用诸如梯度下降等方式更新检索模型的参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。

除了上述稠密检索之外，也可以采用稀疏检索方式，例如基于TF(TermFrequency，词频)-IDF(InverseDocumentFrequency，逆文档频率)、BM25算法(BM25是信息索引领域用来计算query与文档相似度的经典算法)来计算检索文本与各文档知识的相似度，并依据该相似度确定满足预设第一相似度要求的M个文档知识作为候选结果。鉴于基于TF-IDF、BM25等的稀疏检索方式为目前已有的方法，在此不做详述。

当采用稠密检索和系数检索结合的混合检索方式时，可以利用稠密检索确定出检索文本和文档知识的相似度，以及利用稀疏检索确定出检索文本和文档知识的相似度后，将两个相似度进行整合，例如相加、加权求和、加权求平均等，依据整合处理后的相似度确定相似度满足第一相似度要求的M个文档知识作为候选结果。

上述第一相似度要求可以是诸如，相似度排在前M个，相似度的取值大于或等于预设相似度阈值等。

下面结合实施例对上述步骤206即“对候选结果进行排序，依据排序结果选择N个候选结果以得到针对检索文本的检索结果”进行详细描述。

在将各候选结果即M个文档知识进行排序时，可以采用排序模型实现。如图6中所示，可以将检索文本和各候选结果分别进行拼接，例如将检索文本和第一个候选结果进行拼接，利用特征提取网络对拼接后得到的文本序列进行特征提取，得到文本序列的特征表示。然后再由预测网络利用文本序列的特征表示预测对应候选结果的排序得分。

其中，特征提取网络也可以采用诸如T5、BERT、XLNet、GPT模型等预训练语言模型。

特征提取网络在进行编码之前，可以首先对输入的文本序列进行Embedding处理。例如，基于词的Embedding、基于位置的Embedding等。其中，词Embedding，即将各Token进行词向量编码，得到词向量表示。位置Embedding，即将各Token在输入的文本序列中的位置进行编码，得到位置的表示。

作为其中一种可实现的方式，文本序列的特征表示依据文本序列的特征以及文本序列所包含候选结果在文档图中的层级关系特征得到。其中，可以针对文本序列中的各Token增加特殊的Embedding处理，例如基于文档结构的Embedding，即将文档知识(即候选结果)中的各Token增加该文档知识在文档图中结构信息的编码。例如为文档图中各节点进行编号，该编码体现出节点在文档图中的层级位置。在对文档序列进行Embedding处理时，该文档知识的各Token均具有该文档知识对应的编号，对该编号进行编码作为该文档知识的各Token的文档结构表示。然后第二编码网络利用对文本序列的Embedding结果进行进一步编码，得到文本序列的特征表示。

上述排序模型在预先进行训练时，可以首先获取包括多个正样本对和负样本对的第二训练数据，各样本对包括检索文本样本和文档知识样本，其中文档知识样本来源于文档库中的文档图。

负样本对的构造方式与上述实施例中描述的对第一训练数据中负样本的构造方式类似，在此不做赘述。

在本申请实施例中利用第二训练数据训练排序模型时，也可以采用对比学习的方式。利用排序模型获取样本对中检索文本样本和文档知识样本拼接后得到的文本序列的特征表示，利用该特征表示预测对应文档知识样本的排序得分。训练的目标包括：最大化同一检索文本样本对应的正样本对中文档知识样本的排序得分与对应的负样本对中文档知识样本的排序得分之间的差异。

在本申请实施例中，可以依据上述训练目标构造损失函数，在每一轮迭代中利用损失函数的取值，采用诸如梯度下降等方式更新排序模型的参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。

利用排序模型得到各候选结果的排序得分后，可以依据该排序得分对各候选结果进行排序，从中选择排在前N个的候选结果作为检索结果，其中N为预设的正整数，且N小于或等于M。

作为其中一种可实现的方式，在将检索结果返回给用户时，其中的N个文档知识也按照其对应的排序得分进行排序。

本申请实施例提供的上述方法可以应用于多种应用场景，在此仅以其中两种应用场景为例：

应用场景1：

随着互联网技术和计算机终端的不断发展和普及，越来越多的用户使用线上会议的形式进行沟通。并且在会议过程中会采用语音、文档进行信息输入，并最终生成会议记录。

当用户想要从会议记录中获取某些信息时，用户可以针对会议记录进行信息检索，例如用户在在线会议客户端提供的搜索框中输入query，客户端将该query发送至服务器端。

服务器端可以采用本申请实施例中的方式，预先将会议记录中原本是非结构化的文档构建为文档图。会议记录中的文档可以包括依据用户在会议过程中的语音进行识别后产生的记录文档，也可以是用户在会议过程中上传或分享的文档。构建的文档图中每个节点包括至少一种文档知识，文档知识可以包括文档中的句子、从文档中抽取的实体三元组和问答语句对中的至少一种。也就是说，包括了预先抽取的结构化信息。除此之外，节点之间通过边表达的层级关系体现了对应文档知识在文档中的结构关系。

服务器端利用检索模型在会议记录对应的文档图中进行检索，将检索到的文档知识作为候选结果。具体地，首先利用检索模型获取检索文本的特征表示以及会议记录产生的文档图中各文档知识的特征表示；然后分别确定检索文本的特征表示与各文档知识的特征表示之间的相似度，确定对应相似度满足预设第一相似度要求的M个文档知识作为候选结果。例如确定相似度排在前10个的文档知识作为候选结果。

再利用排序模型对各候选结果进行排序评分，依据排序评分得到最终的检索结果返回给用户，例如选择排序评分最高的3个候选结果作为检索结果。

可以看出，通过本申请实施例中的方式，用户无需在包含大量内容的会议记录中一一查看并找到需要的内容，而是输入query后，能够快速、便捷、准确地获得检索结果，从检索结果中找到需要的内容，大大提高了效率。

应用场景2：

现在越来越多的应用中嵌入了智能问答系统，例如电子商务平台使用在线客服，再例如智能音箱具备智能问答功能，等等。

用户可以向智能问答系统输入问题，例如，智能问答系统向用户提供页面或客户端，用户通过该页面或客户端上的输入框等组件输入问题，或者通过语音方式输入问题。

位于服务器端(可以是云端服务器)的智能问答系统利用用户输入的问题得到检索文本。例如，将用户通过输入框等组件输入的问题作为检索文本。再例如，将用户通过语音方式输入的问题进行语音识别后，得到检索文本。

智能问答系统可以是针对特定领域的，例如针对医学领域、教育领域、保险领域等；也可以是通用的智能问答系统。

以针对特定领域的智能问答系统为例，智能问答系统可以采用本申请实施例中的方式，预先将该特定领域中原本是非结构化的文档构建为文档图。特定领域的文档可以从特定领域的资源库中获取，例如特定领域的文献、论文、报道等文档。构建的文档图中每个节点包括至少一种文档知识，文档知识可以包括文档中的句子、从文档中抽取的实体三元组和问答语句对中的至少一种。也就是说，包括了预先抽取的结构化信息。除此之外，节点之间通过边表达的层级关系体现了对应文档知识在文档中的结构关系。

智能问答系统利用检索模型在特定领域对应的文档图中进行检索，将检索到的文档知识作为候选结果。具体地，首先利用检索模型获取检索文本的特征表示以及特定领域的文档资源产生的文档图中各文档知识的特征表示；然后分别确定检索文本的特征表示与各文档知识的特征表示之间的相似度，确定对应相似度满足预设第一相似度要求的M个文档知识作为候选结果。例如确定相似度排在前10个的文档知识作为候选结果。

再利用排序模型对各候选结果进行排序评分，依据排序评分得到最终的检索结果返回给用户，例如选择排序评分最高的1个候选结果作为检索结果。

然后智能问答系统利用检索结果生成答案，并将生成的答案返回给用户。该答案可以以文本的形式返回给用户，也可以将文本进行语音合成后通过语音返回给用户。其中，在利用检索结果生成答案时，可以将检索结果直接作为答案返回。也可以结合特定的话术利用检索结果生成答案。

可以看出，通过本申请实施例中的方式，用户能够在智能问答系统中快速、便捷、准确地获得想要的答案，大大提高了效率和用户体验。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

根据另一方面的实施例，提供了一种信息检索装置。图7示出根据一个实施例的信息检索装置的示意性框图。如图7所示，该装置700包括：输入获取单元701、检索处理单元702和排序处理单元703，还可以进一步包括第一训练单元704和第二训练单元705。其中各组成单元的主要功能如下：

输入获取单元701，被配置为获取检索文本。

检索处理单元702，被配置为利用检索文本在文档库包括的各文档对应的文档图中进行匹配，获取匹配到的M个文档知识作为候选结果，M为预设的正整数，其中文档图中的节点包括至少一种文档知识，文档知识包括文档中的文本单元、从文档中抽取出的实体三元组和问答语句对中的至少一种，各节点之间的层级关系体现对应文档知识在文档中的结构关系。

排序处理单元703，被配置为对候选结果进行排序，依据排序结果选择N个候选结果得到针对检索文本的检索结果，N为预设的正整数，且N小于或等于M。

作为其中一种可实现的方式，检索处理单元702可以具体被配置为：利用检索模型获取检索文本的特征表示以及文档图中各文档知识的特征表示，其中各文档知识的特征表示是依据文档知识的特征以及该文档知识在文档图中的层级关系特征得到的；分别确定检索文本的特征表示与各文档知识的特征表示之间的相似度，确定对应相似度满足预设第一相似度要求的M个文档知识。

作为其中一种可实现的方式，若文档图中的节点包括多种文档知识，则各文档知识的特征表示可以进一步依据文档知识的类型得到。

作为其中一种可实现的方式，第一训练单元704，被配置为采用如下方式预先训练得到检索模型：

获取包括多个正样本对和负样本对的第一训练数据，各样本对包括检索文本样本和文档知识样本，文档知识样本来源于文档库中的文档图；

利用第一训练数据训练检索模型，其中，利用检索模型获取检索文本样本的特征表示和文档知识样本的特征表示，确定检索文本样本的特征表示与文档知识样本的特征表示之间的相似度，训练的目标包括最大化正样本对中检索文本样本的特征表示与文档知识样本的特征表示之间的相似度，且最小化负样本对中检索文本样本的特征表示与文档知识样本的特征表示之间的相似度。

作为其中一种可实现的方式，排序处理单元703可以具体被配置为：将检索文本与各候选结果分别进行拼接，利用排序模型获取拼接后得到的各文本序列的特征表示，利用各文本序列的特征表示预测对应候选结果的排序得分，其中文本序列的特征表示依据文本序列的特征以及文本序列所包含候选结果在文档图中的层级关系特征得到；依据排序得分，确定各候选结果的排序结果。

作为其中一种可实现的方式，第二训练单元705，被配置为采用如下方式预先训练得到排序模型：

获取包括多个正样本对和负样本对的第二训练数据，各样本对包括检索文本样本和文档知识样本，文档知识样本来源于文档库中的文档图；

利用第二训练数据训练排序模型，其中，利用排序模型获取样本对中检索文本样本和文档知识样本拼接后得到的文本序列的特征表示，利用该特征表示预测对应文档知识样本的排序得分，训练的目标包括：最大化同一检索文本样本对应的正样本对中文档知识样本的排序得分与对应的负样本对中文档知识样本的排序得分之间的差异。

作为其中一种可实现的方式，上述第一训练单元704和第二训练单元705可以采用如下方式中的至少一种构建负样本对：

第一种方式：获取正样本对中的检索文本样本和文档知识样本，在文档图中采样与该文档知识样本属于同一节点的其他文档知识，将该检索文本样本和采样的文档知识构成负样本对。

第二种方式：将一个正样本对中的检索文本样本和另一个正样本对中的文档知识样本进行组合，构成负样本对。

第三种方式：获取正样本对中的检索文本样本和文档知识样本，在文档图中随机采样不同于该文档知识样本的文档知识，将该检索文本样本和随机采样的文档知识构成负样本对。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

其中，图8示例性的展示出了电子设备的架构，具体可以包括处理器810，视频显示适配器811，磁盘驱动器812，输入/输出接口813，网络接口814，以及存储器820。上述处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，与存储器820之间可以通过通信总线830进行通信连接。

其中，处理器810可以采用通用的CPU、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器820可以采用ROM(ReadOnlyMemory，只读存储器)、RAM(RandomAccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器820可以存储用于控制电子设备800运行的操作系统821，用于控制电子设备800的低级别操作的基本输入输出系统(BIOS)822。另外，还可以存储网页浏览器823，数据存储管理系统824，以及信息检索装置825等等。上述信息检索装置825就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器820中，并由处理器810来调用执行。

输入/输出接口813用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口814用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线830包括一通路，在设备的各个组件(例如处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，与存储器820)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，存储器820，总线830等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来，该计算机程序产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种信息检索方法，其特征在于，所述方法包括：

获取检索文本；

2.根据权利要求1所述的方法，其特征在于，利用所述检索文本在文档库包括的各文档对应的文档图中进行匹配包括：

3.根据权利要求2所述的方法，其特征在于，若所述文档图中的节点包括多种文档知识，则所述各文档知识的特征表示进一步依据文档知识的类型得到。

4.根据权利要求2所述的方法，其特征在于，所述检索模型采用如下方式预先训练得到：

5.根据权利要求1所述的方法，其特征在于，对所述候选结果进行排序包括：

依据所述排序得分，确定各候选结果的排序结果。

6.根据权利要求5所述的方法，其特征在于，所述排序模型采用如下方式预先训练得到：

7.根据权利要求4或6所述的方法，其特征在于，所述负样本对采用如下方式中的至少一种构建：

8.一种问答处理方法，应用于智能问答系统，其特征在于，所述方法包括：

利用用户输入所述智能问答系统的问题得到检索文本；

9.一种信息检索的装置，其特征在于，所述装置包括：

输入获取单元，被配置为获取检索文本；

排序处理单元，被配置为对所述候选结果进行排序，依据排序结果选择N个候选结果得到针对所述检索文本的检索结果，所述N为预设的正整数，且所述N小于或等于所述M。

10.一种信息检索系统，其特征在于，所述系统包括用户设备和服务器；

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

12.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至8中任一项所述的方法的步骤。