CN115130455A

CN115130455A - 文章处理方法、装置、电子设备以及存储介质

Info

Publication number: CN115130455A
Application number: CN202210976726.3A
Authority: CN
Inventors: 陈维识
Original assignee: Douyin Vision Co Ltd
Current assignee: Douyin Vision Co Ltd
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2022-09-30

Abstract

本公开提供了一种文章处理方法、装置、电子设备以及存储介质，其中，该方法包括：获取多个待处理文章；基于各所述待处理文章中各段落的段落内容，确定该段落的段落特征向量；其中，所述段落特征向量为用于指示该段落在对应待处理文章中语义信息的特征；基于所述段落特征向量确定该段落的段落关键特征；其中，所述段落关键特征为用于指示该段落与其他段落之间语义区别的特征；基于所述段落关键特征确定多个所述待处理文章中任意两个待处理文章之间的语义重合结果。

Description

文章处理方法、装置、电子设备以及存储介质

技术领域

本公开涉及计算机的技术领域，具体而言，涉及一种文章处理方法、装置、电子设备以及存储介质。

背景技术

现有网络信息平台通常会产生大量相似的文章，此时需要对相似度较高的文章进行过滤。相关技术中，通常选择提炼整篇文章的关键信息，从而通过关键信息来确定两篇文章的重合度。然而，该技术方案容易受整篇文章长度的影响，从而导致关键信息的信息内容存在较大差异，进而导致重合度的准确性较差。

发明内容

本公开实施例至少提供一种文章处理方法、装置、电子设备以及存储介质。

第一方面，本公开实施例提供了一种文章处理方法，包括：获取多个待处理文章；基于各所述待处理文章中各段落的段落内容，确定该段落的段落特征向量；其中，所述段落特征向量为用于指示该段落在对应待处理文章中语义信息的特征；基于所述段落特征向量确定该段落的段落关键特征；其中，所述段落关键特征为用于指示该段落与其他段落之间语义区别的特征；基于所述段落关键特征确定多个所述待处理文章中任意两个待处理文章之间的语义重合结果。

一种可选的实施方式中，所述基于各所述待处理文章中各段落的段落内容，确定该段落的段落特征向量，包括：将各所述待处理文章中每个段落的段落内容进行分词处理，得到至少一个目标词汇；确定每个所述目标词汇的词特征向量，并基于所述至少一个目标词汇的词特征向量确定该段落的段落特征向量。

一种可选的实施方式中，所述基于所述至少一个目标词汇的词特征向量确定该段落的段落特征向量，包括：将所述至少一个目标词汇的词特征向量进行求平均运算，得到平均运算结果，并基于所述平均运算结果确定所述段落的段落特征向量。

一种可选的实施方式中，所述对各所述待处理文章中每个段落的段落内容进行分词处理，得到至少一个目标词汇，包括：在每个所述待处理文章中各段落的段落内容中提取关键文本信息；对所述关键文本信息进行分词处理，得到所述至少一个目标词汇。

一种可选的实施方式中，所述基于所述段落特征向量确定该段落的段落关键特征，包括：通过目标分类模型中的Transformer编码器对所述段落特征向量进行编码处理，得到目标编码结果；通过所述目标分类模型中的全局平均池化层对所述目标编码结果进行池化计算，并将池化计算结果确定为所述段落关键特征。

一种可选的实施方式中，所述基于所述段落关键特征确定多个所述待处理文章中任意两个待处理文章之间的语义重合结果，包括：通过目标分类模型中的至少一个稠密连接网络对所述段落关键特征进行特征处理，得到段落稠密向量；基于所述段落稠密向量确定所述任意两个待处理文章之间的重合预测信息；其中，所述重合预测信息用于指示所述任意两个待处理文章之间的重合度为各预设重合度的概率；基于所述重合预测信息确定所述任意两个待处理文章之间的语义重合结果。

一种可选的实施方式中，包括：获取目标训练样本；其中，所述目标训练样本包含多个训练文章和所述多个训练文章之间的重合标签，所述重合标签用于指示所述多个训练文章之间的重合度；基于所述目标训练样本对初始分类模型进行训练，得到所述目标分类模型。

第二方面，本公开实施例提供了一种文章处理方法，包括：获取目标话题的多个备选话题文章；其中，每个所述备选话题文章的至少一个文章特征与所述目标话题相关联；通过上述第一方面任一项所述的文章处理方法，确定所述多个备选话题文章中任意两个备选话题文章之间的语义重合结果；基于所述语义重合结果在所述多个备选话题文章中筛选所述目标话题的多个目标话题文章；其中，任意两个目标话题文章中包含相关联的文章特征，且任意两个目标话题文章之间的语义重合度小于预设重合度阈值。

第三方面，本公开实施例还提供一种文章处理装置，包括：第一获取单元，用于获取多个待处理文章；第一确定单元，用于基于各所述待处理文章中各段落的段落内容，确定该段落的段落特征向量；其中，所述段落特征向量为用于指示该段落在对应待处理文章中语义信息的特征；第二确定单元，用于基于所述段落特征向量确定该段落的段落关键特征；其中，所述段落关键特征为用于指示该段落与其他段落之间语义区别的特征；第三确定单元，用于基于所述段落关键特征确定多个所述待处理文章中任意两个待处理文章之间的语义重合结果。

第四方面，本公开实施例还提供一种文章处理装置，包括：第二获取单元，用于获取目标话题的多个备选话题文章；其中，每个所述备选话题文章的至少一个文章特征与所述目标话题相关联；第四确定单元，用于通过上述第一方面中任一项所述的文章处理方法，确定所述多个备选话题文章中任意两个备选话题文章之间的语义重合结果；筛选单元，用于基于所述语义重合结果在所述多个备选话题文章中筛选所述目标话题的多个目标话题文章；其中，任意两个目标话题文章中包含相关联的文章特征，且任意两个目标话题文章之间的语义重合度小于预设重合度阈值。

第五方面，本公开实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第六方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

本公开实施例提供的一种文章处理的方法、装置、电子设备以及存储介质。在本公开实施例中，首先，获取多个待处理文章，然后，基于各待处理文章中各段落的段落内容，确定用于指示该段落在对应待处理文章中语义信息的段落特征向量；然后，基于段落特征向量确定用于指示该段落与其他段落之间语义区别的段落关键特征；最后，基于段落关键特征确定多个待处理文章中任意两个待处理文章之间的语义重合结果。

上述实施方式中，通过待处理文章中各段落的段落特征向量，确定该段落关键特征，以通过该段落关键特征确定任意两个待处理文章之间语义重合结果的方式，可以实现以段落为单位，确定任意两个待处理文章的段落之间的语义重合情况，从而基于段落之间的语义重合情况确定这两个待处理文章之间的语义重合情况，从而提高任意两个待处理文章之间的语义重合结果的准确度，同时还可以提高语义重合结果的确定效率。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种文章处理方法的流程图；

图2(a)示出了一种重合的情况下话题置顶文章与落地页文章的内容之间的关系的示意图；

图2(b)示出了一种无关的情况下话题置顶文章与落地页文章的内容之间的关系的示意图；

图2(c)示出了一种相关且不重合的情况下话题置顶文章与落地页文章的内容之间的关系的示意图；

图3示出了一种基于段落特征向量确定多个待处理文章中任意两个待处理文章之间的语义重合结果的流程图；

图4(a)示出了一种基于各待处理文章中各段落的段落向量特征，确定该段落的段落特征向量的流程图；

图4(b)示出了一种Transformer编码器的结构示意图；

图5示出了本公开实施例所提供的另一种文章处理方法的流程图；

图6示出了本公开实施例所提供的一种文章处理装置的示意图；

图7示出了本公开实施例所提供的另一种文章处理装置的示意图；

图8示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，现有网络信息平台通常会产生大量相似的文章，此时，需要对相似度较高的文章进行过滤。相关技术中，通常选择提炼整篇文章的关键信息，从而通过关键信息来确定两篇文章的重合度。然而，该技术方案容易受整篇文章长度的影响，从而导致关键信息的信息内容存在较大差异，进而导致重合度的准确性较差。

例如，某网络信息平台A每天都会产生出很多的新发文，同时在某一个时段内会有非常多主题和内容都比较相似的文章更新。例如，在“热榜”(或者热点)的场景之下，通常需要解决话题置顶文章和落地页文章互相之间的信息增量问题，因为以下原因：

(1)、如果话题置顶文章和落地页文章的内容相似度较高，那么会造成使用者阅读到重合的内容，从而降低使用者的使用体验。例如，如图2(a)所示，内容相似度较高可以理解为“重合”，也即无信息增量，即话题置顶文章和落地页文章的内容重合度较高。

(2)、如果话题置顶文章和落地页文章之间内容无关联，会使使用者认为落地页文章与话题置顶文章之间“无关”，同样会降低使用者的使用体验。例如，如图2(b)所示，“无关”还可以理解为跑题，即话题置顶文章和落地页文章之间的内容无重合内容。

(3)、如果落地页文章和话题置顶文章之间存在内容增量，则可以提高使用者的阅读兴趣，进而提高使用者的使用体验。例如，如图2(c)所示，存在内容增量可以理解为“相关且不重合”，即落地页文章和话题置顶文章之间存在部分内容重合。

针对上述所描述的技术问题，在一种可选的实施方式中，可以通过以下处理方式确定落地页文章和话题置顶文章之间的重合情况，具体过程描述如下：

首先，分别提炼两篇文章的关键词，从而得到关键词序列；之后，计算这两个关键词序列的杰卡德距离；接下来，根据杰卡德距离确定两篇文章之间的重合情况。

然而，如果两篇文章的长度差异比较大，那么会导致关键词序列的长度差异大，在使用杰卡德距离来确定两篇文章之间的重合情况时，会降低计算结果的准确性计算长度不同的文章对的计算不是公平的。且上述处理方式需要确定一个距离阈值，该阈值的确定过程主观性较强，从而导致在基于重合情况对文章进行筛选过程中，筛选出不符合用户阅读需求的文章。

基于上述研究，本公开提供了一种文章处理方法、装置、电子设备以及存储介质。在本公开实施例中，首先，获取多个待处理文章，然后，基于各待处理文章中各段落的段落内容，确定用于指示该段落在对应待处理文章中语义信息的段落特征向量；然后，基于段落特征向量确定用于指示该段落与其他段落之间语义区别的段落关键特征；最后，基于段落关键特征确定多个待处理文章中任意两个待处理文章之间的语义重合结果。

上述实施方式中，通过待处理文章中各段落的段落特征向量，确定该段落关键特征，以通过该段落关键特征确定任意两个待处理文章之间语义重合结果的方式，可以实现以段落为单位，确定任意两个待处理文章的段落之间的语义重合情况，从而基于段落之间的语义重合情况确定这两个待处理文章之间的语义重合情况，进而提高任意两个待处理文章之间的语义重合结果的准确性，同时还可以提高语义重合结果的确定效率。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种文章处理方法进行详细介绍，本公开实施例所提供的文章处理方法的执行主体一般为具有一定计算能力的电子设备，该电子设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该文章处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示，为本公开实施例提供的一种文章处理方法的流程图，所述方法包括步骤S101～S107，其中：

S101：获取多个待处理文章。

这里，待处理文章的可以为文章集中的文章。其中，该文章集中的文章可以属于同一话题，或者，不属于同一话题，本公开对此不作具体限定。

S103：基于各所述待处理文章中各段落的段落内容，确定该段落的段落特征向量；其中，所述段落特征向量为用于指示该段落在对应待处理文章中语义信息的特征。

在本公开实施例中，在获取到多个待处理文章之后，可以将每个待处理文章划分为多个段落，从而确定每个段落的段落内容。

在一个可选的实施方式中，可以在每个待处理文章中识别段落标识，其中，该段落标识为任意段落的开始标识和/或任意段落的结束标识。之后，可以基于该段落标识将每个待处理文章划分为多个段落。例如，该段落标识可以为“首行缩进2字符”的标识。

在另一个可选的实施方式中，如果在待处理文章中并未识别到段落标识，则可以将该待处理文章自动划分为多个文章内容，每个文章内容对应一个段落的段落内容。例如，可以在待处理文章中识别目标间隔符号，例如，识别“句号”。此时，可以基于识别到的目标间隔符号自动划分为多个文章内容，例如，可以将任意两个相邻目标间隔符号之间的内容确定为一个文章内容。

在将待处理文章划分为多个段落之后，就可以基于段落内容，确定该段落的段落特征向量。

这里，每个待处理文章中各段落的段落内容可以理解为该段落的文本内容。此时，可以基于该段落的文本内容确定该段落的段落特征向量。

具体实施时，可以将文本内容中的每个文本转化为对应的嵌入向量，从而基于每个文本的嵌入向量确定该段落的段落特征向量。例如，可以通过word2vec将文本内容中的每个文本转化为对应的嵌入向量。

这里，针对每个待处理文章中的每个段落，均可以确定出相应的段落特征向量。例如，多个待处理文章中的文章1，该文章1包含N个段落，分别为段落1，段落2，…，段落n，…，段落N。其中，针对每个段落，均可以得到一个段落特征向量，记为段落特征向量1、段落特征向量2，…，段落特征向量n，…，段落特征向量N。

在本公开实施例中，通过将待处理文章划分为多个段落，并确定每个段落的段落特征向量，可以实现为段落为单位将任意两个待处理文章进行查重处理，从而得到语义重合结果。

S105：基于所述段落特征向量确定该段落的段落关键特征；其中，所述段落关键特征为用于指示该段落与其他段落之间语义区别的特征。

在本公开实施例中，在获取到每个待处理文章中每个段落的段落特征向量之后，可以对段落特征向量进行进一步特征提取，从而提取该段落特征向量中的段落关键特征。

这里，段落关键特征可以为用于指示该段落与其他待处理文章中其他段落之间的语义区别的特征；或者，该段落关键特征可以为用于将该段落和其他待处理文章中的其他段落进行语义区分的特征。

S107：基于所述段落关键特征确定多个所述待处理文章中任意两个待处理文章之间的语义重合结果。

这里，语义重合结果用于指示任意两个待处理文章之间所包含文本内容的重合度。其中，该语义重合结果可以为维度为3的向量[a,b,c]，其中，a表示该任意两个待处理文章之间的文本重合程度为预设重合度1的概率，b表示该任意两个待处理文章之间的文本重合程度为预设重合度2的概率，c表示该任意两个待处理文章之间的文本重合程度为预设重合度3的概率。其中，预设重合度1可以为：相关且不重合(也即互有增量信息)，预设重合度2可以为：无关；预设重合度3可以为：重合。

在本公开实施例中，可以通过目标分类模型对段落特征向量进行特征提取，从而提取该段落特征向量中的段落关键特征，并基于段落关键特征确定多个所述待处理文章中任意两个待处理文章之间的语义重合结果。其中，目标分类模型可以包含Transformer编码器、全局平均池化层和至少一个稠密连接网络；其中，Transformer编码器、全局平均池化层和至少一个稠密连接网络依次串联连接。

具体实施时，可以将段落特征向量输入至目标分类模型中，从而通过目标分类模型中Transformer编码器、全局平均池化层和至少一个稠密连接网络可以依次对段落特征向量进行处理，从而得到该段落的段落关键特征，并基于段落关键特征确定多个待处理文章中任意两个待处理文章之间的语义重合结果。

在一个可选的实施方式中，上述步骤S103基于各所述待处理文章中各段落的段落内容，确定该段落的段落特征向量，具体包括如下步骤：

S1031，将各所述待处理文章中每个段落的段落内容进行分词处理，得到至少一个目标词汇；

S1032，确定每个所述目标词汇的词特征向量，并基于所述至少一个目标词汇的词特征向量确定该段落的段落特征向量。

在本公开实施例中，在按照上述实施例中所描述的方式将每个待处理文章划分为多个段落之后，可以提取每个段落的段落内容。然后，对每个段落的段落内容进行分词处理。例如，可以利用分词器对每个段落的段落内容进行分词处理。这里，分词器在获取每个段落的段落内容后，可以对输入的段落内容进行文本分割，通过文本分割将段落内容拆分为若干个独立的词汇，即至少一个目标词汇。

在得到至少一个目标词汇后，可以将目标词汇中的每个目标词汇转化为对应的嵌入向量，即每个目标词汇的词特征向量。例如，可以通过word2vec技术将每个目标词汇转化为对应的嵌入向量。之后，可以基于至少一个目标词汇的嵌入向量(即，词特征向量)确定该段落的段落特征向量。

在本公开实施例中，在按照上述实施例中所描述的方式将每个待处理文章划分为多个段落之后，还可以删除段落内容中的无用词汇，其中，该无用词汇可以理解为对段落内容的语义信息无影响的信息，例如，感叹词等词汇。在删除无用词汇之后，就可以通过分析器对删除无用词汇之后的段落内容进行分词处理，从而得到至少一个目标词汇。

承接上述实施例中的文章1。例如，如图3所示，文章1包含n个段落，分别为段落1至段落n，其中，段落1的段落内容记为段落内容1，…，段落n的段落内容记为段落内容n。之后，可以对每个段落内容按照上述所描述的方式进行分词处理，例如，如图3所示，对段落内容1进行分词处理之后，可以得到词汇组1，对段落内容n进行分词处理之后，可以得到词汇组n。其中，词汇组1包含段落内容1进行分词处理之后的至少一个目标词汇，词汇组n包含段落内容n进行分词处理之后的至少一个目标词汇。

在确定出词汇组之后，如图3所示，就可以提取词汇组中每个目标词汇的词特征向量(即，嵌入向量)，其中，词汇组1中每个目标词汇的词特征向量记为词特征向量1，词汇组n中每个目标词汇的词特征向量记为词特征向量n。在确定出各词汇组中每个目标词汇的词特征向量之后，就可以将该词汇组中每个目标词汇的词特征向量组合为词特征向量列表，例如，图3所示的特征向量列表1至特征向量列表n，然后，就可以基于特征向量列表确定每个段落的段落特征向量。

在一个可选的实施方案中，上述步骤S1032基于所述至少一个目标词汇的词特征向量确定该段落的段落特征向量，具体包括如下步骤：

步骤S11，将所述至少一个目标词汇的词特征向量进行求平均运算，得到平均运算结果；

步骤S12，基于所述平均运算结果确定所述段落的段落特征向量。

在本公开实施例中，在得到每个段落的至少一个目标词汇之后，可以将该段落中全部目标词汇的词特征向量进行求平均计算，从而得到平均计算结果。之后，就可以将该平均计算结果确定为该段落的段落特征向量。

例如，如图3所示，可以将词特征向量列表中的全部词特征向量进行求平均计算，从而得到对应段落的段落特征向量。

上述实施方式中，通过上述处理方式，可以更加准确的确定出待处理文章中每个段落的段落特征向量，从而能够提高语义重合结果的可靠性。

在一个可选的实施方案中，上述步骤S1031对各所述待处理文章中每个段落的段落内容进行分词处理，得到至少一个目标词汇，具体包括以下步骤：

步骤S21，在每个所述待处理文章中各段落的段落内容中提取关键文本信息；

步骤S22，对所述关键文本信息进行分词处理，得到所述至少一个目标词汇。

在本公开实施例中，在按照上述实施例中所描述的方式将每个待处理文章划分为多个段落之后，可以提取每个段落的段落内容。然后，提取每个待处理文章中各段落的段落内容的关键文本信息，其中，该关键文本信息可以理解为用于指示该段落的语义信息的文本信息。

在一个可选的实施方式中，可以将每个段落的段落内容输入到第一神经网络模型进行信息提取，从而提取该段落内容的关键文本信息。其中，该神经网络模型的模型输入可以为文本内容，该第一神经网络的模型输出可以为该文本内容的关键文本信息。这里，该关键文本信息可以为该段落的关键词，和/或，该段落的关键语句。

在按照上述所描述的方式确定出关键文本信息之后，如果该关键文本信息为段落的关键词，则将该段落的关键词确定为至少一个目标词汇。如果该关键文本信息为段落的关键语句进行分词处理，从而得到至少一个目标词汇。之后，确定每个目标词汇的词特征向量，进而通过对至少一个词特征向量进行求平均的方式，确定该段落的段落特征向量。

上述实施方式中，通过提取段落内容中关键文本信息，并对关键文本信息进行分词处理，得到至少一个目标词汇的方式，可以减少数据计算量，从而提高文章对比速率。

在一个可选的实施方案中，上述步骤S105基于所述段落特征向量确定该段落的段落关键特征，具体包括以下步骤：

步骤S1051，通过目标分类模型中的Transformer编码器对所述段落特征向量进行编码处理，得到目标编码结果；

步骤S1052，通过所述目标分类模型中的全局平均池化层对所述目标编码结果进行池化计算，并将池化计算结果确定为所述段落关键特征。

通过上述描述可知，在本公开实施例中，可以通过目标分类模型对段落特征向量进行特征提取，从而提取该段落特征向量中的段落关键特征，并基于段落关键特征确定多个所述待处理文章中任意两个待处理文章之间的语义重合结果，下面将具体描述上述过程。

具体实施时，如图4(a)所示，可以将各待处理文章的各段落的段落特征向量输入至目标分类模型中的Transformer编码器中进行编码处理，得到目标编码结果。之后，如图4(a)所示，可以通过目标分类模型中的全局平均池化层对目标编码结果进行池化计算，并将池化计算结果确定为所述段落关键特征。

在一个可选的实施方式中，可以将每个待处理文章的段落特征向量列表依次输入至Transformer编码器中进行编码处理，从而依次得到每个待处理文章的段落关键特征。

在另一个可选的实施方式中，还可以将全部待处理文章的段落特征向量列表依次输入至Transformer编码器中进行编码处理，从而得到全部待处理文章的段落关键特征。

在本公开实施例中，如图4(b)所示，Transformer编码器可以包含以下结构：2个前馈模块、残差与归一化模块和多重注意力模块；其中，多重注意力模块、残差与归一化模块和2个前馈模块依次串联连接。

具体实施时，可以将段落特征向量输入至Transformer编码器中，从而通过Transformer编码器中重注意力模块、残差与归一化模块和2个前馈模块依次对段落特征向量进行编码处理，从而得到目标编码结果。

在得到目标编码结果后，可以将目标编码结果输入全局平均池化层进行池化计算，从而得到每个段落的段落关键特征。

上述实施方式中，通过上述处理方式，能够更加准确快速的确定出每个段落的段落关键特征，从而提高任意两个待处理文章之间的语义重合结果的准确度，同时还可以提高语义重合结果的确定效率。

在一个可选的实施方案中，上述步骤S107基于所述段落关键特征确定多个所述待处理文章中任意两个待处理文章之间的语义重合结果，具体包括以下步骤：

步骤S1071，通过目标分类模型中的至少一个稠密连接网络对所述段落关键特征进行特征处理，得到段落稠密向量；

步骤S1072，基于所述段落稠密向量确定所述任意两个待处理文章之间的重合预测信息；其中，所述重合预测信息用于指示所述任意两个待处理文章之间的重合度为各预设重合度的概率；

步骤S1073，基于所述重合预测信息确定所述任意两个待处理文章之间的语义重合结果。

在本公开实施例中，稠密连接网络可以为Dense网络，其中，Dense网络的数量可以为一个，还可以为多个。如图4(a)所示，在本公开实施例中，在目标分类模型中选择设置两个稠密连接网络，分别为稠密连接网络1和稠密连接网络2，也即Dense网络1和Dense网络2。这里，每个稠密连接网络中可以包含若干个卷积层。

在按照上述所描述的方式确定出段落关键特征之后，就可以通过如图4(a)所示的稠密连接网络1和稠密连接网络2对段落关键特征进行特征处理，从而得到段落稠密向量。

在得到段落稠密向量后，可以将段落稠密向量输入至Softmax处理层进行处理，其中，Softmax处理层的输出结果即为任意两个待处理文章之间的重合预测信息。其中，该重合预测信息可以为m维向量，m用于表示预设重合度的数量。

如果该预设重合度分别为如图2(a)、图2(b)和图2(c)所示的重合度，那么该m的取值可以为3，也即该重合预测信息可以为3维向量。该3维向量中每个维度的向量用于指示任意两个待处理文章之间的重合度为如图2(a)、图2(b)和图2(c)所示的重合度的概率。

在得到重合预测信息后，就可以基于重合预测信息确定任意两个待处理文章之间的语义重合结果。具体实施时，可以将重合预测信息中大于或者等于预设概率阈值的预设重合度确定为语义重合结果。

如果确定出多个预设重合度符合条件，可以选择概率最大的预设重合度确定为语义重合结果。例如，重合预测信息的概率为：无关0.2，相关且不重合0.6，重合0.5，假设，预设概率阈值为0.5，则此时，可以确定语义重合结果为相关且不重合。

上述实施方式中，可以实现以段落为单位，确定任意两个待处理文章的段落之间的语义重合情况，从而基于段落之间的语义重合情况确定这两个待处理文章之间的语义重合情况，从而提高任意两个待处理文章之间的语义重合结果，同时还可以提高语义重合结果的确定效率。

在本公开实施例中，在通过目标分类模型对段落特征向量进行特征提取，从而提取该段落特征向量中的段落关键特征之前，还需要训练初始分类模型，从而得到上述目标分类模型，具体训练过程描述如下：

步骤S31，获取目标训练样本；其中，所述目标训练样本包含多个训练文章和所述多个训练文章之间的重合标签，所述重合标签用于指示所述多个训练文章之间的重合度；

步骤S32，基于所述目标训练样本对初始分类模型进行训练，得到所述目标分类模型。

在本公开实施例中，可以获取目标训练样本，其中，该目标训练样本的数量可以为多个，且每个目标训练样本包含多个训练文章，以及多个训练文章之间的重合标签，其中，该重合标签可以为一个m维的向量，m为预设重合度的数量。例如，该重合标签可以为[a,b,c]，其中，a对应如图2(a)所示的重合，b对应如图2(b)所示的无关，c对应如图2(c)所示的相关且不重合。如果目标训练样本A的重合标签为[1,0,0]，则表示该目标训练样本A中训练文章之间的语义重合度为“重合”。

在获取目标训练样本后，可以基于上述目标训练样本对初始分类模型进行训练，得到所述目标分类模型，具体训练过程描述如下：

通过初始分类模型对每个目标训练样本进行重合度的预测，得到预测结果；然后，基于该预测结果和重合标签计算目标损失函数的函数值；进而基于该目标损失函数的函数值调整初始分类模型的模型参数。反复执行上述过程，直至初始分类模型的训练精度满足要求，并将满足训练精度要求的初始分类模型确定为上述目标分类模型。

参见图5所示，为本公开实施例提供的一种文章处理方法的流程图，所述方法包括步骤S501～S505，其中：

步骤S501，获取目标话题的多个备选话题文章；其中，每个所述备选话题文章的至少一个文章特征与所述目标话题相关联；

步骤S502，通过图1所对应实施例的文章处理方法，确定所述多个备选话题文章中任意两个备选话题文章之间的语义重合结果；

步骤S503，基于所述语义重合结果在所述多个备选话题文章中筛选所述目标话题的多个目标话题文章；其中，任意两个目标话题文章中包含相关联的文章特征，且任意两个目标话题文章之间的语义重合度小于预设重合度阈值。

在本公开实施例中，多个备选话题文章可以包含目标话题的话题置顶文章，以及该目标话题的其他落地页文章。其中，该落地页文章可以理解为与该目标话题相关联的文章中除话题置顶文章之外的其他文章。

在本公开实施例中，在获取到目标话题的多个备选话题文章之后，可以通过图1所对应实施例的文章处理方法对多个备选话题文章中任意两个话题文章进行处理，从而得到任意两个备选话题文章之间的语义重合结果。然后，将语义重合结果中不满足要求的话题文章过滤，从而得到满足要求的文章。

具体实施时，可以在多个备选话题文章中筛选话题置顶文章和其他落地页文章。然后，通过图1所对应实施例的文章处理方法确定每个落地页文章和话题置顶文章之间的语义重合结果，然后，将语义重合结果不满足要求的落地页文章过滤，从而得到满足要求的落地页文章。例如，可以将语义重合结果为“无关”和“重合”的落地页文章过滤，从而保留语义重合结果为“相关且不重合”的落地页文章保留，从而基于过滤之后的落地页文章和话题置顶文章确定为该目标话题的相关文章推送至客户端进行展示。

上述实施方式中，可以实现以段落为单位，确定任意两个备选话题文章的段落之间的语义重合情况，从而基于段落之间的语义重合情况确定这两个备选话题文章之间的语义重合情况，从而提高任意两个备选话题文章之间的语义重合结果，同时还可以提高语义重合结果的确定效率。通过上述处理方式，能够更加快速的从目标话题相关的大量备选话题文章中筛选出相关但不重合的话题文章推送给用户，从而提高用户的阅读体验，满足实时性要求较高的阅读场景。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与文章处理方法对应的文章处理装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述文章处理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图6所示，为本公开实施例提供的一种文章处理装置的示意图，所述装置包括：第一获取单元61、第一确定单元62、第二确定单元63、第三确定单元64；其中，

第一获取单元61，用于基于各所述待处理文章中各段落的段落内容，确定该段落的段落特征向量；其中，所述段落特征向量为用于指示该段落在对应待处理文章中语义信息的特征；

第一确定单元62，用于基于所述段落特征向量确定该段落的段落关键特征；其中，所述段落关键特征为用于指示该段落与其他段落之间语义区别的特征；

第二确定单元63，用于基于所述段落特征向量确定该段落的段落关键特征；其中，所述段落关键特征为用于指示该段落与其他段落之间语义区别的特征；

第三确定单元64，用于基于所述段落关键特征确定多个所述待处理文章中任意两个待处理文章之间的语义重合结果。

本公开实施例中，通过待处理文章中各段落的段落特征向量，确定该段落关键特征，以通过该段落关键特征确定任意两个待处理文章之间语义重合结果的方式，可以实现以段落为单位，确定任意两个待处理文章的段落之间的语义重合情况，从而基于段落之间的语义重合情况确定这两个待处理文章之间的语义重合情况，进而提高任意两个待处理文章之间的语义重合结果的准确性，同时还可以提高语义重合结果的确定效率。

一种可能的实施方式中，第一确定单元，还用于：将各所述待处理文章中每个段落的段落内容进行分词处理，得到至少一个目标词汇；确定每个所述目标词汇的词特征向量，并基于所述至少一个目标词汇的词特征向量确定该段落的段落特征向量。

一种可能的实施方式中，第一确定单元，还用于：将所述至少一个目标词汇的词特征向量进行求平均运算，得到平均运算结果，并基于所述平均运算结果确定所述段落的段落特征向量。

一种可能的实施方式中，第一确定单元，还用于：在每个所述待处理文章中各段落的段落内容中提取关键文本信息；对所述关键文本信息进行分词处理，得到所述至少一个目标词汇。

一种可能的实施方式中，第二确定单元，还用于：通过目标分类模型中的Transformer编码器对所述段落特征向量进行编码处理，得到目标编码结果；通过所述目标分类模型中的全局平均池化层对所述目标编码结果进行池化计算，并将池化计算结果确定为所述段落关键特征。

一种可能的实施方式中，第三确定单元，还用于：通过目标分类模型中的至少一个稠密连接网络对所述段落关键特征进行特征处理，得到段落稠密向量；基于所述段落稠密向量确定所述任意两个待处理文章之间的重合预测信息；其中，所述重合预测信息用于指示所述任意两个待处理文章之间的重合度为各预设重合度的概率；基于所述重合预测信息确定所述任意两个待处理文章之间的语义重合结果。

一种可能的实施方式中，该装置还用于：获取目标训练样本；其中，所述目标训练样本包含多个训练文章和所述多个训练文章之间的重合标签，所述重合标签用于指示所述多个训练文章之间的重合度；基于所述目标训练样本对初始分类模型进行训练，得到所述目标分类模型。

参照图7所示，为本公开实施例提供的另一种文章处理装置的示意图，所述装置包括：第二获取单元71、第四确定单元72、筛选单元73；其中，

第二获取单元71，用于获取目标话题的多个备选话题文章；其中，每个所述备选话题文章的至少一个文章特征与所述目标话题相关联；

第四确定单元72，用于通过图1中所对应实施例的文章处理方法，确定所述多个备选话题文章中任意两个备选话题文章之间的语义重合结果；

筛选单元73，用于基于所述语义重合结果在所述多个备选话题文章中筛选所述目标话题的多个目标话题文章；其中，任意两个目标话题文章中包含相关联的文章特征，且任意两个目标话题文章之间的语义重合度小于预设重合度阈值。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

对应于图1中的文章处理方法，本公开实施例还提供了一种电子设备800，如图8所示，为本公开实施例提供的电子设备800结构示意图，包括：

处理器81、存储器82、和总线83；存储器82用于存储执行指令，包括内存821和外部存储器822；这里的内存821也称内存储器，用于暂时存放处理器81中的运算数据，以及与硬盘等外部存储器822交换的数据，处理器81通过内存821与外部存储器822进行数据交换，当所述电子设备800运行时，所述处理器81与所述存储器82之间通过总线83通信，使得所述处理器81执行以下指令：

获取多个待处理文章；

基于各所述待处理文章中各段落的段落内容，确定该段落的段落特征向量；其中，所述段落特征向量为用于指示该段落在对应待处理文章中语义信息的特征；

基于所述段落特征向量确定该段落的段落关键特征；其中，所述段落关键特征为用于指示该段落与其他段落之间语义区别的特征；

基于所述段落关键特征确定多个所述待处理文章中任意两个待处理文章之间的语义重合结果。

或者，处理器81还可以执行以下指令：

获取目标话题的多个备选话题文章；其中，每个所述备选话题文章的至少一个文章特征与所述目标话题相关联；

通过上述第一方面中任一项所述的文章处理方法，确定所述多个备选话题文章中任意两个备选话题文章之间的语义重合结果；

基于所述语义重合结果在所述多个备选话题文章中筛选所述目标话题的多个目标话题文章；其中，任意两个目标话题文章中包含相关联的文章特征，且任意两个目标话题文章之间的语义重合度小于预设重合度阈值。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的文章处理方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的文章处理方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种文章处理方法，其特征在于，包括：

获取多个待处理文章；

2.根据权利要求1所述的方法，其特征在于，所述基于各所述待处理文章中各段落的段落内容，确定该段落的段落特征向量，包括：

对各所述待处理文章中每个段落的段落内容进行分词处理，得到至少一个目标词汇；

确定每个所述目标词汇的词特征向量，并基于所述至少一个目标词汇的词特征向量确定该段落的段落特征向量。

3.根据权利要求2所述的方法，其特征在于，所述基于所述至少一个目标词汇的词特征向量确定该段落的段落特征向量，包括：

将所述至少一个目标词汇的词特征向量进行求平均运算，得到平均运算结果，并基于所述平均运算结果确定所述段落的段落特征向量。

4.根据权利要求2所述的方法，其特征在于，所述对各所述待处理文章中每个段落的段落内容进行分词处理，得到至少一个目标词汇，包括：

在每个所述待处理文章中各段落的段落内容中提取关键文本信息；

对所述关键文本信息进行分词处理，得到所述至少一个目标词汇。

5.根据权利要求1所述的方法，其特征在于，所述基于所述段落特征向量确定该段落的段落关键特征，包括：

通过目标分类模型中的Transformer编码器对所述段落特征向量进行编码处理，得到目标编码结果；

通过所述目标分类模型中的全局平均池化层对所述目标编码结果进行池化计算，并将池化计算结果确定为所述段落关键特征。

6.根据权利要求1所述的方法，其特征在于，所述基于所述段落关键特征确定多个所述待处理文章中任意两个待处理文章之间的语义重合结果，包括：

通过目标分类模型中的至少一个稠密连接网络对所述段落关键特征进行特征处理，得到段落稠密向量；

基于所述段落稠密向量确定所述任意两个待处理文章之间的重合预测信息；其中，所述重合预测信息用于指示所述任意两个待处理文章之间的重合度为各预设重合度的概率；

基于所述重合预测信息确定所述任意两个待处理文章之间的语义重合结果。

7.根据权利要求5或6所述的方法，其特征在于，所述方法还包括：

获取目标训练样本；其中，所述目标训练样本包含多个训练文章和所述多个训练文章之间的重合标签，所述重合标签用于指示所述多个训练文章之间的重合度；

基于所述目标训练样本对初始分类模型进行训练，得到所述目标分类模型。

8.一种文章处理方法，其特征在于，包括：

通过上述权利要求1至7中任一项所述的文章处理方法，确定所述多个备选话题文章中任意两个备选话题文章之间的语义重合结果；

9.一种文章处理装置，其特征在于，包括：

第一获取单元，用于获取多个待处理文章；

第一确定单元，用于基于各所述待处理文章中各段落的段落内容，确定该段落的段落特征向量；其中，所述段落特征向量为用于指示该段落在对应待处理文章中语义信息的特征；

第二确定单元，用于基于所述段落特征向量确定该段落的段落关键特征；其中，所述段落关键特征为用于指示该段落与其他段落之间语义区别的特征；

第三确定单元，用于基于所述段落关键特征确定多个所述待处理文章中任意两个待处理文章之间的语义重合结果。

10.一种文章处理装置，其特征在于，包括：

第二获取单元，用于获取目标话题的多个备选话题文章；其中，每个所述备选话题文章的至少一个文章特征与所述目标话题相关联；

第四确定单元，用于通过上述权利要求1至7中任一项所述的文章处理方法，确定所述多个备选话题文章中任意两个备选话题文章之间的语义重合结果；

筛选单元，用于基于所述语义重合结果在所述多个备选话题文章中筛选所述目标话题的多个目标话题文章；其中，任意两个目标话题文章中包含相关联的文章特征，且任意两个目标话题文章之间的语义重合度小于预设重合度阈值。

11.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的文章处理方法的步骤，或者，行如权利要求8所述的文章处理方法的步骤。

12.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的文章处理方法的步骤，或者，行如权利要求8所述的文章处理方法的步骤。