CN110750987A

CN110750987A - 文本处理方法、装置及存储介质

Info

Publication number: CN110750987A
Application number: CN201911032610.9A
Authority: CN
Inventors: 李快
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-02-04
Anticipated expiration: 2039-10-28
Also published as: CN110750987B

Abstract

本申请实施例提供了一种文本处理方法、装置及存储介质，其中，方法包括：获取待处理文本和所述待处理文本的标签；根据所述标签，分别对所述待处理文本的第一部分和第二部分进行特征提取，对应得到第一词向量和第二词向量；确定所述第一词向量和所述第二词向量之间的距离；根据所述距离，确定所述第一部分与所述第二部分之间的匹配度。通过本申请，能够准确的提取到所输入的待处理文本对应的特征数据，从而对待处理文本进行准确的匹配或分类。

Description

文本处理方法、装置及存储介质

技术领域

本申请实施例涉及人工智能技术领域，涉及但不限于一种文本处理方法、装置及存储介质。

背景技术

对于持续更新并呈现给用户内容的信息流(feed流)的分类和匹配处理，需要首先获取到feed流文件中的词向量特征，进行文本语义分析，并基于语义分析结果得到匹配结果，以实现对feed流的分类。

目前，常用的文本语义分析方法主要包括：通过词袋模型进行文本语义分析、通过卷积神经网络(CNN，Convolutional Neural Networks)或循环神经网络(RNN，RecurrentNeural Network)对输入的文本进行文本语义分析、通过双向transformer编码器(BERT，Bidirectional Encoder Representations from Transformers)进行文本语义分析。

但是，相关技术中的上述文本语义分析方法均不能准确的提取到所输入文本对应的特征数据，因此也就不能对文本进行准确的匹配和分类。

发明内容

本申请实施例提供一种文本处理方法、装置及存储介质，能够准确的提取到所输入的待处理文本对应的特征数据，从而对待处理文本进行准确的匹配或分类。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种文本处理方法，包括：

获取待处理文本和所述待处理文本的标签；

根据所述标签，分别对所述待处理文本的第一部分和第二部分进行特征提取，对应得到第一词向量和第二词向量；

确定所述第一词向量和所述第二词向量之间的距离；

根据所述距离，确定所述第一部分与所述第二部分之间的匹配度。

本申请实施例提供一种文本处理方法，包括：

获取待处理文本和所述待处理文本的标签；

确定所述第一词向量对应的第一标签和所述第二词向量对应的第二标签；

根据所述第一标签和所述第二标签，对所述待处理文本进行分类，得到所述待处理文本的分类结果。

本申请实施例提供一种文本处理装置，包括：

第一获取模块，用于获取待处理文本和所述待处理文本的标签；

第一特征提取模块，用于根据所述标签，分别对所述待处理文本的第一部分和第二部分进行特征提取，对应得到第一词向量和第二词向量；

第一确定模块，用于确定所述第一词向量和所述第二词向量之间的距离；

第二确定模块，用于根据所述距离，确定所述第一部分与所述第二部分之间的匹配度。

本申请实施例提供一种文本处理装置，包括：

第二获取模块，用于获取待处理文本和所述待处理文本的标签；

第二特征提取模块，用于根据所述标签，分别对所述待处理文本的第一部分和第二部分进行特征提取，对应得到第一词向量和第二词向量；

第三确定模块，用于确定所述第一词向量对应的第一标签和所述第二词向量对应的第二标签；

分类模块，用于根据所述第一标签和所述第二标签，对所述待处理文本进行分类，得到所述待处理文本的分类结果。

本申请实施例提供一种文本处理设备，包括：

存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现上述的方法。

本申请实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现上述的方法。

本申请实施例具有以下有益效果：

由于在获取待匹配文本时还获取待匹配文本的标签，因此能够根据标签对待匹配文本进行特征提取，分别得到第一词向量和第二词向量，如此，对给定标签的待匹配文本进行特征提取，能够快速、精准的提取到有效的词语，得到对应的第一词向量和第二词向量，从而准确的提取到所输入的待处理文本对应的特征数据，对待处理文本进行准确的匹配或分类。

附图说明

图1是本申请实施例提供的文本处理系统的一个可选的架构示意图；

图2A是本申请实施例提供的文本处理系统应用于区块链系统的一个可选的结构示意图；

图2B是本申请实施例提供的区块结构的一个可选的示意图；

图3是本申请实施例提供的服务器的结构示意图；

图4是本申请实施例提供的文本处理方法的一个可选的流程示意图；

图5是本申请实施例提供的文本处理方法的一个可选的流程示意图；

图6A是本申请实施例提供的文本特征提取网络模型的训练方法的一个可选的流程示意图；

图6B是本申请实施例提供的文本处理模型的整体结构示意图；

图7是本申请实施例提供的文本特征提取网络模型的训练方法的一个可选的流程示意图；

图8是本申请实施例提供的文本特征提取网络模型的训练方法的一个可选的流程示意图；

图9是本申请实施例提供的文本处理方法的一个可选的流程示意图；

图10是伪孪生神经网络的结构示意图；

图11是本申请实施例提供的文本特征提取网络模型的结构示意图；

图12是本申请实施例提供的BERT网络结构的结构示意图；

图13是本申请实施例提供的一个分类案例示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。除非另有定义，本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)卷积神经网络(CNN，Convolutional Neural Networks)：是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类，因此也被称为“平移不变人工神经网络(SIANN，Shift-Invariant Artificial Neural Networks)。

2)伪孪生神经网络(pseudo-siamese network)：在伪孪生神经网络中，输入数据对应的两个神经网络可以是不同的神经网络，或者，两个神经网络也可以是相同类型的神经网络。伪孪生神经网络适用于处理两个输入“有一定差别”的情况。本文的文本处理方法即在伪孪生神经网络中实现。

3)词向量(Word Embedding)：词语嵌入式自然语言处理中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲，它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。

为了更好地理解本申请实施例中提供的文本处理方法，首先对相关技术中的文本语义分析方法进行说明：

相关技术中，在进行文本语义分析时，常用的文本语义分析方法主要包括：通过词袋模型进行文本语义分析，即将所有词语装进一个袋子里，不考虑其词法和语序的问题，即每个词语都是独立的，最后使用离散的向量来表示文本语义；或者，通过CNN或RNN对输入的文本进行文本语义分析，其中，CNN、RNN都能够将文本中每个词的词向量(word embedding)通过自身网络结构转换成整个文本的低维的实数空间的向量表示；或者，通过BERT进行文本语义分析，使用双向transfomer编码网络通过海量的数据学习文本的语义表示，这种是目前主流的文本语义表示方法。

但是，相关技术中的上述文本语义分析方法中，词袋模型缺点是维度过高、不考虑词之间的词法和顺序关系，会导致严重缺乏相似词之间的表达；CNN、RNN模型由于网络结构本身的弱点，不能够有效的抽象出文本深层的语义信息或者由于网络结构缺陷不能够并行的训练大规模的数据，导致模型没有很强的泛化能力；transformer是神经语言程序学(NLP，Neuro-Linguistic Programming)领域目前主流的特征抽取器，有很强的抽象表达能力，BERT使用transformer的编码器部分采用特定的任务在大规模语料上学习文本抽象表示，做为其他NLP任务的基础模型，但是，在实现过程中，到不同任务后还需要对模型做微调(finetune)，其中，不同的微调任务对语义表示质量影响较大。由此可见，相关技术中的文本语义分析方法均不能准确的提出到所输入文本对应的特征数据，因此也就不能对文本进行准确的匹配和分类。

基于相关技术所存在的至少一个问题，本申请实施例提供一种文本处理方法，通过在获取待匹配文本时还获取待匹配文本的标签，从而能够根据标签对待匹配文本进行特征提取，分别得到第一词向量和第二词向量，如此，对给定标签的待匹配文本进行特征提取，能够快速、精准的提取到有效的词语，得到对应的第一词向量和第二词向量，从而准确的提取到所输入的待处理文本对应的特征数据，对待处理文本进行准确的匹配和分类。

另外，本申请实施例提供的方案涉及人工智能的模型构建技术，比如，构建用于对所述第一部分和所述第二部分分别进行特征提取的文本特征提取网络模型等，将在下文进行说明。

这里，需要说明的是，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

下面说明本申请实施例提供的文本处理设备的示例性应用，本申请实施例提供的设备为用于可以实施为笔记本电脑，平板电脑，台式计算机，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的终端，也可以实施为服务器。下面，将说明设备实施为服务器时的示例性应用。

参见图1，图1是本申请实施例提供的文本处理系统10的一个可选的架构示意图。为实现支撑一个feed流推送应用，终端(示例性示出了终端100-1和终端100-2)通过网络200连接服务器300，终端获取待处理文本和所述待处理文本的标签，并将待处理文本和所述待处理文本的标签通过网络200发送给服务器300，以使得服务器300根据所述标签，分别对所述待处理文本的第一部分和第二部分进行特征提取，对应得到第一词向量和第二词向量，并确定所述第一词向量和所述第二词向量之间的距离；根据所述距离，确定所述第一部分与所述第二部分之间的匹配度，得到匹配结果，再将匹配结果通过网络200发送给终端。其中，网络200可以是广域网或者局域网，又或者是二者的组合。终端可以在当前页面(示例性示出了当前页面110-1和当前页面110-2)上显示识别结果。

本申请实施例涉及的文本处理系统10也可以是区块链系统的分布式系统101，参见图2A，图2A是本申请实施例提供的文本处理系统10应用于区块链系统的一个可选的结构示意图，其中，所述分布式系统101可以是由多个节点102(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端103形成的分布式节点，节点之间形成组成的点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，TransmissionControl Protocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

参见图2A示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，应用实现的业务包括：

2.1)钱包，用于提供进行电子货币的交易的功能，包括发起交易(即，将当前交易的交易记录发送给区块链系统中的其他节点，其他节点验证成功后，作为承认交易有效的响应，将交易的记录数据存入区块链的临时区块中；当然，钱包还支持查询电子货币地址中剩余的电子货币。

2.2)共享账本，用于提供账目数据的存储、查询和修改等操作的功能，将对账目数据的操作的记录数据发送到区块链系统中的其他节点，其他节点验证有效后，作为承认账目数据有效的响应，将记录数据存入临时区块中，还可以向发起操作的节点发送确认。

2.3)智能合约，计算机化的协议，可以执行某个合约的条款，通过部署在共享账本上的用于在满足一定条件时而执行的代码实现，根据实际的业务需求代码用于完成自动化的交易，例如查询买家所购买商品的物流状态，在买家签收货物后将买家的电子货币转移到商户的地址；当然，智能合约不仅限于执行用于交易的合约，还可以执行对接收的信息进行处理的合约。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

4)共识(Consensus)，是区块链网络中的一个过程，用于在涉及的多个节点之间对区块中的交易达成一致，达成一致的区块将被追加到区块链的尾部，实现共识的机制包括工作量证明(PoW，Proof of Work)、权益证明(PoS，Pr oof of Stake)、股份授权证明(DPoS，Delegated Proof-of-Stake)、消逝时间量证明(PoET，Proof of Elapsed Time)等。

参见图2B，图2B是本申请实施例提供的区块结构(Block Structure)的一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

参见图3，图3是本申请实施例提供的服务器300的结构示意图，图3所示的服务器300包括：至少一个处理器310、存储器350、至少一个网络接口320和用户接口330。服务器300中的各个组件通过总线系统340耦合在一起。可理解，总线系统340用于实现这些组件之间的连接通信。总线系统340除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统340。

处理器310可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口330包括使得能够呈现媒体内容的一个或多个输出装置331，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口330还包括一个或多个输入装置332，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器350可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器350可选地包括在物理位置上远离处理器310的一个或多个存储设备。存储器350包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器350旨在包括任意适合类型的存储器。在一些实施例中，存储器350能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统351，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块352，用于经由一个或多个(有线或无线)网络接口320到达其他计算设备，示例性的网络接口320包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

输入处理模块353，用于对一个或多个来自一个或多个输入装置332之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图3示出了存储在存储器350中的一种文本处理装置354，该文本处理装置354可以是服务器300中的文本处理装置，其可以是程序和插件等形式的软件，包括以下软件模块：第一获取模块3541、第一特征提取模块3542、第一确定模块3543和第二确定模块3544，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在其他实施例中，该文本处理装置354也可以部署在另一第二服务器上，可以是第二服务器中的文本处理装置，其也可以是程序和插件等形式的软件，包括以下软件模块：第二获取模块、第二特征提取模块、第三确定模块和分类模块(图中未示出)，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的文本处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specif ic Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic De vice)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件。

下面将结合本申请实施例提供的服务器300的示例性应用和实施，说明本申请实施例提供的文本处理方法。参见图4，图4是本申请实施例提供的文本处理方法的一个可选的流程示意图，将结合图4示出的步骤进行说明。

步骤S401，获取待处理文本和所述待处理文本的标签。

这里，所述待处理文本至少包括第一部分和第二部分，其中，所述第一部分与所述第二部分相关或者不相关，当所述第一部分与所述第二部分相关时，所述第一部分与所述第二部分所描述的内容相同，当所述第一部分与所述第二部分不相关时，所述第一部分与所述第二部分所描述的内容不同。

所述待处理文本的标签用于标识所述待处理文本所属的类别，例如，当所述待处理文本是关于政治人物的内容时，所述标签为政治领域，当所述待处理文本是关于明星的八卦时，所述标签为娱乐领域，当所述待处理文本是关于生活常识时，所述标签为生活领域等。所述标签可以为用户输入的所述待处理文本的一级类别标签。

本申请实施例中，用户可以通过终端输入所述待处理文本和所述待处理文本的标签，终端将所述待处理文本和所述待处理文本的标签发送给服务器，以使得服务器获取到所述待处理文本和所述标签。其中，在所述终端上，可以运行有文本处理应用，用户可以在所述文本处理应用的客户端上输入所述待处理文本和所述标签。

步骤S402，根据所述标签，分别对所述待处理文本的第一部分和第二部分进行特征提取，对应得到第一词向量和第二词向量。

这里，分别根据所述标签对待处理文本的第一部分进行特征提取，得到第一词向量，根据所述标签对待处理文本的第二部分进行特征提取，得到第二词向量。在进行特征提取时，可以通过预先训练好的文本特征提取网络模型实现特征提取，将所述待处理文本的第一部分和第二部分分别输入至所述文本特征提取网络模型中，并输出进行特征提取后得到的第一词向量和第二词向量。

步骤S403，确定所述第一词向量和所述第二词向量之间的距离。

这里，在得到所述第一词向量和所述第二词向量之后，可以将所述第一词向量和所述第二词向量输入至预设损失模型中，通过所述预设损失模型对所述第一词向量和所述第二词向量进行损失计算，得到第一词向量和第二词向量之间的距离，所述距离用于表征所述第一词向量对应的第一部分与所述第二词向量对应的第二部分之间的差异度。

步骤S404，根据所述距离，确定第一部分与第二部分之间的匹配度。

这里，当所述距离大于预设阈值时，确定所述第一部分与所述第二部分之间具有较低的匹配度，当所述距离小于预设阈值时，确定所述第一部分与所述第二部分之间具有较高的匹配度。在得到所述匹配度之后，将所述匹配度作为所述待处理文本的匹配结果，并输出所述匹配结果。

本申请实施例提供的文本处理方法，由于在获取待匹配文本时还获取待匹配文本的标签，因此能够根据标签对待匹配文本进行特征提取，分别得到第一词向量和第二词向量，如此，对给定标签的待匹配文本进行特征提取，能够快速、精准的提取到有效的词语，得到对应的第一词向量和第二词向量，从而准确的提取到所输入的待处理文本对应的特征数据，对待处理文本进行准确的匹配和分类。

在一些实施例中，本申请实施例可以对应以下场景：需要对同一类别或者同一领域的feed流文本中的标题和正文进行匹配，则可以将feed流文本中的标题和正文进行组合，形成标题正文对，然后通过本申请实施例提供的文本处理方法，将所述标题正文对作为所述待处理文件，其中，所述第一部分为所述待处理文本的标题，所述第二部分为所述待处理文本中除所述标题之外的其他部分，即所述标题正文对中的正文部分，并且获取所述feed流文本的类别作为所述待处理文件的标签，从而实现本申请实施例的方法。

图5是本申请实施例提供的文本处理方法的一个可选的流程示意图，如图5所示，所述方法包括以下步骤：

步骤S501，获取待处理文本和所述待处理文本的标签。

这里，所述待处理文本为标题正文对，所述标题正文对由一对标题和正文组成，所述标题与所述正文可以来自同一篇文章，也可以来自不同的文章。所述待处理文本的标签为所述标题正文对对应的feed流文本的类型标签。

步骤S502，根据所述标签，分别对所述待处理文本的标题部分和其他部分进行特征提取，对应得到第一词向量和第二词向量。

这里，所述其他部分为除所述标题部分之外的剩余部分，例如，所述其他部分可以是正文部分。

本申请实施例中，分别根据所述标签对所述标题部分进行特征提取，得到第一词向量，根据所述标签对其他部分进行特征提取，得到第二词向量。在进行特征提取时，可以通过预先训练好的文本特征提取网络模型实现特征提取，将所述待处理文本的标题部分和其他部分分别输入至所述文本特征提取网络模型中，并输出进行特征提取后得到的第一词向量和第二词向量。

步骤S503，确定所述第一词向量和所述第二词向量之间的距离。

步骤S504，根据所述距离，确定标题部分与其他部分之间的匹配度。

这里，在确定出第一词向量和第二词向量之间的距离之后，当所述距离大于预设阈值时，确定所述标题部分与所述其他部分之间具有较低的匹配度，当所述距离小于预设阈值时，确定所述标题部分与所述其他部分之间具有较高的匹配度。在得到所述匹配度之后，将所述匹配度作为所述标题正文对的匹配结果，并输出所述匹配结果。

本申请实施例提供的文本处理方法，能够实现对文本的正文和标题进行匹配，确定输入的标题和正文是否来自于同一片文章，如此，对于当前大量的具有feed流数据的应用中的大量feed流文件，能够进行快速的文件匹配，筛选出适合用户的且标题与正文对应的文章进行及时推送，提高用户体验。

在一些实施例中，对所述第一部分和所述第二部分分别进行特征提取，得到所述第一词向量和所述第二词向量，可以采用文本特征提取网络模型来实现，即通过文本特征提取网络模型，对获取的待处理文本进行特征提取，得到第一词向量和第二词向量，并将所得到的第一词向量和第二词向量输出至预设损失模型中。

这里，提供一种文本特征提取网络模型的训练方法，如图6A所示，是本申请实施例提供的文本特征提取网络模型的训练方法的一个可选的流程示意图，所述方法包括：

步骤S601，将样本数据的第一部分和第二部分分别输入至BERT网络模型中，对应得到第三词向量和第四词向量。

这里，所述样本数据为进行模型训练的输入数据，所述样本数据为文本数据，包括相关的第一部分和第二部分，或不相关的第一部分和第二部分。

本申请实施例中，包括两个所述BERT网络模型，分别输入样本数据的第一部分和第二部分，也就是说，将样本数据的第一部分输入至一个BERT网络模型中，将样本数据的第二部分输入至另一个BERT网络模型。其中，一个BERT网络模型对输入的样本数据的第一部分特征提取，得到第三词向量，另一个BERT网络模型对输入的样本数据的第二部分特征提取，得到第四词向量。

步骤S602，将所述第三词向量和所述第四词向量输入至预设损失模型中，得到损失结果。

这里，在得到第三词向量和第四词向量之后，将所述第三词向量和所述第四词向量输入至预设损失模型中，也就是说，本申请实施例中，文本特征提取网络模型的整个模型中包括两个所述BERT网络模型，并且，文本特征提取网络模型与预设损失模型形成文本处理的整个文本处理模型。

如图6B所示，是本申请实施例提供的文本处理模型的整体结构示意图，文本处理模型600包括第一BERT网络模型601、第二BERT网络模型602和预设损失模型603，其中，第一BERT网络模型601和第二BERT网络模型602形成所述文本特征提取网络模型。

所述预设损失模型用于对输入的所述第三词向量和所述第四词向量进行损失计算，所述预设损失模型包括损失函数，通过所述损失函数，计算所述第三词向量和所述第四词向量之间的距离，所述预设损失模型将计算得到的距离确定为所述损失结果。需要说明的是，所述预设损失模型中的损失函数不是固定的，可以根据实际文本处理需求进行损失函数中参数的调整和损失函数的替换。

步骤S603，根据所述损失结果，对所述BERT网络模型进行修正，得到所述文本特征提取网络模型。

这里，当所述损失结果表明所述第三词向量和所述第四词向量之间的距离大于阈值时，表明所述第一部分和第二部分不相关，也就是说，文本处理模型给出的处理结果是输入的样本数据的第一部分和第二部分不相关。如果该处理结果正确的话，可以不对所述BERT网络模型进行修正，或者，根据所述距离对所述BERT网络模型进行微调；如果该处理结果不正确的话，根据所述距离对所述BERT网络模型进行修正。

当所述损失结果表明所述第三词向量和所述第四词向量之间的距离小于阈值时，表明所述第一部分和第二部分相关，也就是说，文本处理模型给出的处理结果是输入的样本数据的第一部分和第二部分相关，如果该处理结果正确的话，可以不对所述BERT网络模型进行修正，或者，根据所述距离对所述BERT网络模型进行微调；如果该处理结果不正确的话，根据所述距离对所述BERT网络模型进行修正。

本申请实施例中，在对所述BERT网络模型进行修正之后形成新的BERT网络模型，通过新的两个BERT网络模型形成所述文本特征提取网络模型。

本申请实施例提供的文本特征提取网络模型的训练方法，将样本数据的第一部分和第二部分分别输入至BERT网络模型中，通过两个BERT网络模型对样本数据的第一部分和第二部分进行特征提取，并基于预设损失模型确定提取出的第三词向量和第四词向量之间的距离，从而对BERT网络模型进行修正，能够得到准确的文本特征提取网络模型。

基于图6，在一些实施例中，所述预设损失模型通过损失函数确定所述损失结果，如图7所示，是本申请实施例提供的文本特征提取网络模型的训练方法的一个可选的流程示意图，其中，步骤S602中得到损失结果的过程，可以包括以下步骤：

步骤S701，将所述第三词向量与所述第四词向量输入至所述预设损失模型中，通过所述预设损失模型中的损失函数，确定所述第三词向量与所述第四词向量之间的距离。

这里，在通过文本特征提取网络模型提取出所述样本数据的第一部分所对应的第三词向量，和所述样本数据的第二部分所对应的第四词向量之后，将所述第三词向量和第四词向量分别输入至预设损失模型中，其中所述预设损失模型中包括损失函数，通过所述损失函数对所述第三词向量和第四词向量进行计算，确定出所述第三词向量与所述第四词向量之间的距离。

步骤S702，根据所述距离确定所述第一部分与所述第二部分之间的匹配度。

这里，当所述距离大于预设阈值时，确定所述第一部分与所述第二部分之间具有较低的匹配度，当所述距离小于预设阈值时，确定所述第一部分与所述第二部分之间具有较高的匹配度。

步骤S703，将所述匹配度确定为所述损失结果。

在得到所述匹配度之后，将所述匹配度作为第三词向量和第四词向量之间的损失结果。

基于图6，在一些实施例中，所述样本数据包括正样本数据和负样本数据，如图8所示，是本申请实施例提供的文本特征提取网络模型的训练方法的一个可选的流程示意图，所述方法包括以下步骤：

步骤S801，将正样本数据的第一部分和第二部分分别输入至BERT网络模型中，对应得到第三词向量和第四词向量。

这里，所述正样本数据是指样本数据的所述第一部分与所述第二部分匹配的数据，例如，当所述第一部分为标题部分，所述第二部分为正文部分，则所述正样本数据，是指标题部分和正文部分来自于同一篇文章。

本申请实施例提供一种确定正样本数据的方法，包括以下步骤：

步骤S8011，将具有相同文本类别标签的标题信息和正文信息所形成的第一信息对，确定为所述正样本数据。

步骤S802，将所述第三词向量与所述第四词向量输入至所述预设损失模型中，通过所述预设损失模型中的损失函数，确定所述第三词向量与所述第四词向量之间的距离。

步骤S803，将根据所述距离确定的所述第一部分与所述第二部分之间的匹配度，确定为正样本匹配度。

本申请实施例中，通过将正样本数据中的第一部分和第二部分输入至BERT网络模型，输出所述第三词向量与所述第四词向量，再将所述第三词向量与所述第四词向量输入至预设损失模型中，得到所述第三词向量与所述第四词向量之间的距离，从而根据所述距离确定正样本匹配度。

步骤S804，将负样本数据的第一部分和第二部分分别输入至BERT网络模型中，对应得到第三词向量和第四词向量。

这里，所述负样本数据是指样本数据的所述第一部分与所述第二部分不匹配的数据，例如，当所述第一部分为标题部分，所述第二部分为正文部分，则所述负样本数据，是指标题部分和正文部分来自于不同文章。

本申请实施例提供一种确定负样本数据的方法，包括以下步骤：

步骤S8041，将具有不同文本类别标签的标题信息和正文信息所形成的第二信息对，确定为所述负样本数据。

步骤S805，将所述第三词向量与所述第四词向量输入至所述预设损失模型中，通过所述预设损失模型中的损失函数，确定所述第三词向量与所述第四词向量之间的距离。

步骤S806，将根据所述距离确定的所述第一部分与所述第二部分之间的匹配度，确定为负样本匹配度。

本申请实施例中，通过将负样本数据中的第一部分和第二部分输入至BERT网络模型，输出所述第三词向量与所述第四词向量，再将所述第三词向量与所述第四词向量输入至预设损失模型中，得到所述第三词向量与所述第四词向量之间的距离，从而根据所述距离确定负样本匹配度。

对应地，步骤S603中得到所述文本特征提取网络模型的方法，可以通过以下步骤实现：

步骤S807，当所述负样本匹配度大于阈值或者所述正样本匹配度小于阈值时，根据所述正样本匹配度和所述负样本匹配度，对所述BERT网络模型进行修正。

这里，在确定出所述正样本匹配度和所述负样本匹配度之后，对所述正样本匹配度和所述负样本匹配度进行判断，判断所述正样本匹配度是否大于阈值，以及判断负样本匹配度是否小于阈值，当所述负样本匹配度大于阈值或者所述正样本匹配度小于阈值时，表明当前的模型不能对样本数据的第一部分和第二部分进行正确的特征提取，从而不能得到准确的匹配结果，因此，需要对所述BERT网络模型进行修正。

本申请实施例中，可以根据所述正样本匹配度和所述负样本匹配度，对所述BERT网络模型进行修正，即确定所述正样本匹配度和所述负样本匹配度与实际匹配度之间的差值，并根据所述差值对所述BERT网络模型进行修正。

在一些实施例中，所述方法还包括：步骤S808，当所述负样本匹配度小于阈或者所述正样本匹配度大于阈值时，将所述BERT网络模型确定为所述文本特征提取网络模型。

这里，当所述负样本匹配度小于阈值或者所述正样本匹配度大于阈值时，表明当前的模型能够对样本数据的第一部分和第二部分进行正确的特征提取，从而能够得到准确的匹配结果，因此，不对所述BERT网络模型进行修正，直接将所述BERT网络模型确定为所述文本特征提取网络模型。

图9是本申请实施例提供的文本处理方法的一个可选的流程示意图，如图9所示，所述方法实现对输入的待处理文本进行分类，所述方法包括以下步骤：

步骤S901，获取待处理文本和所述待处理文本的标签。

步骤S902，根据所述标签，分别对所述待处理文本的第一部分和第二部分进行特征提取，对应得到第一词向量和第二词向量。

需要说明的是，步骤S901和步骤S901与上述步骤S401和步骤S402相同，本申请实施例不再赘述。

步骤S903，确定所述第一词向量对应的第一标签和所述第二词向量对应的第二标签。

这里，所述第一标签用于标识提取到的第一词向量的类别，所述第二标签用于标识提取到的第二词向量的类别。所述第一标签和所述第二标签可以与所述待处理文本的标签相同也可以不同。

步骤S904，根据所述第一标签和所述第二标签，对所述待处理文本进行分类，得到所述待处理文本的分类结果。

这里，当所述第一标签与所述第二标签相同时，将所述待处理文本的第一部分和第二部分分为一类，当所述第一标签与所述第二标签不同时，将所述待处理文本的第一部分和第二部分分为不同类。

在一些实施例中，对所述第一部分和所述第二部分分别进行特征提取，得到所述第一词向量和所述第二词向量，可以采用文本特征提取网络模型来实现，即通过文本特征提取网络模型，对获取的待处理文本进行特征提取，得到第一词向量和第二词向量，并将所得到的第一词向量和第二词向量输出至预设损失模型中。其中，所述文本特征提取网络模型的训练过程与上述任一实施例中的训练过程相同，本申请实施例不再赘述。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例提供一种文本处理方法和一种文本特征提取网络模型的训练方法，采用伪孪生神经网络(pseudo-siamese network)作为模型框架，BERT作为基础模型实现feed流文章文本部分的语义表示。本申请实施例的关键点在于对训练数据的构造，训练数据可以为带有一级分类标签的feed流文章，包括正样本数据和负样本数据，其中，正样本数据即标题和正文一致的数据，负样本数据即标题和正文不一致的数据，在构造负样本数据时，本申请实施例采用类内随机打散和类间随机打散的混合方式，使模型能够学习到细粒度的文本语义信息。

下面对伪孪生神经网络进行说明：如图10所示，是伪孪生神经网络1000的结构示意图，其中，在伪孪生神经网络中，输入数据对应的两个神经网络可以是不同的神经网络(例如，图10示例性的示出了：一个神经网络是LSTM网络1001，另一个神经网络是CNN网络1002的情况)，当然，两个神经网络也可以是相同类型的神经网络。伪孪生神经网络适用于处理两个输入“有一定差别”的情况。例如，如果验证标题与正文的描述是否一致(其中标题和正文长度差别很大)，或者验证文字是否描述了一幅图片(即，一个输入的是图片，一个输入的是文字)，就可以使用伪孪生神经网络。请继续参照图10，在两个神经网络(LSTM网络1001和CNN网络1002)的输出端，还连接有一个损失模型1003，用于实现对LSTM网络1001和CNN网络1002的输出数据进行损失计算，得到两个输出数据之间的差值或者距离，以验证标题与正文的描述是否一致或者验证文字是否描述了一幅图片。也就是说，LSTM网络1001和CNN网络1002的输出是作为损失模型1003的输入。

本申请实施例采用伪孪生神经网络模型结合分类模型的多任务学习模型，即上述的文本特征提取网络模型，实现本申请实施例的文本处理方法，其中，子模型可以采用BERT网络模型，如图11所示，是本申请实施例提供的文本特征提取网络模型1100的结构示意图，对输入数据进行特征提取的两个神经网络均为BERT网络模型，图11中示例性的示出了BERT网络模型1101和BERT网络模型1102，以及所述损失模型1003。

请继续参照图11，图中的两个输入数据(即待处理文本或者样本数据)分别为文章的标题和正文，其中，BERT网络模型1101和BERT网络模型1102是两个结构相同、预训练权值一样但不共享的BERT网络模型。BERT网络结构如图12所示，其中，BERT网络模型是目前主流的文本特征提取模型，采用两段式训练过程，包括使用大规模无标注数据预训练过程1201和下游任务相关的微调过程1202。

在一些实施例中，本申请实施例提供两种训练任务，由于本申请实施例的目的是为了学习标题和正文精准的语义表示向量，为此特别设计了合理的下游微调任务，其中，下游任务是标题和正文匹配以及标题、正文的分类多任务训练。多任务的优势是训练过程中给模型更多的监督信息，模型更加精准。预训练模型部分，本申请实施例可以使用源的ernie1.0基础模型。

对于标题和正文匹配任务，是指学习给定语料中成对的标题和正文是否匹配，即该标题和给定的文章是否在讲同一件事。

对于标题和正文分类任务，标题和正文分别经过分类模型，使得模型能够对给定的标题、正文给出正确的类别标签。

通过本申请实施例的多任务学习，模型既可以学习到文章的类别分布，又可以学习到细致的语义信息。

在一些实施例中，本申请实施例提供不同的训练数据，例如，可以使用天天快报的线上数据作为模型的训练数据，本申请实施例的创新点在于对数据的构造。

在对数据进行构造时，对于匹配任务，需要正负样本数据，正样本数据即标题和正文匹配的样本，负样本数据指标题和正文不匹配的样本。正样本数据不需要特别构造，线上真实的文章都可以作为正样本数据，负样本数据构造的时候即把标题和正文随机打散，把标题和非对应文章的正文组合。训练数据本身包含一级分类信息，所以在随机打散的时候主要做两方面打散：第一方面，同一类别标签下的文章做随机打散，目的是为了让模型学习同一领域内不同标题间细微的差别；第二方面，不同类别标签做随机打散，目的是为了让模型学习到不同领域的不同标题间的本质差别。

对于分类任务，可以直接使用数据中已有的一级类别标签作为监督信息来训练模型，分类任务能够让模型区分同一或相似主题在不同领域之间的区别，比如单独使用匹配任务：模型会无法区分“莫言”和“周杰伦”之间的区别，模型认为他们都是中国人，但是一级类数据会明确的告诉模型“莫言”是文学家，“周杰伦”是娱乐人物。如图13所示，是本申请实施例提供的一个分类案例示意图，将文本“当年的小学生为什么会喜欢周杰伦？”作为输入数据1301输入至训练好的模型中，则会对应用的feed流数据中的相关数据进行匹配，在每一feed流数据1302中会显示有匹配的相似度值1303，并且，可以将与输入数据1301属于同一类别的feed流数据1302向用户推送。

本申请实施例提供的文本处理方法，可以应用于具有feed流数据的应用，例如，天天快报、QQ看点、QQ浏览器等具有信息流的产品的二三级分类语料扩展部分，在深度学习时代数据的重要性不言而喻，由于三级分类类别数目较多，1000+个类别，而人工标注数据的成本极高，本申请实施例的方法就可以用于在类别数目较多的情况下，快速有效的实现语料扩展。在给定部分标注数据后能够快速、精准的扩充与其内容相似的文章，用于二三级分类的训练。本申请实施例中，评估扩展效果的指标主要包括扩展比例和扩展的准确率。扩展比例的平均值为1：40，即一篇文章平均会找到与之相似的40篇文章，扩展比例视基础数据量而定，准确率在三级分类粒度达到了50％。对于三级分类的语料建设意义重大。

下面继续说明本申请实施例提供的文本处理装置354的实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器350的文本处理装置354中的软件模块可以是服务器300中的文本处理装置，包括：

第一获取模块3541，用于获取待处理文本和所述待处理文本的标签；

第一特征提取模块3542，用于根据所述标签，分别对所述待处理文本的第一部分和第二部分进行特征提取，对应得到第一词向量和第二词向量；

第一确定模块3543，用于确定所述第一词向量和所述第二词向量之间的距离；

第二确定模块3544，用于根据所述距离，确定所述第一部分与所述第二部分之间的匹配度。

在一些实施例中，所述第一部分为所述待处理文本的标题，所述第二部分为所述待处理文本中除所述标题之外的其他部分；

对应地，所述第一特征提取模块，还用于根据所述标签，分别对所述待处理文本的标题部分和其他部分进行特征提取，对应得到第一词向量和第二词向量；所述第一确定模块，还用于确定所述第一词向量和所述第二词向量之间的距离；所述第二确定模块，还用于根据所述距离，确定所述标题部分与所述其他部分之间的匹配度。

在一些实施例中，采用文本特征提取网络模型对所述第一部分和所述第二部分分别进行特征提取，得到所述第一词向量和所述第二词向量；其中，所述文本特征提取网络模型通过以下步骤训练得到：将样本数据的第一部分和第二部分分别输入至BERT网络模型中，对应得到第三词向量和第四词向量；将所述第三词向量和所述第四词向量输入至预设损失模型中，得到损失结果；根据所述损失结果，对所述BERT网络模型进行修正，得到文本特征提取网络模型。

在一些实施例中，所述文本特征提取网络模型通过以下步骤训练得到：将所述第三词向量与所述第四词向量输入至所述预设损失模型中，通过所述预设损失模型中的损失函数，确定所述第三词向量与所述第四词向量之间的距离；根据所述距离确定所述第一部分与所述第二部分之间的匹配度；将所述匹配度确定为所述损失结果。

在一些实施例中，所述样本数据包括正样本数据和负样本数据；所述文本特征提取网络模型通过以下步骤训练得到：确定所述正样本数据对应的所述匹配度为正样本匹配度；确定所述负样本数据对应的所述匹配度为负样本匹配度；当所述负样本匹配度大于阈值或者所述正样本匹配度小于阈值时，根据所述正样本匹配度和所述负样本匹配度，对所述BERT网络模型进行修正。

在一些实施例中，所述文本特征提取网络模型通过以下步骤训练得到：将具有相同文本类别标签的标题信息和正文信息所形成的第一信息对，确定为所述正样本数据；将具有不同文本类别标签的标题信息和正文信息所形成的第二信息对，确定为所述负样本数据。

在其他实施例中，该文本处理装置354也可以部署在另一第二服务器上，可以是第二服务器中的文本处理装置，其也可以是程序和插件等形式的软件，包括以下软件模块：

需要说明的是，本申请实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

本申请实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图4示出的方法。

在一些实施例中，存储介质可以是铁电存储器(FRAM，Ferromagnetic Ra ndomAccess Memory)、只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read Only Memory)、可擦除可编程只读存储器(EPROM，ErasableProgrammable Read Only Memory)、带电可擦可编程只读存储器(EEPROM，ElectricallyErasable Programmable Read Only Me mory)、闪存、磁表面存储器、光盘、或光盘只读存储器(CD-ROM，CompactDisk-Read Only Memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种文本处理方法，其特征在于，包括：

获取待处理文本和所述待处理文本的标签；

确定所述第一词向量和所述第二词向量之间的距离；

2.根据权利要求1所述的方法，其特征在于，所述第一部分为所述待处理文本的标题，所述第二部分为所述待处理文本中除所述标题之外的其他部分；

对应地，根据所述标签，分别对所述待处理文本的标题部分和其他部分进行特征提取，对应得到第一词向量和第二词向量；

确定所述第一词向量和所述第二词向量之间的距离；

根据所述距离，确定所述标题部分与所述其他部分之间的匹配度。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

采用文本特征提取网络模型对所述第一部分和所述第二部分分别进行特征提取，得到所述第一词向量和所述第二词向量；

其中，所述文本特征提取网络模型通过以下步骤训练得到：

将样本数据的第一部分和第二部分分别输入至BERT网络模型中，对应得到第三词向量和第四词向量；

将所述第三词向量和所述第四词向量输入至预设损失模型中，得到损失结果；

根据所述损失结果，对所述BERT网络模型进行修正，得到所述文本特征提取网络模型。

4.根据权利要求3所述的方法，其特征在于，所述将所述第三词向量和所述第四词向量输入至预设损失模型中，得到损失结果，包括：

将所述第三词向量与所述第四词向量输入至所述预设损失模型中，通过所述预设损失模型中的损失函数，确定所述第三词向量与所述第四词向量之间的距离；

根据所述距离确定所述第一部分与所述第二部分之间的匹配度；

将所述匹配度确定为所述损失结果。

5.根据权利要求4所述的方法，其特征在于，所述样本数据包括正样本数据和负样本数据；所述方法还包括：

确定所述正样本数据对应的所述匹配度为正样本匹配度；确定所述负样本数据对应的所述匹配度为负样本匹配度；

所述根据所述损失结果，对所述BERT网络模型进行修正，得到所述文本特征提取网络模型，包括：

当所述负样本匹配度大于阈值或者所述正样本匹配度小于阈值时，根据所述正样本匹配度和所述负样本匹配度，对所述BERT网络模型进行修正。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

将具有相同文本类别标签的标题信息和正文信息所形成的第一信息对，确定为所述正样本数据；

将具有不同文本类别标签的标题信息和正文信息所形成的第二信息对，确定为所述负样本数据。

7.一种文本处理方法，其特征在于，包括：

获取待处理文本和所述待处理文本的标签；

8.一种文本处理装置，其特征在于，包括：

9.一种文本处理装置，其特征在于，包括：

10.一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至6任一项或者权利要求7所述的方法。