CN116127925B - 基于对文本进行破坏处理的文本数据增强方法及装置 - Google Patents
基于对文本进行破坏处理的文本数据增强方法及装置 Download PDFInfo
- Publication number
- CN116127925B CN116127925B CN202310364625.5A CN202310364625A CN116127925B CN 116127925 B CN116127925 B CN 116127925B CN 202310364625 A CN202310364625 A CN 202310364625A CN 116127925 B CN116127925 B CN 116127925B
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- module
- destruction
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Document Processing Apparatus (AREA)
Abstract
本公开涉及文本处理技术领域,提供了一种基于对文本进行破坏处理的文本数据增强方法及装置。该方法包括:构建文本扩散模型,其中,文本扩散模型包括前向模块和反向模块,前向模块是根据多种破坏处理构建的,反向模块是进行模型训练得到的,前向模块和反向模块实现相反的操作;利用文本扩散模型的前向模块将文本数据集中的原始文本转换为文本向量,并通过对文本向量连续多次进行破坏处理,得到原始文本对应的破坏向量;利用文本扩散模型的反向模块对破坏向量连续多次进行恢复处理,得到原始文本对应的还原向量,并将还原向量转换为文本格式,得到原始文本对应的还原文本;利用原始文本和还原文本生成数据增强后的文本数据集。
Description
技术领域
本公开涉及文本处理技术领域,尤其涉及一种基于对文本进行破坏处理的文本数据增强方法及装置。
背景技术
在使用机器学习模型进行自然语言理解相关任务训练时,一直收到标注语料不足问题的困扰,尤其在深度学习时代,对语料数量的需求更加迫切。但很多时候,并不能及时获得足够的语料进行训练,这就对文本的数据增强提出了较高的需求。所谓的数据增强,就是利用已有数据,采用某些方式,构造出和已有数据尽可能相似的同一类型的人造数据,这些人造数据尽可能和原有数据相似,又不能完全相同,这样在使用这些数据进行训练时,才能够模型训练产生正向效果,提升模型精度,减少模型过拟合。现有的基于对文本进行破坏处理的文本数据增强方法大致可以分为两种。第一种方法是利用规则对原始文本进行一些改变,从而产生新的样本,这种修改往往造成增强出来的新句子语义不通顺,或已经偏离原句语义很多,从而影响增强的效果。第二种方法是通过自回归的方式训练一个语言模型,使用训练好的语言模型进行数据增强,但是自回归的训练方法局限了模型对文本的理解能力,模型始终只能看到文本的前半部分,而不能从全文的视角理解文本中的内容。
在实现本公开构思的过程中,发明人发现相关技术中至少存在如下技术问题:传统数据增强方法得到的文本偏离原文本的问题。
发明内容
有鉴于此,本公开实施例提供了一种基于对文本进行破坏处理的文本数据增强方法、装置、电子设备及计算机可读存储介质,以解决现有技术中,传统数据增强方法得到的文本偏离原文本的问题。
本公开实施例的第一方面,提供了一种基于对文本进行破坏处理的文本数据增强方法,包括:获取待数据增强的文本数据集;构建文本扩散模型,其中,文本扩散模型包括前向模块和反向模块,前向模块是根据多种破坏处理构建的,反向模块是进行模型训练得到的,前向模块和反向模块实现相反的操作;利用文本扩散模型的前向模块将文本数据集中的原始文本转换为文本向量,并通过对文本向量连续多次进行破坏处理,得到原始文本对应的破坏向量;利用文本扩散模型的反向模块对破坏向量连续多次进行恢复处理,得到原始文本对应的还原向量,并将还原向量转换为文本格式,得到原始文本对应的还原文本,其中,每次的恢复处理均对应一次破坏处理,并且彼此对应的恢复处理和破坏处理互为逆过程;利用原始文本和还原文本生成数据增强后的文本数据集。
本公开实施例的第二方面,提供了一种基于对文本进行破坏处理的文本数据增强装置,包括:获取模块,被配置为获取待数据增强的文本数据集;构建模块,被配置为构建文本扩散模型,其中,文本扩散模型包括前向模块和反向模块,前向模块是根据多种破坏处理构建的,反向模块是进行模型训练得到的,前向模块和反向模块实现相反的操作;破坏模块,被配置为利用文本扩散模型的前向模块将文本数据集中的原始文本转换为文本向量,并通过对文本向量连续多次进行破坏处理,得到原始文本对应的破坏向量;还原模块,被配置为利用文本扩散模型的反向模块对破坏向量连续多次进行恢复处理,得到原始文本对应的还原向量,并将还原向量转换为文本格式,得到原始文本对应的还原文本,其中,每次的恢复处理均对应一次破坏处理,并且彼此对应的恢复处理和破坏处理互为逆过程;生成模块,被配置为利用原始文本和还原文本生成数据增强后的文本数据集。
本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本公开实施例与现有技术相比存在的有益效果是:因为本公开实施例通过获取待数据增强的文本数据集;构建文本扩散模型,其中,文本扩散模型包括前向模块和反向模块,前向模块是根据多种破坏处理构建的,反向模块是进行模型训练得到的,前向模块和反向模块实现相反的操作;利用文本扩散模型的前向模块将文本数据集中的原始文本转换为文本向量,并通过对文本向量连续多次进行破坏处理,得到原始文本对应的破坏向量;利用文本扩散模型的反向模块对破坏向量连续多次进行恢复处理,得到原始文本对应的还原向量,并将还原向量转换为文本格式,得到原始文本对应的还原文本,其中,每次的恢复处理均对应一次破坏处理,并且彼此对应的恢复处理和破坏处理互为逆过程;利用原始文本和还原文本生成数据增强后的文本数据集,因此,采用上述技术手段,可以解决现有技术中,传统数据增强方法得到的文本偏离原文本的问题,进而使得数据增强方法得到的文本符合原文本的文本数据分布。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本公开实施例的应用场景的场景示意图;
图2是本公开实施例提供的一种基于对文本进行破坏处理的文本数据增强方法的流程示意图;
图3是本公开实施例提供的一种基于对文本进行破坏处理的文本数据增强装置的结构示意图;
图4是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
下面将结合附图详细说明根据本公开实施例的一种基于对文本进行破坏处理的文本数据增强方法和装置。
图1是本公开实施例的应用场景的场景示意图。该应用场景可以包括终端设备101、102和103、服务器104以及网络105。
终端设备101、102和103可以是硬件,也可以是软件。当终端设备101、102和103为硬件时,其可以是具有显示屏且支持与服务器104通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当终端设备101、102和103为软件时,其可以安装在如上的电子设备中。终端设备101、102和103可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本公开实施例对此不作限制。进一步地,终端设备101、102和103上可以安装有各种应用,例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。
服务器104可以是提供各种服务的服务器,例如,对与其建立通信连接的终端设备发送的请求进行接收的后台服务器,该后台服务器可以对终端设备发送的请求进行接收和分析等处理,并生成处理结果。服务器104可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者还可以是一个云计算服务中心,本公开实施例对此不作限制。
需要说明的是,服务器104可以是硬件,也可以是软件。当服务器104为硬件时,其可以是为终端设备101、102和103提供各种服务的各种电子设备。当服务器104为软件时,其可以是为终端设备101、102和103提供各种服务的多个软件或软件模块,也可以是为终端设备101、102和103提供各种服务的单个软件或软件模块,本公开实施例对此不作限制。
网络105可以是采用同轴电缆、双绞线和光纤连接的有线网络,也可以是无需布线就能实现各种通信设备互联的无线网络,例如,蓝牙(Bluetooth)、近场通信(Near FieldCommunication,NFC)、红外(Infrared)等,本公开实施例对此不作限制。
用户可以通过终端设备101、102和103经由网络105与服务器104建立通信连接,以接收或发送信息等。需要说明的是,终端设备101、102和103、服务器104以及网络105的具体类型、数量和组合可以根据应用场景的实际需求进行调整,本公开实施例对此不作限制。
图2是本公开实施例提供的一种基于对文本进行破坏处理的文本数据增强方法的流程示意图。图2的基于对文本进行破坏处理的文本数据增强方法可以由图1的计算机或服务器,或者计算机或服务器上的软件执行。如图2所示,该基于对文本进行破坏处理的文本数据增强方法包括:
S201,获取待数据增强的文本数据集;
S202,构建文本扩散模型,其中,文本扩散模型包括前向模块和反向模块,前向模块是根据多种破坏处理构建的,反向模块是进行模型训练得到的,前向模块和反向模块实现相反的操作;
S203,利用文本扩散模型的前向模块将文本数据集中的原始文本转换为文本向量,并通过对文本向量连续多次进行破坏处理,得到原始文本对应的破坏向量;
S204,利用文本扩散模型的反向模块对破坏向量连续多次进行恢复处理,得到原始文本对应的还原向量,并将还原向量转换为文本格式,得到原始文本对应的还原文本,其中,每次的恢复处理均对应一次破坏处理,并且彼此对应的恢复处理和破坏处理互为逆过程;
S205,利用原始文本和还原文本生成数据增强后的文本数据集。
传统文本扩散模型有两个过程,分别为扩散过程和逆扩散过程。本公开实施例用构建的前向模块替换扩散过程,用反向模块替代逆扩散过程,构建的文本扩散模型比起传统文本扩散模型的精度更高,进而数据增强得到的文本更加符合原文本。在本公开实施例中,可以将前向模块看做是执行多种破坏处理,将反向模块看做是训练的一个神经网络模型,用于检测前向模块的操作,并执行前向模块的操作的逆过程。
根据本公开实施例提供的技术方案,获取待数据增强的文本数据集;构建文本扩散模型,其中,文本扩散模型包括前向模块和反向模块,前向模块是根据多种破坏处理构建的,反向模块是进行模型训练得到的,前向模块和反向模块实现相反的操作;利用文本扩散模型的前向模块将文本数据集中的原始文本转换为文本向量,并通过对文本向量连续多次进行破坏处理,得到原始文本对应的破坏向量;利用文本扩散模型的反向模块对破坏向量连续多次进行恢复处理,得到原始文本对应的还原向量,并将还原向量转换为文本格式,得到原始文本对应的还原文本,其中,每次的恢复处理均对应一次破坏处理,并且彼此对应的恢复处理和破坏处理互为逆过程;利用原始文本和还原文本生成数据增强后的文本数据集,因此,采用上述技术手段,可以解决现有技术中,传统数据增强方法得到的文本偏离原文本的问题,进而使得数据增强方法得到的文本符合原文本的文本数据分布。
破坏处理,包括:池化操作、模糊操作和遮掩操作。
利用前向模块将原始文本转换为文本向量:对原始文本进行热独编码处理,得到第一编码矩阵,利用词嵌入矩阵将第一编码矩阵映射为文本向量,得到文本向量。
前向模块将原始文本转换为文本向量后,对文本向量连续多次进行破坏处理。
利用反向模块将还原向量转换为文本格式,得到还原文本:根据词嵌入矩阵将还原向量映射得到第二编码矩阵;对第二编码矩阵进行热独解码处理,得到还原文本,其中,热独解码处理是热独编码处理的逆过程。
反向模块对破坏向量连续多次进行恢复处理,将还原向量转换为还原文本。
利用文本扩散模型的反向模块对破坏向量连续多次进行恢复处理,得到原始文本对应的还原向量,并将还原向量转换为文本格式,得到原始文本对应的还原文本之前,方法还包括:获取训练数据集,利用训练数据集对目标模型进行训练,使得目标模型可以确定并执行前向模块对训练数据集中的训练文本进行的破坏处理所对应的恢复处理,目标模型为U-Net模型、ResNet模型或者transformer模型;将训练好的目标模型后接将向量转换为文本的算法,得到反向模块。
目标模型用于对破坏向量连续多次进行恢复处理,将向量转换为文本的算法用于将还原向量转换为还原文本。目标模型的模型输出头后接将向量转换为文本的算法,就是反向模块。
获取待数据增强的图像数据集之后,方法还包括:利用前向模块连续多次对文本向量进行破坏处理以及添加噪声,得到破坏向量;利用反向模块中的目标模型确定前向模块每次对文本向量进行的破坏处理以及添加的噪声,并连续多次对破坏向量进行破坏处理对应的恢复处理以及去除噪声,得到原始文本对应的还原向量;目标模型已通过训练,能确定并执行前向模块对文本向量进行的破坏处理以及添加的噪声。
为了增加数据增强的效果,前向模块每次对文本向量进行破坏处理的同时还进行添加噪声的操作。需要说明的是,本公开实施例中前向模块因为在破坏处理的基础上还需要添加噪声,与前向模块相对的反向模块的训练就不同于上个实施例,因为此次训练的反向模块需要确定并执行前向模块对文本向量进行的破坏处理以及添加的噪声。
可以将前向模块进行破坏处理以及添加噪声理解为如下公式:
其中,Ft为第t次的破坏处理,破坏处理包括池化操作、模糊操作和遮掩操作,/>是经过第t次破坏处理以及添加噪声后的目标图像,当t等于1时,是目标图像,当t等于N时,/>是目标图像对应的第二破坏图像,N为预设数,/>为噪声,q()为目标分布,目标分布包括高斯分布、均匀分布和t分布,/>表示/>满足q(),σ为q()的方差。
目标分布可以是高斯分布、均匀分布和t分布等分布。
对目标模型进行训练时,计算如下损失:计算前向模块添加的多个噪声和目标模型确定的多个噪声之间的噪声损失,计算前向模块进行的破坏处理和目标模型进行的恢复处理之间的破坏损失,计算原始文本和还原文本之间的文本损失;依据噪声损失、破坏损失和文本损失,更新目标模型的模型参数,以完成对目标模型的训练。
在一个可选实施例中,通过如下损失函数计算原始文本和还原文本之间的文本损失;
其中,N是原始文本中字的总数量,/>为原始文本中第i个字的位置上的原始字表的分布,/>为还原文本中第i个字的位置上的预测字表分布,为/>与/>相同的概率;
利用均方差损失函数计算前向模块添加的多个噪声和目标模型确定的多个噪声之间的噪声损失;利用交叉熵损失函数计算前向模块进行的破坏处理和目标模型进行的恢复处理之间的破坏损失。
可以用标签表示破坏处理和恢复处理,如果破坏处理以及其对应的恢复处理的标签一致,那么说明目标模型检测或者说预测是正确的,如果破坏处理以及其对应的恢复处理的标签不一致,那么说明目标模型检测或者说预测是错误的。这种情况可以使用交叉熵损失函数计算破坏处理的标签和破坏处理对应的恢复处理之间的破坏损失。
可选地,利用如下公式计算目标模型训练中的总损失:
其中,Gt为第t次的恢复处理,Ft为第t次的破坏处理,Gt与Ft是相对应的,/>是经过第t-1次破坏处理以及添加噪声后的文本向量,当t等于1时,/>是文本向量,当t等于N时,/>是破坏向量,N为预设数,/>为噪声,/>满足目标分布,σ为目标分布的方差,|| ||1表示进行一范数运算,T为总共进行破坏处理以及添加噪声的次数,T在数值上等于t。
通过使用文本扩散模型处理原始文本的次数,控制原始文本对应的还原文本的数量,控制数据增强后的文本数据集的规模。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图3是本公开实施例提供的一种基于对文本进行破坏处理的文本数据增强装置的示意图。如图3所示,该基于对文本进行破坏处理的文本数据增强装置包括:
获取模块301,被配置为获取模块,被配置为获取待数据增强的文本数据集;
构建模块302,被配置为构建文本扩散模型,其中,文本扩散模型包括前向模块和反向模块,前向模块是根据多种破坏处理构建的,反向模块是进行模型训练得到的,前向模块和反向模块实现相反的操作;
破坏模块303,被配置为利用文本扩散模型的前向模块将文本数据集中的原始文本转换为文本向量,并通过对文本向量连续多次进行破坏处理,得到原始文本对应的破坏向量;
还原模块304,被配置为利用文本扩散模型的反向模块对破坏向量连续多次进行恢复处理,得到原始文本对应的还原向量,并将还原向量转换为文本格式,得到原始文本对应的还原文本,其中,每次的恢复处理均对应一次破坏处理,并且彼此对应的恢复处理和破坏处理互为逆过程;
生成模块305,被配置为利用原始文本和还原文本生成数据增强后的文本数据集。
传统文本扩散模型有两个过程,分别为扩散过程和逆扩散过程。本公开实施例用构建的前向模块替换扩散过程,用反向模块替代逆扩散过程,构建的文本扩散模型比起传统文本扩散模型的精度更高,进而数据增强得到的文本更加符合原文本。在本公开实施例中,可以将前向模块看做是执行多种破坏处理,将反向模块看做是训练的一个神经网络模型,用于检测前向模块的操作,并执行前向模块的操作的逆过程。
根据本公开实施例提供的技术方案,获取待数据增强的文本数据集;构建文本扩散模型,其中,文本扩散模型包括前向模块和反向模块,前向模块是根据多种破坏处理构建的,反向模块是进行模型训练得到的,前向模块和反向模块实现相反的操作;利用文本扩散模型的前向模块将文本数据集中的原始文本转换为文本向量,并通过对文本向量连续多次进行破坏处理,得到原始文本对应的破坏向量;利用文本扩散模型的反向模块对破坏向量连续多次进行恢复处理,得到原始文本对应的还原向量,并将还原向量转换为文本格式,得到原始文本对应的还原文本,其中,每次的恢复处理均对应一次破坏处理,并且彼此对应的恢复处理和破坏处理互为逆过程;利用原始文本和还原文本生成数据增强后的文本数据集,因此,采用上述技术手段,可以解决现有技术中,传统数据增强方法得到的文本偏离原文本的问题,进而使得数据增强方法得到的文本符合原文本的文本数据分布。
破坏处理,包括:池化操作、模糊操作和遮掩操作。
可选地,破坏模块303还被配置为对原始文本进行热独编码处理,得到第一编码矩阵,利用词嵌入矩阵将第一编码矩阵映射为文本向量,得到文本向量。
前向模块将原始文本转换为文本向量后,对文本向量连续多次进行破坏处理。
可选地,还原模块304还被配置为根据词嵌入矩阵将还原向量映射得到第二编码矩阵;对第二编码矩阵进行热独解码处理,得到还原文本,其中,热独解码处理是热独编码处理的逆过程。
反向模块对破坏向量连续多次进行恢复处理,将还原向量转换为还原文本。
可选地,还原模块304还被配置为获取训练数据集,利用训练数据集对目标模型进行训练,使得目标模型可以确定并执行前向模块对训练数据集中的训练文本进行的破坏处理所对应的恢复处理,目标模型为U-Net模型、ResNet模型或者transformer模型;将训练好的目标模型后接将向量转换为文本的算法,得到反向模块。
目标模型用于对破坏向量连续多次进行恢复处理,将向量转换为文本的算法用于将还原向量转换为还原文本。目标模型的模型输出头后接将向量转换为文本的算法,就是反向模块。
可选地,破坏模块303还被配置为利用前向模块连续多次对文本向量进行破坏处理以及添加噪声,得到破坏向量。
可选地,还原模块304还被配置为利用反向模块中的目标模型确定前向模块每次对文本向量进行的破坏处理以及添加的噪声,并连续多次对破坏向量进行破坏处理对应的恢复处理以及去除噪声,得到原始文本对应的还原向量;目标模型已通过训练,能确定并执行前向模块对文本向量进行的破坏处理以及添加的噪声。
为了增加数据增强的效果,前向模块每次对文本向量进行破坏处理的同时还进行添加噪声的操作。需要说明的是,本公开实施例中前向模块因为在破坏处理的基础上还需要添加噪声,与前向模块相对的反向模块的训练就不同于上个实施例,因为此次训练的反向模块需要确定并执行前向模块对文本向量进行的破坏处理以及添加的噪声。
可以将前向模块进行破坏处理以及添加噪声理解为如下公式:
其中,Ft为第t次的破坏处理,破坏处理包括池化操作、模糊操作和遮掩操作,/>是经过第t次破坏处理以及添加噪声后的目标图像,当t等于1时,是目标图像,当t等于N时,/>是目标图像对应的第二破坏图像,N为预设数,/>为噪声,q()为目标分布,目标分布包括高斯分布、均匀分布和t分布,/>表示/>满足q(),σ为q()的方差。
目标分布可以是高斯分布、均匀分布和t分布等分布。
可选地,还原模块304还被配置为计算前向模块添加的多个噪声和目标模型确定的多个噪声之间的噪声损失,计算前向模块进行的破坏处理和目标模型进行的恢复处理之间的破坏损失,计算原始文本和还原文本之间的文本损失;依据噪声损失、破坏损失和文本损失,更新目标模型的模型参数,以完成对目标模型的训练。
可选地,还原模块304还被配置为通过如下损失函数计算原始文本和还原文本之间的文本损失;
其中,N是原始文本中字的总数量,/>为原始文本中第i个字的位置上的原始字表的分布,/>为还原文本中第i个字的位置上的预测字表分布,为/>与/>相同的概率。
可选地,还原模块304还被配置为利用均方差损失函数计算前向模块添加的多个噪声和目标模型确定的多个噪声之间的噪声损失;利用交叉熵损失函数计算前向模块进行的破坏处理和目标模型进行的恢复处理之间的破坏损失。
可以用标签表示破坏处理和恢复处理,如果破坏处理以及其对应的恢复处理的标签一致,那么说明目标模型检测或者说预测是正确的,如果破坏处理以及其对应的恢复处理的标签不一致,那么说明目标模型检测或者说预测是错误的。这种情况可以使用交叉熵损失函数计算破坏处理的标签和破坏处理对应的恢复处理之间的破坏损失。
可选地,还原模块304还被配置为利用如下公式计算目标模型训练中的总损失:
其中,Gt为第t次的恢复处理,Ft为第t次的破坏处理,Gt与Ft是相对应的,/>是经过第t-1次破坏处理以及添加噪声后的文本向量,当t等于1时,/>是文本向量,当t等于N时,/>是破坏向量,N为预设数,/>为噪声,/>满足目标分布,σ为目标分布的方差,|| ||1表示进行一范数运算,T为总共进行破坏处理以及添加噪声的次数,T在数值上等于t。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
图4是本公开实施例提供的电子设备4的示意图。如图4所示,该实施例的电子设备4包括:处理器401、存储器402以及存储在该存储器402中并且可在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者,处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元的功能。
电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解,图4仅仅是电子设备4的示例,并不构成对电子设备4的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器401可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器402可以是电子设备4的内部存储单元,例如,电子设备4的硬盘或内存。存储器402也可以是电子设备4的外部存储设备,例如,电子设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器402还可以既包括电子设备4的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。
Claims (8)
1.一种基于对文本进行破坏处理的文本数据增强方法,其特征在于,包括:
获取待数据增强的文本数据集;
构建文本扩散模型,其中,所述文本扩散模型包括前向模块和反向模块,所述前向模块是根据多种破坏处理构建的,所述反向模块是进行模型训练得到的,所述前向模块和所述反向模块实现相反的操作,所述破坏处理,包括:池化操作、模糊操作和遮掩操作;
利用所述文本扩散模型的前向模块将所述文本数据集中的原始文本转换为文本向量,并通过对所述文本向量连续多次进行破坏处理,得到所述原始文本对应的破坏向量;
利用所述文本扩散模型的反向模块对所述破坏向量连续多次进行恢复处理,得到所述原始文本对应的还原向量,并将所述还原向量转换为文本格式,得到所述原始文本对应的还原文本,其中,每次的所述恢复处理均对应一次所述破坏处理,并且彼此对应的所述恢复处理和所述破坏处理互为逆过程;
利用所述原始文本和所述还原文本生成所述数据增强后的文本数据集;
其中,所述获取待数据增强的图像数据集之后,所述方法还包括:利用所述前向模块连续多次对所述文本向量进行破坏处理以及添加噪声,得到所述破坏向量;利用所述反向模块中的目标模型确定所述前向模块每次对所述文本向量进行的所述破坏处理以及添加的噪声,并连续多次对所述破坏向量进行所述破坏处理对应的所述恢复处理以及去除噪声,得到所述原始文本对应的还原向量;所述目标模型已通过训练,能确定并执行所述前向模块对所述文本向量进行的所述破坏处理以及添加的噪声;
其中,利用所述前向模块进行破坏处理以及添加噪声理解为如下公式:
其中,Ft为第t次的破坏处理,是经过第t次破坏处理以及添加噪声后的文本向量,当t等于0时,/>是文本向量,当t等于N时,/>是破坏向量,N为预设数,/>为噪声,q()为目标分布,目标分布为t分布,/>表示/>满足q(),σ为q()的方差。
2.根据权利要求1所述的方法,其特征在于,包括:
利用所述前向模块将所述原始文本转换为所述文本向量:对所述原始文本进行热独编码处理,得到第一编码矩阵,利用词嵌入矩阵将所述第一编码矩阵映射为文本向量,得到所述文本向量;
利用所述反向模块将所述还原向量转换为文本格式,得到所述还原文本:根据所述词嵌入矩阵将所述还原向量映射得到第二编码矩阵;对所述第二编码矩阵进行热独解码处理,得到所述还原文本,其中,所述热独解码处理是所述热独编码处理的逆过程。
3.根据权利要求1所述的方法,其特征在于,利用所述文本扩散模型的反向模块对所述破坏向量连续多次进行恢复处理,得到所述原始文本对应的还原向量,并将所述还原向量转换为文本格式,得到所述原始文本对应的还原文本之前,所述方法还包括:
获取训练数据集,利用所述训练数据集对目标模型进行训练,使得所述目标模型可以确定并执行所述前向模块对所述训练数据集中的训练文本进行的所述破坏处理所对应的所述恢复处理,所述目标模型为U-Net模型、ResNet模型或者transformer模型;
将训练好的所述目标模型后接将向量转换为文本的算法,得到所述反向模块。
4.根据权利要求1所述的方法,其特征在于,对所述目标模型进行训练时,计算如下损失:
计算所述前向模块添加的多个噪声和所述目标模型确定的多个噪声之间的噪声损失,计算所述前向模块进行的所述破坏处理和所述目标模型进行的所述恢复处理之间的破坏损失,计算所述原始文本和所述还原文本之间的文本损失;
依据所述噪声损失、所述破坏损失和所述文本损失,更新所述目标模型的模型参数,以完成对所述目标模型的训练。
5.根据权利要求4所述的方法,其特征在于,包括:
通过如下损失函数计算所述原始文本和所述还原文本之间的文本损失;
;
其中,N是原始文本中字的总数量,为所述原始文本中第i个字的位置上的原始字表的分布,/>为所述还原文本中第i个字的位置上的预测字表分布,/>为/>与/>相同的概率;
利用均方差损失函数计算所述前向模块添加的多个噪声和所述目标模型确定的多个噪声之间的噪声损失;
利用交叉熵损失函数计算所述前向模块进行的所述破坏处理和所述目标模型进行的所述恢复处理之间的破坏损失。
6.一种基于对文本进行破坏处理的文本数据增强装置,其特征在于,包括:
获取模块,被配置为获取待数据增强的文本数据集;
构建模块,被配置为构建文本扩散模型,其中,所述文本扩散模型包括前向模块和反向模块,所述前向模块是根据多种破坏处理构建的,所述反向模块是进行模型训练得到的,所述前向模块和所述反向模块实现相反的操作,所述破坏处理,包括:池化操作、模糊操作和遮掩操作;
破坏模块,被配置为利用所述文本扩散模型的前向模块将所述文本数据集中的原始文本转换为文本向量,并通过对所述文本向量连续多次进行破坏处理,得到所述原始文本对应的破坏向量;
还原模块,被配置为利用所述文本扩散模型的反向模块对所述破坏向量连续多次进行恢复处理,得到所述原始文本对应的还原向量,并将所述还原向量转换为文本格式,得到所述原始文本对应的还原文本,其中,每次的所述恢复处理均对应一次所述破坏处理,并且彼此对应的所述恢复处理和所述破坏处理互为逆过程;
生成模块,被配置为利用所述原始文本和所述还原文本生成所述数据增强后的文本数据集;
所述破坏模块还被配置为利用所述前向模块连续多次对所述文本向量进行破坏处理以及添加噪声,得到所述破坏向量;利用所述反向模块中的目标模型确定所述前向模块每次对所述文本向量进行的所述破坏处理以及添加的噪声,并连续多次对所述破坏向量进行所述破坏处理对应的所述恢复处理以及去除噪声,得到所述原始文本对应的还原向量;所述目标模型已通过训练,能确定并执行所述前向模块对所述文本向量进行的所述破坏处理以及添加的噪声;
所述破坏模块还被配置为利用所述前向模块进行破坏处理以及添加噪声理解为如下公式:
其中,Ft为第t次的破坏处理,破坏处理包括池化操作、模糊操作和遮掩操作,是经过第t次破坏处理以及添加噪声后的文本向量,当t等于0时,/>是文本向量,当t等于N时,/>是破坏向量,N为预设数,/>为噪声,q()为目标分布,目标分布为t分布,/>表示/>满足q(),σ为q()的方差。
7.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310364625.5A CN116127925B (zh) | 2023-04-07 | 2023-04-07 | 基于对文本进行破坏处理的文本数据增强方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310364625.5A CN116127925B (zh) | 2023-04-07 | 2023-04-07 | 基于对文本进行破坏处理的文本数据增强方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116127925A CN116127925A (zh) | 2023-05-16 |
CN116127925B true CN116127925B (zh) | 2023-08-29 |
Family
ID=86310312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310364625.5A Active CN116127925B (zh) | 2023-04-07 | 2023-04-07 | 基于对文本进行破坏处理的文本数据增强方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116127925B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117312833B (zh) * | 2023-11-29 | 2024-02-27 | 北京冠群信息技术股份有限公司 | 一种应用于数字资产环境中的数据识别方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114398890A (zh) * | 2022-01-19 | 2022-04-26 | 中国平安人寿保险股份有限公司 | 文本增强方法、装置、设备及存储介质 |
CN114417794A (zh) * | 2022-03-29 | 2022-04-29 | 北京大学 | 量表问题生成模型的训练方法、装置和计算机设备 |
CN114861600A (zh) * | 2022-07-07 | 2022-08-05 | 之江实验室 | 一种面向ner的中文临床文本数据增强方法及装置 |
CN115563281A (zh) * | 2022-10-13 | 2023-01-03 | 深圳须弥云图空间科技有限公司 | 基于文本数据增强的文本分类方法及装置 |
CN115563335A (zh) * | 2022-09-28 | 2023-01-03 | 深圳市欢太科技有限公司 | 模型训练方法、图文数据处理方法及装置、设备、介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11769228B2 (en) * | 2021-08-02 | 2023-09-26 | Google Llc | Image enhancement via iterative refinement based on machine learning models |
-
2023
- 2023-04-07 CN CN202310364625.5A patent/CN116127925B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114398890A (zh) * | 2022-01-19 | 2022-04-26 | 中国平安人寿保险股份有限公司 | 文本增强方法、装置、设备及存储介质 |
CN114417794A (zh) * | 2022-03-29 | 2022-04-29 | 北京大学 | 量表问题生成模型的训练方法、装置和计算机设备 |
CN114861600A (zh) * | 2022-07-07 | 2022-08-05 | 之江实验室 | 一种面向ner的中文临床文本数据增强方法及装置 |
CN115563335A (zh) * | 2022-09-28 | 2023-01-03 | 深圳市欢太科技有限公司 | 模型训练方法、图文数据处理方法及装置、设备、介质 |
CN115563281A (zh) * | 2022-10-13 | 2023-01-03 | 深圳须弥云图空间科技有限公司 | 基于文本数据增强的文本分类方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于LSTM的评论文本情感分析方法研究;李井辉;孙丽娜;李晶;;微型电脑应用(第05期);第5-8页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116127925A (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10650102B2 (en) | Method and apparatus for generating parallel text in same language | |
CN110377740B (zh) | 情感极性分析方法、装置、电子设备及存储介质 | |
CN109829164B (zh) | 用于生成文本的方法和装置 | |
CN111950692B (zh) | 用于改进的通用化的基于汉明距离的稳健输出编码 | |
WO2022156434A1 (zh) | 用于生成文本的方法和装置 | |
CN112270200B (zh) | 一种文本信息的翻译方法、装置、电子设备和存储介质 | |
CN117392260B (zh) | 一种图像生成方法及装置 | |
CN113947095B (zh) | 多语种文本翻译方法、装置、计算机设备及存储介质 | |
CN117114063A (zh) | 用于训练生成式大语言模型和用于处理图像任务的方法 | |
CN113408507B (zh) | 基于履历文件的命名实体识别方法、装置和电子设备 | |
CN111368551A (zh) | 一种确定事件主体的方法和装置 | |
CN111915086A (zh) | 异常用户预测方法和设备 | |
CN116127925B (zh) | 基于对文本进行破坏处理的文本数据增强方法及装置 | |
CN114358023B (zh) | 智能问答召回方法、装置、计算机设备及存储介质 | |
CN112307738B (zh) | 用于处理文本的方法和装置 | |
CN114780701A (zh) | 自动问答匹配方法、装置、计算机设备及存储介质 | |
CN110852057A (zh) | 一种计算文本相似度的方法和装置 | |
CN113505595A (zh) | 文本短语抽取方法、装置、计算机设备及存储介质 | |
CN116108810A (zh) | 文本数据增强方法及装置 | |
CN111723186A (zh) | 用于对话系统的基于人工智能的知识图谱生成方法、电子设备 | |
CN117252250A (zh) | 大模型预训练方法及装置 | |
CN111611420B (zh) | 用于生成图像描述信息的方法和装置 | |
CN110929512A (zh) | 一种数据增强方法和装置 | |
CN116484864A (zh) | 一种数据识别方法及相关设备 | |
CN111784377B (zh) | 用于生成信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |