CN112966530A

CN112966530A - 一种机器翻译领域自适应方法、系统、介质、计算机设备

Info

Publication number: CN112966530A
Application number: CN202110375078.1A
Authority: CN
Inventors: 贝超; 程国艮
Original assignee: Global Tone Communication Technology Co ltd
Current assignee: Global Tone Communication Technology Co ltd
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2021-06-15
Anticipated expiration: 2041-04-08
Also published as: CN112966530B

Abstract

本发明属于机器翻译技术领域，公开了一种机器翻译领域自适应方法、系统、介质、计算机设备，包括：通过半监督增广语料，基于不同的领域语料的数量和质量进行领域模型的适应性训练，并利用训练好的领域模型进行机器翻译。本发明针对领域机器翻译的实际应用中的主要问题，提出了一套较为完整的解决方案，可以有效利用用户提供的领域语料，提供一个较好的领域机器翻译模型。本发明针对领域语料较少的情况，使用半监督的方法构建领域语料；根据用户的需求，选择不同的训练方式，通过上采样的方式，得到较好的领域神经网络机器翻译模型；避免了使用增量训练的方式使得领域模型出现过拟合，无法覆盖大部分用户的使用场景，又能快速构建领域模型。

Description

一种机器翻译领域自适应方法、系统、介质、计算机设备

技术领域

本发明属于机器翻译技术领域，尤其涉及一种机器翻译领域自适应方法、系统、介质、计算机设备。

背景技术

目前，机器翻译是利用计算机算法自动地将一种源语言句子翻译成为另一种目标语言句子的过程。机器翻译是人工智能的一个研究方向，具有十分重要的科研价值和实用价值。伴随着全球化进程的不断深化和互联网的迅速发展，机器翻译技术在国内外政治、经济、社会、文化交流等方面发挥着越来越重要的作用。

随着神经网络机器翻译的可用性大大提高，用户对机器翻译的需求随之提升。一般用户没有专业的需求，也无需十分高的准确率，使用通用领域的机器翻译即可满足需求。但一般的通用领域机器翻译无法满足专业领域用户的需求，而专业领域用户对于机器翻译的需求却是较大的，对于翻译的准确率以及专业性的要求较高。

目前领域的神经网络机器翻译系统在学术界已有比较多的讨论，但是对于工业界级别的领域神经网络机器翻译应用来说，还有很多有待解决的问题。学术界的论文可以针对测试集进行相应的优化，并且最重要的一点，领域测试集也仅仅是几千句，并不能代表用户所有场景中所需翻译的句子。因此，在实际应用中，领域机器翻译模型往往会让用户产生不好用的感受。

从零开始训练一个神经网络模型需要花费较多的时间在语料处理和模型训练上。但实际应用中，用户往往会不断产生新的领域语料，却不可能每次都从零开始训练一个模型，这对快速进行领域自适应提出了要求。

此外，用户的语料也较少，往往很难覆盖所有的使用场景，质量也很难有所保证。对于如何使用用户提供的语料，并进行个性化定制，是一个难题。

通过上述分析，现有技术存在的问题及缺陷为：现有的机器翻译系统或方法无法应用于专业领域，同时无法进行领域自适应；且现有的机器翻译方法或系统翻译不精准，用户感受不佳。解决以上问题及缺陷的难度为：由于可供使用的领域语料较少甚至没有，而神经网络机器翻译模型需要大量的数据驱动，少量的数据无法训练得到一个可用的领域机器翻译模型，甚至进行训练。

解决以上问题及缺陷的意义为：通过本发明，根据用户的需求以及不同的情况，可在合理情况下训练一个可用的领域机器翻译模型，解决了领域语料缺乏的情况下无法训练领域神经网络机器翻译模型的问题。

发明内容

针对现有技术存在的问题，本发明提供了一种机器翻译领域自适应方法、系统、介质、计算机设备。

本发明是这样实现的，一种机器翻译领域自适应方法，所述机器翻译领域自适应方法包括：通过半监督增广语料，基于不同的领域语料的数量和质量进行领域模型的适应性训练，并利用训练好的领域模型进行机器翻译。

进一步，所述机器翻译领域自适应方法包括以下步骤：

步骤一，使用半监督方法生产伪平行领域语料，对语料进行增广；

步骤二，构建领域模型，并判断时间是否充裕，若时间充裕，则对构建的领域模型进行全量训练；若时间不充裕，则对构建的领域模型进行增量训练；

步骤三，利用训练好的领域模型进行领域自适应的机器翻译。

进一步，所述使用半监督方法生产伪平行领域语料包括：

搜集领域内的单语，利用反方向的机器翻译模型进行翻译，将翻译得到的译文与原文构成领域伪平行语料。

进一步，步骤二中，所述对构建的领域模型进行全量训练包括：

（1）进行训练集预处理；以通用测试集作为开发集，对构建的领域模型进行训练；

（2）以领域测试集为开发集，使用相同的训练集，对构建的领域模型进行二次训练。

进一步，步骤（1）中，所述进行训练集预处理包括：对领域语料进行上采样，令通用语料与领域语料数量之比为5:1至10:1。

进一步，步骤二中，所述对构建的领域模型进行增量训练包括：判断领域语料的状况，并基于判断结果，利用领域内的语料训练构建的领域模型。

进一步，所述基于判断结果，利用领域内的语料训练构建的领域模型包括：

若领域语料较多并且质量较好：则直接基于原有通用模型，使用领域语料进行领域模型的增量训练；

若领域语料较少或者质量较低：则混合领域语料和通用语料，通过上采样，通用语料与领域语料之比为5:1；基于通用模型进行增量训练。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：通过半监督增广语料，基于不同的领域语料的数量和质量进行领域模型的适应性训练，并利用训练好的领域模型进行机器翻译。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：通过半监督增广语料，基于不同的领域语料的数量和质量进行领域模型的适应性训练，并利用训练好的领域模型进行机器翻译。

本发明的另一目的在于提供一种实施所述机器翻译领域自适应方法的机器翻译领域自适应系统，所述机器翻译领域自适应系统包括：

语料增广模块，用于使用半监督方法生产伪平行领域语料，对语料进行增广；

模型构建模块，用于构建领域模型；

训练模块，用于基于不同的领域语料的数量和质量进行领域模型的增量或全量训练；

翻译模块，用于利用训练好的领域模型进行领域自适应的机器翻译。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明可在不同领域语料的数量和质量的情况下，选择合适的训练方式。领域语料数量较少的情况，可通过半监督的方式，快速增广领域语料。训练时，全量训练可较好质量的提供领域模型。而在短时间内，需要快速进行领域模型训练：语料质量和数量都不错的情况下，可使用领域语料直接进行的增量训练；而在语料质量不佳或者数量较少的情况下，可混合领域和通用语料，通过上采样，提高领域语料比重，然后进行增量训练。

本发明针对领域机器翻译的实际应用中的主要问题，提出了一套较为完整的解决方案，可以有效利用用户提供的领域语料，提供一个较好的领域机器翻译模型。

本发明在领域语料较少时，选择半监督的方法构建领域语料。而根据用户的需求，选择不同的训练方式，通过上采样的方式，最终得到较好的领域神经网络机器翻译模型。避免了使用增量训练的方式使得领域模型出现过拟合，无法覆盖大部分用户的使用场景，又能快速构建领域模型。

本发明应用在金融领域机器翻译引擎中，效果如表1所示，对比通用领域的模型效果明显。

表1金融领域BLEU值

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的机器翻译领域自适应方法原理图。

图2是本发明实施例提供的机器翻译领域自适应方法流程图。

图3是本发明实施例提供的机器翻译领域自适应系统结构示意图；

图中：1、语料增广模块；2、模型构建模块；3、训练模块；4、翻译模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种机器翻译领域自适应方法、系统、介质、计算机设备，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的机器翻译领域自适应方法包括：通过半监督增广语料，基于不同的领域语料的数量和质量进行领域模型的适应性训练，并利用训练好的领域模型进行机器翻译。

如图2所示，本发明实施例提供的机器翻译领域自适应方法包括以下步骤：

S101，使用半监督方法生产伪平行领域语料，对语料进行增广；

S102，构建领域模型，并判断时间是否充裕，若时间充裕，则对构建的领域模型进行全量训练；若时间不充裕，则对构建的领域模型进行增量训练；

S103，利用训练好的领域模型进行领域自适应的机器翻译。

本发明实施例提供的使用半监督方法生产伪平行领域语料包括：

步骤S102中，本发明实施例提供的对构建的领域模型进行全量训练包括：

步骤（1）中，本发明实施例提供的进行训练集预处理包括：对领域语料进行上采样，令通用语料与领域语料数量之比为5:1至10:1。

步骤S102中，本发明实施例提供的对构建的领域模型进行增量训练包括：

判断领域语料的状况，并基于判断结果，利用领域内的语料训练构建的领域模型。

本发明实施例提供的基于判断结果，利用领域内的语料训练构建的领域模型包括：

如图3所示，本发明实施例提供的机器翻译领域自适应系统包括：

语料增广模块1，用于使用半监督方法生产伪平行领域语料，对语料进行增广；

模型构建模块2，用于构建领域模型；

训练模块3，用于基于不同的领域语料的数量和质量进行领域模型的增量或全量训练；

翻译模块4，用于利用训练好的领域模型进行领域自适应的机器翻译。

下面结合具体实施例对本发明的技术效果作进一步描述。

实施例1：

本发明提供了一种基于神经网络的领域机器翻译自适应的方法和系统。如图1所示为整个流程。

1. 针对语料数量问题，本发明使用半监督的方法，生产伪平行领域语料：

由于双语的领域内语料较少，尤其是某些小语种，并且质量也难以保证，因此搜集领域内的单语更能保证语料的数量和质量。然后使用相反方向的机器翻译模型进行翻译，得到的译文与原文构成了领域伪平行语料。

2. 关于如何快速构建领域模型：

a) 全量训练

根据领域语料的数量和质量，领域语料通过上采样，使得通用语料与领域语料数量之比在5:1至10:1左右。领域语料质量越高，占有比重越大。基本步骤如下：

i.在不改变模型结构的情况下，以通用测试集作为开发集，训练直至停止。

ii. 再以领域测试集为开发集，使用相同的训练集，训练模型直至停止。

b) 增量训练

在有限的时间下，希望快速得到领域的模型，可进行增量训练。增量训练是基于原有模型（一般就是通用模型），使用领域内的语料继续训练模型。

i.对于领域语料较多并且质量较好：直接基于原有通用模型，使用领域语料进行增量训练。

ii. 对于领域语料较少或者质量较低：混合领域语料和通用语料，通过上采样，使得通用语料与领域语料之比为5:1左右。然后基于通用模型进行增量训练。

以上领域机翻的训练方法，可在不同领域语料的数量和质量的情况下，选择合适的训练方式。领域语料数量较少的情况，可通过半监督的方式，快速增广领域语料。训练时，全量训练可较好质量的提供领域模型。而在短时间内，需要快速进行领域模型训练：语料质量和数量都不错的情况下，可使用领域语料直接进行的增量训练；而在语料质量不佳或者数量较少的情况下，可混合领域和通用语料，通过上采样，提高领域语料比重，然后进行增量训练。

实施例2：

训练一个英到中方向的领域模型。

1. 半监督增广领域语料：

搜集中文领域内的单语，经过清洗后，使用中到英通用机器翻译模型翻译中文至英文，清洗得到的译文后构成英到中领域内伪双语语料。

2. 训练领域模型：

a) 如果时间允许，则进行全量训练

b) 如果时间紧张，则进行增量训练

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种机器翻译领域自适应方法，其特征在于，所述机器翻译领域自适应方法通过半监督增广语料，基于不同的领域语料的数量和质量进行领域模型的适应性训练，并利用训练好的领域模型进行机器翻译；

所述机器翻译领域自适应方法包括以下步骤：

步骤二，构建领域模型，对构建的领域模型进行全量训练；若时间不充裕，则对构建的领域模型进行增量训练；

2.如权利要求1所述的机器翻译领域自适应方法，其特征在于，所述使用半监督方法生产伪平行领域语料包括：搜集领域内的单语，利用反方向的机器翻译模型进行翻译，将翻译得到的译文与原文构成领域伪平行语料。

3.如权利要求1所述的机器翻译领域自适应方法，其特征在于，步骤二中，所述对构建的领域模型进行全量训练包括：

4.如权利要求3所述的机器翻译领域自适应方法，其特征在于，步骤（1）中，所述进行训练集预处理包括：对领域语料进行上采样，令通用语料与领域语料数量之比为5:1至10:1。

5.如权利要求1所述的机器翻译领域自适应方法，其特征在于，步骤二中，所述对构建的领域模型进行增量训练包括：判断领域语料的状况，并基于判断结果，利用领域内的语料训练构建的领域模型。

6.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：通过半监督增广语料，基于不同的领域语料的数量和质量进行领域模型的适应性训练，并利用训练好的领域模型进行机器翻译；具体包括以下步骤：

7.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：通过半监督增广语料，基于不同的领域语料的数量和质量进行领域模型的适应性训练，并利用训练好的领域模型进行机器翻译；具体包括以下步骤：

8.一种实施权利要求1-5任意一项所述机器翻译领域自适应方法的机器翻译领域自适应系统，其特征在于，所述机器翻译领域自适应系统包括：

模型构建模块，用于构建领域模型；