[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN110263349A - 语料评估模型训练方法、装置、存储介质和计算机设备 - Google Patents

语料评估模型训练方法、装置、存储介质和计算机设备 Download PDF

Info

Publication number
CN110263349A
CN110263349A CN201910176030.0A CN201910176030A CN110263349A CN 110263349 A CN110263349 A CN 110263349A CN 201910176030 A CN201910176030 A CN 201910176030A CN 110263349 A CN110263349 A CN 110263349A
Authority
CN
China
Prior art keywords
text
corpus
vector
training
machine translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910176030.0A
Other languages
English (en)
Other versions
CN110263349B (zh
Inventor
邵晨泽
张金超
孟凡东
周杰
冯洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Tencent Cyber Tianjin Co Ltd
Original Assignee
Institute of Computing Technology of CAS
Tencent Cyber Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS, Tencent Cyber Tianjin Co Ltd filed Critical Institute of Computing Technology of CAS
Priority to CN201910176030.0A priority Critical patent/CN110263349B/zh
Publication of CN110263349A publication Critical patent/CN110263349A/zh
Application granted granted Critical
Publication of CN110263349B publication Critical patent/CN110263349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种语料评估模型训练方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取平行语料;所述平行语料包括源文本和相应的参考翻译文本;通过机器翻译模型对所述源文本进行翻译得到相应的机器翻译文本;将所述源文本和所述机器翻译文本共同作为语料评估模型的训练样本;对比所述机器翻译文本和所述参考翻译文本,得到与所述训练样本相应的训练标签;通过所述训练样本和相应的训练标签训练所述语料评估模型。本申请提供的方案可以提高模型训练效率和效果。

Description

语料评估模型训练方法、装置、存储介质和计算机设备
技术领域
本申请涉及机器学习技术领域,特别是涉及一种语料评估模型训练方法、装置、存储介质和计算机设备。
背景技术
随着机器学习技术的发展,出现了机器翻译技术。在机器翻译领域中,用于训练机器翻译模型的平行语料中可能会存在大量的噪声,从而影响机器翻译模型的质量。因此,如何从大量的平行语料中筛选出低噪声的平行语料,以用于训练机器翻译模型成为亟待解决的问题。
传统的对平行语料进行筛选的方式主要通过人工设计多个语料评估的特征,以无噪声的平行语料为正例,对语料的参考译文施加与人工设计的特征对应的人工噪声来构造反例,从而构造出数据筛选模型的训练数据,再对模型进行训练。
然而,传统的模型训练的方式,由于需要大量的人工构造的语料和人工标注的数据来进行训练,在获取训练数据和使用训练数据对模型进行训练时都会耗费大量的时间,导致机器学习模型训练效率比较低。
发明内容
基于此,有必要针对传统的数据筛选模型训练效率低的技术问题,提供一种语料评估模型训练方法、装置、计算机可读存储介质和计算机设备。
一种语料评估模型训练方法,包括:
获取平行语料;所述平行语料包括源文本和相应的参考翻译文本;
通过机器翻译模型对所述源文本进行翻译得到相应的机器翻译文本;
将所述源文本和所述机器翻译文本共同作为语料评估模型的训练样本;
对比所述机器翻译文本和所述参考翻译文本,得到与所述训练样本相应的训练标签;
通过所述训练样本和相应的训练标签训练所述语料评估模型。
一种语料评估模型训练装置,所述装置包括:
获取模块,用于获取平行语料;所述平行语料包括源文本和相应的参考翻译文本;
翻译模块,用于通过机器翻译模型对所述源文本进行翻译得到相应的机器翻译文本;
确定模块,用于将所述源文本和所述机器翻译文本共同作为语料评估模型的训练样本;
对比模块,用于对比所述机器翻译文本和所述参考翻译文本,得到与所述训练样本相应的训练标签;
训练模块,用于通过所述训练样本和相应的训练标签训练所述语料评估模型。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取平行语料;所述平行语料包括源文本和相应的参考翻译文本;
通过机器翻译模型对所述源文本进行翻译得到相应的机器翻译文本;
将所述源文本和所述机器翻译文本共同作为语料评估模型的训练样本;
对比所述机器翻译文本和所述参考翻译文本,得到与所述训练样本相应的训练标签;
通过所述训练样本和相应的训练标签训练所述语料评估模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取平行语料;所述平行语料包括源文本和相应的参考翻译文本;
通过机器翻译模型对所述源文本进行翻译得到相应的机器翻译文本;
将所述源文本和所述机器翻译文本共同作为语料评估模型的训练样本;
对比所述机器翻译文本和所述参考翻译文本,得到与所述训练样本相应的训练标签;
通过所述训练样本和相应的训练标签训练所述语料评估模型。
上述语料评估模型训练方法、装置、计算机可读存储介质和计算机设备,获取包括有源文本和相应的参考翻译文本的平行语料,通过机器翻译模型对该源文本进行翻译得到相应的机器翻译文本。将源文本和相应的机器翻译文本共同作为语料评估模型的训练样本。对比机器翻译文本和相应的参考翻译文本,得到与该训练样本相应的训练标签。由于机器翻译文本中存在各种各样的噪声,因而可以不再依赖于人工添加噪声来构造反例。通过机器翻译文本和参考翻译文本的比对结果确定训练标签,不再依赖人工标注语料即可构造出大量的训练数据,大大提高了训练数据的准备效率,进而大大提高了模型的训练效率。并且,由于通过机器翻译模型所输出的机器翻译文本中会包括各种各样的噪声,相比人工噪声覆盖面更广,更接近真实场景,可以很好地避免由于训练数据的局限所导致的模型过拟合的问题,可以高效地训练出高性能的语料评估模型。
附图说明
图1为一个实施例中语料评估模型训练方法的应用环境图;
图2为一个实施例中语料评估模型训练方法的流程示意图;
图3为一个实施例中通过训练样本和相应的训练标签训练语料评估模型的步骤的流程示意图;
图4为一个实施例中一个实施例中语料评估模型的模型结构示意图;
图5为一个实施例中一个实施例中通过语料评估模型处理平行语料的流程示意图;
图6为一个实施例中筛选目标平行语料的步骤的流程示意图;
图7为一个实施例中对各备用译文文本进行重排序的步骤的流程示意图;
图8为一个具体实施例中语料评估模型训练方法的流程示意图;
图9为一个实施例中语料评估模型训练装置的结构框图;
图10为另一个实施例中语料评估模型训练装置的结构框图;
图11为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中语料评估模型训练方法的应用环境图。参照图1,该语料评估模型训练方法应用于模型训练系统。该模型训练系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110和服务器120均可单独用于执行本申请实施例中提供的语料评估模型训练方法。终端110和服务器120也可协同用于执行本申请实施例中提供的语料评估模型训练方法。
需要说明的是,本申请实施例中涉及两种机器学习模型。机器学习模型是通过样本学习后具备某种能力的模型。本申请实施例中的一种机器学习模型为通过样本学习具有翻译能力的机器翻译模型。翻译是指将一种语种类型的语言转换为另一种语种类型的语言。比如将中文翻译为英文,或者将日文翻译为韩文等。当然,这里的语言也可以是地方语言,比如闽南语或者粤语等。本申请实施例中的另一种机器学习模型为通过样本学习具有语料评估能力的语料评估模型。语料评估是对平行语料中的源文本和相应的翻译文本的匹配程度或差异程度进行评分的过程。
其中,机器学习模型可采用神经网络模型,比如CNN(Convolutional NeuralNetworks,卷积神经网络)模型、RNN(Recurrent Neural Networks,循环神经网络)模型或者transformer模型等。当然,机器学习模型也可以采用其他类型的模型,本申请实施例在此不做限定。
可以理解,在需要训练语料评估模型,仅有低噪声的平行语料时,可以利用本申请实施例中提供的方案,利用机器翻译模型得到包括有各种噪声的机器翻译文本。将源文本和机器翻译文本作为训练样本,将机器翻译文本和参考翻译文本的比对结果作为训练标签来训练语料评估模型,不再依赖于人工添加各种噪声来构造反例,方便快捷的构造训练数据,进而大大提高了模型的训练效率。
其中,本申请中采用的机器翻译模型可以是通过获取的平行语料预训练得到的机器翻译模型。也可以是通过其他的平行语料进行预训练所得到的机器翻译模型。通过该机器翻译模型翻译得到的翻译文本中存在各种各样的噪声。其中,噪声是指影响翻译文本准确性的因素,比如错误的译文、译文次序颠倒、译文缺失、或译文逻辑不通等。翻译文本中的噪声响应翻译文本的翻译质量,噪声越高,该翻译文本的翻译质量越差;噪声越低,该翻译文本的翻译质量越高。机器翻译模型的预训练过程可参考后续实施例中的详细描述。
本申请实施例中,通过上述训练数据训练好的语料评估模型可用于各种需要进行数据筛选的场景。比如,在机器翻译领域中,用于训练模型的平行语料中可能会存在大量的噪声,从而影响机器翻译模型的质量。此时可通过训练好的语料评估模型,对平行语料进行语料评估,得到相应的语料评估得分。再选择语料评估得分较高的平行语料作为机器翻译模型的训练数据,从而训练得到翻译准确度高的机器翻译模型。
如图2所示,在一个实施例中,提供了一种语料评估模型训练方法。本实施例主要以该方法应用于计算机设备来举例说明,该计算机设备具体可以是上图中的终端110或者服务器120。参照图2,该语料评估模型训练方法具体包括如下步骤:
S202,获取平行语料;平行语料包括源文本和相应的参考翻译文本。
其中,平行语料(parallel corpora)是由源文本及其平行对应的翻译文本所构成的双语(或者多语)文本对,其对齐程度可以是词级、句级、段级或者篇级等。源文本与翻译文本分别对应不同的语种。举例说明,假设源文本为中文文本,相应的翻译文本具体可以包括英文文本,或者法文文本等更多非中文语种的其他文本。比如,平行语料表示为<X,Y>,其中,X为源文本,Y为与源文本平行对应的参考翻译文本。<X,Y>比如<谢谢,Thankyou>,或者<今天,Today>等。
参考翻译文本是源文本的标准翻译译文,是低噪声或无噪声的翻译文本。参考翻译文本具体可以是人为根据源文本进行翻译所得到的翻译文本,也可以是人工对机器翻译文本进行校正后所得到的翻译文本。可以理解的是,标准翻译文本至少满足语句通顺、所表达的含义与源文本的表达含义相同或相近等条件。源文本具体可以是词、句子、段落或者篇章等。相应的,参考翻译文本也可以是与源文本对应的词、句子、段落或者篇章等。源文本可以是任意语种的文本,参考翻译文本则为异于源文本所属语种的其他语种的文本。
具体地,计算机设备可从互联网上爬取相对应的不同语种的文本作为平行语料,也可以接收其他计算机设备发送的相对应的不同语种的文本作为平行语料等。其中,相对应的不同语种的文本中,哪个语种的文本作为源文本,哪个语种的文本作为参考翻译文本取决于机器翻译模型的语种翻译方向。
可以理解的是,步骤S202中计算机获取的平行语料所包括的源文本和参考翻译文本的双语句对的数量多于一个。进而可构造多于一组的训练数据。通常情况下,训练数据的组数越多,覆盖的文本内容范围越广,对模型的训练越有利。
S204,通过机器翻译模型对源文本进行翻译得到相应的机器翻译文本。
其中,机器翻译文本是在实际使用中通过机器翻译模型进行文本翻译所得到的翻译译文。由于是机器翻译文本是通过机器翻译模型翻译所得到的文本,翻译的质量依赖于机器学习模型的模型性能,因而机器翻译文本中可能包括各种各样的噪声,比如翻译文本的词序不正确、缺少翻译词、含有无效翻译词、或语法混乱等噪声。可以理解的是,源文本可以是任意语种的文本,机器翻译文本为异于源文本所属语种的其他语种的文本,机器翻译文本和参考翻译文本为同语种的文本。
举例说明,当源文本为“等我搬进来,能买台电视机吗?”,参考翻译文本为“Can Iget a TV when I move in?”,而机器翻译模型翻译得到的机器翻译文本为“I move in tobuy a TV?”。很明显地,通过机器翻译模型对该源文本进行翻译得到的机器翻译文本并不十分准确,存在语义和语法上的缺漏。
机器翻译模型是预训练的机器学习模型。该机器翻译模型在预训练时是学习将S202中源文本所属语种类型的文本翻译为参考翻译文本所属语种类型的文本,故该机器翻译模型在经过预训练后,可对获取的平行语料中的源文本进行各种处理,输出与源文本相应的机器翻译文本。
具体地,计算机设备可获取通过机器翻译模型对源文本进行翻译所得到的机器翻译文本。计算机设备可直接通过机器翻译模型翻译源文本,从而得到机器翻译文本。计算机设备也可从其他计算机设备或网络处获取机器翻译模型预先对源文本翻译所得到的机器翻译文本。
在一个实施例中,计算机设备在获取源文本后,可对源文本进行分词处理后得到各个词所组成的词序列。计算机设备可通过词嵌入处理的方式将离散的词序列转换成相应的初始向量序列。再将该初始向量序列输入至预训练的机器翻译模型中,再通过机器翻译模型所包括的隐层对该初始向量序列进行处理,得到该初始向量序列对应的隐层向量,然后通过输出层将该隐层向量转化为机器翻译文本输出。
其中,隐层是神经网络模型中的一种术语,是相对于输入层和输出层的中间层。隐层中包括对神经网络模型训练得到的模型参数。这里机器翻译模型的隐层是相对于机器翻译模型的输入层和机器翻译模型的输出层的中间层。可以将机器翻译模型的输入层和输出层之间的所有中间层统称为隐层,也可以对这些中间层进行划分,即多层隐层。机器翻译模型的隐层可包括多层神经网络结构。每层神经网络结构可以包括一层或者多层神经网络层。
这里可以将机器翻译模型的隐层当作“黑盒”进行描述。隐层向量是机器翻译模型的隐层对输入其中的数据进行处理后,得到的处理结果。隐层向量的数量可以是一个或者多个。隐层向量为多个时则为隐层向量序列。
其中,预训练的机器翻译模型采用基于神经网络的Sequence-to-Sequence(序列-序列)框架。Sequence-to-Sequence框架是包含Encoder-Decoder(编码器-解码器)结构的框架。Encoder-Decoder结构将输入序列转换为另一个序列输出。在该框架中,编码器将输入序列转化成向量,解码器则接受向量并按时间顺序依次生成输出序列。编码器以及解码器可以采用相同类型的神经网络模型,也可以是不同类型的神经网络模型。神经网络模型比如CNN(Convolutional Neural Networks,卷积神经网络)模型、RNN(Recurrent NeuralNetworks)模型、长短时记忆模型(Long Short-Term Memory,LSTM)、时延网络模型或闸控卷积神经网络模型等。
在一个实施例中,计算机设备在获取到平行语料后,可通过该平行语料训练机器翻译模型。也就是将源文本所对应的初始向量序列输入至机器翻译模型中,通过机器翻译模型所包括的隐层输入的数据进行处理后输出翻译结果。计算机设备可根据翻译结果和参考翻译文本间的差异,朝减小差异的方向调整模型参数并继续训练,直到达到训练停止条件时停止训练。
在一个实施例中,计算机设备可直接获取通过其他平行语料训练好的机器翻译模型,再通过该机器翻译模型对源文本进行翻译,得到机器翻译文本。需要说明的是,这里翻译时使用的机器翻译模型也可以是基于其他训练方式得到的、或者其他模型结构的具有翻译功能的模型,在此不做限定。
S206,将源文本和机器翻译文本共同作为语料评估模型的训练样本。
具体地,计算机设备可将源文本和相应的机器翻译文本共同作为语料评估模型的训练样本。由于机器翻译文本中包含各种各样的噪声,相比人工添加的噪声而言,覆盖面更广,更接近真实场景。非常适合用来作为语料评估模型的训练数据。
在一个实施例中,计算机设备在获取源文本和机器翻译文本后,可对源文本进行分词处理后得到各个词所组成的词序列,及对机器翻译文本进行分词处理后得到各个词所组成的词序列。进一步地,计算机设备可通过词嵌入处理方式,将源文本对应的离散的词序列转换成相应的初始向量序列,以及将机器翻译文本对应的离散的词序列转换成相应的初始向量序列。再将与源文本对应的初始向量序列,及与机器翻译文本对应的初始向量序列,分别输入至语料评估模型中,通过语料评估模型所包括的隐层进行处理。
S208,对比机器翻译文本和参考翻译文本,得到与训练样本相应的训练标签。
具体地,计算机设备可将机器翻译文本和参考翻译文本进行比对,得到比对结果,并根据比对结果确定与训练样本相应的训练标签。
在一个实施例中,计算机设备可采用预先设置的文本匹配方式计算机器翻译文本和参考翻译文本的匹配度,将该匹配度或者该匹配度的线性变换结果作为训练样本相应的训练标签。计算机设备也可采用预先设置的文本差异计算方式计算机器翻译文本和参考翻译文本的差异度,将该差异度或者该差异度的线性变换结果作为训练样本相应的训练标签。
可以理解,当机器翻译文本和参考翻译文本的匹配程度越高,则认为机器翻译文本的翻译质量越好;当机器翻译文本和参考翻译文本的匹配程度越低,则认为机器翻译文本的翻译质量越差。或者,当机器翻译文本和参考翻译文本的差异越小,则认为机器翻译文本的翻译质量越好;当机器翻译文本和参考翻译文本的差异越大,则认为机器翻译文本的翻译质量越差。而语料评估模型是用于对平行预料的语料质量进行评价的模型,也可以理解成对翻译文本的翻译质量进行评价的模型,那么计算机设备即可通过机器翻译文本和参考翻译文本的匹配程度或差异情况来确定训练样本相应的训练标签。
在一个实施例中,步骤S208,也就是对比机器翻译文本和参考翻译文本,得到与训练样本相应的训练标签的步骤具体包括以下步骤:按照预设的文本匹配方式,计算机器翻译文本与参考翻译文本的匹配度;将匹配度作为与训练样本相应的训练标签。
其中,文本匹配方式是用于计算机器翻译文本和参考翻译文本的匹配度的策略。文本匹配方式有多种,计算机设备可事先任选一种作为预设的文本匹配方式。
通俗地说,通过机器翻译模型对源文本进行翻译得到机器翻译文本后,需要一种评价指标来评价本次翻译的效果。那么这里的评价指标的计算方式即可作为文本匹配方式。评价指标比如BLEU(Bilingual Evaluation understudy)、NIST(National Instituteof standards and Technology)、错词率(The Word error rate,WER)、或TER(Translation error rate,翻译错误率)等。
具体地,计算机设备在获取通过机器翻译模型对源文本进行机器翻译所得到的机器翻译文本后,可将其与参考翻译文本进行比对,按照预设的文本匹配方式,计算机器翻译文本与参考翻译文本的匹配度,然后将匹配度作为训练样本相应的训练标签。其中,匹配度可以记为M(Y',Y),Y'为机器翻译文本,Y为参考翻译文本。
上述实施例中,按照预设的文本匹配方式,即可计算得到机器翻译文本与参考翻译文本的匹配度,并将匹配度作为与训练样本相应的训练标签,避免了需要人工构建语料并标注语料的动作,大大提高了模型训练的效率。
S210,通过训练样本和相应的训练标签训练语料评估模型。
具体地,语料评估模型的训练是有监督的训练过程。计算机设备将训练样本输入语料评估模型,以该训练样本相应的训练标签为目标输出,通过调整语料评估模型的模型参数使得模型的实际输出不断趋近目标输出。
在一个实施例中,计算机设备可将训练样本输入语料评估模型中进行训练,得到语料评估结果。根据语料评估结果和训练标签的差异构造损失函数。将损失函数最小化时的模型参数作为语料评估模型的模型参数,返回将训练样本输入语料评估模型中进行训练,得到语料评估结果的步骤,直至满足训练停止条件时停止训练。
其中,训练停止条件是结束模型训练的条件。训练停止条件可以是达到预设的迭代次数,或者是调整模型参数后的语料评估模型的性能指标达到预设指标。
在一个实施例中,计算机设备可根据语料评估模型的预测结果和实际结果的相关性作为衡量语料评估模型性能的好坏。其中,预测结果和实际结果的相关性具体可以通过预测结果和实际结果pearson(皮尔逊)相关系数来体现。其中。
在一个实施例中,由于通过机器翻译模型所输出的机器翻译文本中会包括各种各样的噪声,相比人工噪声覆盖面更广,更接近真实场景。因而通过本申请实施例中的训练样本和训练标签训练语料评估模型时,在数据量充足时,一般不会发生过拟合现象。
上述语料评估模型训练方法、装置、计算机可读存储介质和计算机设备,获取包括有源文本和相应的参考翻译文本的平行语料,通过机器翻译模型对该源文本进行翻译得到相应的机器翻译文本。将源文本和相应的机器翻译文本共同作为语料评估模型的训练样本。对比机器翻译文本和相应的参考翻译文本,得到与该训练样本相应的训练标签。由于机器翻译文本中存在各种各样的噪声,因而可以不再依赖于人工添加噪声来构造反例。通过机器翻译文本和参考翻译文本的比对结果确定训练标签,不再依赖人工标注语料即可构造出大量的训练数据,大大提高了训练数据的准备效率,进而大大提高了模型的训练效率。并且,由于通过机器翻译模型所输出的机器翻译文本中会包括各种各样的噪声,相比人工噪声覆盖面更广,更接近真实场景,可以很好地避免由于训练数据的局限所导致的模型过拟合的问题,可以高效地训练出高性能的语料评估模型。
在一个实施例中,步骤S210,也就是通过训练样本和相应的训练标签训练语料评估模型的步骤具体包括以下步骤:
S302,通过语料评估模型中并行的两个循环神经网络结构,分别对源文本的词序列和机器翻译文本的词序列进行处理。
其中,循环神经网络结构是一类以序列数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neuralnetwork)结构。
具体地,计算机设备在获取源文本和机器翻译文本后,可对源文本进行分词处理后得到各个词所组成的词序列,以及对机器翻译文本进行分词处理后得到的各个词所组成的词序列。进一步地,可通过语料评估模型中并行的两个循环神经网络结构,分别对源文本的词序列和机器翻译文本的词序列进行处理。
在一个实施例中,计算机设备可通过词嵌入处理方式,将源文本对应的离散的词序列转换成相应的初始向量序列,以及将机器翻译文本对应的离散的词序列转换成相应的初始向量序列。再将与源文本对应的初始向量序列输入语料评估模型中的其中一个循环神经网络结构;将与机器翻译文本对应的初始向量序列输入语料评估模型中的另一个循环神经网络结构。
在一个实施例中,语料评估模型中的循环神经网络结构,用于提取输入数据中隐含的语义信息并将输入数据编码成向量的形式输出。在一个实施例中,语料评估模型中的循环神经网络结构,具体通过基于LSTM的Encoder-Decoder(编码器-解码器)结构的框架实现。或者语料评估模型中的循环神经网络结构仅通过Encoder-Decoder结构中的编码器实现。
S304,通过语料评估模型的前馈神经网络结构,对并行的两个循环神经网络结构各自输出的向量拼接后继续进行处理,得到语料评估结果。
其中,前馈神经网络结构是一种单向多层神经网络的结构,其中每一层包含若干个神经元,同一层的神经元之间没有互相连接,层间信息的传送只沿一个方向进行。语料评估结果是对源文本和机器翻译文本进行语料评估处理后所得到的结果,语料评估结果可表征机器翻译文本的翻译质量的好坏程度。
具体地,计算机设备可通过语料评估模型的前馈神经网络结构,对并行的两个循环神经网络结构各自输出的向量拼接,得到拼接向量,并对拼接向量进行线性变换和非线性变换中的至少一种变换,得到语料评估结果。
在一个实施例中,计算机设备可通过语料评估模型的前馈神经网络结构对拼接向量进行线性变换和sigmoid(S型生长曲线)函数处理,输出0-1间的数值,将输出的数值作为语料评估结果。
参考图4,图4为一个实施例中语料评估模型的模型结构示意图。如图4所示,分别将源文本的词序列和机器翻译文本的词序列输入对应的两个循环神经网络通道(也就是图4中的RNN-通道1和RNN-通道2)。通过两个并行的循环神经网络通过中的循环神经网络结构,分别处理相应输入的词序列。并行的两个循环神经网络结果所输出的向量均输入至前馈神经网络结构中。前馈神经网络结构拼接输入的向量,得到拼接向量,并对拼接向量进行处理,输出语料评估结果。
S306,根据语料评估结果和训练标签的差异,调整语料评估模型的模型参数并继续训练,直到满足训练停止条件时结束训练。
其中,训练停止条件是结束模型训练的条件。训练停止条件可以是达到预设的迭代次数,或者是调整模型参数后的语料评估模型的性能指标达到预设指标。调整语料评估模型的模型参数,是对语料评估模型的模型参数进行调整。
具体地,计算机设备可比较语料评估结果与分类标签的差异,从而朝减少差异的方向,调整语料评估模型的模型参数。如果调整模型参数后,不满足训练停止条件,则返回步骤S302继续训练,直到满足训练停止条件时结束训练。
在一个实施例中,计算机设备可根据语料评估结果和训练标签的平方误差构造损失函数。在每次训练时,都通过使得损失函数最小化或小于预设阈值时的模型参数更新语料评估模型的模型参数,直至满足训练停止条件时停止训练。
上述实施例中,通过语料评估模型中并行的两个循环神经网络结构,分别对源文本的词序列和机器翻译文本的词序列进行处理。再通过语料评估模型的前馈神经网络结构,对并行的两个循环神经网络结构各自输出的向量拼接后继续进行处理,得到语料评估结果。从而可根据语料评估结果和训练标签的差异,朝减小差异的方向训练语料评估模型。这样,可使得语义评估模型学习到深层的语义信息,从语义层面做语料评估。在模型训练过程中,通过不断地调整模型参数,就可以尽快地训练出能准确地评估翻译文本的翻译质量的语料评估模型,提高了训练效率。
在一个实施例中,步骤S302,也就是通过语料评估模型中并行的两个循环神经网络结构,分别对源文本的词序列和机器翻译文本的词序列进行处理的步骤,具体包括:通过语料评估模型中第一循环神经网络结构的编码器,对源文本的词序列进行语义编码,得到第一语义向量序列,并继续通过第一循环神经网络结构的解码器,依次对第一语义向量序列进行解码,得到第一隐层向量序列;通过第一循环神经网络结构,对第一隐层向量序列中的各向量进行加权求和计算,输出经加权求和计算所得到的向量;通过语料评估模型中第二循环神经网络结构的编码器,对机器翻译文本的词序列进行语义编码,得到第二语义向量序列,并继续通过第二循环神经网络结构的解码器,依次对第二语义向量序列进行解码,得到第二隐层向量序列;通过第二循环神经网络结构,对第二隐层向量序列中的各向量进行加权求和计算,输出经加权求和计算所得到的向量;其中,第一循环神经网络结构与第二循环神经网络结构并行。
具体地,对于语料评估模型中并行的两个循环神经网络结构,两个循环神经网络结构对输入数据的处理方式是一样的。都是通过循环神经网络结构的编码器对输入的词序列进行语义编码,得到语义向量序列。然后循环神经网络结构中的解码器再将语义向量序列解码转换成隐层向量序列。不同的地方在于,一个循环神经网络结构处理源文本对应的词序列,另一个循环神经网络结构处理机器翻译文本对应的词序列。
在一个实施例中,语料评估模型中第一循环神经网络结构的编码器可按照源文本的词序列的词顺序,依次对词序列中的各词进行语义编码,得到各词对应的语义向量,从而得到与源文本的词序列对应的第一语义向量序列。
其中,编码器的隐层在对当前词进行语义编码时,可将前序词所对应的语义向量直接或经过处理后所得的向量作为当前词语义编码的输入,得到当前词的语义向量。也就是说当前词的语义向量融合了前序词的语义向量。这样,源文本的词序列中各词的语义向量不仅包含了相应词的语义信息,且综合了前序词的语义信息,使得最终生成的第一语义向量序列的语义表达更为准确。这里的前序词是指当前词之前的词,当前词之前的词可以是所有词也可以是部分词。
下面通过举例说明的方式说明通过语料评估模型中第一循环神经网络结构的编码器对源文本的词序列逐词进行语义编码,得到第一语义向量序列步骤的过程:以源文本X为例,计算机设备对源文本进行分词,得到源文本的词序列为X=(x1,x2,...,xm),将词序列X=(x1,x2,...,xm)输入到第一循环神经网络结构的编码器后,编码器的隐层对x1进行语义编码得到相应的语义向量v1,再根据语义向量v1对x2进行语义编码得到相应的语义向量v2,依次类推,直到得到xm相应的语义向量vm,最终得到第一语义向量序列V=(v1,v2,...,vm)。
进一步地,语料评估模型中第一循环神经网络结构的编码器将得到的第一语义向量序列传递至解码器,解码器的隐层再对第一语义向量序列进行解码得到第一隐层向量序列。这里的第一语义向量序列和第一隐层向量序列都可以反映源文本的词序列的语义信息和语法信息。
在一个实施例中,第一循环神经网络的解码器在生成第一隐层向量时是依次逐个进行的。当解码器在生成当次的第一隐层向量时,可获取前次输出的第一隐层向量。依据前次输出的第一隐层向量,对编码器输出的第一语义向量序列进行解码,得到当次的第一隐层向量。这样,第一隐层向量不仅包含了源文本的词序列中各词的语义信息,且综合了前次所输出的第一隐层向量的语义信息。解码器根据各第一隐层向量的生成时间顺序,拼接各第一隐层向量,得到第一隐层向量序列。
在一个实施例中,当解码器在解码第一个第一隐层向量时,可将随机向量或预设向量作为第一个第一隐层向量的前次的第一隐层向量,基于随机向量或预设向量,以及编码器传递的第一语义向量序列进行解码,得到第一个第一隐层向量。再基于第一个第一隐层向量和语义向量序列进行解码,得到第二个第一隐层向量。依次类推,直到得到的最后一个第一隐层向量为止。
下面通过举例说明的方式说明通过语料评估模型中第一循环神经网络的解码器对第一语义向量序列进行解码,得到第一隐层向量序列步骤的过程:解码器的隐层基于随机向量或预设向量,以及第一语义向量序列V=(v1,v2,...,vm)进行解码得到第一个第一隐层向量h1;再基于第一隐层向量h1和第一语义向量序列V=(v1,v2,...,vm)进行解码得到第二个第一隐层向量h2;依次类推,直到得到hn,最终得到第一隐层向量序列H=(h1,h2,...,hn)。
进一步地,通过第一循环神经网络结构,对第一隐层向量序列中的各向量进行加权求和计算,输出经加权求和计算所得到的向量。其中,加权求和计算中各第一隐层向量所对应的权值可以是预设权重,也可以是通过语料评估模型计算所得到的权重。在一个实施例中,计算机设备可对各第一隐层向量求平均,得到表示源文本的向量,该向量融合了源文本中各词的语义信息和语法信息。
可以理解,通过语料评估模型中第二循环神经网络结构的编码器,对机器翻译文本的词序列进行语义编码,得到第二语义向量序列,并继续通过第二循环神经网络结构的解码器,依次对第二语义向量序列进行解码,得到第二隐层向量序列的具体操作内容,和上述所描述的第一循环神经网络结构所执行的编码解码操作是一样的,不同的地方在于,第一循环神经网络结构处理源文本对应的词序列,而第二循环神经网络结构处理机器翻译文本对应的词序列。关于第二循环神经网络结构对机器翻译文本对应的词序列进行编码解码操作的详细内容可参考上述第一循环神经网络结构对源文本对应的词序列进行编码解码操作的描述。
在一个实施例中,第二循环神经网络结构对机器翻译文本对应的词序列进行处理时,初始的数据可由第一循环神经网络结构提供。比如,第二循环神经网络结构在解码时,当次解码所用到的前次的第二隐层向量可根据第一循环神经网络结构输出的最后一个第一隐层向量确定。或者,第二循环神经网络结构在解码时,当次解码需要计算的内容向量可根据第一循环神经网络结构中的最后一个内容向量确定。
进一步地,通过第二循环神经网络结构,对第二隐层向量序列中的各向量进行加权求和计算,输出经加权求和计算所得到的向量。其中,加权求和计算中各第二隐层向量所对应的权值可以是预设权重,也可以是通过语料评估模型计算所得到的权重。在一个实施例中,计算机设备可对各第二隐层向量求平均,得到表示机器翻译文本的向量,该向量融合了机器翻译文本中各词的语义信息和语法信息。
上述实施例中,通过语料评估模型中并行的两个循环神经网络结构的编码器和解码器,分别对源文本的词序列和机器翻译文本的词序列进行相应的编解码处理,得到第一隐层向量序列和第二隐层向量序列。再通过并行的两个循环神经网络结构,分别对第一隐层向量序列中的各向量,以及第二隐层向量序列中的各向量进行加权求和计算,分别输出经加权求和计算所得到的向量。这样,可以通过并行的两个循环神经网络结构,分别对源文本和机器翻译文本进行编解码,可以从深层的语义信息层面提取出源文本和机器翻译文本所对应的特征。
在一个实施例中,通过第一循环神经网络结构的解码器,依次对第一语义向量序列进行解码,得到第一隐层向量序列的步骤具体包括:通过第一循环神经网络结构的解码器,获取当次的与第一语义向量序列对应的注意力分配权重向量;根据注意力分配权重向量、以及第一语义向量序列,计算得到当次的内容向量;根据第一循环神经网络结构的解码器前次输出的第一隐层向量,以及当次的内容向量,计算得到当次的第一隐层向量;组合第一循环神经网络结构的解码器依次输出的各第一隐层向量,得到与源文本对应的第一隐层向量序列。
在一个实施例中,第一循环神经网络的解码器可对第一语义向量进行注意力机制(Attention)处理,得到与第一语义向量对应的内容向量。该内容向量融合了源文本的语义信息和语法信息。
在一个实施例中,计算机设备可获取在当次解码过程中与第一语义向量序列对应的注意力分配权重向量。其中,注意力分配权重向量中的各注意力分配权重,分别与第一语义向量序列中的各第一语义向量相对应。根据各第一语义向量各自对应的注意力分配权重对第一语义向量进行融合得到内容向量。其中,融合的方式具体可采用加权求和的计算方式。进而,解码器可基于内容向量、前次输出的第一隐层向量进行解码,得到当次的第一隐层向量。计算机设备组合第一循环神经网络结构的解码器依次输出的各第一隐层向量,得到与源文本对应的第一隐层向量序列。其中,各第一语义向量各自对应的注意力分配权重表示有侧重地选择编码器得到的信息来辅助解码。
在一个实施例中,各第一语义向量各自对应的注意力分配权重通过以下方式计算:将解码器前一时刻所输出的第一隐层向量,和各第一语义向量分别进行比对,也就是通过函数F(hi-1,Vm)来获得当次的第一隐层向量和每个第一语义向量对应的可能性。然后将F(hi-1,Vm)函数的输出经过Softmax进行归一化就得到了符合概率分布取值区间的注意力分配权重。将各注意力分配权重组合就是注意力分配权重向量。其中,i指第i次解码。
下面通过举例说明的方式说明通过语料评估模型中第一循环神经网络的解码器对第一语义向量序列进行解码,得到第一隐层向量序列步骤的过程:在当次的解码过程中,当次的内容向量的计算方式如下:其中,αi,m表示第i次的与第m个第一语义向量对应的注意力分配权重;vm表示第m个第一语义向量;·表示向量点乘运算。对于当次的第一隐层向量,可以用hi表示,前次的第一隐层向量,用hi-1表示。则可通过以下公式计算第一隐层向量hi:hi=f(hi-1,ci);其中,f()表示激活函数。相应的,对于每一次的第一隐层向量都可以通过上述公式计算得到。进而,解码器可拼接组合各第一隐层向量,得到隐层向量序列。
在一个实施例中,计算机设备还可根据第一循环神经网络结构的解码器前次输出的第一隐层向量、前次输出的目标词、以及当次的内容向量,计算得到当次的第一隐层向量。再根据当次的第一隐层向量确定当次的目标词。依次地,当次的目标词用于下次的第一隐层向量的计算。
上述实施例中,通过注意力机制融合的方式,在解码时从编码器的信息中选择相关的信息作为辅助,更充分的学习到循环神经网络结构中各隐层表示,减少了在语料评估过程中有效信息的丢失,大大提高了语料评估的准确率。
可以理解,通过第二循环神经网络结构的解码器,依次对第二语义向量序列进行解码,得到第二隐层向量序列的具体操作内容,和上述所描述的通过第一循环神经网络结构的解码器,依次对第一语义向量序列进行解码,得到第一隐层向量序列操作是一样的。不同的地方在于,第一循环神经网络结构的解码器对第一语义向量序列进行解码,而第二循环神经网络结构的解码器对第二语义向量序列进行解码。关于第二循环神经网络结构的解码器对第二语义向量进行解码的操作的详细内容可参考上述第一循环神经网络结构的解码器对第一语义向量进行解码的操作的相关描述。
参考图5,图5示出了一个实施例中通过语料评估模型处理平行语料的流程示意图。如图5所示,计算机设备可将源文本的词序列,比如X=(x1,x2,x3,x4),以及机器翻译文本的词序列,比如Y'=(y'1,y'2,y'3,y'4)分别输入至语料评估模型的两个循环神经网络通道中。可以理解,X=(x1,x2,x3,x4)及Y'=(y'1,y'2,y'3,y'4)仅为举例说明,源文本和机器翻译文本的词序列的数量在本申请中不做限定。通过并行的两个循环神经网络通道的编码器分别对源文本的词序列和机器翻译文本的词序列进行处理,得到相应的内容向量序列C=(c1,c2,c3,c4)和C'=(c'1,c'2,c'3,c'4)。再分别通过并行的两个循环神经网络通道的解码器进行解码处理,得到相应的第一隐层向量序列H=(h1,h2,h3,h4)和第二隐层向量序列H'=(h'1,h'2,h'3,h'4)。第一循环神经网络结构分别对第一隐层向量序列H=(h1,h2,h3,h4)中的各第一隐层向量进行求平均值处理,输出表示源文本的向量h。第二循环神经网络结构分别对第二隐层向量序列H'=(h'1,h'2,h'3,h'4)中的各第二隐层向量进行求平均值处理,输出表示机器翻译文本的向量h。再将向量h和向量h输入前馈神经网络结构中进行处理,输出语料评估结果。
在一个实施例中,该语料评估模型训练方法还包括组合维度向量的确定步骤,该步骤具体包括:获取在不同维度下对机器翻译文本进行翻译质量评估所得到的结果;根据不同维度所对应的结果,确定相应的组合维度向量。通过语料评估模型的前馈神经网络结构,对并行的两个循环神经网络结构各自输出的向量拼接后继续进行处理,得到语料评估结果的步骤,包括:通过语料评估模型的前馈神经网络结构,对并行的两个循环神经网络结构各自输出的向量、以及组合维度向量进行拼接后继续处理,得到语料评估结果。
其中,不同维度具体指的是不同的评价指标维度,比如文本长度维度、文本距离维度、词对齐维度等。在不同维度下对机器翻译文本进行翻译质量评估具体可以是通过双向交叉熵、语言模型评分、余弦距离、词对齐等方式计算源文本和机器翻译文本的匹配度或差异度等。采用不同方式计算的源文本和机器翻译文本的匹配度或差异度就可认为是在不同维度下对机器翻译文本进行翻译质量评估所得到的结果。
具体地,计算机设备可获取在不同维度下对机器翻译文本进行翻译质量评估所得到的结果,将不同维度下对机器翻译文本进行翻译质量评估所得到的结果转换成同一维度下相应的量化值,比如将不同维度下所得到的结果均转换成表征源文本和机器翻译文本间匹配情况的数值。进而,计算机设备可将不同维度所对应的结果,拼接成组合维度向量。
进一步地,计算机设备可通过语料评估模型的前馈神经网络结构,对并行的两个循环神经网络结构各自输出的向量、以及组合维度向量进行拼接,得到拼接向量。并对拼接向量进行线性变换和非线性变换中的至少一种变换,得到语料评估结果。
在一个实施例中,并行的两个循环神经网络结构各自输出的向量、以及组合维度向量的拼接顺序不做限定,只需在模型的每次训练过程中保障拼接顺序是一样的即可。
上述实施例中,通过将组合特征向量和循环神经网络结果所输出的句对的向量做拼接,也就是将人工设计的特征拼接到句对的向量表示中,即可通过该语料模型学习到能使得损失极小的多种特征组合方式,无需先验地设置不同维度特征所对应的权重,也无需用网格搜索寻找合适的权重,大大提高了模型的训练效率和效果。
在一个实施例中,该语料评估模型训练方法还包括筛选目标平行语料的步骤,该步骤具体包括以下步骤:
S602,获取待处理的候选平行语料;候选平行语料包括候选源文本和相应的候选翻译文本。
具体地,计算机设备可从互联网上爬取相对应的不同语种的文本作为候选平行语料。可以理解,候选平行语料中候选翻译文本可能包括各种各样的噪声,候选翻译文本的翻译质量参差不齐。
在一个实施例中,计算机设备可预先获取单语语料,比如候选源文本,再通过预训练的机器翻译模型对候选源文本进行翻译得到候选翻译文本。或者,在另一种场景中,计算机设备可预先获取单语语料,比如候选翻译文本,再通过预训练的机器翻译模型对候选翻译文本进行反向翻译得到候选源文本。由于通过机器翻译模型翻译所得到的文本中可能存在各种各样的噪声,因而,此时所构建的候选平行语料也可称作伪平行语料。
在一个实施例中,候选源文本为对应第一语种的文本;候选翻译文本为对应第二语种的文本。获取待处理的候选平行语料的步骤具体包括:获取第一平行语料和第二平行语料;第一平行语料包括对应第一语种的候选源文本和相应的对应第三语种的候选中间文本;第二平行语料包括对应第三语种的候选中间文本和相应的对应第二语种的候选翻译文本;根据第一平行语料和第二平行语料,构建候选平行语料;候选平行语料包括对应第一语种的候选源文本和相应的对应第二语种的候选翻译文本。
可以理解,在实际的机器翻译领域中,可以用来训练机器翻译模型的低噪声的平行语料是数量常常会较少,有时甚至没有。在一个实施例中,计算机设备可从网络中获取第一平行语料和第二平行语料。其中,第一平行语料包括对应第一语种的候选源文本和相应的对应第三语种的候选中间文本。第二平行语料包括对应第三语种的候选中间文本和相应的对应第二语种的候选翻译文本。而此时的翻译方向则是将对应第一语种的源文本翻译至对应第二语种的翻译文本的方向。计算机设备可根据第一平行语料和第二平行语料中共同包括的对应第三语种的候选中间文本,反向翻译来构建候选平行语料。其中,候选平行语料包括对应第一语种的候选源文本和相应的对应第二语种的候选翻译文本。
举例说明,当需要训练A语种的语言和C语种的语言间的机器翻译模型时,但计算机设备仅能获取A语种和B语种对应的第一平行语料,以及B语种和C语种对应的第二平行语料。比如,计算机设备获取第一平行语料【A1,B1】和第二平行语料【B2,C2】,此时可通过【A1,B1】语料训练得到将B语种的语言翻译到A语种的语言的翻译模型。计算机设备通过训练的翻译模型将语料B2反向翻译到语料A2,这样就可方便快捷地构建伪平行语料【A2,C2】,也就是构建的候选平行语料。
为降低构建的候选平行语料中反向翻译带来的噪声,可以用训练好的语料评估模型对候选平行语料进行语料评估,从而筛选出低噪声的A语种和C语种对应的平行语料。筛选出的平行语料可以用来训练机器翻译模型,从而得到具有良好翻译能力的机器翻译模型。
S604,通过已训练的语料评估模型,对候选源文本和相应的候选翻译文本进行语料评估处理,得到与候选翻译文本对应的语料评估得分。
其中,语料评估得分是将候选源文本和相应的候选翻译文本输入至训练好的语料评估模型进行处理后所输出的语料评估结果。语料评估得分可以用来衡量候选源文本和候选翻译文本间的匹配度或差异度。当候选源文本和候选翻译文本间的匹配度越高或差异度越小,则相应的语料评估得分越高;当候选源文本和候选翻译文本间的匹配度越低或差异度越大,则相应的语料评估得分越低。
具体地,计算机设备可将候选源文本和候选翻译文本各自对应的词序列,分别输入至训练好的语料评估模型。通过已训练的语料评估模型,对候选源文本和相应的候选翻译文本进行语料评估处理,得到与候选翻译文本对应的语料评估得分。
S606,从候选平行语料中,筛选出相应语料评估得分满足预设筛选条件的目标平行语料。
其中,预设筛选条件具体可以是语料评估得分大于或等于预设阈值,或者将语料评估得分按从高至低进行排名,排名名次在前N名等。具体地,计算机设备可从候选平行语料中,筛选出相应语料评估得分满足预设筛选条件的目标平行语料。在一个实施例中,计算机设备可通过筛选的目标平行语料训练机器翻译模型,从而得到具有良好翻译能力的机器翻译模型。由于已训练的语料评估模型由于学习到源文本和翻译文本的深层的语义信息,因而可以从语义层面做数据筛选。
可以理解,在实际应用场景中,常常会遇到仅有少量的低噪声的平行语料和大量的高噪声的平行语料的情况,而直接使用高噪声的平行语料训练机器翻译模型会降低机器翻译模型的性能。在这种情况下,计算机设备可采用本申请各种实施例中的语料评估模型训练方法,通过少量的低噪声的平行语料训练语料评估模型。再通过训练好的语料评估模型对大量的高噪声的平行语料进行语料筛选,从中筛选出语料评估得分满足筛选条件的目标平行语料。从而,计算机设备可根据低噪声的平行语料和筛选出的目标平行语料共同训练机器翻译模型,从而得到具有良好翻译能力的机器翻译模型。
可以理解,在实际应用场景中,还可能存在以下场景:计算机设备仅能获取少量的低噪声的平行语料和大量的单语语料。在这种情况下,计算机设备可对单语语料进行反向翻译来扩充数据,但反向翻译的语料会存在一定噪声。在这种情况下,计算机设备可采用本申请各种实施例中的语料评估模型训练方法,通过少量的低噪声的平行语料训练语料评估模型。再通过训练好的语料评估模型对反向翻译的平行语料进行语料筛选,从中筛选出语料评估得分满足筛选条件的目标平行语料。从而,计算机设备可根据低噪声的平行语料和筛选出的目标平行语料共同训练机器翻译模型,从而得到具有良好翻译能力的机器翻译模型。
上述实施例中,通过已训练的语料评估模型,对候选源文本和相应的候选翻译文本进行语料评估处理,得到与候选翻译文本对应的语料评估得分,根据语料评估得分可以从候选平行语料中,方便快捷地筛选出目标平行语料。这样,就可通过训练好的语料评估模型,从高噪声的平行语料中筛选出低噪声的平行语料作为目标平行语料。
可以理解,在使用机器翻译模型进行翻译时输出多个备用翻译文本的场景下,若需要对这多个备用翻译文本进行排序,或者从这多个备用翻译文本中选出较优的译文时,可以采用本申请各实施例中得到的语料评估模型对分别由这多个备用翻译文本所组成的平行语料进行语料评估,得到各备用翻译文本各自对应的语料评估得分,从而利用得到的这些语料评估得分对这些备用翻译文本进行重排序。
需要说明的是,在该场景下所使用的机器翻译模型不限定于本申请实施例中所提及的机器翻译模型,也可以是基于其他训练方式得到的、或者其他模型结构的具有翻译功能的模型。
在一个实施例中,该语料评估模型训练方法还包括对各备用译文文本进行重排序的步骤,该步骤具体包括以下步骤:
S702,获取待翻译文本。
具体地,计算机设备可从本地或其他计算机设备处获取待翻译文本。
S704,将待翻译文本输入至机器翻译模型,得到多个备用译文文本。
具体地,计算机设备对在翻译场景下获取的待翻译文本进行分词,得到词序列,并将待翻译文本的词序列输入至机器翻译模型。当机器翻译模型输出多个备用译文文本、且需要对这些备用译文文本进行排序或者挑选时,即可获取本申请上述实施例中训练完成的语料评估模型。
S706,将待翻译文本和各备用译文文本分别组成多于一组的备用平行语料。
具体地,计算机设备可将待翻译文本和各备用译文文本分别组成多于一组的备用平行语料。举例说明,待翻译文本为X,通过机器翻译模型对X进行机器翻译得到的多个备用译文文本为Y1、Y2、Y3和Y4。那么,计算机设备可将待翻译文本和各备用译文文本分别组成多组的备用平行语料,如备用平行语料1【X,Y1】、备用平行语料2【X,Y2】、备用平行语料3【X,Y3】和备用平行语料4【X,Y4】。
S708,通过已训练的语料评估模型,分别对各备用平行语料进行语料评估处理,得到与各备用译文文本分别相对应的语料评估得分。
具体地,计算机设备可将多个备用平行语料分别输入已训练的语料评估模型,得到与各备用译文文本分别相对应的语料评估得分,这样即可按照各语料评估得分对相应的备用译文文本进行重排序。
S710,按照各语料评估得分,对备用译文文本进行重排序。
其中,重排序是对原备用译文文本的排序结果进行重新排序。可以理解,对于机器翻译模型,在对待翻译文本进行翻译处理,每输出一个目标词时,均可以存在多种选择,最终即可得到多组备用词序列,也就是多个备用译文文本,且每组备用译文文本各自对应一个翻译概率。机器翻译模型在输出目标译文文本前,可按照各备用译文文本各自对应的翻译概率进行排序,将最大翻译概率所对应的备用译文文本作为目标译文文本输出。因而,在根据语料评估模型对备用译文文本进行排序前,机器翻译模型已对备用译文文本做了初步的排序,而语料评估得分会影响重排序的结果。
在一个实施例中,计算机设备可直接按照各备用译文文本所对应的语料评估得分的大小,重新对备用译文文本进行排序。或者,计算机设备还可综合考量各备用译文文本所对应的翻译概率和语料评估得分,重新对备用译文文本进行排序。其中,综合考量各备用译文文本所对应的翻译概率和语料评估得分,比如,将翻译概率和语料评估得分转换成可计量的百分制得分,再进行加权求和,按照加权求和的结果进行重排序等。当然,计算机设备也可采用其他的综合考量方式,在此不做限定。
其中,重排序具体可以是顺序排序,即语料评估得分高的备用译文文本排序靠前,语料评估得分低的备用译文文本排序靠后;重排序也可以是逆序排序,即语料评估得分高的备用译文文本排序靠后,语料评估得分搞的备用译文文本排序靠前。
在一个实施例中,在需要从这些备用译文文本中挑选较优的备用译文文本时,可以从顺序排序的备用译文文本中选取排在首位或者排序靠前的多个备用译文文本,或者从逆序排序的备用译文文本选取排在末位或者排序靠后的多个备用译文文本。将筛选的备用译文文本作为与待翻译文本对应的目标译文文本。
上述实施例中,在语料评估模型训练完成后,可以通过训练好的语料评估模型对待翻译文本翻译出的多个备用译文文本进行重排序或挑选,从而应用到机器翻译模型中,扩宽了应用范围。
在一个具体的实施例中,该语料评估模型训练方法具体包括以下步骤:
S802,获取平行语料;平行语料包括源文本和相应的参考翻译文本。
S804,通过机器翻译模型对源文本进行翻译得到相应的机器翻译文本。
S806,将源文本和机器翻译文本共同作为语料评估模型的训练样本。
S808,按照预设的文本匹配方式,计算机器翻译文本与参考翻译文本的匹配度。
S810,将匹配度作为与训练样本相应的训练标签。
S812,通过语料评估模型中第一循环神经网络结构的编码器,对源文本的词序列进行语义编码,得到第一语义向量序列,并继续通过第一循环神经网络结构的解码器,依次对第一语义向量序列进行解码,得到第一隐层向量序列。
S814,通过第一循环神经网络结构,对第一隐层向量序列中的各向量进行加权求和计算,输出经加权求和计算所得到的向量。
S816,通过语料评估模型中第二循环神经网络结构的编码器,对机器翻译文本的词序列进行语义编码,得到第二语义向量序列,并继续通过第二循环神经网络结构的解码器,依次对第二语义向量序列进行解码,得到第二隐层向量序列。
S818,通过第二循环神经网络结构,对第二隐层向量序列中的各向量进行加权求和计算,输出经加权求和计算所得到的向量;其中,第一循环神经网络结构与第二循环神经网络结构并行。
S820,获取在不同维度下对机器翻译文本进行翻译质量评估所得到的结果。
S822,根据不同维度所对应的结果,确定相应的组合维度向量。
S824,通过语料评估模型的前馈神经网络结构,对并行的两个循环神经网络结构各自输出的向量、以及组合维度向量进行拼接后继续处理,得到语料评估结果。
S826,根据语料评估结果和训练标签的差异,调整语料评估模型的模型参数并继续训练,直到满足训练停止条件时结束训练。
上述语料评估模型训练方法,获取包括有源文本和相应的参考翻译文本的平行语料,通过机器翻译模型对该源文本进行翻译得到相应的机器翻译文本。将源文本和相应的机器翻译文本共同作为语料评估模型的训练样本。对比机器翻译文本和相应的参考翻译文本,得到与该训练样本相应的训练标签。由于机器翻译文本中存在各种各样的噪声,因而可以不再依赖于人工添加噪声来构造反例。通过机器翻译文本和参考翻译文本的比对结果确定训练标签,不再依赖人工标注语料即可构造出大量的训练数据,大大提高了训练数据的准备效率,进而大大提高了模型的训练效率。并且,由于通过机器翻译模型所输出的机器翻译文本中会包括各种各样的噪声,相比人工噪声覆盖面更广,更接近真实场景,可以很好地避免由于训练数据的局限所导致的模型过拟合的问题,可以高效地训练出高性能的语料评估模型。
图8为一个实施例中语料评估模型训练方法的流程示意图。应该理解的是,虽然图8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图8中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图9所示,在一个实施例中,提供了语料评估模型训练装置900,包括获取模块901、翻译模块902、确定模块903、对比模块904和训练模块905。
获取模块901,用于获取平行语料;平行语料包括源文本和相应的参考翻译文本。
翻译模块902,用于通过机器翻译模型对源文本进行翻译得到相应的机器翻译文本。
确定模块903,用于将源文本和机器翻译文本共同作为语料评估模型的训练样本。
对比模块904,用于对比机器翻译文本和参考翻译文本,得到与训练样本相应的训练标签。
训练模块905,用于通过训练样本和相应的训练标签训练语料评估模型。
在一个实施例中,对比模块904还用于按照预设的文本匹配方式,计算机器翻译文本与参考翻译文本的匹配度;将匹配度作为与训练样本相应的训练标签。
在一个实施例中,训练模块905还用于通过语料评估模型中并行的两个循环神经网络结构,分别对源文本的词序列和机器翻译文本的词序列进行处理;通过语料评估模型的前馈神经网络结构,对并行的两个循环神经网络结构各自输出的向量拼接后继续进行处理,得到语料评估结果;根据语料评估结果和训练标签的差异,调整语料评估模型的模型参数并继续训练,直到满足训练停止条件时结束训练。
在一个实施例中,训练模型905还用于通过语料评估模型中第一循环神经网络结构的编码器,对源文本的词序列进行语义编码,得到第一语义向量序列,并继续通过第一循环神经网络结构的解码器,依次对第一语义向量序列进行解码,得到第一隐层向量序列;通过第一循环神经网络结构,对第一隐层向量序列中的各向量进行加权求和计算,输出经加权求和计算所得到的向量;通过语料评估模型中第二循环神经网络结构的编码器,对机器翻译文本的词序列进行语义编码,得到第二语义向量序列,并继续通过第二循环神经网络结构的解码器,依次对第二语义向量序列进行解码,得到第二隐层向量序列;通过第二循环神经网络结构,对第二隐层向量序列中的各向量进行加权求和计算,输出经加权求和计算所得到的向量;其中,第一循环神经网络结构与第二循环神经网络结构并行。
在一个实施例中,训练模型905还用于通过第一循环神经网络结构的解码器,获取当次的与第一语义向量序列对应的注意力分配权重向量;根据注意力分配权重向量、以及第一语义向量序列,计算得到当次的内容向量;根据第一循环神经网络结构的解码器前次输出的第一隐层向量,以及当次的内容向量,计算得到当次的第一隐层向量;组合第一循环神经网络结构的解码器依次输出的各第一隐层向量,得到与源文本对应的第一隐层向量序列。
在一个实施例中,训练模块905还用于获取在不同维度下对机器翻译文本进行翻译质量评估所得到的结果;根据不同维度所对应的结果,确定相应的组合维度向量;通过语料评估模型的前馈神经网络结构,对并行的两个循环神经网络结构各自输出的向量、以及组合维度向量进行拼接后继续处理,得到语料评估结果。
参考图10,在一个实施例中,该语料评估模型训练装置900还包括:使用模块906,用于获取模块901,还用于获取待处理的候选平行语料;候选平行语料包括候选源文本和相应的候选翻译文本;通过已训练的语料评估模型,对候选源文本和相应的候选翻译文本进行语料评估处理,得到语料评估得分;从候选平行语料中,筛选出相应语料评估得分满足预设筛选条件的目标平行语料。
在一个实施例中,候选源文本为对应第一语种的文本;候选翻译文本为对应第二语种的文本;获取模块901还用于获取第一平行语料和第二平行语料;第一平行语料包括对应第一语种的候选源文本和相应的对应第三语种的候选中间文本;第二平行语料包括对应第三语种的候选中间文本和相应的对应第二语种的候选翻译文本;根据第一平行语料和第二平行语料,构建候选平行语料;候选平行语料包括对应第一语种的候选源文本和相应的对应第二语种的候选翻译文本。
在一个实施例中,使用模块906还用于获取待翻译文本;将待翻译文本输入至机器翻译模型,得到多个备用译文文本;将待翻译文本和各备用译文文本分别组成多于一组的备用平行语料;通过已训练的语料评估模型,分别对各备用平行语料进行语料评估处理,得到与各备用译文文本分别相对应的语料评估得分;按照各语料评估得分,对备用译文文本进行重排序。
上述语料评估模型训练装置,获取包括有源文本和相应的参考翻译文本的平行语料,通过机器翻译模型对该源文本进行翻译得到相应的机器翻译文本。将源文本和相应的机器翻译文本共同作为语料评估模型的训练样本。对比机器翻译文本和相应的参考翻译文本,得到与该训练样本相应的训练标签。由于机器翻译文本中存在各种各样的噪声,因而可以不再依赖于人工添加噪声来构造反例。通过机器翻译文本和参考翻译文本的比对结果确定训练标签,不再依赖人工标注语料即可构造出大量的训练数据,大大提高了训练数据的准备效率,进而大大提高了模型的训练效率。并且,由于通过机器翻译模型所输出的机器翻译文本中会包括各种各样的噪声,相比人工噪声覆盖面更广,更接近真实场景,可以很好地避免由于训练数据的局限所导致的模型过拟合的问题,可以高效地训练出高性能的语料评估模型。
图11示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110或服务器120。如图11所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现语料评估模型训练方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行语料评估模型训练方法。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的语料评估模型训练装置可以实现为一种计算机程序的形式,计算机程序可在如图11所示的计算机设备上运行。计算机设备的存储器中可存储组成该语料评估模型训练装置的各个程序模块,比如,图9所示的获取模块、翻译模块、确定模块、对比模块和训练模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的语料评估模型训练方法中的步骤。
例如,图11所示的计算机设备可以通过如图9所示的语料评估模型训练装置中的获取模块执行步骤S202。计算机设备可通过翻译模块执行步骤S204。计算机设备可通过确定模块执行步骤S206。计算机设备可通过对比模块执行步骤S208。计算机设备可通过训练模块执行步骤S210。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述语料评估模型训练方法的步骤。此处语料评估模型训练方法的步骤可以是上述各个实施例的语料评估模型训练方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述语料评估模型训练方法的步骤。此处语料评估模型训练方法的步骤可以是上述各个实施例的语料评估模型训练方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (12)

1.一种语料评估模型训练方法,包括:
获取平行语料;所述平行语料包括源文本和相应的参考翻译文本;
通过机器翻译模型对所述源文本进行翻译得到相应的机器翻译文本;
将所述源文本和所述机器翻译文本共同作为语料评估模型的训练样本;
对比所述机器翻译文本和所述参考翻译文本,得到与所述训练样本相应的训练标签;
通过所述训练样本和相应的训练标签训练所述语料评估模型。
2.根据权利要求1所述的方法,其特征在于,所述对比所述机器翻译文本和所述参考翻译文本,得到与所述训练样本相应的训练标签,包括:
按照预设的文本匹配方式,计算所述机器翻译文本与所述参考翻译文本的匹配度;
将所述匹配度作为与所述训练样本相应的训练标签。
3.根据权利要求1所述的方法,其特征在于,所述通过所述训练样本和相应的训练标签训练所述语料评估模型,包括:
通过所述语料评估模型中并行的两个循环神经网络结构,分别对所述源文本的词序列和所述机器翻译文本的词序列进行处理;
通过所述语料评估模型的前馈神经网络结构,对所述并行的两个循环神经网络结构各自输出的向量拼接后继续进行处理,得到语料评估结果;
根据所述语料评估结果和所述训练标签的差异,调整所述语料评估模型的模型参数并继续训练,直到满足训练停止条件时结束训练。
4.根据权利要求3所述的方法,其特征在于,所述通过所述语料评估模型中并行的两个循环神经网络结构,分别对所述源文本的词序列和所述机器翻译文本的词序列进行处理,包括:
通过所述语料评估模型中第一循环神经网络结构的编码器,对所述源文本的词序列进行语义编码,得到第一语义向量序列,并继续通过所述第一循环神经网络结构的解码器,依次对所述第一语义向量序列进行解码,得到第一隐层向量序列;
通过所述第一循环神经网络结构,对所述第一隐层向量序列中的各向量进行加权求和计算,输出经加权求和计算所得到的向量;
通过所述语料评估模型中第二循环神经网络结构的编码器,对所述机器翻译文本的词序列进行语义编码,得到第二语义向量序列,并继续通过所述第二循环神经网络结构的解码器,依次对所述第二语义向量序列进行解码,得到第二隐层向量序列;
通过所述第二循环神经网络结构,对所述第二隐层向量序列中的各向量进行加权求和计算,输出经加权求和计算所得到的向量;
其中,所述第一循环神经网络结构与所述第二循环神经网络结构并行。
5.根据权利要求4所述的方法,其特征在于,所述通过所述第一循环神经网络结构的解码器,依次对所述第一语义向量序列进行解码,得到第一隐层向量序列,包括:
通过所述第一循环神经网络结构的解码器,获取当次的与所述第一语义向量序列对应的注意力分配权重向量;
根据所述注意力分配权重向量、以及所述第一语义向量序列,计算得到当次的内容向量;
根据所述第一循环神经网络结构的解码器前次输出的第一隐层向量,以及当次的内容向量,计算得到当次的第一隐层向量;
组合所述第一循环神经网络结构的解码器依次输出的各第一隐层向量,得到与所述源文本对应的第一隐层向量序列。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取在不同维度下对所述机器翻译文本进行翻译质量评估所得到的结果;
根据不同维度所对应的所述结果,确定相应的组合维度向量;
所述通过所述语料评估模型的前馈神经网络结构,对所述并行的两个循环神经网络结构各自输出的向量拼接后继续进行处理,得到语料评估结果,包括:
通过所述语料评估模型的前馈神经网络结构,对所述并行的两个循环神经网络结构各自输出的向量、以及所述组合维度向量进行拼接后继续处理,得到语料评估结果。
7.根据权利要1-6中任一项所述的方法,其特征在于,所述方法还包括:
获取待处理的候选平行语料;所述候选平行语料包括候选源文本和相应的候选翻译文本;
通过已训练的语料评估模型,对所述候选源文本和相应的候选翻译文本进行语料评估处理,得到语料评估得分;
从所述候选平行语料中,筛选出相应语料评估得分满足预设筛选条件的目标平行语料。
8.根据权利要求7所述的方法,其特征在于,所述候选源文本为对应第一语种的文本;所述候选翻译文本为对应第二语种的文本;所述获取待处理的候选平行语料包括:
获取第一平行语料和第二平行语料;所述第一平行语料包括对应第一语种的候选源文本和相应的对应第三语种的候选中间文本;所述第二平行语料包括对应第三语种的候选中间文本和相应的对应第二语种的候选翻译文本;
根据所述第一平行语料和第二平行语料,构建候选平行语料;所述候选平行语料包括对应第一语种的候选源文本和相应的对应第二语种的候选翻译文本。
9.根据权利要求1-6中任一项所述的方法,其特征在于,所述方法还包括:
获取待翻译文本;
将所述待翻译文本输入至机器翻译模型,得到多个备用译文文本;
将所述待翻译文本和各备用译文文本分别组成多于一组的备用平行语料;
通过已训练的语料评估模型,分别对各备用平行语料进行语料评估处理,得到与各所述备用译文文本分别相对应的语料评估得分;
按照各所述语料评估得分,对所述备用译文文本进行重排序。
10.一种语料评估模型训练装置,其特征在于,所述装置包括:
获取模块,用于获取平行语料;所述平行语料包括源文本和相应的参考翻译文本;
翻译模块,用于通过机器翻译模型对所述源文本进行翻译得到相应的机器翻译文本;
确定模块,用于将所述源文本和所述机器翻译文本共同作为语料评估模型的训练样本;
对比模块,用于对比所述机器翻译文本和所述参考翻译文本,得到与所述训练样本相应的训练标签;
训练模块,用于通过所述训练样本和相应的训练标签训练所述语料评估模型。
11.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。
12.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。
CN201910176030.0A 2019-03-08 2019-03-08 语料评估模型训练方法、装置、存储介质和计算机设备 Active CN110263349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910176030.0A CN110263349B (zh) 2019-03-08 2019-03-08 语料评估模型训练方法、装置、存储介质和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910176030.0A CN110263349B (zh) 2019-03-08 2019-03-08 语料评估模型训练方法、装置、存储介质和计算机设备

Publications (2)

Publication Number Publication Date
CN110263349A true CN110263349A (zh) 2019-09-20
CN110263349B CN110263349B (zh) 2024-09-13

Family

ID=67911765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910176030.0A Active CN110263349B (zh) 2019-03-08 2019-03-08 语料评估模型训练方法、装置、存储介质和计算机设备

Country Status (1)

Country Link
CN (1) CN110263349B (zh)

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674871A (zh) * 2019-09-24 2020-01-10 北京中科凡语科技有限公司 面向翻译译文的自动评分方法及自动评分系统
CN110866119A (zh) * 2019-11-14 2020-03-06 腾讯科技(深圳)有限公司 一种文章质量的确定方法、装置、电子设备及存储介质
CN110956018A (zh) * 2019-11-22 2020-04-03 腾讯科技(深圳)有限公司 文本处理模型的训练方法、文本处理方法、装置及存储介质
CN111027681A (zh) * 2019-12-09 2020-04-17 腾讯科技(深圳)有限公司 时序数据处理模型训练方法、数据处理方法、装置及存储介质
CN111046679A (zh) * 2020-03-13 2020-04-21 腾讯科技(深圳)有限公司 翻译模型的质量信息获取方法、装置及计算机设备
CN111144137A (zh) * 2019-12-17 2020-05-12 语联网(武汉)信息技术有限公司 机器翻译后编辑模型语料的生成方法及装置
CN111159356A (zh) * 2019-12-31 2020-05-15 重庆和贯科技有限公司 基于教学内容的知识图谱构建方法
CN111178088A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种面向xml文档的可配置神经机器翻译方法
CN111178094A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种基于预训练的稀缺资源神经机器翻译训练方法
CN111178097A (zh) * 2019-12-24 2020-05-19 语联网(武汉)信息技术有限公司 基于多级翻译模型生成中泰双语语料的方法及装置
CN111221969A (zh) * 2019-12-31 2020-06-02 国网北京市电力公司 文本差异识别方法和装置
CN111259652A (zh) * 2020-02-10 2020-06-09 腾讯科技(深圳)有限公司 双语语料句对齐方法、装置、可读存储介质和计算机设备
CN111325038A (zh) * 2020-02-03 2020-06-23 苏州交驰人工智能研究院有限公司 翻译训练数据生成方法、装置、计算机设备及存储介质
CN111339789A (zh) * 2020-02-20 2020-06-26 北京字节跳动网络技术有限公司 一种翻译模型训练方法、装置、电子设备及存储介质
CN111368566A (zh) * 2020-03-19 2020-07-03 中国工商银行股份有限公司 文本处理方法、装置、电子设备及可读存储介质
CN111507114A (zh) * 2020-04-10 2020-08-07 苏州思必驰信息科技有限公司 基于反向翻译的口语文本增强方法及系统
CN111554275A (zh) * 2020-05-15 2020-08-18 深圳前海微众银行股份有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN111797639A (zh) * 2020-06-28 2020-10-20 语联网(武汉)信息技术有限公司 一种机器翻译质量评估方法和系统
CN111859997A (zh) * 2020-06-16 2020-10-30 北京百度网讯科技有限公司 机器翻译中的模型训练方法、装置、电子设备及存储介质
CN111898389A (zh) * 2020-08-17 2020-11-06 腾讯科技(深圳)有限公司 信息确定方法、装置、计算机设备及存储介质
CN111914552A (zh) * 2020-07-31 2020-11-10 平安科技(深圳)有限公司 一种数据增强模型的训练方法及装置
CN112257472A (zh) * 2020-11-13 2021-01-22 腾讯科技(深圳)有限公司 一种文本翻译模型的训练方法、文本翻译的方法及装置
CN112287656A (zh) * 2020-10-12 2021-01-29 四川语言桥信息技术有限公司 文本比对方法、装置、设备和存储介质
CN112668345A (zh) * 2020-12-24 2021-04-16 科大讯飞股份有限公司 语法缺陷数据识别模型构建方法和语法缺陷数据识别方法
CN112800745A (zh) * 2021-02-01 2021-05-14 北京明略昭辉科技有限公司 用于文本生成质量评估的方法、装置和设备
CN112966530A (zh) * 2021-04-08 2021-06-15 中译语通科技股份有限公司 一种机器翻译领域自适应方法、系统、介质、计算机设备
CN113160795A (zh) * 2021-04-28 2021-07-23 平安科技(深圳)有限公司 语种特征提取模型训练方法、装置、设备及存储介质
CN113408291A (zh) * 2021-07-09 2021-09-17 平安国际智慧城市科技股份有限公司 中文实体识别模型的训练方法、装置、设备及存储介质
CN113535969A (zh) * 2020-04-20 2021-10-22 南京大学 语料扩充方法、装置、计算机设备及存储介质
CN113705251A (zh) * 2021-04-01 2021-11-26 腾讯科技(深圳)有限公司 机器翻译模型的训练方法、语言翻译方法及设备
CN113761944A (zh) * 2021-05-20 2021-12-07 腾讯科技(深圳)有限公司 翻译模型的训练语料处理方法、装置、设备和存储介质
CN114462429A (zh) * 2022-01-24 2022-05-10 语联网(武汉)信息技术有限公司 机翻译文质量评估方法、译文后编辑方法及装置
CN114580437A (zh) * 2022-03-02 2022-06-03 阿里巴巴(中国)有限公司 翻译评估模型的训练方法、翻译评估方法、设备及介质
US20220207245A1 (en) * 2020-12-29 2022-06-30 XL8 Inc Machine translation apparatus and method
CN114896993A (zh) * 2022-05-06 2022-08-12 北京百度网讯科技有限公司 翻译模型的生成方法、装置、电子设备及存储介质
CN115153563A (zh) * 2022-05-16 2022-10-11 天津大学 基于eeg的普通话听觉注意解码方法及装置
CN116579352A (zh) * 2023-04-25 2023-08-11 无锡捷通数智科技有限公司 翻译模型训练方法、装置、移动终端及存储介质
CN117972434A (zh) * 2024-03-28 2024-05-03 腾讯科技(深圳)有限公司 文本处理模型的训练方法、装置、设备、介质和程序产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678285A (zh) * 2012-08-31 2014-03-26 富士通株式会社 机器翻译方法和机器翻译系统
CN104750687A (zh) * 2013-12-25 2015-07-01 株式会社东芝 改进双语语料库的方法及装置、机器翻译方法及装置
US20150286632A1 (en) * 2014-04-03 2015-10-08 Xerox Corporation Predicting the quality of automatic translation of an entire document
CN107632981A (zh) * 2017-09-06 2018-01-26 沈阳雅译网络技术有限公司 一种引入源语组块信息编码的神经机器翻译方法
CN108829684A (zh) * 2018-05-07 2018-11-16 内蒙古工业大学 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN109271643A (zh) * 2018-08-08 2019-01-25 北京捷通华声科技股份有限公司 一种翻译模型的训练方法、翻译方法和装置
CN109359309A (zh) * 2018-12-11 2019-02-19 成都金山互动娱乐科技有限公司 一种翻译方法及装置、翻译模型的训练方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678285A (zh) * 2012-08-31 2014-03-26 富士通株式会社 机器翻译方法和机器翻译系统
CN104750687A (zh) * 2013-12-25 2015-07-01 株式会社东芝 改进双语语料库的方法及装置、机器翻译方法及装置
US20150286632A1 (en) * 2014-04-03 2015-10-08 Xerox Corporation Predicting the quality of automatic translation of an entire document
CN107632981A (zh) * 2017-09-06 2018-01-26 沈阳雅译网络技术有限公司 一种引入源语组块信息编码的神经机器翻译方法
CN108829684A (zh) * 2018-05-07 2018-11-16 内蒙古工业大学 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN109271643A (zh) * 2018-08-08 2019-01-25 北京捷通华声科技股份有限公司 一种翻译模型的训练方法、翻译方法和装置
CN109359309A (zh) * 2018-12-11 2019-02-19 成都金山互动娱乐科技有限公司 一种翻译方法及装置、翻译模型的训练方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁亮;姚长青;何彦青;李辉;: "深度学习在统计机器翻译领域自适应中的应用研究", 情报工程, no. 03, 15 June 2017 (2017-06-15) *
樊文婷;侯宏旭;王洪彬;武静;李金廷;: "融合先验信息的蒙汉神经网络机器翻译模型", 中文信息学报, no. 06, 15 June 2018 (2018-06-15) *

Cited By (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674871B (zh) * 2019-09-24 2023-04-07 北京中科凡语科技有限公司 面向翻译译文的自动评分方法及自动评分系统
CN110674871A (zh) * 2019-09-24 2020-01-10 北京中科凡语科技有限公司 面向翻译译文的自动评分方法及自动评分系统
CN110866119A (zh) * 2019-11-14 2020-03-06 腾讯科技(深圳)有限公司 一种文章质量的确定方法、装置、电子设备及存储介质
CN110956018A (zh) * 2019-11-22 2020-04-03 腾讯科技(深圳)有限公司 文本处理模型的训练方法、文本处理方法、装置及存储介质
CN110956018B (zh) * 2019-11-22 2023-04-18 腾讯科技(深圳)有限公司 文本处理模型的训练方法、文本处理方法、装置及存储介质
CN111027681A (zh) * 2019-12-09 2020-04-17 腾讯科技(深圳)有限公司 时序数据处理模型训练方法、数据处理方法、装置及存储介质
CN111027681B (zh) * 2019-12-09 2023-06-27 腾讯科技(深圳)有限公司 时序数据处理模型训练方法、数据处理方法、装置及存储介质
CN111144137B (zh) * 2019-12-17 2023-09-05 语联网(武汉)信息技术有限公司 机器翻译后编辑模型语料的生成方法及装置
CN111144137A (zh) * 2019-12-17 2020-05-12 语联网(武汉)信息技术有限公司 机器翻译后编辑模型语料的生成方法及装置
CN111178094B (zh) * 2019-12-20 2023-04-07 沈阳雅译网络技术有限公司 一种基于预训练的稀缺资源神经机器翻译训练方法
CN111178094A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种基于预训练的稀缺资源神经机器翻译训练方法
CN111178088A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种面向xml文档的可配置神经机器翻译方法
CN111178088B (zh) * 2019-12-20 2023-06-02 沈阳雅译网络技术有限公司 一种面向xml文档的可配置神经机器翻译方法
CN111178097B (zh) * 2019-12-24 2023-07-04 语联网(武汉)信息技术有限公司 基于多级翻译模型生成中泰双语语料的方法及装置
CN111178097A (zh) * 2019-12-24 2020-05-19 语联网(武汉)信息技术有限公司 基于多级翻译模型生成中泰双语语料的方法及装置
CN111221969A (zh) * 2019-12-31 2020-06-02 国网北京市电力公司 文本差异识别方法和装置
CN111159356B (zh) * 2019-12-31 2023-06-09 重庆和贯科技有限公司 基于教学内容的知识图谱构建方法
CN111159356A (zh) * 2019-12-31 2020-05-15 重庆和贯科技有限公司 基于教学内容的知识图谱构建方法
CN111325038A (zh) * 2020-02-03 2020-06-23 苏州交驰人工智能研究院有限公司 翻译训练数据生成方法、装置、计算机设备及存储介质
CN111325038B (zh) * 2020-02-03 2023-08-18 苏州交驰人工智能研究院有限公司 翻译训练数据生成方法、装置、计算机设备及存储介质
CN111259652A (zh) * 2020-02-10 2020-06-09 腾讯科技(深圳)有限公司 双语语料句对齐方法、装置、可读存储介质和计算机设备
CN111259652B (zh) * 2020-02-10 2023-08-15 腾讯科技(深圳)有限公司 双语语料句对齐方法、装置、可读存储介质和计算机设备
CN111339789B (zh) * 2020-02-20 2023-08-01 北京字节跳动网络技术有限公司 一种翻译模型训练方法、装置、电子设备及存储介质
CN111339789A (zh) * 2020-02-20 2020-06-26 北京字节跳动网络技术有限公司 一种翻译模型训练方法、装置、电子设备及存储介质
CN111046679A (zh) * 2020-03-13 2020-04-21 腾讯科技(深圳)有限公司 翻译模型的质量信息获取方法、装置及计算机设备
CN111368566B (zh) * 2020-03-19 2023-06-30 中国工商银行股份有限公司 文本处理方法、装置、电子设备及可读存储介质
CN111368566A (zh) * 2020-03-19 2020-07-03 中国工商银行股份有限公司 文本处理方法、装置、电子设备及可读存储介质
CN111507114A (zh) * 2020-04-10 2020-08-07 苏州思必驰信息科技有限公司 基于反向翻译的口语文本增强方法及系统
CN111507114B (zh) * 2020-04-10 2023-04-18 思必驰科技股份有限公司 基于反向翻译的口语文本增强方法及系统
CN113535969B (zh) * 2020-04-20 2023-11-03 南京大学 语料扩充方法、装置、计算机设备及存储介质
CN113535969A (zh) * 2020-04-20 2021-10-22 南京大学 语料扩充方法、装置、计算机设备及存储介质
CN111554275A (zh) * 2020-05-15 2020-08-18 深圳前海微众银行股份有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN111554275B (zh) * 2020-05-15 2023-11-03 深圳前海微众银行股份有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN111859997B (zh) * 2020-06-16 2024-01-26 北京百度网讯科技有限公司 机器翻译中的模型训练方法、装置、电子设备及存储介质
CN111859997A (zh) * 2020-06-16 2020-10-30 北京百度网讯科技有限公司 机器翻译中的模型训练方法、装置、电子设备及存储介质
CN111797639B (zh) * 2020-06-28 2024-03-26 语联网(武汉)信息技术有限公司 一种机器翻译质量评估方法和系统
CN111797639A (zh) * 2020-06-28 2020-10-20 语联网(武汉)信息技术有限公司 一种机器翻译质量评估方法和系统
CN111914552A (zh) * 2020-07-31 2020-11-10 平安科技(深圳)有限公司 一种数据增强模型的训练方法及装置
CN111898389A (zh) * 2020-08-17 2020-11-06 腾讯科技(深圳)有限公司 信息确定方法、装置、计算机设备及存储介质
CN111898389B (zh) * 2020-08-17 2023-09-19 腾讯科技(深圳)有限公司 信息确定方法、装置、计算机设备及存储介质
CN112287656A (zh) * 2020-10-12 2021-01-29 四川语言桥信息技术有限公司 文本比对方法、装置、设备和存储介质
CN112287656B (zh) * 2020-10-12 2024-05-28 四川语言桥信息技术有限公司 文本比对方法、装置、设备和存储介质
CN112257472B (zh) * 2020-11-13 2024-04-26 腾讯科技(深圳)有限公司 一种文本翻译模型的训练方法、文本翻译的方法及装置
CN112257472A (zh) * 2020-11-13 2021-01-22 腾讯科技(深圳)有限公司 一种文本翻译模型的训练方法、文本翻译的方法及装置
CN112668345B (zh) * 2020-12-24 2024-06-04 中国科学技术大学 语法缺陷数据识别模型构建方法和语法缺陷数据识别方法
CN112668345A (zh) * 2020-12-24 2021-04-16 科大讯飞股份有限公司 语法缺陷数据识别模型构建方法和语法缺陷数据识别方法
US11790186B2 (en) * 2020-12-29 2023-10-17 XL8 Inc Machine translation apparatus and method
US20220207245A1 (en) * 2020-12-29 2022-06-30 XL8 Inc Machine translation apparatus and method
CN112800745A (zh) * 2021-02-01 2021-05-14 北京明略昭辉科技有限公司 用于文本生成质量评估的方法、装置和设备
CN113705251A (zh) * 2021-04-01 2021-11-26 腾讯科技(深圳)有限公司 机器翻译模型的训练方法、语言翻译方法及设备
CN113705251B (zh) * 2021-04-01 2024-08-06 腾讯科技(深圳)有限公司 机器翻译模型的训练方法、语言翻译方法及设备
CN112966530A (zh) * 2021-04-08 2021-06-15 中译语通科技股份有限公司 一种机器翻译领域自适应方法、系统、介质、计算机设备
CN112966530B (zh) * 2021-04-08 2022-07-22 中译语通科技股份有限公司 一种机器翻译领域自适应方法、系统、介质、计算机设备
CN113160795B (zh) * 2021-04-28 2024-03-05 平安科技(深圳)有限公司 语种特征提取模型训练方法、装置、设备及存储介质
CN113160795A (zh) * 2021-04-28 2021-07-23 平安科技(深圳)有限公司 语种特征提取模型训练方法、装置、设备及存储介质
CN113761944A (zh) * 2021-05-20 2021-12-07 腾讯科技(深圳)有限公司 翻译模型的训练语料处理方法、装置、设备和存储介质
CN113761944B (zh) * 2021-05-20 2024-03-15 腾讯科技(深圳)有限公司 翻译模型的训练语料处理方法、装置、设备和存储介质
CN113408291A (zh) * 2021-07-09 2021-09-17 平安国际智慧城市科技股份有限公司 中文实体识别模型的训练方法、装置、设备及存储介质
CN113408291B (zh) * 2021-07-09 2023-06-30 平安国际智慧城市科技股份有限公司 中文实体识别模型的训练方法、装置、设备及存储介质
CN114462429A (zh) * 2022-01-24 2022-05-10 语联网(武汉)信息技术有限公司 机翻译文质量评估方法、译文后编辑方法及装置
CN114580437A (zh) * 2022-03-02 2022-06-03 阿里巴巴(中国)有限公司 翻译评估模型的训练方法、翻译评估方法、设备及介质
CN114896993A (zh) * 2022-05-06 2022-08-12 北京百度网讯科技有限公司 翻译模型的生成方法、装置、电子设备及存储介质
CN115153563A (zh) * 2022-05-16 2022-10-11 天津大学 基于eeg的普通话听觉注意解码方法及装置
CN116579352A (zh) * 2023-04-25 2023-08-11 无锡捷通数智科技有限公司 翻译模型训练方法、装置、移动终端及存储介质
CN117972434A (zh) * 2024-03-28 2024-05-03 腾讯科技(深圳)有限公司 文本处理模型的训练方法、装置、设备、介质和程序产品
CN117972434B (zh) * 2024-03-28 2024-06-11 腾讯科技(深圳)有限公司 文本处理模型的训练方法、装置、设备、介质和程序产品

Also Published As

Publication number Publication date
CN110263349B (zh) 2024-09-13

Similar Documents

Publication Publication Date Title
CN110263349A (zh) 语料评估模型训练方法、装置、存储介质和计算机设备
CN111444311B (zh) 语义理解模型训练方法、装置、计算机设备和存储介质
CN111368565B (zh) 文本翻译方法、装置、存储介质和计算机设备
CN110263350B (zh) 模型训练方法、装置、计算机可读存储介质和计算机设备
CN108052512B (zh) 一种基于深度注意力机制的图像描述生成方法
CN109597891B (zh) 基于双向长短时记忆神经网络的文本情感分析方法
CN109271646B (zh) 文本翻译方法、装置、可读存储介质和计算机设备
CN110598206A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN111241855A (zh) 文本翻译方法、装置、存储介质和计算机设备
CN111506702A (zh) 基于知识蒸馏的语言模型训练方法、文本分类方法及装置
CN107832310A (zh) 基于seq2seq模型的结构化论点生成方法及系统
CN109902750A (zh) 基于双向单注意力机制图像描述方法
CN110263348A (zh) 翻译方法、装置、计算机设备和存储介质
CN108845994A (zh) 利用外部信息的神经机器翻译系统及翻译系统的训练方法
CN112699690B (zh) 翻译模型的训练方法、翻译方法、电子设备、存储介质
CN111897957A (zh) 融入多尺度特征注意力的胶囊神经网络及文本分类方法
CN112446221A (zh) 翻译评估方法、装置、系统及计算机存储介质
CN113836192B (zh) 平行语料的挖掘方法、装置、计算机设备及存储介质
CN110532372B (zh) 一种基于神经协同过滤挖掘深层特征的文本对象精准推送方法
CN117034961B (zh) 一种基于bert的中法互译质量测评方法
CN108763230B (zh) 利用外部信息的神经机器翻译方法
CN110008482A (zh) 文本处理方法、装置、计算机可读存储介质和计算机设备
CN113779185B (zh) 一种自然语言模型的生成方法和计算机设备
Zhong et al. Codegen-test: An automatic code generation model integrating program test information
CN117521641A (zh) 基于自然语言处理的文本自动校对系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant