CN116701961B - 一种对文言文机器翻译结果自动评估的方法和系统 - Google Patents
一种对文言文机器翻译结果自动评估的方法和系统 Download PDFInfo
- Publication number
- CN116701961B CN116701961B CN202310973916.4A CN202310973916A CN116701961B CN 116701961 B CN116701961 B CN 116701961B CN 202310973916 A CN202310973916 A CN 202310973916A CN 116701961 B CN116701961 B CN 116701961B
- Authority
- CN
- China
- Prior art keywords
- translation
- score
- target
- similarity
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 314
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000011218 segmentation Effects 0.000 claims abstract description 59
- 238000012360 testing method Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 35
- 238000003780 insertion Methods 0.000 claims description 16
- 230000037431 insertion Effects 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 238000006467 substitution reaction Methods 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims 4
- 230000037430 deletion Effects 0.000 claims 4
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000014616 translation Effects 0.000 description 215
- 238000011156 evaluation Methods 0.000 description 41
- 230000006870 function Effects 0.000 description 17
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言处理技术领域,公开了一种对文言文机器翻译结果自动评估的方法和系统,包括:构建待评价数据集;对待评价数据集进行预处理和分词处理;从待评价数据集中获取训练语料的原文和参考译文,利用待评估的文言文机器翻译模型对原文进行翻译,再将得到的目标译文与参考译文和原文对比并进行人工分析,按照原文‑参考译文‑目标译文‑人工打分的方式构建测试数据集;计算参考译文和目标译文的相似度,根据测试数据集计算目标译文的忠实度、流畅度、通俗度三个维度的分数,并计算目标译文的平均分、误差以及相关性,对目标译文进行自动评分;通过赋予忠实度和流畅度权重值,以计算总分数。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种对文言文机器翻译结果自动评估的方法和系统。
背景技术
最早出现的翻译形式是人工翻译,但是由于效率低下、人力成本高昂等缺点,以及计算机的出现和计算机技术的发展,机器翻译逐渐受到人们的青睐。与人工翻译相比,高效且成本低的优势使机器翻译迅速发展。我国古代文献浩如烟海,此外,由于古汉语的语法和词义与现代汉语相比存在着差异,大多数现代人很难对古文进行深入研究。将古文翻译成人们熟知的现代文,更符合大多数人的需求。因此可以使用机器翻译对古文文本进行翻译。
然而构建古文机器翻译自动评价方法仍面料诸多问题,目前的机器翻译和自动评价方法主要都是用于双语翻译,关于古汉语到现代汉语的机器翻译和评价方法还比较缺乏。此外,古汉语到现代汉语之间的翻译与其他跨语言的翻译并不完全相同。现代汉语是由古汉语演变而来,二者有着相似性,古汉语中的一些信息可以直接应用于现代汉语之中。但是与现代汉语相比,古文翻译也具有三个鲜明特点:第一是部分概念已经消失的词语需要原样输出,分词的准确性非常重要;第二是古文和现代文的界限具有一定模糊性,但是本发明希望翻译模型能对古文进行充足的翻译,尽量减少原样输出;第三是古文具有高度凝练性,句子中存在大量省略现象,因此参考译文往往会对其进行补全,在对机器机器翻译的结果进行评价时需要考虑对这种补充的背景词信息。
为解决以上问题,常见的古文机器翻译自动评价方法包括人工评价和自动评价方法,人工评价可以更准确的反映出机器翻译的质量,但是也存在着诸多缺点:效率低下、耗费大量的时间和经济成本、结果不具有复用性、容易受到主观因素影响等。而自动评价方法只需要基于固定的算法,短时间就能对大量文本翻译结果进行评价并输出结果,能够及时对翻译模型的翻译质量做出评测与反馈,相比而言更具优势。因此,如何结合古文翻译的特点优化自动评价方法,使其更好地应用在任务中,是本领域技术人员亟待解决的技术问题。
发明内容
为了更好地指导古文机器翻译模型进行迭代优化,以及辅助人们判断当前古文机器翻译模型的质量以及不足。本发明基于忠实度、流畅度和通俗度三个维度,构建古文-参考译文-目标译文-人工评分数据集,并找到了较为合适的评价内部各个维度的方法,以达到直观地评价古文机器翻译结果质量和在迭代中优化古文翻译模型的目的,本申请提供了一种对文言文机器翻译结果自动评估的方法,包括:
步骤S101:根据现代文平行配对语料,通过随机和人工挑选方式,筛选出若干句子构建待评价数据集;
步骤S102:对所述待评价数据集进行预处理和分词处理;
步骤S103:从所述待评价数据集中获取训练语料的原文和参考译文,利用待评估的文言文机器翻译模型对所述原文进行翻译,再将得到的目标译文与参考译文和所述原文对比并进行人工分析,判断所述文言文机器翻译模型翻译的译文质量,并按照原文-参考译文-目标译文-人工打分的方式构建测试数据集;
步骤S104:通过对比所述参考译文和目标译文,计算所述参考译文和目标译文的相似度,根据所述测试数据集计算所述目标译文的忠实度、流畅度、通俗度三个维度的分数,并根据所述三个维度的分数计算目标译文的平均分、误差以及相关性,对所述目标译文进行自动评分。
在其中一些具体实施例中,步骤S102还包括:
统计进行分词处理后的词语,将所述词语按照人工分词、自动分词和按照字粒度进行分词的方式进行划分,并对人工分词、自动分词和按照字粒度进行分词的效果差异进行比较。
在其中一些具体实施例中,步骤S103还包括:
将所述参考译文中根据篇章信息补齐的成分处理为背景词,不作为评价所述目标译文的参考。
在其中一些具体实施例中,步骤S104还包括:
步骤S1041:对所述参考译文和目标译文中的词两两计算相似度,设定判断同义词的阈值,将相似度高于或者等于该阈值的词语对视为近义词;再分别计算参考译文的匹配得分scoreref和目标译文的匹配得分scoretar;使用召回率作为是否丢失原文信息的判别依据并计算忠诚度,所述忠诚度的计算公式如下:
;
;
;
;
其中,simmax为取参考译文或目标译文中按照义原计算的最大相似度,Nr为参考译文中词的个数,Nt为目标译文中词的个数,scoreref为参考译文对每个词最大的相似度求和后得到的句子相似度,scoretar为目标译文对每个词最大的相似度求和后得到的句子相似度,scorematch为参考译文和目标译文的相似度得分,scorezhong为忠实度得分;
步骤S1042:通过最长连续公共子序列来计算文言文的流畅度,所述流畅度的计算公式如下:
;
;
其中,Pen为计算流畅度过程中的惩罚项,#chunks in target sentence为根据动态规划计算出最长连续子序列的数量,#words in target sentence为句子中义原的数量,β为惩罚系数,γ为惩罚指数项;
步骤S1043:通过如下公式计算所述通俗度:
;
;
;
;
其中,#insertiontar和#insertionref分别为计算目标译文和参考译文的编辑次数时需要插入词的个数,#substitutiontar和#substitutionref分别为计算目标译文和参考译文的编辑次数时需要替换词的个数,#deletiontar和#deletionref分别为计算目标译文和参考译文的编辑次数时需要删除词的个数,edittar为目标译文到原文的编辑次数,editref为参考译文到原文的编辑次数,scorecon为参考译文编辑次数和目标译文编辑次数的比率,scoretong为通俗度得分。
在其中一些具体实施例中,步骤S104还包括:相似度根据如下公式确定:
;
其中,Sims表示所述目标译文和参考译文的相似度得分,S1和S2分别表示各自待评价的两个概念,StructSim表示通过OpenHownet调用的结构相似度计算函数,SimDEF表示通过OpenHownet调用的义原相似度计算函数,βstruct为StructSim函数的权重参数,βDEF为SimDEF函数的权重参数。
为实现上述目的,本申请还提供了一种对文言文机器翻译结果自动评估的系统,包括:
数据构建模块:用于根据现代文平行配对语料,通过随机和人工挑选方式,筛选出若干句子构建待评价数据集;
预处理模块:用于对所述待评价数据集进行预处理和分词处理;
测试集构建模块:用于从所述待评价数据集中获取训练语料的原文和参考译文,利用待评估的文言文机器翻译模型对所述原文进行翻译,再将得到的目标译文与参考译文和所述原文对比并进行人工分析,判断所述文言文机器翻译模型翻译的译文质量,并按照原文-参考译文-目标译文-人工打分的方式构建测试数据集;
评分模块:用于通过对比所述参考译文和目标译文,计算所述参考译文和目标译文的相似度,根据所述测试数据集计算所述目标译文的忠实度、流畅度、通俗度三个维度的分数,并根据所述三个维度的分数计算目标译文的平均分、误差以及相关性,对所述目标译文进行自动评分。
在其中一些具体实施例中,预处理模块还包括:
统计进行分词处理后的词语,将所述词语按照人工分词、自动分词和按照字粒度进行分词的方式进行划分,并对人工分词、自动分词和按照字粒度进行分词的效果差异进行比较。
在其中一些具体实施例中,测试集构建模块还包括:
将所述参考译文中根据篇章信息补齐的成分处理为背景词,不作为评价所述目标译文的参考。
在其中一些具体实施例中,评分模块还包括:
忠诚度计算单元:对所述参考译文和目标译文中的词两两计算相似度,设定判断同义词的阈值,将相似度高于或者等于该阈值的词语对视为近义词;再分别计算参考译文的匹配得分scoreref和目标译文的匹配得分scoretar;使用召回率作为是否丢失原文信息的判别依据并计算忠诚度,所述忠诚度的计算公式如下:
;
;
;
;
其中,simmax为取参考译文或目标译文中按照义原计算的最大相似度,Nr为参考译文中词的个数,Nt为目标译文中词的个数,scoreref为参考译文对每个词最大的相似度求和后得到的句子相似度,scoretar为目标译文对每个词最大的相似度求和后得到的句子相似度,scorematch为参考译文和目标译文的相似度得分,scorezhong为忠实度得分;
流畅度计算单元:通过最长连续公共子序列来计算文言文的流畅度,所述流畅度的计算公式如下:
;
;
其中,Pen为计算流畅度过程中的惩罚项,#chunks in target sentence为根据动态规划计算出最长连续子序列的数量,#words in target sentence为句子中义原的数量,β为惩罚系数,γ为惩罚指数项;
通俗度计算单元:通过如下公式计算所述通俗度:
;
;
;
;
其中,#insertiontar和#insertionref分别为计算目标译文和参考译文的编辑次数时需要插入词的个数,#substitutiontar和#substitutionref分别为计算目标译文和参考译文的编辑次数时需要替换词的个数,#deletiontar和#deletionref分别为计算目标译文和参考译文的编辑次数时需要删除词的个数,edittar为目标译文到原文的编辑次数,editref为参考译文到原文的编辑次数,scorecon为参考译文编辑次数和目标译文编辑次数的比率,scoretong为通俗度得分。
在其中一些具体实施例中,相似度根据如下公式确定:
;
其中,Sims表示所述目标译文和参考译文的相似度得分,S1和S2分别表示待比较概念,StructSim表示通过OpenHownet调用的结构相似度计算函数,SimDEF表示通过OpenHownet调用的义原相似度计算函数,βstruct为StructSim函数的权重参数,βDEF为SimDEF函数的权重参数。
上述技术方案的有益效果:
(1)本申请针对机器翻译输出的古文目标译文,在评价时融入词义信息,在传统的忠实度(翻译的结果要忠实于原文的信息)、流畅度(翻译得到的目标译文要流畅自然,符合目标语言的表达习惯)的评价维度之外增加了通俗度(译文是否对原文进行了充分的翻译)的评价维度,提高了评价方法的有效性。
(2)与人工分词相比,自动分词切分得更细,将很多能成为词的词语变成单字词,极大降低了知网中未登录词的比例。因此,采用自动分词方法能够获得更多词义方面的信息,计算忠实度时能使大多数的词都具有词义,方便进行比较,使得本发明提出的评价方法得到的评价结果和人类评分的相关性更高。
(3)本申请以字为忠实度的基本粒度,相比以词为忠实度的基本粒度,无论是在忠实度单个维度来评价,还是加上流畅度和通俗度两个维度进行评价,得到的结果在与人类评分结果的相关性上都更高。并且在评价方法中加入通俗度维度后,无论以什么方法进行流畅度的评价,获得的评价结果与人类评分的相关性都有了较大的提升。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一个实施例提供的对文言文机器翻译结果自动评估的方法的流程示意图;
图2为本发明的一个实施例提供的对文言文机器翻译结果自动评估的系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
所述实施例的示例在附图中示出,其中自始至终相同或类似的符号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
实施例一
本发明的一个实施例提供了一种对文言文机器翻译结果自动评估的方法,参照图1所示,包括:
步骤S101:根据现代文平行配对语料,通过随机和人工挑选方式,筛选出若干句子构建待评价数据集。
步骤S102:对所述待评价数据集进行预处理和分词处理。
在本发明的一个具体实施例中,步骤S102还包括:
统计进行分词处理后的词语,将所述词语按照人工分词、自动分词和按照字粒度进行分词的方式进行划分,并对人工分词、自动分词和按照字粒度进行分词的效果差异进行比较。
步骤S103:从所述待评价数据集中获取训练语料的原文和参考译文,利用待评估的文言文机器翻译模型对所述原文进行翻译,再将得到的目标译文与参考译文和所述原文对比并进行人工分析,判断所述文言文机器翻译模型翻译的译文质量,并按照原文-参考译文-目标译文-人工打分的方式构建测试数据集。
在本发明的一个具体实施例中,步骤S103还包括:
将所述参考译文中根据篇章信息补齐的成分处理为背景词,不作为评价所述目标译文的参考。
步骤S104:通过对比所述参考译文和目标译文,计算所述参考译文和目标译文的相似度,根据所述测试数据集计算所述目标译文的忠实度、流畅度、通俗度三个维度的分数,并根据所述三个维度的分数计算目标译文的平均分、误差以及相关性,对所述目标译文进行自动评分。
在本发明的一个具体实施例中,步骤S104还包括:
计算所述目标译文和参考译文相对应的义原的相似度得分Sims,并根据如下公式确定最大相似度:
;
其中,Sims表示所述目标译文和参考译文的相似度得分,S1和S2分别表示待比较的概念,即,每个词语可能对应多个解释,概念为多个解释中的其中一个解释,每种概念由一个或多个义原分解说明。StructSim表示通过OpenHownet调用的结构相似度计算函数,SimDEF表示通过OpenHownet调用的义原相似度计算函数,βstruct为StructSim函数的权重参数,βDEF为SimDEF函数的权重参数。
具体地,实际计算时,可以通过开源项目OpenHownet计算得到两个词的基于知网的相似度。
例如,“师父 一定 要 善待 他”(参考译文)和“老师 要 好好地 对待 他”(目标译文)中,对于“老师”和“师父”,可以得到它们在知网中的相似度为0.82。
在本发明的一个具体实施例中,步骤S104还包括:
步骤S1041:对所述参考译文和目标译文中的词两两计算相似度,设定判断同义词的阈值,将相似度高于或者等于阈值的词语对视为近义词;再分别计算参考译文的匹配得分scoreref和目标译文scoretar的匹配得分;使用召回率作为是否丢失原文信息的判别依据并计算忠诚度,所述忠诚度的计算公式如下:
;
;
;
;
其中,simmax为取参考译文或目标译文中按照某个词计算的最大相似度,Nr为参考译文中词的个数,Nt为目标译文中词的个数,scoreref为参考译文对每个词最大的相似度求和后得到的句子相似度,scoretar为目标译文对每个词最大的相似度求和后得到的句子相似度,scorematch为参考译文和目标译文的相似度得分,scorezhong为忠实度得分。
具体地,若计算“师父 一定 要 善待 他”(参考译文)和“老师 要 好好地 对待他”(目标译文),这两个句子中的词语两两计算相似度;计算“他 很 优秀”和“他 真 厉害”,这两个句子中的词语两两计算相似度,例如:
师父 和 老师 的词语相似度为:0.82;
师父 和 要 的词语相似度为:0.30;
师父 和 好好地 的词语相似度为:0.25;
师父 和 对待 的词语相似度为:0.24;
师父 和 他 的词语相似度为:0.73;
按照以上计算方法,目标译文和参考译文中的词的相似度得分分别为:
师父:0.82 ,一定:1,要:1,善待:0.69,他:1;
老师:0.82 ,要:1,好好地:0.56,对待:0.69,他:1;
设定近义词阈值,比如设定为0.44,最高相似度得分高于阈值的将该得分记为该词的匹配得分,低于阈值的匹配得分为0,假设每个词都是均等的权重,例如:
师父一定要善待他 的匹配得分为:0.82+1+1+0.69+1 = 4.51;
老师要好好地对待他 的匹配得分为:0.82+1+0.56+0.69+1 = 4.07;
这两个句子的匹配得分为 min(4.51, 4.07) = 4.07,忠实度得分为 4.07 / 5 =0.81。
步骤S1042:通过最长连续公共子序列来计算文言文的流畅度,所述流畅度的计算公式如下:
;
;
其中,Pen为计算流畅度过程中的惩罚项,#chunks in target sentence为根据动态规划计算出最长连续子序列的数量,#words in target sentence为句子中义原的数量,β为惩罚系数,γ为惩罚指数项;
具体地,上例中,会得到连续的#chunks in target sentence数为2,词数为5,假定超参数为1,/>为0.5,则可以计算得到流畅度得分为0.37。
步骤S1043:通过如下公式计算所述通俗度:
;
;
;
其中,#insertiontar和#insertionref分别为计算目标译文和参考译文的编辑次数时需要插入词的个数,#substitutiontar和#substitutionref分别为计算目标译文和参考译文的编辑次数时需要替换词的个数,#deletiontar和#deletionref分别为计算目标译文和参考译文的编辑次数时需要删除词的个数,edittar为目标译文到原文的编辑次数,editref为参考译文到原文的编辑次数,scorecon为参考译文编辑次数和目标译文编辑次数的比率,scoretong为通俗度得分。
具体地,例如,文言文文本“然彼更来,师其善待之。”其参考译文为“但他再来的时候,师父一定要善待他。”通过古文机器翻译得到的目标译文为“然而他再来,老师要好好地对待他。”古文到参考译文的编辑次数为11,古文到目标译文的编辑次数为10,scorecon=10/11,所以这个句子的通俗度得分为0,不对其进行翻译不充分的惩罚减分。
在本发明的一个具体实施例中,通过赋予所述忠实度和流畅度权重值,以计算总分数。根据所述scorezhong、scoreliu、scorecon的数值,通过将scorezhong、scoreliu分别设置权重,总权重为1,并将scorecon作为减分项确定总分Score,若结果为负值,则将其总分设置为0。
具体地,总分数的计算应综合考虑三个维度的分数,为忠实度和流畅度分别设置权重,总权重为1;通俗度作为惩罚项参与到评分之中。同时为了避免总得分取到负值,在三个维度的分数都参与计算之后,最后的成绩如果是负值,就将总成绩设置为0。例如,现提供忠实度和流畅度权重分别为0.8和0.2时的计算公式:
;
其中,Score为最终得出的总分数。
经过测试后发现,未处理背景词会对忠实度的评价产生负面的干扰,导致与人类评分的相关性降低。从而在所有维度进行评价时,和人类评分的相关性有所下降。证明了去除背景词在评价古文机器翻译中是有效的。如下表1表2表3所示:
表1:使用字粒度的评价方法与人工评价结果的相关性
表2:测试语料进行分词后统计表
表3:本发明的评价方法在未处理背景词的语料上的效果
备注:表1-3中各评价方法的命名方式:
TMH(Traditional evaluation Method base on HowNet)指本发明提出的基于知网HowNet的忠实度的评价方法,流畅度,通俗度,以及每个评价维度内部采用的不同方法使用后缀的形式进行表示。后缀内容如下:
忠实度内部的不同方法:
_a:表示使用自动分词工具进行分词的基础上进行的评价。
_h:表示人工进行分词的基础上进行的评价。
_w:表示使用字的粒度进行的评价。
流畅度内部的不同方法:
_L:表示使用最长公共子序列的流畅度评价方法。
_1:使用基于 1-gram 的流畅度评价方法。
_2:使用基于 2-gram 的流畅度评价方法。
_3:使用基于 3-gram 的流畅度评价方法。
_4:使用基于 4-gram 的流畅度评价方法。
通俗度的评价方法:
_E:使用编辑次数作为通俗度的评价方法。
在语料的选择上:
如果是使用对背景词进行处理之后的语料,没有任何附加字符。
_B:使用包含背景词的未经处理的测试语料。
例如:TMH_w指的是使用字粒度进行忠实度计算,最终的评价方法仅包括忠实度这一个维度。TMH_a_3_E指的是使用自动分词工具分词之后以词粒度进行忠实度计算,流畅度的评价方法选择基于 3-gram 的评价方法,通俗度使用编辑次数进行评价,最终的评价方法包括忠实度,流畅度和通俗度三个维度。
本申请以字为忠实度的基本粒度,相比以词为忠实度的基本粒度,无论是在忠实度单个维度来评价,还是加上流畅度和通俗度两个维度进行评价,得到的结果在与人类评分结果的相关性上都更高。并且本申请在评价方法中加入通俗度维度后,无论以什么方法进行流畅度的评价,获得的评价结果与人类评分的相关性都有了较大的提升。
实施例二
本发明的一个实施例提供了一种对文言文机器翻译结果自动评估的系统,参照图2所示,包括:
数据集构建模块10:用于根据现代文平行配对语料,通过随机和人工挑选方式,筛选出若干句子构建待评价数据集。
预处理模块20:用于对所述待评价数据集进行预处理和分词处理。
在本发明的一个具体实施例中,预处理模块20还包括:
统计进行分词处理后的词语,将所述词语按照人工分词、自动分词和按照字粒度进行分词的方式进行划分,并对人工分词、自动分词和按照字粒度进行分词的效果差异进行比较。
测试集构建模块30:用于从所述待评价数据集中获取训练语料的原文和参考译文,利用待评估的文言文机器翻译模型对所述原文进行翻译,再将得到的目标译文与参考译文和所述原文对比并进行人工分析,判断所述文言文机器翻译模型翻译的译文质量,并按照原文-参考译文-目标译文-人工打分的方式构建测试数据集。
在本发明的一个具体实施例中,测试集构建模块30还包括:
将所述参考译文中根据篇章信息补齐的成分处理为背景词,不作为评价所述目标译文的参考。
评分模块40:用于通过对比所述参考译文和目标译文,计算所述参考译文和目标译文的相似度,根据所述测试数据集计算所述目标译文的忠实度、流畅度、通俗度三个维度的分数,并根据所述三个维度的分数计算目标译文的平均分、误差以及相关性,对所述目标译文进行自动评分。
在本发明的一个具体实施例中,评分模块40还包括:
计算所述目标译文和参考译文相对应的义原的相似度得分Sims,并根据如下公式确定最大相似度:
;
其中,Sims表示所述目标译文和参考译文的相似度得分,S1和S2分别表示待比较概念,StructSim表示通过OpenHownet调用的结构相似度计算函数,SimDEF表示通过OpenHownet调用的义原相似度计算函数,βstruct为StructSim函数的权重参数,βDEF为SimDEF函数的权重参数。
在本发明的一个具体实施例中,评分模块40还包括:
忠诚度计算单元:对所述参考译文和目标译文的词两两计算相似度,设定判断同义词的阈值,将相似度高于或者等于阈值的词语对视为近义词;再分别计算参考译文的匹配得分scoreref和目标译文scoretar的匹配得分;使用召回率作为是否丢失原文信息的判别依据并计算忠诚度,所述忠诚度的计算公式如下:
;
;
;
;
其中,simmax为取参考译文或目标译文中按照某个词计算的最大相似度,Nr为参考译文中词的个数,Nt为目标译文中词的个数,scoreref为参考译文对每个词最大的相似度求和后得到的句子相似度,scoretar为目标译文对每个词最大的相似度求和后得到的句子相似度,scorematch为参考译文和目标译文的相似度得分,scorezhong为忠实度得分。
流畅度计算单元:通过最长连续公共子序列来计算文言文的流畅度,所述流畅度的计算公式如下:
;
;
其中,Pen为计算流畅度过程中的惩罚项,#chunks in target sentence为根据动态规划计算出最长连续子序列的数量,#words in target sentence为句子中义原的数量,β为惩罚系数,γ为惩罚指数项。
通俗度计算单元:通过如下公式计算所述通俗度:
;
;
;
其中,#insertiontar和#insertionref分别为计算目标译文和参考译文的编辑次数时需要插入词的个数,#substitutiontar和#substitutionref分别为计算目标译文和参考译文的编辑次数时需要替换词的个数,#deletiontar和#deletionref分别为计算目标译文和参考译文的编辑次数时需要删除词的个数,edittar为目标译文到原文的编辑次数,editref为参考译文到原文的编辑次数,scorecon为参考译文编辑次数和目标译文编辑次数的比率,scoretong为通俗度得分。
在本发明的一个具体实施例中,通过赋予所述忠实度和流畅度权重值,以计算总分数。根据所述scorezhong、scoreliu、scorecon的数值,通过将scorezhong、scoreliu分别设置权重,总权重为1,并将scorecon作为减分项确定总分Score,若结果为负值,则将其总分设置为0。
具体地,总分数的计算应综合考虑三个维度的分数,为忠实度和流畅度分别设置权重,总权重为1;通俗度作为惩罚项参与到评分之中。同时为了避免总得分取到负值,在三个维度的分数都参与计算之后,最后的成绩如果是负值,就将总成绩设置为0。例如,现提供忠实度和流畅度权重分别为0.8和0.2时的计算公式:
;
其中,Score为最终得出的总分数。
本申请以字为忠实度的基本粒度,相比以词为忠实度的基本粒度,无论是在忠实度单个维度来评价,还是加上流畅度和通俗度两个维度进行评价,得到的结果在与人类评分结果的相关性上都更高。并且本申请在评价方法中加入通俗度维度后,无论以什么方法进行流畅度的评价,获得的评价结果与人类评分的相关性都有了较大的提升。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、“一个具体实施例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (8)
1.一种对文言文机器翻译结果自动评估的方法,其特征在于,包括:
步骤S101:根据现代文平行配对语料,通过随机和人工挑选方式,筛选出若干句子构建待评价数据集;
步骤S102:对所述待评价数据集进行预处理和分词处理;
步骤S103:从所述待评价数据集中获取训练语料的原文和参考译文,利用待评估的文言文机器翻译模型对所述原文进行翻译,再将得到的目标译文与参考译文和所述原文对比并进行人工分析,判断所述文言文机器翻译模型翻译的译文质量,并按照原文-参考译文-目标译文-人工打分的方式构建测试数据集;
步骤S104:通过对比所述参考译文和目标译文,计算所述参考译文和目标译文的相似度,根据所述测试数据集计算所述目标译文的忠诚度、流畅度、通俗度三个维度的分数,并根据所述三个维度的分数计算目标译文的平均分、误差以及相关性,对所述目标译文进行自动评分;
步骤S1041:对所述参考译文和目标译文中的词两两计算相似度,设定判断同义词的阈值,将相似度高于或者等于该阈值的词语对视为近义词;再分别计算参考译文的匹配得分scoreref和目标译文的匹配得分scoretar;使用召回率作为是否丢失原文信息的判别依据并计算忠诚度,所述忠诚度的计算公式如下:
scorematch=min(scoreref,scoretar)
其中,simmax为取参考译文或目标译文中按照义原计算的最大相似度,Si和Sj分别表示各自待评价的概念,Nr为参考译文中词的个数,Nt为目标译文中词的个数,scoreref为参考译文对每个词最大的相似度求和后得到的句子相似度,scoretar为目标译文对每个词最大的相似度求和后得到的句子相似度,scorematch为参考译文和目标译文的相似度得分,scorezhong为忠诚度得分;
步骤S1042:通过最长连续公共子序列来计算文言文的流畅度,所述流畅度的计算公式如下:
scoreliu=1-βPenγ
其中,Pen为计算流畅度过程中的惩罚项,#chunksin target sentence为根据动态规划计算出最长连续子序列的数量,#words in target sentence为句子中义原的数量,β为惩罚系数,γ为惩罚指数项;
步骤S1043:通过如下公式计算所述通俗度:
edittar=#insertiontar+#substitutiontar+#deletiontar
editref=#insertionref+#substitutionref+#deletionref
scoretong=max(0,(0.4-scorecon))
其中,#insertiontar和#insertionref分别为计算目标译文和参考译文的编辑次数时需要插入词的个数,#substitutiontar和#substitutionref分别为计算目标译文和参考译文的编辑次数时需要替换词的个数,#deletiontar和#deletionref分别为计算目标译文和参考译文的编辑次数时需要删除词的个数,edittar为目标译文到原文的编辑次数,editref为参考译文到原文的编辑次数,scorecon为参考译文编辑次数和目标译文编辑次数的比率,scoretong为通俗度得分。
2.根据权利要求1所述的对文言文机器翻译结果自动评估的方法,其特征在于,所述步骤S102还包括:
统计进行分词处理后的词语,将所述词语按照人工分词、自动分词和按照字粒度进行分词的方式进行划分,并对人工分词、自动分词和按照字粒度进行分词的效果差异进行比较。
3.根据权利要求1所述的对文言文机器翻译结果自动评估的方法,其特征在于,所述步骤S103还包括:
将所述参考译文中根据篇章信息补齐的成分处理为背景词,不作为评价所述目标译文的参考。
4.根据权利要求1所述的对文言文机器翻译结果自动评估的方法,其特征在于,所述相似度根据如下公式确定:
其中,Sims表示所述目标译文和参考译文的相似度得分,S1和S2分别表示各自待评价的两个概念,StructSim表示通过OpenHownet调用的结构相似度计算函数,SimDEF表示通过OpenHownet调用的义原相似度计算函数,βstruct为StructSim函数的权重参数,βDEF为SimDEF函数的权重参数。
5.一种对文言文机器翻译结果自动评估的系统,其特征在于,包括:
数据集构建模块:用于根据现代文平行配对语料,通过随机和人工挑选方式,筛选出若干句子构建待评价数据集;
预处理模块:用于对所述待评价数据集进行预处理和分词处理;
测试集构建模块:用于从所述待评价数据集中获取训练语料的原文和参考译文,利用待评估的文言文机器翻译模型对所述原文进行翻译,再将得到的目标译文与参考译文和所述原文对比并进行人工分析,判断所述文言文机器翻译模型翻译的译文质量,并按照原文-参考译文-目标译文-人工打分的方式构建测试数据集;
评分模块:用于通过对比所述参考译文和目标译文,计算所述参考译文和目标译文的相似度,根据所述测试数据集计算所述目标译文的忠诚度、流畅度、通俗度三个维度的分数,并根据所述三个维度的分数计算目标译文的平均分、误差以及相关性,对所述目标译文进行自动评分;
忠诚度计算单元:对所述参考译文和目标译文中的词两两计算相似度,设定判断同义词的阈值,将相似度高于或者等于该阈值的词语对视为近义词;再分别计算参考译文的匹配得分scoreref和目标译文的匹配得分scoretar;使用召回率作为是否丢失原文信息的判别依据并计算忠诚度,所述忠诚度的计算公式如下:
scorematch=min(scoreref,scoretar)
其中,simmax为取参考译文或目标译文中按照义原计算的最大相似度,Si和Sj分别表示各自待评价的概念,Nr为参考译文中词的个数,Nt为目标译文中词的个数,scoreref为参考译文对每个词最大的相似度求和后得到的句子相似度,scoretar为目标译文对每个词最大的相似度求和后得到的句子相似度,scorematch为参考译文和目标译文的相似度得分,scorezhong为忠诚度得分;
流畅度计算单元:通过最长连续公共子序列来计算文言文的流畅度,所述流畅度的计算公式如下:
scoreliu=1-βPenγ
其中,Pen为计算流畅度过程中的惩罚项,#chunksin target sentence为根据动态规划计算出最长连续子序列的数量,#wordsin target sentence为句子中义原的数量,β为惩罚系数,γ为惩罚指数项;
通俗度计算单元:通过如下公式计算所述通俗度:
edittar=#insertiontar+#substitutiontar+#deletiontar
editref=#insertionref+#substitutionref+#deletionref
scoretong=max(0,(0.4-scorecon))
其中,#insertiontar和#insertionref分别为计算目标译文和参考译文的编辑次数时需要插入词的个数,#substitutiontar和#substitutionref分别为计算目标译文和参考译文的编辑次数时需要替换词的个数,#deletiontar和#deletionref分别为计算目标译文和参考译文的编辑次数时需要删除词的个数,edittar为目标译文到原文的编辑次数,editref为参考译文到原文的编辑次数,scorecon为参考译文编辑次数和目标译文编辑次数的比率,scoretong为通俗度得分。
6.根据权利要求5所述的对文言文机器翻译结果自动评估的系统,其特征在于,所述预处理模块还包括:
统计进行分词处理后的词语,将所述词语按照人工分词、自动分词和按照字粒度进行分词的方式进行划分,并对人工分词、自动分词和按照字粒度进行分词的效果差异进行比较。
7.根据权利要求5所述的对文言文机器翻译结果自动评估的系统,其特征在于,所述测试集构建模块还包括:
将所述参考译文中根据篇章信息补齐的成分处理为背景词,不作为评价所述目标译文的参考。
8.根据权利要求5所述的对文言文机器翻译结果自动评估的系统,其特征在于,所述相似度根据如下公式确定:
其中,Sims表示所述目标译文和参考译文的相似度得分,S1和S2分别表示待比较的概念,StructSim表示通过OpenHownet调用的结构相似度计算函数,SimDEF表示通过OpenHownet调用的义原相似度计算函数,βstruct为StructSim函数的权重参数,βDEF为SimDEF函数的权重参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310973916.4A CN116701961B (zh) | 2023-08-04 | 2023-08-04 | 一种对文言文机器翻译结果自动评估的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310973916.4A CN116701961B (zh) | 2023-08-04 | 2023-08-04 | 一种对文言文机器翻译结果自动评估的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116701961A CN116701961A (zh) | 2023-09-05 |
CN116701961B true CN116701961B (zh) | 2023-10-20 |
Family
ID=87824300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310973916.4A Active CN116701961B (zh) | 2023-08-04 | 2023-08-04 | 一种对文言文机器翻译结果自动评估的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116701961B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693222A (zh) * | 2012-05-25 | 2012-09-26 | 熊晶 | 基于实例的甲骨文释文机器翻译方法 |
CN107480147A (zh) * | 2017-08-15 | 2017-12-15 | 中译语通科技(北京)有限公司 | 一种对比评价机器翻译系统的方法及系统 |
CN109344408A (zh) * | 2018-08-24 | 2019-02-15 | 腾讯科技(深圳)有限公司 | 一种译文检测方法、装置及电子设备 |
CN109359294A (zh) * | 2018-09-18 | 2019-02-19 | 湖北文理学院 | 一种基于神经机器翻译的古汉语翻译方法 |
CN109783825A (zh) * | 2019-01-07 | 2019-05-21 | 四川大学 | 一种基于神经网络的古文翻译方法 |
CN110674646A (zh) * | 2019-09-06 | 2020-01-10 | 内蒙古工业大学 | 一种基于字节对编码技术的蒙汉机器翻译系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7587307B2 (en) * | 2003-12-18 | 2009-09-08 | Xerox Corporation | Method and apparatus for evaluating machine translation quality |
-
2023
- 2023-08-04 CN CN202310973916.4A patent/CN116701961B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693222A (zh) * | 2012-05-25 | 2012-09-26 | 熊晶 | 基于实例的甲骨文释文机器翻译方法 |
CN107480147A (zh) * | 2017-08-15 | 2017-12-15 | 中译语通科技(北京)有限公司 | 一种对比评价机器翻译系统的方法及系统 |
CN109344408A (zh) * | 2018-08-24 | 2019-02-15 | 腾讯科技(深圳)有限公司 | 一种译文检测方法、装置及电子设备 |
CN109359294A (zh) * | 2018-09-18 | 2019-02-19 | 湖北文理学院 | 一种基于神经机器翻译的古汉语翻译方法 |
CN109783825A (zh) * | 2019-01-07 | 2019-05-21 | 四川大学 | 一种基于神经网络的古文翻译方法 |
CN110674646A (zh) * | 2019-09-06 | 2020-01-10 | 内蒙古工业大学 | 一种基于字节对编码技术的蒙汉机器翻译系统 |
Non-Patent Citations (2)
Title |
---|
An automatic evaluation metric for Ancient-Modern Chinese translation;Kexin Yang等;Neural Computing and Applications;第3855-3867页 * |
基于扩展参考译文的机器翻译自动评价研究;李娜;中国优秀硕士学位论文全文数据库信息科技辑;第2-4章 * |
Also Published As
Publication number | Publication date |
---|---|
CN116701961A (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Specia et al. | Improving the confidence of machine translation quality estimates | |
CN106383818A (zh) | 一种机器翻译方法及装置 | |
CA2971884C (en) | Method and device for general machine translation engine-oriented individualized translation | |
CN111626042B (zh) | 指代消解方法及装置 | |
CN116012492A (zh) | 用于文字生成图像的提示词智能优化方法及系统 | |
CN105573994B (zh) | 基于句法骨架的统计机器翻译系统 | |
CN111178040B (zh) | 藏汉跨语言论文剽窃检测方法和系统 | |
CN112836525A (zh) | 一种基于人机交互机器翻译系统及其自动优化方法 | |
Clark et al. | One system, many domains: Open-domain statistical machine translation via feature augmentation | |
CN116821377A (zh) | 基于知识图谱和大模型的小学语文自动评测系统 | |
CN109815503B (zh) | 一种人机交互翻译方法 | |
CN116701961B (zh) | 一种对文言文机器翻译结果自动评估的方法和系统 | |
RU2546064C1 (ru) | Распределенная система и способ языкового перевода | |
Bergmanis et al. | From zero to production: Baltic-ukrainian machine translation systems to aid refugees | |
Costa et al. | Domain adaptation in neural machine translation using a qualia-enriched FrameNet | |
CN111738022B (zh) | 一种国防军工领域机器翻译优化方法及系统 | |
Ulitkin et al. | Automatic evaluation of the quality of machine translation of a scientific text: the results of a five-year-long experiment | |
CN111178038B (zh) | 一种基于潜在语义分析的文档相似度识别方法及装置 | |
CN109299461B (zh) | 一种基于Dirichlet过程的可比语料双语平行片段抽取的方法 | |
CN109783820B (zh) | 一种语义解析方法及系统 | |
Sun et al. | Adaptive Simultaneous Sign Language Translation with Confident Translation Length Estimation | |
CN115034237B (zh) | 一种基于翻译简易度的数据筛选方法 | |
Ljubešić et al. | Statistical Machine Translation of Croatian Weather Forecasts: How Much Data Do We Need? | |
Kwok et al. | Cantonese to Written Chinese Translation via HuggingFace Translation Pipeline | |
CN113033220A (zh) | 一种基于莱文斯坦比的文言文-现代文翻译系统构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |