CN116701961B

CN116701961B - 一种对文言文机器翻译结果自动评估的方法和系统

Info

Publication number: CN116701961B
Application number: CN202310973916.4A
Authority: CN
Inventors: 李炜; 邵艳秋; 董立成; 申资卓; 杜彦融
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2023-10-20
Anticipated expiration: 2043-08-04
Also published as: CN116701961A

Abstract

本发明涉及自然语言处理技术领域，公开了一种对文言文机器翻译结果自动评估的方法和系统，包括：构建待评价数据集；对待评价数据集进行预处理和分词处理；从待评价数据集中获取训练语料的原文和参考译文，利用待评估的文言文机器翻译模型对原文进行翻译，再将得到的目标译文与参考译文和原文对比并进行人工分析，按照原文‑参考译文‑目标译文‑人工打分的方式构建测试数据集；计算参考译文和目标译文的相似度，根据测试数据集计算目标译文的忠实度、流畅度、通俗度三个维度的分数，并计算目标译文的平均分、误差以及相关性，对目标译文进行自动评分；通过赋予忠实度和流畅度权重值，以计算总分数。

Description

一种对文言文机器翻译结果自动评估的方法和系统

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种对文言文机器翻译结果自动评估的方法和系统。

背景技术

最早出现的翻译形式是人工翻译，但是由于效率低下、人力成本高昂等缺点，以及计算机的出现和计算机技术的发展，机器翻译逐渐受到人们的青睐。与人工翻译相比，高效且成本低的优势使机器翻译迅速发展。我国古代文献浩如烟海，此外，由于古汉语的语法和词义与现代汉语相比存在着差异，大多数现代人很难对古文进行深入研究。将古文翻译成人们熟知的现代文，更符合大多数人的需求。因此可以使用机器翻译对古文文本进行翻译。

然而构建古文机器翻译自动评价方法仍面料诸多问题，目前的机器翻译和自动评价方法主要都是用于双语翻译，关于古汉语到现代汉语的机器翻译和评价方法还比较缺乏。此外，古汉语到现代汉语之间的翻译与其他跨语言的翻译并不完全相同。现代汉语是由古汉语演变而来，二者有着相似性，古汉语中的一些信息可以直接应用于现代汉语之中。但是与现代汉语相比，古文翻译也具有三个鲜明特点：第一是部分概念已经消失的词语需要原样输出，分词的准确性非常重要；第二是古文和现代文的界限具有一定模糊性，但是本发明希望翻译模型能对古文进行充足的翻译，尽量减少原样输出；第三是古文具有高度凝练性，句子中存在大量省略现象，因此参考译文往往会对其进行补全，在对机器机器翻译的结果进行评价时需要考虑对这种补充的背景词信息。

为解决以上问题，常见的古文机器翻译自动评价方法包括人工评价和自动评价方法，人工评价可以更准确的反映出机器翻译的质量，但是也存在着诸多缺点：效率低下、耗费大量的时间和经济成本、结果不具有复用性、容易受到主观因素影响等。而自动评价方法只需要基于固定的算法，短时间就能对大量文本翻译结果进行评价并输出结果，能够及时对翻译模型的翻译质量做出评测与反馈，相比而言更具优势。因此，如何结合古文翻译的特点优化自动评价方法，使其更好地应用在任务中，是本领域技术人员亟待解决的技术问题。

发明内容

为了更好地指导古文机器翻译模型进行迭代优化，以及辅助人们判断当前古文机器翻译模型的质量以及不足。本发明基于忠实度、流畅度和通俗度三个维度，构建古文-参考译文-目标译文-人工评分数据集，并找到了较为合适的评价内部各个维度的方法，以达到直观地评价古文机器翻译结果质量和在迭代中优化古文翻译模型的目的，本申请提供了一种对文言文机器翻译结果自动评估的方法，包括：

步骤S101：根据现代文平行配对语料，通过随机和人工挑选方式，筛选出若干句子构建待评价数据集；

步骤S102：对所述待评价数据集进行预处理和分词处理；

步骤S103：从所述待评价数据集中获取训练语料的原文和参考译文，利用待评估的文言文机器翻译模型对所述原文进行翻译，再将得到的目标译文与参考译文和所述原文对比并进行人工分析，判断所述文言文机器翻译模型翻译的译文质量，并按照原文-参考译文-目标译文-人工打分的方式构建测试数据集；

步骤S104：通过对比所述参考译文和目标译文，计算所述参考译文和目标译文的相似度，根据所述测试数据集计算所述目标译文的忠实度、流畅度、通俗度三个维度的分数，并根据所述三个维度的分数计算目标译文的平均分、误差以及相关性，对所述目标译文进行自动评分。

在其中一些具体实施例中，步骤S102还包括：

统计进行分词处理后的词语，将所述词语按照人工分词、自动分词和按照字粒度进行分词的方式进行划分，并对人工分词、自动分词和按照字粒度进行分词的效果差异进行比较。

在其中一些具体实施例中，步骤S103还包括：

将所述参考译文中根据篇章信息补齐的成分处理为背景词，不作为评价所述目标译文的参考。

在其中一些具体实施例中，步骤S104还包括：

步骤S1041：对所述参考译文和目标译文中的词两两计算相似度，设定判断同义词的阈值，将相似度高于或者等于该阈值的词语对视为近义词；再分别计算参考译文的匹配得分score_ref和目标译文的匹配得分score_tar；使用召回率作为是否丢失原文信息的判别依据并计算忠诚度，所述忠诚度的计算公式如下：

；

其中，sim_max为取参考译文或目标译文中按照义原计算的最大相似度，N_r为参考译文中词的个数，N_t为目标译文中词的个数，score_ref为参考译文对每个词最大的相似度求和后得到的句子相似度，score_tar为目标译文对每个词最大的相似度求和后得到的句子相似度，score_match为参考译文和目标译文的相似度得分，score_zhong为忠实度得分；

步骤S1042：通过最长连续公共子序列来计算文言文的流畅度，所述流畅度的计算公式如下：

；

其中，Pen为计算流畅度过程中的惩罚项，#chunks in target sentence为根据动态规划计算出最长连续子序列的数量，#words in target sentence为句子中义原的数量，β为惩罚系数，γ为惩罚指数项；

步骤S1043：通过如下公式计算所述通俗度：

；

其中，#insertion_tar和#insertion_ref分别为计算目标译文和参考译文的编辑次数时需要插入词的个数，#substitution_tar和#substitution_ref分别为计算目标译文和参考译文的编辑次数时需要替换词的个数，#deletion_tar和#deletion_ref分别为计算目标译文和参考译文的编辑次数时需要删除词的个数，edit_tar为目标译文到原文的编辑次数，edit_ref为参考译文到原文的编辑次数，score_con为参考译文编辑次数和目标译文编辑次数的比率，score_tong为通俗度得分。

在其中一些具体实施例中，步骤S104还包括：相似度根据如下公式确定：

；

其中，Sim_s表示所述目标译文和参考译文的相似度得分，S₁和S₂分别表示各自待评价的两个概念，StructSim表示通过OpenHownet调用的结构相似度计算函数，Sim_DEF表示通过OpenHownet调用的义原相似度计算函数，β_struct为StructSim函数的权重参数，β_DEF为Sim_DEF函数的权重参数。

为实现上述目的，本申请还提供了一种对文言文机器翻译结果自动评估的系统，包括：

数据构建模块：用于根据现代文平行配对语料，通过随机和人工挑选方式，筛选出若干句子构建待评价数据集；

预处理模块：用于对所述待评价数据集进行预处理和分词处理；

测试集构建模块：用于从所述待评价数据集中获取训练语料的原文和参考译文，利用待评估的文言文机器翻译模型对所述原文进行翻译，再将得到的目标译文与参考译文和所述原文对比并进行人工分析，判断所述文言文机器翻译模型翻译的译文质量，并按照原文-参考译文-目标译文-人工打分的方式构建测试数据集；

评分模块：用于通过对比所述参考译文和目标译文，计算所述参考译文和目标译文的相似度，根据所述测试数据集计算所述目标译文的忠实度、流畅度、通俗度三个维度的分数，并根据所述三个维度的分数计算目标译文的平均分、误差以及相关性，对所述目标译文进行自动评分。

在其中一些具体实施例中，预处理模块还包括：

在其中一些具体实施例中，测试集构建模块还包括：

在其中一些具体实施例中，评分模块还包括：

忠诚度计算单元：对所述参考译文和目标译文中的词两两计算相似度，设定判断同义词的阈值，将相似度高于或者等于该阈值的词语对视为近义词；再分别计算参考译文的匹配得分score_ref和目标译文的匹配得分score_tar；使用召回率作为是否丢失原文信息的判别依据并计算忠诚度，所述忠诚度的计算公式如下：

；

流畅度计算单元：通过最长连续公共子序列来计算文言文的流畅度，所述流畅度的计算公式如下：

；

通俗度计算单元：通过如下公式计算所述通俗度：

；

在其中一些具体实施例中，相似度根据如下公式确定：

；

其中，Sim_s表示所述目标译文和参考译文的相似度得分，S₁和S₂分别表示待比较概念，StructSim表示通过OpenHownet调用的结构相似度计算函数，Sim_DEF表示通过OpenHownet调用的义原相似度计算函数，β_struct为StructSim函数的权重参数，β_DEF为Sim_DEF函数的权重参数。

上述技术方案的有益效果：

（1）本申请针对机器翻译输出的古文目标译文，在评价时融入词义信息，在传统的忠实度（翻译的结果要忠实于原文的信息）、流畅度（翻译得到的目标译文要流畅自然，符合目标语言的表达习惯）的评价维度之外增加了通俗度（译文是否对原文进行了充分的翻译）的评价维度，提高了评价方法的有效性。

（2）与人工分词相比，自动分词切分得更细，将很多能成为词的词语变成单字词，极大降低了知网中未登录词的比例。因此，采用自动分词方法能够获得更多词义方面的信息，计算忠实度时能使大多数的词都具有词义，方便进行比较，使得本发明提出的评价方法得到的评价结果和人类评分的相关性更高。

（3）本申请以字为忠实度的基本粒度，相比以词为忠实度的基本粒度，无论是在忠实度单个维度来评价，还是加上流畅度和通俗度两个维度进行评价，得到的结果在与人类评分结果的相关性上都更高。并且在评价方法中加入通俗度维度后，无论以什么方法进行流畅度的评价，获得的评价结果与人类评分的相关性都有了较大的提升。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一个实施例提供的对文言文机器翻译结果自动评估的方法的流程示意图；

图2为本发明的一个实施例提供的对文言文机器翻译结果自动评估的系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

所述实施例的示例在附图中示出，其中自始至终相同或类似的符号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

实施例一

本发明的一个实施例提供了一种对文言文机器翻译结果自动评估的方法，参照图1所示，包括：

步骤S101：根据现代文平行配对语料，通过随机和人工挑选方式，筛选出若干句子构建待评价数据集。

步骤S102：对所述待评价数据集进行预处理和分词处理。

在本发明的一个具体实施例中，步骤S102还包括：

步骤S103：从所述待评价数据集中获取训练语料的原文和参考译文，利用待评估的文言文机器翻译模型对所述原文进行翻译，再将得到的目标译文与参考译文和所述原文对比并进行人工分析，判断所述文言文机器翻译模型翻译的译文质量，并按照原文-参考译文-目标译文-人工打分的方式构建测试数据集。

在本发明的一个具体实施例中，步骤S103还包括：

在本发明的一个具体实施例中，步骤S104还包括：

计算所述目标译文和参考译文相对应的义原的相似度得分Sim_s，并根据如下公式确定最大相似度：

；

其中，Sim_s表示所述目标译文和参考译文的相似度得分，S₁和S₂分别表示待比较的概念，即，每个词语可能对应多个解释，概念为多个解释中的其中一个解释，每种概念由一个或多个义原分解说明。StructSim表示通过OpenHownet调用的结构相似度计算函数，Sim_DEF表示通过OpenHownet调用的义原相似度计算函数，β_struct为StructSim函数的权重参数，β_DEF为Sim_DEF函数的权重参数。

具体地，实际计算时，可以通过开源项目OpenHownet计算得到两个词的基于知网的相似度。

例如，“师父一定要善待他”（参考译文）和“老师要好好地对待他”（目标译文）中，对于“老师”和“师父”，可以得到它们在知网中的相似度为0.82。

在本发明的一个具体实施例中，步骤S104还包括：

步骤S1041：对所述参考译文和目标译文中的词两两计算相似度，设定判断同义词的阈值，将相似度高于或者等于阈值的词语对视为近义词；再分别计算参考译文的匹配得分score_ref和目标译文score_tar的匹配得分；使用召回率作为是否丢失原文信息的判别依据并计算忠诚度，所述忠诚度的计算公式如下：

；

其中，sim_max为取参考译文或目标译文中按照某个词计算的最大相似度，N_r为参考译文中词的个数，N_t为目标译文中词的个数，score_ref为参考译文对每个词最大的相似度求和后得到的句子相似度，score_tar为目标译文对每个词最大的相似度求和后得到的句子相似度，score_match为参考译文和目标译文的相似度得分，score_zhong为忠实度得分。

具体地，若计算“师父一定要善待他”（参考译文）和“老师要好好地对待他”（目标译文），这两个句子中的词语两两计算相似度；计算“他很优秀”和“他真厉害”，这两个句子中的词语两两计算相似度，例如：

师父和老师的词语相似度为：0.82；

师父和要的词语相似度为：0.30；

师父和好好地的词语相似度为：0.25；

师父和对待的词语相似度为：0.24；

师父和他的词语相似度为：0.73；

按照以上计算方法，目标译文和参考译文中的词的相似度得分分别为：

师父：0.82 ，一定：1，要：1，善待：0.69，他：1；

老师：0.82 ，要：1，好好地：0.56，对待：0.69，他：1；

设定近义词阈值，比如设定为0.44，最高相似度得分高于阈值的将该得分记为该词的匹配得分，低于阈值的匹配得分为0，假设每个词都是均等的权重，例如：

师父一定要善待他的匹配得分为：0.82+1+1+0.69+1 = 4.51；

老师要好好地对待他的匹配得分为：0.82+1+0.56+0.69+1 = 4.07；

这两个句子的匹配得分为 min(4.51, 4.07) = 4.07，忠实度得分为 4.07 / 5 =0.81。

；

具体地，上例中，会得到连续的#chunks in target sentence数为2，词数为5，假定超参数为1，/>为0.5，则可以计算得到流畅度得分为0.37。

步骤S1043：通过如下公式计算所述通俗度：

；

具体地，例如，文言文文本“然彼更来，师其善待之。”其参考译文为“但他再来的时候，师父一定要善待他。”通过古文机器翻译得到的目标译文为“然而他再来，老师要好好地对待他。”古文到参考译文的编辑次数为11，古文到目标译文的编辑次数为10，score_con=10/11，所以这个句子的通俗度得分为0，不对其进行翻译不充分的惩罚减分。

在本发明的一个具体实施例中，通过赋予所述忠实度和流畅度权重值，以计算总分数。根据所述score_zhong、score_liu、score_con的数值，通过将score_zhong、score_liu分别设置权重，总权重为1，并将score_con作为减分项确定总分Score，若结果为负值，则将其总分设置为0。

具体地，总分数的计算应综合考虑三个维度的分数，为忠实度和流畅度分别设置权重，总权重为1；通俗度作为惩罚项参与到评分之中。同时为了避免总得分取到负值，在三个维度的分数都参与计算之后，最后的成绩如果是负值，就将总成绩设置为0。例如，现提供忠实度和流畅度权重分别为0.8和0.2时的计算公式：

；

其中，Score为最终得出的总分数。

经过测试后发现，未处理背景词会对忠实度的评价产生负面的干扰，导致与人类评分的相关性降低。从而在所有维度进行评价时，和人类评分的相关性有所下降。证明了去除背景词在评价古文机器翻译中是有效的。如下表1表2表3所示：

表1:使用字粒度的评价方法与人工评价结果的相关性

表2:测试语料进行分词后统计表

表3:本发明的评价方法在未处理背景词的语料上的效果

备注：表1-3中各评价方法的命名方式：

TMH（Traditional evaluation Method base on HowNet）指本发明提出的基于知网HowNet的忠实度的评价方法，流畅度，通俗度，以及每个评价维度内部采用的不同方法使用后缀的形式进行表示。后缀内容如下：

忠实度内部的不同方法：

_a：表示使用自动分词工具进行分词的基础上进行的评价。

_h：表示人工进行分词的基础上进行的评价。

_w：表示使用字的粒度进行的评价。

流畅度内部的不同方法：

_L：表示使用最长公共子序列的流畅度评价方法。

_1：使用基于 1-gram 的流畅度评价方法。

_2：使用基于 2-gram 的流畅度评价方法。

_3：使用基于 3-gram 的流畅度评价方法。

_4：使用基于 4-gram 的流畅度评价方法。

通俗度的评价方法：

_E：使用编辑次数作为通俗度的评价方法。

在语料的选择上：

如果是使用对背景词进行处理之后的语料，没有任何附加字符。

_B：使用包含背景词的未经处理的测试语料。

例如：TMH_w指的是使用字粒度进行忠实度计算，最终的评价方法仅包括忠实度这一个维度。TMH_a_3_E指的是使用自动分词工具分词之后以词粒度进行忠实度计算，流畅度的评价方法选择基于 3-gram 的评价方法，通俗度使用编辑次数进行评价，最终的评价方法包括忠实度，流畅度和通俗度三个维度。

本申请以字为忠实度的基本粒度，相比以词为忠实度的基本粒度，无论是在忠实度单个维度来评价，还是加上流畅度和通俗度两个维度进行评价，得到的结果在与人类评分结果的相关性上都更高。并且本申请在评价方法中加入通俗度维度后，无论以什么方法进行流畅度的评价，获得的评价结果与人类评分的相关性都有了较大的提升。

实施例二

本发明的一个实施例提供了一种对文言文机器翻译结果自动评估的系统，参照图2所示，包括：

数据集构建模块10：用于根据现代文平行配对语料，通过随机和人工挑选方式，筛选出若干句子构建待评价数据集。

预处理模块20：用于对所述待评价数据集进行预处理和分词处理。

在本发明的一个具体实施例中，预处理模块20还包括：

测试集构建模块30：用于从所述待评价数据集中获取训练语料的原文和参考译文，利用待评估的文言文机器翻译模型对所述原文进行翻译，再将得到的目标译文与参考译文和所述原文对比并进行人工分析，判断所述文言文机器翻译模型翻译的译文质量，并按照原文-参考译文-目标译文-人工打分的方式构建测试数据集。

在本发明的一个具体实施例中，测试集构建模块30还包括：

评分模块40：用于通过对比所述参考译文和目标译文，计算所述参考译文和目标译文的相似度，根据所述测试数据集计算所述目标译文的忠实度、流畅度、通俗度三个维度的分数，并根据所述三个维度的分数计算目标译文的平均分、误差以及相关性，对所述目标译文进行自动评分。

在本发明的一个具体实施例中，评分模块40还包括：

；

在本发明的一个具体实施例中，评分模块40还包括：

忠诚度计算单元：对所述参考译文和目标译文的词两两计算相似度，设定判断同义词的阈值，将相似度高于或者等于阈值的词语对视为近义词；再分别计算参考译文的匹配得分score_ref和目标译文score_tar的匹配得分；使用召回率作为是否丢失原文信息的判别依据并计算忠诚度，所述忠诚度的计算公式如下：

；

其中，Pen为计算流畅度过程中的惩罚项，#chunks in target sentence为根据动态规划计算出最长连续子序列的数量，#words in target sentence为句子中义原的数量，β为惩罚系数，γ为惩罚指数项。

通俗度计算单元：通过如下公式计算所述通俗度：

；

其中，Score为最终得出的总分数。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、“一个具体实施例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种对文言文机器翻译结果自动评估的方法，其特征在于，包括：

步骤S102：对所述待评价数据集进行预处理和分词处理；

步骤S103：从所述待评价数据集中获取训练语料的原文和参考译文，利用待评估的文言文机器翻译模型对所述原文进行翻译，再将得到的目标译文与参考译文和所述原文对比并进行人工分析，判断所述文言文机器翻译模型翻译的译文质量，并按照原文－参考译文－目标译文－人工打分的方式构建测试数据集；

步骤S104：通过对比所述参考译文和目标译文，计算所述参考译文和目标译文的相似度，根据所述测试数据集计算所述目标译文的忠诚度、流畅度、通俗度三个维度的分数，并根据所述三个维度的分数计算目标译文的平均分、误差以及相关性，对所述目标译文进行自动评分；

score_match＝min(score_ref,score_tar)

其中，sim_max为取参考译文或目标译文中按照义原计算的最大相似度，S_i和S_j分别表示各自待评价的概念，Nr为参考译文中词的个数，N_t为目标译文中词的个数，score_ref为参考译文对每个词最大的相似度求和后得到的句子相似度，score_tar为目标译文对每个词最大的相似度求和后得到的句子相似度，score_match为参考译文和目标译文的相似度得分，score_zhong为忠诚度得分；

score_liu＝1-βPen^γ

其中，Pen为计算流畅度过程中的惩罚项，#chunksin target sentence为根据动态规划计算出最长连续子序列的数量，#words in target sentence为句子中义原的数量，β为惩罚系数，γ为惩罚指数项；

步骤S1043：通过如下公式计算所述通俗度：

edit_tar＝#insertion_tar+#substitution_tar+#deletion_tar

edit_ref＝#insertion_ref+#substitution_ref+#deletion_ref

score_tong＝max(0,(0.4-score_con))

2.根据权利要求1所述的对文言文机器翻译结果自动评估的方法，其特征在于，所述步骤S102还包括：

3.根据权利要求1所述的对文言文机器翻译结果自动评估的方法，其特征在于，所述步骤S103还包括：

4.根据权利要求1所述的对文言文机器翻译结果自动评估的方法，其特征在于，所述相似度根据如下公式确定：

5.一种对文言文机器翻译结果自动评估的系统，其特征在于，包括：

数据集构建模块：用于根据现代文平行配对语料，通过随机和人工挑选方式，筛选出若干句子构建待评价数据集；

测试集构建模块：用于从所述待评价数据集中获取训练语料的原文和参考译文，利用待评估的文言文机器翻译模型对所述原文进行翻译，再将得到的目标译文与参考译文和所述原文对比并进行人工分析，判断所述文言文机器翻译模型翻译的译文质量，并按照原文－参考译文－目标译文－人工打分的方式构建测试数据集；

评分模块：用于通过对比所述参考译文和目标译文，计算所述参考译文和目标译文的相似度，根据所述测试数据集计算所述目标译文的忠诚度、流畅度、通俗度三个维度的分数，并根据所述三个维度的分数计算目标译文的平均分、误差以及相关性，对所述目标译文进行自动评分；

score_match＝min(score_ref,score_tar)

其中，sim_max为取参考译文或目标译文中按照义原计算的最大相似度，S_i和S_j分别表示各自待评价的概念，N_r为参考译文中词的个数，N_t为目标译文中词的个数，score_ref为参考译文对每个词最大的相似度求和后得到的句子相似度，score_tar为目标译文对每个词最大的相似度求和后得到的句子相似度，score_match为参考译文和目标译文的相似度得分，score_zhong为忠诚度得分；

score_liu＝1-βPen^γ

其中，Pen为计算流畅度过程中的惩罚项，#chunksin target sentence为根据动态规划计算出最长连续子序列的数量，#wordsin target sentence为句子中义原的数量，β为惩罚系数，γ为惩罚指数项；

通俗度计算单元：通过如下公式计算所述通俗度：

edit_tar＝#insertion_tar+#substitution_tar+#deletion_tar

edit_ref＝#insertion_ref+#substitution_ref+#deletion_ref

score_tong＝max(0,(0.4-score_con))

6.根据权利要求5所述的对文言文机器翻译结果自动评估的系统，其特征在于，所述预处理模块还包括：

7.根据权利要求5所述的对文言文机器翻译结果自动评估的系统，其特征在于，所述测试集构建模块还包括：

8.根据权利要求5所述的对文言文机器翻译结果自动评估的系统，其特征在于，所述相似度根据如下公式确定：

其中，Sim_s表示所述目标译文和参考译文的相似度得分，S₁和S₂分别表示待比较的概念，StructSim表示通过OpenHownet调用的结构相似度计算函数，Sim_DEF表示通过OpenHownet调用的义原相似度计算函数，β_struct为StructSim函数的权重参数，β_DEF为Sim_DEF函数的权重参数。