本发明属于机器翻译,尤其涉及一种预测垂直领域机器翻译质量的方法及系统。
背景技术:
1、随着人工智能技术得到了飞速发展,在自然语言处理方面,基于神经网络的机器翻译(nmt)的质量也有了显著的提高,尤其是在垂直技术领域中,通过专业的技术语料进行训练后,nmt的效果已经接近或达到了人工翻译的水平。然而,在训练语料中并未覆盖或较少涉及的领域,nmt的效果往往会大打折扣,在实际翻译过程中,待翻译的文件经常含有垂直领域外的内容,译员无法提前预知机器翻译的质量,当高质量译文与低质量译文混杂在一起时,如果翻译人员在低质量译文的基础上进行后编辑,不仅无法提高效率,反而会浪费一定的时间。
2、在现有技术中,机器翻译质量估计技术可以在没有参考译文的条件下来估计机翻译文的质量,但训练这种机器翻译质量评估模型需要用预训练模型对原文和译文进行大量的特征抽取工作,训练时需要输入原文、译文及评估数据,模型需要分析三者之间的联系,关系更复杂,因此这种方式的存在训练时间长,耗费计算资源高、预测速度慢的不足,另外,最终的质量估计效果也不是十分稳定。
3、因此,如何能够已一种更简洁的方式来预测机器翻译的效果,从而提高整体的翻译效率成为了一个急待解决的问题。
技术实现思路
1、为解决上述技术问题,本发明提出了一种预测垂直领域机器翻译质量的方法及系统,以解决上述现有技术存在的问题。
2、为实现上述目的,本发明提供了一种预测垂直领域机器翻译质量的方法,包括:
3、基于通用领域平行语料及垂直领域平行语料构建第一训练语料;
4、使用第一训练语料训练垂直领域翻译模型m1;
5、构建第二训练语料,使用第二训练语料训练与所述垂直领域翻译模型m1对应的机翻质量预测模型m2;
6、通过所述垂直领域翻译模型m1对原文进行翻译,获得翻译的原文;
7、通过所述机翻质量预测模型m2对所述翻译的原文进行翻译质量预测,生成翻译质量预测结果。
8、优选地,所述通用领域平行语料包括第一原文集合s1以及第一译文集合t1;
9、所述垂直领域的平行语料包括第二原文集合s2以及第二译文集合t2。
10、优选地,所述构建第二训练语料的过程包括:
11、通过所述通用领域平行语料及垂直领域平行语料中选取一定比例的语料构成第三原文集合s3以及第三译文集合t3;
12、通过所述垂直领域翻译模型m1对所述第三原文集合s3进行翻译,获得第一机翻译文集合mt1;
13、基于所述第三译文集合t3生成评估分值集合v1;
14、通过所述第三原文集合s3和所述评估分值集合v1构建生成所述第二训练语料。
15、优选地,所述第三原文集合s3的每条原文与所述第三译文集合t3以及所述第一机翻译文集合mt1中的每条译文一一对应;
16、所述第三原文集合s3中的语料来自所述第二原文集合s2;
17、所述评估分值集合v1中的分值与所述第三原文集合s3中的原文一一对应。
18、优选地,通过所述机翻质量预测模型m2对所述翻译的原文进行翻译质量预测的过程包括:
19、通过所述机翻质量预测模型m2对所述翻译的原文进行翻译质量预测,若预测的分值大于或等于特定的阈值,即表明所述垂直领域翻译模型m1翻译的结果为可用,若当预测的分值小于特定的阈值,即表明垂直领域翻译模型m1翻译的结果为不可用。
20、优选地,在所述机翻质量预测模型m2的训练阶段,对原文部分采用与训练所述垂直领域翻译模型m1时相同的分词方式以及相同的词汇表,当翻译系统执行机器翻译任务以及机翻质量预测任务时,对于每一条原文,仅需进行一次编码即可将编码后得到的序列用于机器翻译任务以及机翻质量预测任务。
21、为实现上述目的,本发明还提供了一种预测垂直领域机器翻译质量的系统,包括:
22、翻译模型训练模块,用于基于通用领域平行语料及垂直领域平行语料构建第一训练语料,使用所述第一训练语料训练垂直领域翻译模型m1;
23、评分模块,用于基于所述由垂直领域翻译模型m1产生的译文进行评分,获得评估分值集合v1,基于所述评估分值集合v1构建第二训练语料,
24、机翻质量预测模型训练模块,用于使用第二训练语料训练与所述垂直领域翻译模型m1对应的机翻质量预测模型m2;
25、翻译模块,用于基于所述垂直领域翻译模型m1生成机器翻译的译文;
26、机翻质量预测模块,用于基于所述机翻质量预测模型m2预测所述翻译模块产生的译文的分值。
27、与现有技术相比,本发明具有如下优点和技术效果:
28、通过本发明训练的机翻质量预测模型能有快速有效的预测机器翻译的质量,应用本发明的系统可在翻译同一份文档的过程中,针对不同的句段选择最适合的翻译模型来完成翻译任务,有效的改善了机翻译文质量,提高了译员的翻译效率。
1.一种预测垂直领域机器翻译质量的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的预测垂直领域机器翻译质量的方法,其特征在于,
3.根据权利要求2所述的预测垂直领域机器翻译质量的方法,其特征在于,所述构建第二训练语料的过程包括:
4.根据权利要求3所述的预测垂直领域机器翻译质量的方法,其特征在于,所述第三原文集合s3的每条原文与所述第三译文集合t3以及所述第一机翻译文集合mt1中的每条译文一一对应;
5.根据权利要求1所述的预测垂直领域机器翻译质量的方法,其特征在于,通过所述机翻质量预测模型m2对所述翻译的原文进行翻译质量预测的过程包括:
6.根据权利要求1所述的预测垂直领域机器翻译质量的方法,其特征在于,在所述机翻质量预测模型m2的训练阶段,对原文部分采用与训练所述垂直领域翻译模型m1时相同的分词方式以及相同的词汇表,当翻译系统执行机器翻译任务以及机翻质量预测任务时,对于每一条原文,仅需进行一次编码即可将编码后得到的序列用于机器翻译任务以及机翻质量预测任务。
7.一种预测垂直领域机器翻译质量的系统,其特征在于,包括:
